SHOW:
|
|
- or go back to the newest paste.
1 | - | /*Инициализируйте объект SparkContext. Укажите параметр appName равный 'appName'. Создайте переменную weather_entry (англ. «запись о погоде»), в которой сохраните RDD с такими элементами: |
1 | + | --Загрузите датафрейм из файла /datasets/pickups_terminal_5.csv. Посмотрите в документации, как работает функция show(). Напечайте на экране пять строк из датафрейма. |
2 | - | дата заказа — 2009-01-01; |
2 | + | |
3 | - | самая низкая температура воздуха в этот день (°C) — 15.1; |
3 | + | import numpy as np |
4 | - | самая высокая температура воздуха в этот день (°C) — 26.1. |
4 | + | import pandas as pd |
5 | - | Выведите на экран содержимое RDD. Для этого вызовите метод take() (англ. «взять»). Посмотрите в документации, как он работает. |
5 | + | from pyspark.sql import SparkSession |
6 | - | */ |
6 | + | |
7 | APP_NAME = "DataFrames" | |
8 | - | from pyspark import SparkContext |
8 | + | SPARK_URL = "local[*]" |
9 | ||
10 | - | sc = SparkContext(appName='appName') |
10 | + | spark = SparkSession.builder.appName(APP_NAME) \ |
11 | - | weather_entry = sc.parallelize(['2009-01-01', 15.1, 26.1]) |
11 | + | .config('spark.ui.showConsoleProgress', 'false') \ |
12 | - | print(weather_entry.take(3)) |
12 | + | .getOrCreate() |
13 | ||
14 | taxi = spark.read.load('/datasets/pickups_terminal_5.csv', format='csv', header='true', inferSchema='true') | |
15 | ||
16 | print(taxi.show(5)) |