View difference between Paste ID: mpv8Vnpd and JgSeYQZ0
SHOW: | | - or go back to the newest paste.
1-
/*Инициализируйте объект SparkContext. Укажите параметр appName равный 'appName'. Создайте переменную weather_entry (англ. «запись о погоде»), в которой сохраните RDD с такими элементами:
1+
--Загрузите датафрейм из файла /datasets/pickups_terminal_5.csv. Посмотрите в документации, как работает функция show(). Напечайте на экране пять строк из датафрейма.
2-
дата заказа — 2009-01-01;
2+
3-
самая низкая температура воздуха в этот день (°C) — 15.1;
3+
import numpy as np
4-
самая высокая температура воздуха в этот день (°C) — 26.1.
4+
import pandas as pd
5-
Выведите на экран содержимое RDD. Для этого вызовите метод take() (англ. «взять»). Посмотрите в документации, как он работает.
5+
from pyspark.sql import SparkSession
6-
*/
6+
7
APP_NAME = "DataFrames"
8-
from pyspark import SparkContext
8+
SPARK_URL = "local[*]"
9
10-
sc = SparkContext(appName='appName')
10+
spark = SparkSession.builder.appName(APP_NAME) \
11-
weather_entry = sc.parallelize(['2009-01-01', 15.1, 26.1])
11+
        .config('spark.ui.showConsoleProgress', 'false') \
12-
print(weather_entry.take(3))
12+
        .getOrCreate()
13
14
taxi = spark.read.load('/datasets/pickups_terminal_5.csv', format='csv', header='true', inferSchema='true')
15
16
print(taxi.show(5))