View difference between Paste ID: UpELSvvS and pDkpuUzd
SHOW: | | - or go back to the newest paste.
1-
--Изучите статистические выбросы. В переменной result сохраните результат запроса, который выберет даты с числом заказов такси у терминала №5, расположив их от большего к меньшему. Выведите на экран первые пять строк, используя функцию show.
1+
--Найдите все даты, на которые пришлось более 200 заказов такси за любой период в 30 минут в этот день. Напечатайте на экране количество таких дней, сохранив результат в переменную result.
2
3
from pyspark.sql import SparkSession
4
5
APP_NAME = "DataFrames"
6
SPARK_URL = "local[*]"
7
8
spark = SparkSession.builder.appName(APP_NAME) \
9
        .config('spark.ui.showConsoleProgress', 'false') \
10
        .getOrCreate()
11
12
taxi = spark.read.load('/datasets/pickups_terminal_5.csv', 
13
                       format='csv', header='true', inferSchema='true')
14
15
taxi = taxi.fillna(0)
16
17
taxi.registerTempTable("taxi")
18
19-
result = spark.sql("SELECT (*) FROM taxi ORDER BY pickups DESC")
19+
result = spark.sql("SELECT count(distinct(date)) FROM taxi WHERE pickups > 200")
20-
print(result.show(5))
20+
print(result.show())