View difference between Paste ID: pDkpuUzd and rAZRb3sH
SHOW: | | - or go back to the newest paste.
1-
--Заполните пропущенные значения в датафрейме нулями. Функцией describe() выведите на экран результаты, чтобы убедиться в корректности заполнения значений.
1+
--Изучите статистические выбросы. В переменной result сохраните результат запроса, который выберет даты с числом заказов такси у терминала №5, расположив их от большего к меньшему. Выведите на экран первые пять строк, используя функцию show.
2
3-
import numpy as np
3+
4-
import pandas as pd
4+
5
APP_NAME = "DataFrames"
6
SPARK_URL = "local[*]"
7
8
spark = SparkSession.builder.appName(APP_NAME) \
9
        .config('spark.ui.showConsoleProgress', 'false') \
10
        .getOrCreate()
11
12
taxi = spark.read.load('/datasets/pickups_terminal_5.csv', 
13
                       format='csv', header='true', inferSchema='true')
14
15
taxi = taxi.fillna(0)
16
17
taxi.registerTempTable("taxi")
18-
print(taxi.describe().show())
18+
19
result = spark.sql("SELECT (*) FROM taxi ORDER BY pickups DESC")
20
print(result.show(5))