SHOW:
|
|
- or go back to the newest paste.
1 | - | --Заполните пропущенные значения в датафрейме нулями. Функцией describe() выведите на экран результаты, чтобы убедиться в корректности заполнения значений. |
1 | + | --Изучите статистические выбросы. В переменной result сохраните результат запроса, который выберет даты с числом заказов такси у терминала №5, расположив их от большего к меньшему. Выведите на экран первые пять строк, используя функцию show. |
2 | ||
3 | - | import numpy as np |
3 | + | |
4 | - | import pandas as pd |
4 | + | |
5 | APP_NAME = "DataFrames" | |
6 | SPARK_URL = "local[*]" | |
7 | ||
8 | spark = SparkSession.builder.appName(APP_NAME) \ | |
9 | .config('spark.ui.showConsoleProgress', 'false') \ | |
10 | .getOrCreate() | |
11 | ||
12 | taxi = spark.read.load('/datasets/pickups_terminal_5.csv', | |
13 | format='csv', header='true', inferSchema='true') | |
14 | ||
15 | taxi = taxi.fillna(0) | |
16 | ||
17 | taxi.registerTempTable("taxi") | |
18 | - | print(taxi.describe().show()) |
18 | + | |
19 | result = spark.sql("SELECT (*) FROM taxi ORDER BY pickups DESC") | |
20 | print(result.show(5)) |