View difference between Paste ID: nrrpw9rR and CpnFU0Nf
SHOW: | | - or go back to the newest paste.
1-
--Выберите из датафрейма только столбцы с датами, часами и минутами в указанном порядке. Выбор подмножества столбцов выполняется так же, как в Pandas. 
1+
--Удалите из датафрейма пропущенные значения. Затем напечатайте на экране количество строк в датафрейме.
2-
--Напечатайте на экране пять строк получившейся таблицы.
2+
3
import numpy as np
4
import pandas as pd
5
from pyspark.sql import SparkSession
6
7
APP_NAME = "DataFrames"
8
SPARK_URL = "local[*]"
9
10
spark = SparkSession.builder.appName(APP_NAME) \
11
        .config('spark.ui.showConsoleProgress', 'false') \
12
        .getOrCreate()
13
14
taxi = spark.read.load('/datasets/pickups_terminal_5.csv', 
15
                       format='csv', header='true', inferSchema='true')
16
17
taxi = taxi.dropna()
18-
print(taxi[['date', 'hour','minute']].show(5))
18+
print(taxi.count())