View difference between Paste ID: CpnFU0Nf and VRkhixnt
SHOW: | | - or go back to the newest paste.
1-
--Методом show() размер датасета не получить. Найдите в документации функцию, которая посчитает количество строк. Напечайте результат на экране.
1+
--Выберите из датафрейма только столбцы с датами, часами и минутами в указанном порядке. Выбор подмножества столбцов выполняется так же, как в Pandas. 
2
--Напечатайте на экране пять строк получившейся таблицы.
3
4
import numpy as np
5
import pandas as pd
6
from pyspark.sql import SparkSession
7
8
APP_NAME = "DataFrames"
9
SPARK_URL = "local[*]"
10
11
spark = SparkSession.builder.appName(APP_NAME) \
12
        .config('spark.ui.showConsoleProgress', 'false') \
13
        .getOrCreate()
14
15
taxi = spark.read.load('/datasets/pickups_terminal_5.csv', 
16
                       format='csv', header='true', inferSchema='true')
17-
print(taxi.count())
17+
18
print(taxi[['date', 'hour','minute']].show(5))