SHOW:
|
|
- or go back to the newest paste.
1 | - | --Методом show() размер датасета не получить. Найдите в документации функцию, которая посчитает количество строк. Напечайте результат на экране. |
1 | + | --Выберите из датафрейма только столбцы с датами, часами и минутами в указанном порядке. Выбор подмножества столбцов выполняется так же, как в Pandas. |
2 | --Напечатайте на экране пять строк получившейся таблицы. | |
3 | ||
4 | import numpy as np | |
5 | import pandas as pd | |
6 | from pyspark.sql import SparkSession | |
7 | ||
8 | APP_NAME = "DataFrames" | |
9 | SPARK_URL = "local[*]" | |
10 | ||
11 | spark = SparkSession.builder.appName(APP_NAME) \ | |
12 | .config('spark.ui.showConsoleProgress', 'false') \ | |
13 | .getOrCreate() | |
14 | ||
15 | taxi = spark.read.load('/datasets/pickups_terminal_5.csv', | |
16 | format='csv', header='true', inferSchema='true') | |
17 | - | print(taxi.count()) |
17 | + | |
18 | print(taxi[['date', 'hour','minute']].show(5)) |