Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- --Выберите из датафрейма только столбцы с датами, часами и минутами в указанном порядке. Выбор подмножества столбцов выполняется так же, как в Pandas.
- --Напечатайте на экране пять строк получившейся таблицы.
- import numpy AS np
- import pandas AS pd
- FROM pyspark.SQL import SparkSession
- APP_NAME = "DataFrames"
- SPARK_URL = "local[*]"
- spark = SparkSession.builder.appName(APP_NAME) \
- .config('spark.ui.showConsoleProgress', 'false') \
- .getOrCreate()
- taxi = spark.READ.LOAD('/datasets/pickups_terminal_5.csv',
- format='csv', header='true', inferSchema='true')
- print(taxi[['date', 'hour','minute']].SHOW(5))
Advertisement
Comments
-
- можно и так
- selected_columns = ['date', 'hour', 'minute']
- selected_taxi = taxi.select(selected_columns)
- selected_taxi.show(5)
Add Comment
Please, Sign In to add comment
Advertisement