Advertisement
Step8rother

GroupBy в PySpark, задача 1

Jun 29th, 2023
877
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
SQL 0.89 KB | Source Code | 0 0
  1. --Сгруппируйте записи по месяцам. По каждому месяцу рассчитайте среднее количество заказов.
  2. Напечатайте на экране таблицу с месяцами и средним количеством заказов по убыванию.
  3.  
  4. FROM pyspark.SQL import SparkSession
  5.  
  6. APP_NAME = "DataFrames"
  7. SPARK_URL = "local[*]"
  8.  
  9. spark = SparkSession.builder.appName(APP_NAME) \
  10.         .config('spark.ui.showConsoleProgress', 'false') \
  11.         .getOrCreate()
  12.  
  13. taxi = spark.READ.LOAD('/datasets/pickups_terminal_5.csv',
  14.                        format='csv', header='true', inferSchema='true')
  15.  
  16. taxi = taxi.fillna(0)
  17.  
  18. taxi.registerTempTable("taxi")
  19.  
  20. print(spark.SQL('SELECT EXTRACT(month FROM date), AVG(pickups) FROM taxi \
  21.                GROUP BY EXTRACT(month FROM date) ORDER BY AVG(pickups) DESC').SHOW())
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement