Advertisement
Step8rother

GroupBy в PySpark, задача 2

Jun 29th, 2023
1,178
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
SQL 0.85 KB | Source Code | 0 0
  1. --Вычислите среднее количество заказов за каждый час. Затем отсортируйте данные по убыванию.
  2. Выведите самые загруженные 10 часов и среднее количество заказов такси в эти часы.
  3.  
  4. FROM pyspark.SQL import SparkSession
  5.  
  6. APP_NAME = "DataFrames"
  7. SPARK_URL = "local[*]"
  8.  
  9. spark = SparkSession.builder.appName(APP_NAME) \
  10.         .config('spark.ui.showConsoleProgress', 'false') \
  11.         .getOrCreate()
  12.  
  13. taxi = spark.READ.LOAD('/datasets/pickups_terminal_5.csv',
  14.                        format='csv', header='true', inferSchema='true')
  15.  
  16. taxi = taxi.fillna(0)
  17.  
  18. taxi.registerTempTable("taxi")
  19.  
  20. print(spark.SQL('SELECT hour, AVG(pickups) FROM taxi \
  21.                GROUP BY hour ORDER BY AVG(pickups) DESC').SHOW(10))
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement