View difference between Paste ID: JgSeYQZ0 and Cg7tD2t3
SHOW: | | - or go back to the newest paste.
1-
/*Проанализируйте данные из таблицы invoice за 2012 и 2013 годы. В итоговую таблицу должны войти поля:
1+
/*Инициализируйте объект SparkContext. Укажите параметр appName равный 'appName'. Создайте переменную weather_entry (англ. «запись о погоде»), в которой сохраните RDD с такими элементами:
2-
month — номер месяца;
2+
дата заказа — 2009-01-01;
3-
sum_total_2012 — выручка за этот месяц в 2012 году;
3+
самая низкая температура воздуха в этот день (°C) — 15.1;
4-
sum_total_2013 — выручка за этот месяц в 2013 году;
4+
самая высокая температура воздуха в этот день (°C) — 26.1.
5-
perc — процент, который отображает, насколько изменилась месячная выручка в 2013 году по сравнению с 2012 годом.
5+
Выведите на экран содержимое RDD. Для этого вызовите метод take() (англ. «взять»). Посмотрите в документации, как он работает.
6-
Округлите значение в поле perc до ближайшего целого числа. Отсортируйте таблицу по значению в поле month от меньшего к большему.
6+
7
8
from pyspark import SparkContext
9-
WITH year_2012 AS
9+
10-
  (SELECT EXTRACT(MONTH FROM CAST(invoice_date AS date)) AS month,
10+
sc = SparkContext(appName='appName')
11-
          SUM(total)
11+
weather_entry = sc.parallelize(['2009-01-01', 15.1, 26.1])
12-
   FROM invoice
12+
print(weather_entry.take(3))