SHOW:
|
|
- or go back to the newest paste.
1 | - | /*Проанализируйте данные из таблицы invoice за 2012 и 2013 годы. В итоговую таблицу должны войти поля: |
1 | + | /*Инициализируйте объект SparkContext. Укажите параметр appName равный 'appName'. Создайте переменную weather_entry (англ. «запись о погоде»), в которой сохраните RDD с такими элементами: |
2 | - | month — номер месяца; |
2 | + | дата заказа — 2009-01-01; |
3 | - | sum_total_2012 — выручка за этот месяц в 2012 году; |
3 | + | самая низкая температура воздуха в этот день (°C) — 15.1; |
4 | - | sum_total_2013 — выручка за этот месяц в 2013 году; |
4 | + | самая высокая температура воздуха в этот день (°C) — 26.1. |
5 | - | perc — процент, который отображает, насколько изменилась месячная выручка в 2013 году по сравнению с 2012 годом. |
5 | + | Выведите на экран содержимое RDD. Для этого вызовите метод take() (англ. «взять»). Посмотрите в документации, как он работает. |
6 | - | Округлите значение в поле perc до ближайшего целого числа. Отсортируйте таблицу по значению в поле month от меньшего к большему. |
6 | + | |
7 | ||
8 | from pyspark import SparkContext | |
9 | - | WITH year_2012 AS |
9 | + | |
10 | - | (SELECT EXTRACT(MONTH FROM CAST(invoice_date AS date)) AS month, |
10 | + | sc = SparkContext(appName='appName') |
11 | - | SUM(total) |
11 | + | weather_entry = sc.parallelize(['2009-01-01', 15.1, 26.1]) |
12 | - | FROM invoice |
12 | + | print(weather_entry.take(3)) |