Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- # запрос к базе
- part_query = """
- SELECT LocationId,
- ProductId,
- DATEPART(MONTH, Datetime) AS MonthQ,
- SUM(Quantity) AS SumQ
- FROM dbo.LocationStateHourSales AS l
- WHERE l.Quantity >= 0
- GROUP BY LocationId, ProductId, DATEPART(MONTH, Datetime)
- ORDER BY LocationId, DATEPART(MONTH, Datetime)
- """
- part_sales = pd.read_sql(part_query, conn)
- part_sales
- # фильтруем данные для работы (до указанной)
- # в этом датафрейме уже есть Target, и нет вероятности
- train_df_work = train_df.query('ValidationDateTime < "2023-07-15"')
- train_df_work
- # объединяю две таблицы
- merge_df = pd.merge(train_df_work, part_sales, how='left', on=['LocationId', 'ProductId'])
- merge_df.head(10)
- # один признак булева типа переведем в int (0 и 1)
- merge_df['Column19'] = merge_df['Column19'].astype(int)
- # далее больше кусками удалила признаки:
- 'Column9', 'Column10', 'Column26', 'Column66',
- 'Column58', 'Column59', 'Column60', 'Column61',
- 'Column62', 'Column63', 'Column64', 'Column65',
- 'Column67', 'Column8', 'Column13', 'Column20',
- 'Column21', 'Column22', 'Column28'
- # пропуски в трех катег. заменила на наиболее часто встр.
- 'Column45', 'Column46', 'Column47'
- # сформировала список категориальных
- # передавала модели при обучении
- categorical_features = ['Column45', 'Column46', 'Column47', 'LocationId', 'ProductId', 'MonthQ']
- # при разделении на X и y грохала 'ValidationDateTime'
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement