Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- import pandas as pd
- data = pd.read_csv('/datasets/visits.csv', sep='\t')
- #print(data.head())
- data['date_time'] = pd.to_datetime(data['date_time'], format='%Y%m%dT%H%M%S')
- #print(data.head())
- data['local_time'] = data['date_time'] + pd.Timedelta(hours=3)
- print(data.head())
- data['date_hour'] = data['local_time'].dt.round('1H')
- print(data.head())
- .
- Причиной коротких заездов может быть то, что водители нечаянно заезжают на АЗС, которые не работают по ночам. Если это действительно так, то вы увидите связь между короткими заездами и временем прибытия. Чтобы проверить эту гипотезу, измените тип столбца date_time на более удобный тип для даты.
- Методом pd.to_datetime() переведите значения столбца date_time в таблице data в объекты datetime. В параметре format= укажите строку, соответствующую текущему формату date_time, с помощью специальных обозначений.
- Выведите на экран первые пять строк data, чтобы проверить, что получилось.
- Напомним, что в датафрейме записано время UTC. Московское рассчитывают как UTC + 3 часа.
- Создайте столбец data['local_time'] и сохраните в нём сдвинутое на 3 часа время из столбца data['date_time']. Напечатайте первые 5 строк таблицы data.
- Данные, связанные со временем, лучше округлять до той величины, которой будет достаточно для детального анализа. Чтобы проанализировать взаимосвязь между временем прибытия на АЗС и продолжительностью заезда, точность до минут и секунд не нужна. Округлите время до часов.
- Выполните следующие шаги:
- Создайте новый столбец date_hour и передайте ему значения столбца local_time, округлённые до часов.
- Выведите первые пять строк data, чтобы проверить результаты.
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement