Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- import pandas as pd
- data = pd.read_csv ('/datasets/visits.csv', sep='\t')
- total_visits = data.shape[0]
- print(f'Количество заездов: {total_visits}')
- total_stations = len(data['id'].unique())
- print(f'Количество АЗС: {total_stations}')
- print(data['date_time'].min(), data['date_time'].max())
- total_days = round(((pd.to_datetime(data['date_time'].max(), format='%Y%m%dT%H%M%S') - pd.to_datetime(data['date_time'].min(), format='%Y%m%dT%H%M%S'))/pd.Timedelta("1s")/60/60/24))
- station_visits_per_day = total_visits/total_stations/total_days
- print ('Количество заездов на АЗС в сутки:', station_visits_per_day)
- print(data['name'].value_counts().head(10))
- #Записи в столбце date_time хранятся в формате ISO: YYYYMMDDTHHMMSS. T — разделитель между датой и временем. В предыдущей задаче вы #обнаружили, что первая дата прибытия на АЗС — 2 апреля 2018 года в 00:00, а последняя — 8 апреля 2018 года в 23:59. Значит, данные #покрывают семь дней. Теперь можно найти среднее количество посещений АЗС за день.
- #Сохраните в переменную total_days количество дней.
- #В переменную station_visits_per_day запишите среднее количество визитов на АЗС за день. Чтобы посчитать среднее, используйте значения #переменных total_visits, total_stations и total_days .
- #Выведите на экран значение переменной в таком виде:
- #Количество заездов на АЗС в сутки: ...
- #Проверьте распределение числа заездов по сетям АЗС. Можно ожидать, что больше заездов будет на популярных станциях.
- #Выведите на экран 10 сетей АЗС с наибольшим количеством заездов, вызвав метод value_counts() для нужного столбца. Метод автоматически #отсортирует данные по убыванию количества посещений, поэтому дополнительная сортировка не понадобится.
- #Посчитайте количество уникальных значений в столбце name.
- #Убедитесь, что данные отсортированы в порядке убывания, и выведите первые 10 строк.
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement