Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- #map
- """
- Это классная команда для простого преобразования данных. Определяете словарь, в котором «ключами» являются старые значения,
- а «значениями» – новые значения:
- """
- level_map = {1: 'high', 2: 'medium', 3: 'low'}
- df['c_level'] = df['c'].map(level_map)
- #value counts
- """
- Команда для проверки распределения значений. Чтобы проверить возможные значения и частоту каждого отдельного значения
- в столбце 'c', выполните:
- """
- df['c'].value_counts()
- #Некоторые полезные трюки и аргументы этой функции:
- """
- normalize = True – проверить частоту вместо подсчёта.
- dropna = False – включить пропущенные значения в статистику.
- df['c'].value_counts().reset_index() – преобразовать таблицу статистики в объект Pandas DataFrame.
- df['c'].value_counts().reset_index().sort_values(by='index') – показывать статистику, отсортированную по уникальным
- значениям в столбце 'c' вместо количества.
- """
- #Количество пропущенных значений
- """
- При построении моделей часто надо исключить строку с большим количеством пропущенных значений или строки со всеми
- пропущенными значениями. Используйте .isnull() и .sum() для подсчёта количества пропущенных значений в указанных столбцах:
- """
- import pandas as pd
- import numpy as np
- df = pd.DataFrame({ 'id': [1,2,3], 'c1':[0,0,np.nan], 'c2': [np.nan,1,1]})
- df = df[['id', 'c1', 'c2']]
- df['num_nulls'] = df[['c1', 'c2']].isnull().sum(axis=1)
- df.head()
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement