Предобработка твитов

import pandas as pd
import numpy as np
import torch
import transformers

# инициализируем токенизатор
tokenizer = transformers.BertTokenizer(
    vocab_file='/datasets/ds_bert/vocab.txt')
df_tweets = pd.read_csv("/datasets/tweets_lemm.csv")

# токенизируем текст
# vector = tokenizer.encode('Очень удобно использовать уже готовый трансформатор текста', add_special_tokens=True)
vector = tokenizer.encode('готовый трансформатор текста', add_special_tokens=True)
tokenized = df_tweets['text'].apply(
    lambda x: tokenizer.encode(x, add_special_tokens=True))

# применим padding к векторам
n = 280
# англ. вектор с отступами
padded = vector + [0]*(n - len(vector))


# создадим маску для важных токенов
attention_mask = np.where(padded != 0, 1, 0)
print(attention_mask.shape)