Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- import pandas as pd
- import numpy as np
- import torch
- import transformers
- # инициализируем токенизатор
- tokenizer = transformers.BertTokenizer(
- vocab_file='/datasets/ds_bert/vocab.txt')
- df_tweets = pd.read_csv("/datasets/tweets_lemm.csv")
- # токенизируем текст
- # vector = tokenizer.encode('Очень удобно использовать уже готовый трансформатор текста', add_special_tokens=True)
- vector = tokenizer.encode('готовый трансформатор текста', add_special_tokens=True)
- tokenized = df_tweets['text'].apply(
- lambda x: tokenizer.encode(x, add_special_tokens=True))
- # применим padding к векторам
- n = 280
- # англ. вектор с отступами
- padded = vector + [0]*(n - len(vector))
- # создадим маску для важных токенов
- attention_mask = np.where(padded != 0, 1, 0)
- print(attention_mask.shape)
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement