Advertisement
Step8rother

Предобработка твитов

Jun 5th, 2023
153
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
Python 0.96 KB | Science | 0 0
  1. import pandas as pd
  2. import numpy as np
  3. import torch
  4. import transformers
  5.  
  6. # инициализируем токенизатор
  7. tokenizer = transformers.BertTokenizer(
  8.     vocab_file='/datasets/ds_bert/vocab.txt')
  9. df_tweets = pd.read_csv("/datasets/tweets_lemm.csv")
  10.  
  11. # токенизируем текст
  12. # vector = tokenizer.encode('Очень удобно использовать уже готовый трансформатор текста', add_special_tokens=True)
  13. vector = tokenizer.encode('готовый трансформатор текста', add_special_tokens=True)
  14. tokenized = df_tweets['text'].apply(
  15.     lambda x: tokenizer.encode(x, add_special_tokens=True))
  16.  
  17. # применим padding к векторам
  18. n = 280
  19. # англ. вектор с отступами
  20. padded = vector + [0]*(n - len(vector))
  21.  
  22.  
  23. # создадим маску для важных токенов
  24. attention_mask = np.where(padded != 0, 1, 0)
  25. print(attention_mask.shape)
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement