Advertisement
fahadkalil

indexador_071119

Nov 7th, 2019
302
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
Python 1.62 KB | None | 0 0
  1. import glob, os, codecs, sys, codecs
  2.  
  3. # =================================
  4. # Metodos para Indexacao
  5. # =================================
  6.  
  7. def tokenizacao(documento): # retorna list    
  8.     return documento.split(" ")
  9.  
  10. def remover_repetidas(lista_palavras): # retorna list
  11.     pass
  12.  
  13. def remover_stopwords(lista_palavras, stopwords): # retorna list    
  14.      pass
  15.    
  16. def normalizacao(lista_palavras): # retorna list
  17.     nova_lista = []
  18.     simbolos = list('.,+/?:;!@#$%')
  19.  
  20.     # transformou palavras para minusculas
  21.     for p in lista_palavras:
  22.         p = p.lower()
  23.  
  24.         # procura e remove caracteres especiais
  25.         for s in simbolos:
  26.             if s in p:
  27.                 p = p.replace(s,'')
  28.         nova_lista.append(p)
  29.        
  30.     return nova_lista
  31.  
  32. def indexar(lista_palavras, arq, dic):
  33.    
  34.     # para cada palavra na lista
  35.        # testa se ela existe no dicionario
  36.           # se existir, obtem a lista de docs e faz append
  37.           # se nao existir, cria uma nova entrada no dicionario
  38.     pass
  39.  
  40.  
  41. # =================================
  42. # FUNCAO PRINCIPAL (inicio do app)
  43. # =================================
  44. def main():
  45.     print("== IMED-EDD | INDEXADOR DOCUMENTOS == ")
  46.    
  47.     dic = dict() # dicionario vazio    
  48.     pasta = "docs/*.txt"
  49.  
  50.     ## Carrega arquivo de stopwords em uma list
  51.     stopwords = []
  52.     nome_arq = 'stopwords.txt'
  53.  
  54.     arq = codecs.open(nome_arq, "r", "UTF-8") # abrir arquivo para leitura
  55.     linhas = arq.readlines()
  56.     for linha in linhas:
  57.         stopwords.append(linha.replace('\n', '').strip().lower())
  58.        
  59.     arq.close() # fechar arquivo
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement