Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- import glob, os, codecs, sys, codecs
- # =================================
- # Metodos para Indexacao
- # =================================
- def tokenizacao(documento): # retorna list
- return documento.split(" ")
- def remover_repetidas(lista_palavras): # retorna list
- pass
- def remover_stopwords(lista_palavras, stopwords): # retorna list
- pass
- def normalizacao(lista_palavras): # retorna list
- nova_lista = []
- simbolos = list('.,+/?:;!@#$%')
- # transformou palavras para minusculas
- for p in lista_palavras:
- p = p.lower()
- # procura e remove caracteres especiais
- for s in simbolos:
- if s in p:
- p = p.replace(s,'')
- nova_lista.append(p)
- return nova_lista
- def indexar(lista_palavras, arq, dic):
- # para cada palavra na lista
- # testa se ela existe no dicionario
- # se existir, obtem a lista de docs e faz append
- # se nao existir, cria uma nova entrada no dicionario
- pass
- # =================================
- # FUNCAO PRINCIPAL (inicio do app)
- # =================================
- def main():
- print("== IMED-EDD | INDEXADOR DOCUMENTOS == ")
- dic = dict() # dicionario vazio
- pasta = "docs/*.txt"
- ## Carrega arquivo de stopwords em uma list
- stopwords = []
- nome_arq = 'stopwords.txt'
- arq = codecs.open(nome_arq, "r", "UTF-8") # abrir arquivo para leitura
- linhas = arq.readlines()
- for linha in linhas:
- stopwords.append(linha.replace('\n', '').strip().lower())
- arq.close() # fechar arquivo
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement