Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- """Script para baixar metadados publicados pelo ICA no geonetwork da INDE."""
- import requests
- import json
- def tratar_nome_de_arquivo(nome):
- string = nome
- unallowed_chars = [
- '/', ':', '\\', '.', '=', '+', '%', '&', '(',
- ')', '[', ']', '{', '}', '<', '>', ';', '?',
- '^', '`', '~', '*', '!', '"'
- ]
- for char in unallowed_chars:
- if char in string:
- arr = string.split(char)
- string = ''.join(arr)
- return string
- def baixar_catalogo(begin, end):
- url = "https://metadados.inde.gov.br/geonetwork/srv/por/q"
- querystring = {
- "_content_type":"json",
- "bucket":"s101",
- "facet.q":"category/ICA",
- "fast":"index",
- "from":begin,
- "resultType":"details",
- "sortBy":"title",
- "sortOrder":"reverse",
- "to":end
- }
- response = None
- try:
- response = requests.request("GET", url, params=querystring)
- except Exception as e:
- return False
- catalogo = json.loads(response.text)
- return catalogo
- def get_limite_por_requisicao(catalogo):
- return int(catalogo["@maxPageSize"])
- def get_contagem_total_de_metadados(catalogo):
- return int(catalogo["summary"]["@count"])
- def get_metadado(uuid):
- url = "https://metadados.inde.gov.br/geonetwork/srv/api/records/" + uuid + "/formatters/xml?approved=true"
- response = requests.request("GET", url)
- return response.text
- def salvar_arquivo_texto(nome, extensao, conteudo):
- nome_arquivo = tratar_nome_de_arquivo(nome) + "." + extensao
- with open(nome_arquivo, mode="wt") as arquivo:
- arquivo.write(conteudo)
- def listar_metadados(quantidade, limite_por_requisicao):
- if quantidade < 1:
- raise Exception("Quantidade de metadados solicitada menor que 1.")
- if limite_por_requisicao < 1:
- raise Exception("numero de metadados listados por requisicao menor que 1.")
- inicio = 1
- fim = limite_por_requisicao
- metadados = []
- paginas = quantidade // limite_por_requisicao
- if quantidade % limite_por_requisicao > 0:
- paginas += 1
- for i in range(paginas):
- inicio = i * limite_por_requisicao + 1
- fim = i * limite_por_requisicao + limite_por_requisicao
- catalogo = baixar_catalogo(inicio, fim)
- metadados.extend([{"nome": x["title"], "uuid":x["geonet:info"]["uuid"]} for x in catalogo["metadata"]])
- return metadados
- def main():
- print("# Obtendo lista, aguarde...")
- sumario = baixar_catalogo(1, 1)
- total = get_contagem_total_de_metadados(sumario)
- limite_por_requisicao = get_limite_por_requisicao(sumario)
- lista = listar_metadados(total, limite_por_requisicao)
- print("# Foram obtidos " + str(total) + " metadados do catálogo.")
- progresso = 1
- for metadado in lista:
- print(" baixando " + str(progresso) + " de " + str(total) + ": " + metadado["uuid"])
- xml = get_metadado(metadado["uuid"])
- salvar_arquivo_texto(metadado["nome"] + "_" + metadado["uuid"], "xml", xml)
- progresso += 1
- print("# Fim")
- if __name__ == '__main__':
- main()
Add Comment
Please, Sign In to add comment