Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- from urllib.request import urlopen
- from bs4 import BeautifulSoup
- # очищаем код от выбранных элементов
- def delete_div(code,tag,arg):
- # находим все указанные теги с параметрами
- for div in code.find_all(tag, arg):
- # и удаляем их из кода
- div.decompose()
- def clear_text(url):
- # получаем исходный код страницы
- inner_html_code = str(urlopen(url).read(), 'utf-8')
- # отправляем исходный код страницы на обработку в библиотеку
- inner_soup = BeautifulSoup(inner_html_code, "html.parser")
- # оставляем только блок с содержимым статьи
- # inner_soup = inner_soup.find('div', {"class": 'article-content'})
- # удаляем титры
- delete_div(inner_soup, "div", {'class': 'wp-block-lazyblock-titry'})
- # удаляем боковые ссылки
- delete_div(inner_soup, "div", {'class': 'wp-block-lazyblock-link-aside'})
- # удаляем баннеры
- for i in range(11):
- delete_div(inner_soup, "div", {'class': 'wp-block-lazyblock-banner' + str(i)})
- # удаляем кат
- delete_div(inner_soup, "div", {'class': 'accordion'})
- # удаляем преформатированный код
- delete_div(inner_soup, 'pre', '')
- # удаляем вставки с кодом
- delete_div(inner_soup, 'code', '')
- # возвращаем содержимое страницы
- return inner_soup.get_text()
- # выводим содержимое страниц
- if __name__ == "__main__":
- # получаем исходный код страницы
- # inner_html_code = str(urlopen('url').read(), 'utf-8')
- # отправляем исходный код страницы на обработку в библиотеку
- # inner_soup = BeautifulSoup(inner_html_code, "html.parser")
- # delete_div(inner_soup, "div", {'class': 'wp-block-lazyblock-titry'})
- print(clear_text('url'))
- # print(inner_soup.get_text())
Advertisement
Comments
-
- Beautiful Soup! Python package for parsing HTML and XML documents. nice
Add Comment
Please, Sign In to add comment
Advertisement