Зарегистрироваться
Восстановить пароль
FAQ по входу

Митчелл Р. Современный скрапинг веб-сайтов с помощью Python

  • Файл формата pdf
  • размером 3,96 МБ
Митчелл Р. Современный скрапинг веб-сайтов с помощью Python
2-е межд. издание Спб: Питер, 2021. — 498 с. — ISBN: 978-5-4461-1693-5
Если программирование напоминает волшебство, то веб-скрапинг — это очень сильное колдунство. Написав простую автоматизированную программу, можно отправлять запросы на веб-серверы, запрашивать с них данные, а затем анализировать их и извлекать необходимую информацию. Новое расширенное издание книги знакомит не только с веб-скрапингом, но и поможет собрать любого вида данные в современном Интернете.
В части I основное внимание уделено механике веб-скрапинга: как с помощью Python запрашивать информацию с веб-сервера, производить базовую обработку серверного отклика и организовать автоматизированное взаимодействие с сайтами. В части II исследованы более специфичные инструменты и приложения, которые пригодятся при любом сценарии веб-скрапинга.
Разбирайте сложные HTML-страницы.
Разрабатывайте поисковые роботы с помощью фреймворка Scrapy.
Изучайте методы хранения данных, полученных с помощью скрапинга.
Считывайте и извлекайте данные из документов.
Очищайте и нормализуйте плохо отформатированные данные.
Читайте и пишите информацию на естественных языках.
Освойте поиск по формам и логинам.
Изучите скрапинг JavaScript и работу с API.
Используйте и пишите программы для преобразования изображений в текст.
Учитесь обходить скрапинговые ловушки и блокаторы ботов.
Протестируйте собственный сайт с помощью скрапинга.
  • Возможность скачивания данного файла заблокирована по требованию правообладателя.