O'Reilly Media (Ryan Mitchell) - Парсинг (Скрапинг) веб-сайтов, используя Python [RUS] (2015)

Тема в разделе "Программирование", создана пользователем Positive, 7 май 2016.

  1. Positive

    Positive Active Member

    Сообщения:
    1.638
    Репутация:
    131
    Парсинг (Скрапинг) веб-сайтов, используя Python (Web Scraping with Python) на русском
    [​IMG]
    Автор: O'Reilly Media (Ryan Mitchell)
    Год: 2015
    Формат: pdf


    Что такое веб-скрапинг?
    Автоматизированный сбор данных из Интернета существует столько же, сколько сам Интернет. Несмотря на то, что веб-скрапинг (web scraping) не является новым термином, раньше это направление было больше известно под названием анализ экранных или интерфейсных данных (screen scraping), интеллектуальный анализ данных (data mining), сбор веб-данных (web harvesting). Похоже, что на сегодняшний день общее мнение склоняется в пользу термина веб-скрапинг (web scraping), который я и буду использовать на протяжении всей книги, хотя время от времени буду называть программы веб-скрапинга роботами (bots). В теории веб-скрапинг – это сбор данных с помощью любых средств, кроме программ, использующих API (или человека, использующего веб-браузер).
    Чаще всего веб-скрапинг осуществляется с помощью программы, которая автоматически запрашивает веб-сервер, запрашивает данные (HTML и другие файлы, которые размещены на веб-страницах), а затем выполняет парсинг этих данных, чтобы извлечь необходимую информацию. На практике веб-скрапинг охватывает широкий спектр методов и технологий программирования, таких, как анализ данных и информационная безопасность. Эта книга посвящена основам веб-скрапинга и краулинга (Часть I) и раскрывает некоторые сложные темы (Часть II).
    Зачем нужен веб-скрапинг?
    Если для Вас единственным способом доступа к Интернету является браузер, Вы теряете огромный спектр возможностей. Хотя браузеры удобны для выполнения JavaScript, вывода изображений и представления объектов в более удобочитаемом формате (помимо прочего), веб-скраперы удобны для сбора и обработки больших объемов данных (помимо прочего). Вместо однократного просмотра одной страницы на дисплее монитора, Вы можете просматривать базы данных, которые уже содержат тысячи или даже миллионы страниц.
    Кроме того, веб-скраперы могут проникнуть в такие места, куда традиционные поисковые системы проникнуть не могут. Поиск Google по "cheapest flights to Boston" выдаст множество рекламных сайтов и популярных сайтов заказа авиабилетов. Google возвращает лишь то, что эти веб-сайты сообщают на своих страницах, а не точные результаты в ответ на различные запросы, введенные в системе заказа авиабилетов. Тем не менее правильно разработанный веб-скрапер может собрать данные о ценах на авиабилеты до Бостона за определенный временной интервал на различных веб-сайтах и подсказать оптимальное время для покупки авиабилета.

    Сайт/Скачать:

    Отзывы:
    Пока нет.
     
    Последние данные очков репутации:
    pocoz: 1 Очко (Книга действительно толковая и аналогов ей нет) 13 дек 2016
  2. Nikolay_

    Nikolay_ New Member

    Сообщения:
    3
    Репутация:
    1
    На другом ресурсе частично ознакомился с этой книгой (прочел первые 59 стр.)
    Написано очень подробно и понятно. Используется масса примеров кода.
     
    Последние данные очков репутации:
    jagrmi: 1 Очко 23 ноя 2016
Загрузка...

Поделиться этой страницей