A-Parser 1.1 - продвинутый парсер поисковых систем, Suggest, PR, DMOZ, Whois, etc

A-Parser Support

Ищет темы
30 Ноя 2016
114
1
1
30
Сборник рецептов #44: категории сайтов от Cloudflare Radar, парсер Rozetka и kufar.by

44-й сборник рецептов, в который вошли парсер, определяющий категории сайтов (используя сервис Cloudflare Radar), парсер Rozetka через API и парсер интернет-магазина kufar.by с проходом по списку результатов.

Парсер Cloudflare Radar
Парсер для сбора категорий сайтов из Cloudflare Radar


Rozetka - получение данных по API
Парсер, собирающий данные о товарах на торговой площадке Rozetka через API.


Парсинг объявлений kufar.by
Парсер объявлений на сайте kufar.by с проходом по списку результатов. Собираются заголовки объявлений, цены, имена и телефоны авторов.


А также, обновлены следующие ресурсы:
Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

 

A-Parser Support

Ищет темы
30 Ноя 2016
114
1
1
30
1.2.1076 - 3 новых парсера, завершение перехода на Node.js, интеграция puppeteer в сборку


Улучшения

  • В связи с переводом основных встроенных парсеров на новую платформу Node.js, полностью переписаны и обновлены парсеры:
  • Основные улучшения от перевода данных парсеров на Node.js:
    • увеличение производительности в ~1.5 раза
    • унификация HTTP движка с JavaScript парсерами, единый обход CloudFlare
  • Добавлены новые парсеры:
  • В
    HTML::EmailExtractor добавлена опция Skip non-HTML blocks, позволяющая отключить сбор почт внутри тегов script, style и т.п.
  • В SE::Google::Translate добавлены новые переменные:
    • $translit_orig - оригинальный текст транслитом
    • $translit_translated - переведенный текст транслитом
    • $variants.$i.text - список вариантов перевода оригинального текста
  • В SE::Bing обновлен список регионов и языков
  • В Social::Instagram::profile и Social::Instagram::post добавлена возможность собирать кол-во видеопросмотров
  • В SE::Yandex::Translate добавлена возможность отключать использование сессий
  • В Net::HTTP добавлена возможность указывать user-agent для Chrome
  • В парсере Rank::MOZ исправлена ошибка, возникающая при вызове парсера из JS методом this.parser.request().
  • В Rank::CMS добавлена поддержка нового apps.json и возможность использовать Net::HTTP
  • В Net::Whois обновлена поддержка всех зон
  • Для проксичекеров добавлена опция Exclude from "All", а также сделаны изменения в логике:
    • "All" - использует все прокси выбранные для задании
    • конкретный проксичекер - использует его, даже если он не выбран в задании
  • Добавлена поддержка устаревших версий SSL
  • JS парсеры: Добавлена опция tlsOpts для this.request(), позволяет передавать настройки для https соединений
  • JS парсеры: обновление Node.js с 14.2.0 до 14.15.0
  • JS парсеры: модуль puppeteer включен в сборку А-Парсера и не требует отдельной установки
Исправления в связи с изменениями в выдаче
Исправления
  • В SE::Yandex исправлена работа Extra query string
  • Исправлено регулярное выражение в HTML::EmailExtractor для устранения ошибок в некоторых случаях
  • Исправлено поведение парсера SE::Google::KeywordPlanner при отсутствии результатов по запросу
  • Maps::Yandex исправлен и переведен на puppeteer
  • Исправлена ошибка в приоритетах выбора проксичекера
  • JS парсеры: исправлен follow_meta_refresh
  • API: исправлена работа параметра rawResults