bro-dev

Портфолио веб разрабочика

Бот добытчик проксей

Задача
Автоматический бот комбайн добытчик бесплатных проксей. Задумка была написать бот максимально автономным без каких то заведенных списков прокси-листов как сделано у подобных ботов обычно, сейчас там зашит только список поисковиков, с них он начинает искать открывает каждую страницу и если на ней есть 5+ проксей продолжает искать дальше по внутренним ссылкам, так как всё это долго реализован принцип максимально коротких операций и очередей, как тока получены списки на скачку они добавляются в задание, как тока получены прокси они добавлены в список но в необработанном виде, отдельный вокркер ждет наличие таких и проверяет их на качество и работоспособность. Так же реализован механизм блокировок что позволяет запускать в несколько инстансов и не делать одну работу 2 раза.

На большинстве сайтов с раздачами проксей стоят защиты включая cloudflire, поэтому просто так их не скачать курлом, более того даже скачав без исполнения js кода в браузере они их просто так не отдадут, поэтому чтобы не парится с защитой скачка идет через headless браузер

Ссылки


теги: mongodb, node.js, puppeteer,
210 14.06.2018