Есть парсер, которым я давно пользуюсь, но с новым сайтом, по которому нужно пройтись, возникли проблемы, так как после первых 50-100 удачных запросов (то есть парсер находит нужный элемент и выполняет скрипт) каждый раз ссылка с input файла редиректит на домашнюю, после чего идет проверка на бот-трафика (ну, вы поняли). Я знаю, что есть вероятность, что конкретно эту проверку будет обойти практически невозможно, но все же, стоит попробовать.
Вводные:
- использую beautiful soup
- запускаю на PyCharm
- скрипт работает след. образом: считываются URL адреса с input (csv), проходится по HTML коду и вытягивает .text с необходимых контейнеров по css классам, после чего записывает результаты в новый output csv. Примерно так.
- одна из 28к ссылок, по которой нужно пройтись: https://signal.nfx.com/investors/sebastian-zhou
- в скриншотах прикрепил то, как выглядит проверка на бот-трафик после нескольких запросов
Может можно с selenium как-то сделать обход или еще что. В общем, вот такая задачка. Буду рад помощи ) Пишите, все подробности скину.
Если у кого-то есть решение готовое или кто-то готов покодить немного, с меня 1500 грн