Как защищаются сайты от парсинга контента.

Итак, есть несколько защит я разделю их на группы:
1. Временные рамки – за определенное время вы не сможете скачать определенное количество страниц, например у Lamoda стоит 3 страницы в минуту, при превышении этого порога вас могут забанить на сутки. К этому можно отнести и сайт onlineTrade, у него стоит 300 страниц на неопределенное время, после превышения вам любезно говорят, что превышено количество попыток.
2. Ограничение по скорости на 1 ip. Как бы вы не старались, запуская парсинг с 1 потоком либо 100 все равно будет отдаваться 1 страница в сек. Может это связано с большой нагрузкой на сайт или это такая защита, факт остается фактом.
3. Активная защита с помощью скриптов – очень эффективная защита против ddos-атак и частично от парсинга. При первом посещении, предлагается сделать действие для получения ключей которые потом хранятся в cookies для доступа к сайту. Потом можно ходить по страницам используя эти ключи, они выдаются на сутки, либо через 50 страниц вас попросят еще раз пройти «авторизацию» через javascript. Это такие сайты как OnlineTrade.ru, Korablik.ru, Eapteka.ru, Svyaznoy.ru
4. Генерация новой разметки – классы html постоянно меняются и парсеру не зацепиться к данным. Например, Beru.ru. Скорее всего в этом виноват движок фронтенда, но все равно это мешает роботам получать информацию.

Хочу еще раз обратить внимание, что парсинг не является ddos-атакой на какой-либо сайт, целью парсинга является сбор информации и представление ее в структурированном виде. Даже если робот будет брать по 1 странице в секунду, то за 24 часа набежит 86400 товаров, что согласитесь не мало даже для крупного сайта.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

*