Сделал темопалительный краулер. Скрипт обходит сайты по ссылкам и выкусывает оттуда всякие циферки, типа адсенс ид, урчин ид и т.п. На данный момент он обходит сайты .ru, .su, .ua, .by и .name и то что введено вручную с другими тлд. Работает довольно шустро, не нагружая сервер засасывает по 6000 сайтов в час. С каждого сайта считывается по 2 страницы, по методике подсмотренной у чёрного квадрата. Опять же, если верить данным чёрного квадрата, такими темпами весь рунет будет собран дней за 10.

Интересно, что ещё можно собрать таким способом? Какие ещё циферки подаются выкусыванию? :) Пока что в основном находятся всякие холдинги, создающие сотни сателлитоподобных сайтов и многосабдоменные порталы, типа яндекса.

Похожие посты

    Нет похожих постов