Краулер-шпион, про который я писал тут и тут на данный момент обошёл некую часть рунета. Для индексации ему были разрешены сайты в зонах .ru (рунет), .su (совконет), .ua (хохлонет), .by (бульбанет), .name (погонялонет). :) По различным предварительным прикидкам, я ожидал что проиндексируется от 800 тысяч до полутора миллионов сайтов. Реальность оказалась интереснее – бот за 5 дней обошёл 300 тысяч сайтов и сказал “всё”. Обход шёл по ссылкам, обнаруженным на сайтах, с каждого сайта скачивалась “морда” и одна случайная внутренняя страница (если они есть), потом из этого извлекались внешние ссылки, ссылки с nofollow не учитывались, неправильные ссылки, например с опечатками, тоже не учитывались. Никаких ошибок в реализации я не обнаружил, то есть можно утверждать, что реальный размер перелинкованного сквозняками и живого рунета на данный момент – порядка 300 тысяч сайтов.

Кроме указанных зон, я добавил несколько сот сайтов, типа блогов на блоггере, вручную, чтобы в базу попали адсенс аккаунты вебмастеров-блоггеров, особенно различных финстриптизёров. С сайтов собирался ип адрес, адсенс ид и урчин ид, теперь я могу по запросу получить все обнаруженные сайты одного вебмастера. Если я упустил что-то ещё, какой-то популярный идентификатор по которому можно привязать сайт к вебмастеру, прошу указать его в комментариях, добавлю.

Спаленные темы: главное ради чего был затеян весь эксперимент – посмотреть кто из вебмастеров чем занимается в рунете, с которым я сам активно не работаю. Не знаю, новость ли это или нет, но главным “дорвейщиком” рунета оказался Рамблер с его псевдо-каталогами на доменах podberi-*.ru. На втором месте по количеству сайтов – сеть 3х циферных доменов с телефонными кодами, типа 843.ru. На удивление много оказалось блогохостингов, не думал что в рунете с повальным увлечением жыжой и лирушечкой, кому-то можно впарить другие блог-хостинги. Оказалось, ещё как можно.

Порталы: в ходе сбора данных возникла проблема с идентификацией порталов. Порталом у меня считается многосабдоменный сайт, все сабдомены которого содержат строго один и тот же набор адсенс ид/урчин ид (либо не содержат вообще), то есть фактически принадлежат одному/двум/десяти вебмастерам. Таких многосабдоменных сайтов вообще то большинство, но чтобы не проворонить сайты типа блоггера, где на каждом сабдомене может висеть отдельный адсенс, порталы у меня определяются вручную. Для рунета такой подход работает, порталов не так много (могу огласить весь список), но если разрешить боту индексировать .ком, тут то ему и настанет хана. У меня один дорвейный скриптик генерит по 100 тыщ сабдоменов на домен, у плохо настроенного сервера с таким скриптом выкипает вся память только от чтения ботами файла robots.txt. :)  То есть нужен какой-то надёжный способ, как это автоматизировать, но случайно не “склеить” то что не нужно, причём надо правильно учитывать украинские сайты *.com.ua и т.п..

Распределение сайтов по ответу сервера: двухсотых (200 и 206) – 280 тысяч, с неизвестным ответом, включая неответивших - 20 тыщ, 302х – 15 тыщ, 301х – 5 тыщ, 400х - 7 тыщ, 500х – тыща, единичные сайты давали всякие экзотические ответы типа 412, 205, 307 и т.п. зоопарк. Непонятно, почему 302х больше чем 301х, я сам 302й редирект в принципе никогда не использую, на склейщиков не похоже – слишком много. Может это какая-то фича яндекса, что ему зачем-то нужно 302 давать?

Наличие адсенс ид на сайте: под адсенс ид понимается переменная google_ad_client, которая используется для показа блоков адсенса и которая всегда одна и таже у одного вебмастера. Адсенс был найден на 20000 сайтах из 330000 возможных, то есть примерно на 6% всех сайтов. Урчин найдер на 26000 или на 8% сайтов. Уникальных адсенсов найдено 5500, то есть примерно столько рунетовских вебмастеров работают с Гуглом. Уникальных урчинов найдено 8800.

ИП адреса: всего в базе 54000 уникальных адресов, включая несколько сотен доменов, которые не удалось отресолвить. 3х цифровых адресов вида хх.хх.хх с откинутым последним номером – 27000, что вообще то странно – обычно хостеры раздают адреса подряд, а тут получается что хостеров чуть ли не больше чем вебмастеров. Теоретически, эти данные можно дальше обработать и получить список хостеров рунета, отсотрированный по количеству хостимых сайтов.

Монетизация: долго думал, как можно монетизировать эту  базу. Сначала была простая мысль – давать доступ за абонентскую плату, но это не очень удачная идея. База специфическая и не сильно много кому целенаправленно нужна, к тому же купив 1 аккаунт можно потом беспрепятственно “барыжить” им, выдавая информацию третьим лицам. Другая мысль была – сделать ограниченное количество аккаунтов и продавать доступ к ним по аукционной системе, думаю во всём рунете наберётся 25 человек, кому интересно будет глянуть, какие ещё сайты припрятал конкурент, вот для них можно было бы сделать 20 аккаунтов и отдать их тем кто больше предложит. :) Более удачная мысль – сделать тулбар, типа алексы, который бы показывал, какие ещё сайты сидят на том же ип или с тем же адсенсом и урчином. Думаю несколько сот вебмастеров его себе поставят. Если кто-нибудь готов взяться за реализацию клиентской части – можно попробовать обсудить детали.
Если кому-нибудь интересно “пробить по базе” сайт – оставляйте домен сайта в комментариях, сделаю первым нескольким спросившим. Гадить ссылками не надо, нерелевантные™ ссылки пойдут в спам. :) Ссылки на этот пост – как всегда приветствуются.

Похожие посты