« Новости прогресса: генератор анонимок | Домены рунета »
Краулер-шпион, про который я писал тут и тут на данный момент обошёл некую часть рунета. Для индексации ему были разрешены сайты в зонах .ru (рунет), .su (совконет), .ua (хохлонет), .by (бульбанет), .name (погонялонет).
По различным предварительным прикидкам, я ожидал что проиндексируется от 800 тысяч до полутора миллионов сайтов. Реальность оказалась интереснее – бот за 5 дней обошёл 300 тысяч сайтов и сказал “всё”. Обход шёл по ссылкам, обнаруженным на сайтах, с каждого сайта скачивалась “морда” и одна случайная внутренняя страница (если они есть), потом из этого извлекались внешние ссылки, ссылки с nofollow не учитывались, неправильные ссылки, например с опечатками, тоже не учитывались. Никаких ошибок в реализации я не обнаружил, то есть можно утверждать, что реальный размер перелинкованного сквозняками и живого рунета на данный момент – порядка 300 тысяч сайтов.
Кроме указанных зон, я добавил несколько сот сайтов, типа блогов на блоггере, вручную, чтобы в базу попали адсенс аккаунты вебмастеров-блоггеров, особенно различных финстриптизёров. С сайтов собирался ип адрес, адсенс ид и урчин ид, теперь я могу по запросу получить все обнаруженные сайты одного вебмастера. Если я упустил что-то ещё, какой-то популярный идентификатор по которому можно привязать сайт к вебмастеру, прошу указать его в комментариях, добавлю.
Спаленные темы: главное ради чего был затеян весь эксперимент – посмотреть кто из вебмастеров чем занимается в рунете, с которым я сам активно не работаю. Не знаю, новость ли это или нет, но главным “дорвейщиком” рунета оказался Рамблер с его псевдо-каталогами на доменах podberi-*.ru. На втором месте по количеству сайтов – сеть 3х циферных доменов с телефонными кодами, типа 843.ru. На удивление много оказалось блогохостингов, не думал что в рунете с повальным увлечением жыжой и лирушечкой, кому-то можно впарить другие блог-хостинги. Оказалось, ещё как можно.
Порталы: в ходе сбора данных возникла проблема с идентификацией порталов. Порталом у меня считается многосабдоменный сайт, все сабдомены которого содержат строго один и тот же набор адсенс ид/урчин ид (либо не содержат вообще), то есть фактически принадлежат одному/двум/десяти вебмастерам. Таких многосабдоменных сайтов вообще то большинство, но чтобы не проворонить сайты типа блоггера, где на каждом сабдомене может висеть отдельный адсенс, порталы у меня определяются вручную. Для рунета такой подход работает, порталов не так много (могу огласить весь список), но если разрешить боту индексировать .ком, тут то ему и настанет хана. У меня один дорвейный скриптик генерит по 100 тыщ сабдоменов на домен, у плохо настроенного сервера с таким скриптом выкипает вся память только от чтения ботами файла robots.txt.
То есть нужен какой-то надёжный способ, как это автоматизировать, но случайно не “склеить” то что не нужно, причём надо правильно учитывать украинские сайты *.com.ua и т.п..
Распределение сайтов по ответу сервера: двухсотых (200 и 206) – 280 тысяч, с неизвестным ответом, включая неответивших - 20 тыщ, 302х – 15 тыщ, 301х – 5 тыщ, 400х - 7 тыщ, 500х – тыща, единичные сайты давали всякие экзотические ответы типа 412, 205, 307 и т.п. зоопарк. Непонятно, почему 302х больше чем 301х, я сам 302й редирект в принципе никогда не использую, на склейщиков не похоже – слишком много. Может это какая-то фича яндекса, что ему зачем-то нужно 302 давать?
Наличие адсенс ид на сайте: под адсенс ид понимается переменная google_ad_client, которая используется для показа блоков адсенса и которая всегда одна и таже у одного вебмастера. Адсенс был найден на 20000 сайтах из 330000 возможных, то есть примерно на 6% всех сайтов. Урчин найдер на 26000 или на 8% сайтов. Уникальных адсенсов найдено 5500, то есть примерно столько рунетовских вебмастеров работают с Гуглом. Уникальных урчинов найдено 8800.
ИП адреса: всего в базе 54000 уникальных адресов, включая несколько сотен доменов, которые не удалось отресолвить. 3х цифровых адресов вида хх.хх.хх с откинутым последним номером – 27000, что вообще то странно – обычно хостеры раздают адреса подряд, а тут получается что хостеров чуть ли не больше чем вебмастеров. Теоретически, эти данные можно дальше обработать и получить список хостеров рунета, отсотрированный по количеству хостимых сайтов.
Монетизация: долго думал, как можно монетизировать эту базу. Сначала была простая мысль – давать доступ за абонентскую плату, но это не очень удачная идея. База специфическая и не сильно много кому целенаправленно нужна, к тому же купив 1 аккаунт можно потом беспрепятственно “барыжить” им, выдавая информацию третьим лицам. Другая мысль была – сделать ограниченное количество аккаунтов и продавать доступ к ним по аукционной системе, думаю во всём рунете наберётся 25 человек, кому интересно будет глянуть, какие ещё сайты припрятал конкурент, вот для них можно было бы сделать 20 аккаунтов и отдать их тем кто больше предложит.
Более удачная мысль – сделать тулбар, типа алексы, который бы показывал, какие ещё сайты сидят на том же ип или с тем же адсенсом и урчином. Думаю несколько сот вебмастеров его себе поставят. Если кто-нибудь готов взяться за реализацию клиентской части – можно попробовать обсудить детали.
Если кому-нибудь интересно “пробить по базе” сайт – оставляйте домен сайта в комментариях, сделаю первым нескольким спросившим. Гадить ссылками не надо, нерелевантные™ ссылки пойдут в спам.
Ссылки на этот пост – как всегда приветствуются.
48 Responses
December 26th, 2007 at 00:17:35
// php gravatar() ?>1Саня, ты просто какой-то злой гений
Молодец, отличная работа!
December 26th, 2007 at 00:27:19
// php gravatar() ?>2ma2da.ru, пожалуйста
December 26th, 2007 at 00:52:13
// php gravatar() ?>3splogger, почему же сразу злой? Наоборот, чрезмерно добрый.
valodka, нумерков там не обнаружено, вот что сидит на том же адресе: 500club.ru babruysk.ru caliberclub.ru ceedworld.ru clubqashqai.ru clubtiida.ru funphoto.ru gonforum.ru ma2da.ru myalbea.ru rcdrift.ru. Судя по малому количеству доменов, это не шаред хостинг, а дедик/впс, так что возможно у всех сайтов один хозяин.
December 26th, 2007 at 02:35:48
// php gravatar() ?>4clipcorn.com
спасибо
December 26th, 2007 at 02:36:26
// php gravatar() ?>5упс, комы некатят …
December 26th, 2007 at 02:49:49
// php gravatar() ?>6dude, не катят, но отдельные сайты всё-же проверить можно.
Тот же адсенс стоит на refcat.com.ua. На том же ип сидят: fileshare.in.ua mp3files.in.ua mubil.com.ua refcat.com.ua roncat.com.ua.
December 26th, 2007 at 09:18:02
// php gravatar() ?>7может стоило собирать еще и ссылки, хотя бы с морд? ну и по мере возможности еще с внутренних страниц.
запустить краулера в постоянном режиме, приделать ко всему этому добру веб-интерфейс и давать пользовать ру-мастерам отобранный у них оператор link за скромную плату
December 26th, 2007 at 09:33:08
// php gravatar() ?>8alexf, добавь учет ссылк внутренних и внешних; продавай это как заменитель операторов link и anchor. Тогда в клиентах у тебя еще и оптимизаторы появятся.
Уни предлагал в свое время на вебальте что-то подобное за скромную плату в неограниченном размере, и в сильно ограниченном – for free.
Не знаю, чем это закончилось в вебальте, но спрос на это дело был.
Есть мысль, что база у тебя несколько распухнет, после добавления учета ссылок; но зная, сколько сайтов у тебя уже есть в базе, ты сможешь оценить, хватит ли тебе мощностей под это дело.
December 26th, 2007 at 09:49:12
// php gravatar() ?>9Сам недавно сильно задумался над этой темой.
А вот реально ли узнать с помощью Вашего (или любого другого) скрипта сделать _точечное_ исследование по имени владельца домена на предмет того, какими другими доменами он владеет? Зона .com.
December 26th, 2007 at 10:08:04
// php gravatar() ?>10небольшой оффтопик
Alex, а можешь посоветовать/подкинуть скрипт определения ip домена?
нужно автоматом прибить очень много сайтов с определенным ip
December 26th, 2007 at 10:10:09
// php gravatar() ?>11> но спрос на это дело был.
А любой не сидящий только на юмаксфоруме оптимизатор знает, что Алекса давно продаёт доступ к своему индексу, который даже по рунету в разы больше вебальтовского и даёт парсить до миллиона позиций из запроса.
Спрос был исключительно потому, что в оптимизаторы пошло много не очень умных людей. Часть из которых чисто статистически выплывает, как и сам Юни. Потому что покупать глючную маленькую базу у Вебальты нет никакого смысла, если знаешь где есть то же самое, но больше, лучше и дешевле.
December 26th, 2007 at 10:14:37
// php gravatar() ?>12Profit Hunter, точечное исследование можно сделать только если обладать полной базой whois. И те кто ей обладает, продают такую информацию. Я об этом писал совсем недавно.
December 26th, 2007 at 10:22:39
// php gravatar() ?>13Дайте, пожалста, ссылку на пост. В последних постах вроде как такого нет.
December 26th, 2007 at 10:23:10
// php gravatar() ?>14Имхо, главное это все-таки спрос, а не техническое превосходство. Ну и пусть что ваш индекс будет в разы меньше алексовского, но спрос то среди “не очень умных” вебмастеров будет, а значит будет и доход. А что еще надо?
(Windows vs Linux)
В современном мире побеждает не тот кто превосходит технически, а тот кто лучше пропиарен
December 26th, 2007 at 10:40:53
// php gravatar() ?>15Удивило какой маленький рунет…
Идея интересная, но не могу придумать, как её можно заюзать с пользой. Палить все сайты одного владельца? Так проще уж в гугле посмотреть только успешные.
Предлогаю выложить сервис в паблик фор фри. При востребованности можно будет заработать гораздо больше чем продавая базу 5-10 вебмастерам. Ну и дальше можно обрастать новыми фичами и уже смотреть по ситуации…
December 26th, 2007 at 13:59:39
// php gravatar() ?>16Profit Hunter, вот ссылка http://alexf.name/2007-10-27/registrant-search/
andrey, я в принципе могу сделать интерфейс к алексе, там несовсем понятно как плату взимать, а так всё вроде бы просто.
Arser, меня тоже удивило, всё же остаётся какая-то маленькая вероятность, что у меня в коде какой-то глюк из-за которого часть ссылок не находится, но это очень врядли. Надо подождать когда бот все сайты по 2 раза прокрутит.
December 27th, 2007 at 04:46:33
// php gravatar() ?>171. в чёрном квадрате около 830 тыс. сайтов только .ru и .su – где то ты не досматриваешь, либо они кроме ссылок ещё каким то образом вычисляют сайты (может у них есть доступ к спискам регистраторов или ещё как)
?
2. на счёт просмотра бэков – учтите, что по подобной базе результат будет только по мордам доменов 2ого уровня и одной внутренней странице, т.е. ну уж очень маленький процент от общего обьема – может уже стоит сделать поисковик для оптимизаторов
December 27th, 2007 at 04:59:01
// php gravatar() ?>18GTAlex, сайты на которые нет сквозных ссылок и которые я не добавил вручную – ко мне не попали, правда выходит что таких сайтов большинство.
Насчёт бэков – у алексы индекс на 14 миллиардов страниц, так что свой поисковик делать совсем ни к чему. Технически я хоть завтра могу сделать просмотрщик бэков/анкоров и много чего ещё, но непонятно как быть с оплатой. Там даже один единсивенный хороший, жирный запрос может потянуть на 15 центов.
December 27th, 2007 at 05:01:33
// php gravatar() ?>19Как технически хочешь реализовывать по базе тот же просмотр бэков, если не секрет ? (просто я тоже аналогичным вопросом озадачился – такая база явно не помешает при анализе)
December 27th, 2007 at 08:03:36
// php gravatar() ?>20такуюже хрень сделал Алексей из черного квадрота, он еще на конференции ашманова выступал.
Интеренсо бы также плсмотреть долю директа и долю алсенса.
и опятьже хотелосб бы посмотреть персону у которой больще всего доменов.
December 28th, 2007 at 17:31:42
// php gravatar() ?>21Отличная затея! Александр, может покажешь нам самого активного веб-мастера рунета, который наклепал тучи сайтов?
December 28th, 2007 at 18:33:55
// php gravatar() ?>22SEO Критик, я же уже показал.
December 28th, 2007 at 20:37:35
// php gravatar() ?>23[...] ремарка к заметке «Рунет под колпаком», статистика сайтов Рунета поисковой машины Вершки [...]
December 29th, 2007 at 15:00:54
// php gravatar() ?>24интересно все это и как времени хватает с такими скриптами заморачиваться? )
December 29th, 2007 at 15:12:15
// php gravatar() ?>25WebNinja, на собственно написание скрипта ушло довольно мало времени, часа 3. Просто у меня уже много наработок есть в этой области.
January 1st, 2008 at 03:50:35
// php gravatar() ?>26Alex, а этот весь трафик вы на домашний комп тянули или оно на сервере где-то тихо себе трудилось?)
January 2nd, 2008 at 12:20:21
// php gravatar() ?>27Присоединяюсь к вопросу Александро!
Интересен еще размер базы и что конкретно в нее входит.
Сейчас просто задумывать о скачивании рунета, нужны все текстовые материалы, боюсь даже представить, сколько на это уйдет времени и какой объем это все будет занимать на жестком диске.
January 4th, 2008 at 02:10:27
// php gravatar() ?>28[...] штукой, которой меня озадачили в комментах к посту про хитрый краулер – вроде бы в рунете до сих пор не решена проблема с [...]
January 5th, 2008 at 17:10:14
// php gravatar() ?>29Не могу понять в чем может быть смысл подобных исследований. Помогите, а? Может быть я чего то не понимаю
January 5th, 2008 at 18:34:31
// php gravatar() ?>30serge Mikhailov, вроде я уже писал в чём смысл – смотреть кто чем занимается.
Я например некоторых скрытных финбомжей раскусил, чем они занимаются.
January 5th, 2008 at 18:58:08
// php gravatar() ?>31То есть искал сайты с одинаковыми Гугле ID?
В любом случае, думаю, что напрасная затея, ведь в рунете копейки.
С другой стороны вычислять сайты принадлежащие определенным людям. Тут может быть смысл. Можно делать по специфическим ссылкам на партнерский сайт.
Впрочем и тут возникает вопрос зачем? Косвенно, бомжеподобный народ так или иначе вскрываетя. Например, тем, что начинает (не)обсуждать темы о ремонте и покупке золотого унитаза.
January 5th, 2008 at 21:25:32
// php gravatar() ?>32Не напрасная. Например, московский бомж зачем-то сделал сайт по своей тематике на домене ру, где я его и выцепил. А дальше остальные сайты раскопать было делом техники.
Даже самый скрытный киевский бомж, тоже чуть-чуть спалился. В рунете кстати есть очень жирные темы, приносящие миллионы не-рублей, при этом всё легально.
January 7th, 2008 at 11:29:21
// php gravatar() ?>33alexf, еще раз задам вопрос: с домашнего компа или дедика скачивалась вся эта информация? Подскажите пожалуйста)
January 8th, 2008 at 20:24:02
// php gravatar() ?>34Дмитрий, там не так много трафика, всё равно с какого компа скачивать.
January 9th, 2008 at 11:00:01
// php gravatar() ?>35[...] А для более тщательного анализа напишу ка я бота, шарящего по бескрайним просторам ру-нета и дергающего мордочки всех сайтов зоны RU (пока думаю собрать второй уровень, дальше видно будет). Идея давно витала в воздухе, AlexF подтолкнул. [...]
January 17th, 2008 at 10:08:24
// php gravatar() ?>36Александр, большое спасибо за информацию. Надо думать, как её лучше использовать..
January 28th, 2008 at 14:26:46
// php gravatar() ?>37Если интересно, могу выложить обновлённые данные, бот всё это время работал.
January 28th, 2008 at 16:13:46
// php gravatar() ?>38Интересно конечно – выкладывай !
February 13th, 2008 at 17:33:31
// php gravatar() ?>39Да, не ожидал что в Рунете так мало сайтов. Спасибо за интересную информацию
February 14th, 2008 at 12:27:21
// php gravatar() ?>40[...] у яндекса в коде есть партнёрский ид, значит можно палить сайты одного [...]
February 28th, 2008 at 00:14:58
// php gravatar() ?>41[...] помощью шпионского бота обнаружил некую русскую парковочную контору, у [...]
April 24th, 2008 at 14:43:29
// php gravatar() ?>42Интересная вещь! возможно даже купил бы доступ, если планируется.
Ради интереса проверьте ulsk.ru
April 25th, 2008 at 04:05:13
// php gravatar() ?>43baev, ownerspy.com
June 14th, 2008 at 02:38:18
// php gravatar() ?>44.by – не бульбанет! святую “бульбу” не трожь!
June 24th, 2008 at 02:11:55
// php gravatar() ?>45Любопытные опыты. Так тулбар будет или нет? Через него кстати тоже можно много интересного черпать от установивших его юзеров
December 1st, 2008 at 13:08:11
// php gravatar() ?>46Кстати чёрноквадратчики проще сделали – они не парсили по ссылкам, а тупо взяли и купили у reg.ru базу доменных имен
December 2nd, 2008 at 04:25:16
// php gravatar() ?>47Да, на момент запуска бота, я не знал про такую возможность, что можно просто купить/достать базу. Но собственно для моих целей полная база со всем мусором и не нужна – сервера то не резиновые.
То где есть ссылки и траф мой бот обошёл, а где нету – пусть квадратчики изучают.
April 22nd, 2009 at 16:38:41
// php gravatar() ?>48[...] Но как выяснилось, все гораздо проще. Автор одного блога сделал мини-поисковый краулер, но цель этого робота [...]
RSS feed for comments on this post · TrackBack URI
Написать комментарий
Про что писал
Календарь
Куйворды
Архив
Подписка на блог
Статистика подписки
Страницы
Комментарии
Последние посты
Blogroll
Счётчики
Свежие записи
Последние комментарии
Интересное на блоге
Самое комментируемое
SEO блог где палят темы is proudly powered by WordPress - BloggingPro theme modified by alexf