13 Dec
Posted by alexf as Google, SEO, SEO сервисы, идеи, палю тему, серые сайты, холокост
« Про сотрудничество | Защита DNS-сервера »
Сделал темопалительный краулер. Скрипт обходит сайты по ссылкам и выкусывает оттуда всякие циферки, типа адсенс ид, урчин ид и т.п. На данный момент он обходит сайты .ru, .su, .ua, .by и .name и то что введено вручную с другими тлд. Работает довольно шустро, не нагружая сервер засасывает по 6000 сайтов в час. С каждого сайта считывается по 2 страницы, по методике подсмотренной у чёрного квадрата. Опять же, если верить данным чёрного квадрата, такими темпами весь рунет будет собран дней за 10.
Интересно, что ещё можно собрать таким способом? Какие ещё циферки подаются выкусыванию?
Пока что в основном находятся всякие холдинги, создающие сотни сателлитоподобных сайтов и многосабдоменные порталы, типа яндекса.
21 Responses
December 13th, 2007 at 18:25:49
// php gravatar() ?>1Прикольно. А на чем сам spider написан?
Можно еще попробовать по нехитрому принципу проверять стоят ли на странице биржевые ссылки и ставить в таблицу результатов true|false.
Открытость|закрытость статистики на том же li.ru можно проверять.
December 13th, 2007 at 19:17:05
// php gravatar() ?>2А зачем это нужно?
Те циферки которые я выковыриваю, нужны для идентификации сайта и его хозяев, а чему может помочь открытость/закрытость статистики я что-то не пойму. Скрипт написан на пхп.
December 13th, 2007 at 20:33:44
// php gravatar() ?>3А скрипт многопоточный?
December 13th, 2007 at 20:43:34
// php gravatar() ?>4[...]AlexF сделал скрипт, обходящий сайты и выкусывающий циферки[...]
December 13th, 2007 at 20:49:51
// php gravatar() ?>5ты не из фсб случайно?
December 14th, 2007 at 02:57:21
// php gravatar() ?>6Реализовывали похожую идею. По крайней мере ядро краулера есть, а уж под какую фишку его заточить – дело техники и прямых рук(и мозгов естесственно).
Скриншотики на предъявителя =)
December 14th, 2007 at 06:26:35
// php gravatar() ?>7Ну еще можно данные из WhoIs использовать, смотреть вхождения телефонов, имейлов, адресов.
По IP адресам, подсетям, и указанным DNS серверам тоже много чего интересного находится.
Но ты так же учти, что в HTML можно и чужие данные запросто вставлять. Хотя я слабо верю, что кто-то будет крутить чужой адсенс. Но мало ли…
P.S. Твой кравлер точно не сработает на чужой адсенс айди в комментариях?
December 14th, 2007 at 08:49:25
// php gravatar() ?>8Можно уйму статистических данных собрать. Ну вот, навскидку, что подумалось:
1. Запалить держателей самых крупных сеток MFA, MFB (for Begun) и т. п.
2. Подсчитать статистику использования доктайпов (версии, и без оных вообще).
3. Статистика по кодировкам.
4. Рейтинг айпишников (по количеству сайтов).
5. Рейтинг акцепторов (по количеству ссылок).
6. Пропорции использования всяких сервисов статистики.
7. Выявлять сайты, использующие дурацкие тэги (noindex).
8. Вычислить среднюю “тэгонасыщенность” страниц в рунете ) Ну и, естественно, тогда будут данные по самой монструозной и самой минималистичной страничке.
9. Выявлять сайты, регулярно тянующие картинки с других серверов.
…
P.S. Насчет того, что рунет вообще мелкий, говорил где-то полгода назад Pelvis, чувак на SE. У них там какая-то поисковая система.
December 14th, 2007 at 17:04:10
// php gravatar() ?>9Тормоз, – хуйня, никто не вычислит меня, например использующего множество акков, по первому твоему пункту. Скрыть принадлежность сайта определенному челлу, вообще, – достаточно легко. Правда, иногда, просто в этом, – нет смысла
December 14th, 2007 at 17:49:31
// php gravatar() ?>10Тормоз, а как бегуна запалить? У них вроде нету привязки к человеку-владельцу аккаунта, только к сайту. Статистика по доктайпу, кодировкам и т.п. мне не нужна, зачем её собирать?
KARPOLAN, адсенс учитывается только тот что крутится – если там 2 блока на 2х разных аккаунтах, запомнит оба. Наверное как-то специально обдурить парсер можно, только кто этим будет заниматься?
Obfuscator, случайно нет, а что?
vosemd, скрипт конечно многопоточный, а как ещё?
December 16th, 2007 at 22:07:34
// php gravatar() ?>11Ну я не знаю, как по-другому, не занимался обработкой настолько больших объемов данных. Кравлер писал простенький, но в один поток.
Хотелось бы ещё немного технических деталей.
December 16th, 2007 at 23:36:16
// php gravatar() ?>12Да там всё примитивно, просто урезанный поисковик – индексировать то ничего не надо кроме циферок. И объём данных там не так чтоб сильно большой, с каждого хоста снимается по 2 страницы и они даже не хранятся.
December 18th, 2007 at 00:41:42
// php gravatar() ?>13С чужим адсенсом можно будет всяко пошаманить – и по хорошему , и по плохому.Только опять много будет ручной работры, что не гуд.
А открытые статы li.ru – это вещь, если автоматизировать.Кто по ним работал – согласится.
December 19th, 2007 at 00:35:58
// php gravatar() ?>14А если, например, подключать adsense через внешний .js файл , то скрипт его найдет?
December 19th, 2007 at 15:18:11
// php gravatar() ?>15“А если, например, подключать adsense через внешний .js файл , то скрипт его найдет?”
…или делить адсенс ид в коде на две части, обьединяе его путем вставки пары жаваскриптовых операторов
December 19th, 2007 at 17:05:52
// php gravatar() ?>16Сейчас скрипт ищет только стандартный код, выдаваемый гуглом. Естественно его можно пытаться спрятать (зачем?) и естественно бота тоже можно сделать умнее.
December 22nd, 2007 at 18:57:23
// php gravatar() ?>17Неплохо, но, например, у меня часто как раз на главной никакой рекламы нет, а вот на внутренних страницах уже встречается.
December 23rd, 2007 at 19:15:21
// php gravatar() ?>18Дима, если внимательно прочитать всё что я тут написал по данной теме, то можно найти упоминание этой проблемы и способ её решения. С каждого сайта качается по 2 страницы.
December 29th, 2007 at 15:14:37
// php gravatar() ?>19[...] про который я писал тут и тут на данный момент обошёл некую часть рунета. Для [...]
December 30th, 2007 at 04:59:19
// php gravatar() ?>20Александр, бегуна вроде можно палить на ссылках для поиска рекламодателей referal.begun.ru/advert.php?oid=циферки)
January 1st, 2008 at 18:05:07
// php gravatar() ?>21Смоленский Товарищ, не думаю что на всех сайтах где крутится бегун такое есть – эти ссылки интересны только вебмастерской аудитории, так что особого смысла их собирать по моему нет. Надо что-то более массовое.
RSS feed for comments on this post · TrackBack URI
Написать комментарий
Про что писал
Календарь
Куйворды
Архив
Подписка на блог
Статистика подписки
Страницы
Комментарии
Последние посты
Blogroll
Счётчики
Свежие записи
Последние комментарии
Интересное на блоге
Самое комментируемое
SEO блог где палят темы is proudly powered by WordPress - BloggingPro theme modified by alexf