« Способы обхода бана гугла на запросы | Палим чужие темы принудительно »
Как известно, поисковики крайне не любят клоакинг и используют всё более продвинутые технологии для борьбы с ним. Первым вроде бы это начал делать яндекс, потом подтянулся MSN, потом Гугл. Кажется сейчас один Яхо пока ещё даёт жить спокойно и редиректить на фид.
Так вот, чтобы вычислить проверяющих ботов (хитроботов) Гугла и других, можно воспользоваться одним интересным приёмом. Хитробот разумеется будет шифроваться под браузер или даже и будет на самом деле браузером под управлением индуса или скрипта. Кроме того, хитробот возможно будет приходить не с IP поисковика, хотя например MSNовский хитробот приходит с 131.107.xx.xx и поэтому легко палится.
Но узкое место хитробота, это то, что ему приходится обходить кучу сайтов с одним и тем же, или близким IP. То есть если допустим у вас весь трафик пишется в лог на TDS, то прошерстив этот лог можно найти интересные вещи, а именно – кто-то заходит на доры как бы с поисковика, но по разным запросам и на разные доры. Кто этот неизвестный кто-то думаю всем понятно, нетрудно догадаться, что это Мэтт Катс.
Если один и тот же адрес просматривает много несвязанных друг с другом сайтов/доров, то практически невероятно, чтобы это был случайный юзверь, это либо хитробот, либо конкурен пытается спалить ваши методы работы.
Что с ним делать – тоже понятно, не редиректить. Пока писал эту заметку, в другом окне удалось таким образом отловить штук 10 новых, ранее мне неизвестных проверяющих ip.
9 Responses
October 17th, 2007 at 22:26:54
// php gravatar() ?>1Сейчас любой дурак может поиметь кучу IP, и отсканировать что угодно.
Пока читал, подумал что можно сделать на один IP один дор в день….
Жестко, но имхо бан отодвинется, если, если, если…
October 17th, 2007 at 22:53:45
// php gravatar() ?>2А как кучу ip поиметь?
October 17th, 2007 at 23:10:51
// php gravatar() ?>3На фрипрокси.ру
Покупал там соксы для реганья акков на фришнике с ограничение по айпи. Ни чо – нарегал.
А имея свои датацентрЫ, и вообще являясь пупком вебтехнологий, мне кажется эта задача разрешаема.
Тем более что наверняка, хитробот тягает страниц несколько, и если в определенном проценте случаев клоакинг, то санкции.
Например на одной схеме своей с редиректом на страницах и одном айпи, наблюдаю по три запроса с гугля в интервал 2 секунды, запрос правда ненастоящий.
МСН ка всегда, с мыслей что всех победил, подставляет в запрос слово из урла дора, но почему-то индексит и ставит в выдачу.
October 18th, 2007 at 11:22:25
// php gravatar() ?>4Неплохо бы создать единую базу найденных “подозрительных” айпишников … кто бы взялся
October 18th, 2007 at 12:46:57
// php gravatar() ?>5Смысла нету. Во-первых я свою базу периодически чищу, чтобы лишнего не держать, и чтобы из-за ошибок не терять траф. От ошибок никто не застрахован, если я случайно хорошую подсеть забанил, то таким способом она разбанится.
Во вторых, где гарантия что в публичную базу люди не будут специально вносить хорошие адреса/подсети, чтобы подосрать конкурентам? Зная дорвейщиков, гарантии такой давать нельзя.
October 25th, 2007 at 17:00:35
// php gravatar() ?>6А такой бот приходит с реферером гугл.ком? А поисковый кей есть какой-нибудь?
October 25th, 2007 at 19:16:28
// php gravatar() ?>7DreadNAXt, приходит как обычный юзверь, с реферером гугла.
November 11th, 2007 at 18:45:12
// php gravatar() ?>8[...] какой-то заповедник, помню в прошлый заход я там про хитроботов спросил и меня “старожилы” пытались выставить [...]
November 14th, 2007 at 17:09:28
// php gravatar() ?>9[...] двух разных сетей гугла Наверное 1 Брин, 2 Пэйдж. :) Хитроботы представились фаерфоксом 1.5. Не понял, що це було? [...]
RSS feed for comments on this post · TrackBack URI
Написать комментарий
Про что писал
Календарь
Куйворды
Архив
Подписка на блог
Статистика подписки
Страницы
Комментарии
Последние посты
Blogroll
Счётчики
Свежие записи
Последние комментарии
Интересное на блоге
Самое комментируемое
SEO блог где палят темы is proudly powered by WordPress - BloggingPro theme modified by alexf