« Как пробить защиту мусорных каталогов | Инструменты: ЦС Яззле »
Очередная идея-фикс, как избежать банов за парсинг, в данном случае не только гугла, а чего угодно. Применимость зависит от реализации механизма бана, может прокатить, может нет. Нужно парсить так, чтобы как можно больше запросов уложилось в как можно меньший интервал по времени. Например, если скажем гугл проверяет, не было ли с одного адреса больше 1000 запросов за 5 минут раз в 5 минут и если было, то банит, то надо попытатся дёрнуть его столько раз сколько можно до того как он сделает проверку. То есть уложить 1000 запросов скажем в пару секунд, если возможности это позволяют.
7 Responses
March 5th, 2008 at 17:27:03
// php gravatar() ?>1Гм..сомнительная идея. Счетчик проверки может увеличиваться сразу после каждого запроса. Чтобы обойти проверку надо успеть получить ответ на 2й запрос быстрее, чем придет ответ на 1й, что, понятное дело невозможно.
March 5th, 2008 at 17:35:39
// php gravatar() ?>2Если бы получилось реализовать идею было бы превосходно, но имхо почти нереальная.
мне понравилось слово Stalin. как антиспам проверка)))
March 5th, 2008 at 17:51:51
// php gravatar() ?>3Я так понимаю, это пока только теория. Кто-нибудь это уже реализовывал?
У меня написан парсер гугла, работающий через прокси. Скорость не фонтан, но зато получается приличное количество раз дернуть гугл. Вот только халявные прокси дохнут быстро, а постоянно платить за них – жаба не позволяет) Поэтому жертвую временем)
March 5th, 2008 at 20:21:02
// php gravatar() ?>4“То есть уложить 1000 запросов скажем в пару секунд”.
Имхо от такого сервер сразу поймет, что это атака…
И забанит навсегда…:))
March 5th, 2008 at 20:29:25
// php gravatar() ?>5Простые юзеры устаривают гуглю и более жесткие атаки чем 1000 запросов в секунду
March 6th, 2008 at 08:47:02
// php gravatar() ?>6Еще можно приспособить для парсинга гугла, к примеру, ботнет. Правда тут без написания специального софта не обойтись.
March 12th, 2008 at 21:35:32
// php gravatar() ?>7Ботнетом парсить гугл жалко, тогда уж проще сервер с сотней ип купить и горя не знать. Тем более что сейчас выдача очень сильно гуляет между датацентрами, мировой ботнет фигни напарсит.
RSS feed for comments on this post · TrackBack URI
Написать комментарий
Про что писал
Календарь
Куйворды
Архив
Подписка на блог
Статистика подписки
Страницы
Комментарии
Последние посты
Blogroll
Счётчики
Свежие записи
Последние комментарии
Интересное на блоге
Самое комментируемое
SEO блог где палят темы is proudly powered by WordPress - BloggingPro theme modified by alexf