« Про топы (аффилиатских программ) | Поиск хитроботов гугла »
Всем кто парсит гугл, хорошо известно такое неприятное явление, как бан гугла на запросы. Наступает он, если запускать много запросов подряд, а иногда даже много запросов делать не надо, достаточно сделать один, но заковыристый.
Чтобы выйти из ситуации, есть несколько способов. Для начала, стоит упомянуть о дырке в тулбарном запросе, которая сейчас уже не работает, но раньше позволяла парсить гугл до бесконечности. Внутри тулбара делался некий специальный запрос (который сейчас нет смысла приводить, поскольку не работает), который не обрабатывался “ограничителем запросов” и который видимо кто-то вытянул снифером и пользовался. Сам я узнал об этом секрете уже после того как он перестал работать, так что кроме удивления мне никакой пользы с него не было.
Это я к тому, что вполне возможно что-то похожее существует и по сей день, просто мы, простые люди, про это не знаем. Теперь переходим к тому, что доступно всем.
Во-первых, чтобы уменьшить вероятность быть забаненным, можно раскидывать запросы по разным датацентрам. Список живых датацентров гугла можно взять у меня на сайте, он периодически проверяется. Вероятно, из списка стоит отобрать только американские датацентры, чтобы уменьшить искажения от разницы в региональной выдаче.
Во-вторых, запрашивать можно с помощью прокси, чем болье прокси тем больше и быстрее можно парсить. Kiwi как-то предлагал парсер, который делал 1000 запросов в минуту, причём без остановки 24х7. В сумме это наверное давало поток запросов как немаленький город, тото в гугле наверное удивлялись, откуда новый город появился.
Очень приятный момент, что для этого можно использовать прозрачные прокси, которые для всех других дел не имеют никакой ценности.
В-третьих, если нужен маленький однопоточный парсерок, то уменьшить вероятность бана можно запоминая (и используя) куку, которую присылает гугл. Без куки банится гораздо быстрей, чем с ней. Мелочь, но приятная.
На последок расскажу как парсить Яхо, ужасный и страшный, который банит после 10-15 автоматических запросов. Оказывается там есть АПИ, наподобие старого гугловского SOAP API, только во-первых без мутного SOAPа, а во-вторых с ограничением не в тыщу, а в 10 тыщ запросов в сутки. Вот она, польза конкуренции!
10 тыщ запросов мне лично хватает для всех моих нужд.
18 Responses
October 16th, 2007 at 18:58:41
// php gravatar() ?>1полезная инфа, спасибо
October 17th, 2007 at 05:00:56
// php gravatar() ?>2хотел чо то тебя спросить но забыл.
от нечево делать
ща пойду прокиликаб тебе банер кучу раз. типо псевдо читерство.
October 17th, 2007 at 12:15:32
// php gravatar() ?>3>Во-первых, чтобы уменьшить вероятность быть забаненным, можно раскидывать запросы по разным датацентрам.
А ты сам то прообывал ? Способ как не работал, так и не работает. Чушь полная.
October 17th, 2007 at 12:41:08
// php gravatar() ?>4Пробовал, у меня это в парсере в AWT было сделано год или два назад. Способ работал, видимо и сейчас работает.
October 17th, 2007 at 14:53:23
// php gravatar() ?>5to Gray: Запросы к разным датацентрам работали до конца весны еще. От бана это не сильно спасало, но бан случался на отдельных из них, а не на всех сразу, как сейчас…
October 17th, 2007 at 16:26:05
// php gravatar() ?>6Ну если по-одному дц парсить до тех пор пока он не забанит, а далее переключаться на следующий – то возможно. я так не тестил.
я брал список дц, и рандомно к ним делал запросы, чтоб снизить плотность запросы к одному IP.
в итоге – бан на всех
October 25th, 2007 at 07:22:36
// php gravatar() ?>7В копилку:
1. Можно добавлять шумовые незначащие добавки в запросы: +342425325235 -ckje8sd89fu98f и т. п.
2. Киви как раз вроде бы юзал xml-выдачу для парсинга, а не прокси. С проксями так быстро бы не получилось.
3. Есть более красивые способы, заюзаны на сервисах Арамиса.
October 25th, 2007 at 15:06:45
// php gravatar() ?>81. Наверное всегда “-” нужен? С “+” не работает.
Насчёт 3 не видел, не пользовался.
October 25th, 2007 at 20:16:44
// php gravatar() ?>9Наверное, всегда –
) Перепутал
)
3 – http://seodigger.com/ и http://serparchive.org – выкачивают непрерывно тонны серпов.
October 25th, 2007 at 20:33:35
// php gravatar() ?>10Ага, теперь понял о чём речь. Я думал там тоже через прокси парсится выдача, разве нет?
October 26th, 2007 at 14:44:14
// php gravatar() ?>11Без прокси.
Если бы мы парсили через прокси у нас из-за геовыдачи такой винегрет бы получился.
October 26th, 2007 at 15:27:09
// php gravatar() ?>12А как без прокси удаётся по многу парсить? С кучи ип в одной подсети?
October 26th, 2007 at 21:41:45
// php gravatar() ?>13в работе примерно полсети класса С
очень внимательно сохраняем и эмулируем все что можно: куки, заголовки, рефереры, редиректы
хотя нам раз в месяц-два гугль банит ip намертво
November 2nd, 2007 at 17:14:02
// php gravatar() ?>14Не ну вы чё серьёзно про яху? А зачем такие сложности Альтависта что банит Айпи?
November 2nd, 2007 at 17:17:20
// php gravatar() ?>15Preved, Про яху да. Насчёт альтависты я не понял, причём она?
November 8th, 2007 at 15:44:49
// php gravatar() ?>16[...] догонку к теме об обходе бана гугла на запросы, напишу что можно сделать, если гугл стал [...]
March 5th, 2008 at 17:22:06
// php gravatar() ?>17[...] идея-фикс, как избежать банов за парсинг, в данном случае не только гугла, а чего угодно. [...]
May 9th, 2008 at 20:31:02
// php gravatar() ?>18Спасибо за список DC, только там их мало.
RSS feed for comments on this post · TrackBack URI
Написать комментарий
Про что писал
Календарь
Куйворды
Архив
Подписка на блог
Статистика подписки
Страницы
Комментарии
Последние посты
Blogroll
Счётчики
Свежие записи
Последние комментарии
Интересное на блоге
Самое комментируемое
SEO блог где палят темы is proudly powered by WordPress - BloggingPro theme modified by alexf