« Про Блогоферму | Про кейворды и ниши »
Переписываю свой чекер проксей, чтобы он использовал мной же придуманный способ добычи новых прокси-листов из выдачи Гугла. Способ такой: после проверки берём проверенную рабочую проксю и ищем, чего гугл показывает по этому запросу. Он показывает прокси-листы, причём не какое-нибудь фуфло, а хорошие, поскольку прокся наша уже проверена и работает.
В основном проблема получается в том, что выкачиваются огромные списки, которые физически невозможно проверить в разумное время, так что приходится придумывать разные ухищрения.
Заодно, расскажу про небольшую тонкость, которую лучше соблюдать при сканировании проксей – как известно, многие организации где стоят прокси, сильно обижаются, если кто-то ими пользуется.
То есть можно словить абуз на ровном месте, не из-за спама, а из-за использования прокси. Чтобы избежать этого, прогоняйте адреса проксей перед проверкой через вот этот список: http://www.bluetack.co.uk/config/level1.gz Это как раз список “вредных” организаций, он довольно большой, там от ЦРУ и американской армии до всяких российских институтов и т.п. Список постоянно обновляется, так что нужно периодически выкачивать новую версию.
Также ещё один способ добычи проксей – со своих сайтов, которые спамят. Есть некий набор признаков, по которому можно легко определить, зачем некто пришёл к нам на сайт, и если этот некто пришёл затем чтобы рассказать где купить виагру, то почти наверняка он будет использовать для этого прокси. То есть записав ИП в список и проверив на популярных портах, можно найти немало хороших проксей. Плохо что способ не найдёт прокси на нестандартных портах, но и стандартных у меня находится довольно много.
Кстати, всем использующим прокси советую поизучать скрипт Bad Behavior – сейчас его многие ставят на вордпресс и просто на сайты. Скрипт не даёт отработать запросу, если он содержит какие-то нетипичные вещи, например если из пхп курлом тянуть какой-то документ, но при этом прикидываться браузером, то нужно кое-какие заголовки подправить, иначе сайт с этим скриптом поймёт, что его дурят.
В общем для улучшения пробива – нужная вещь.
14 Responses
September 27th, 2007 at 19:35:30
// php gravatar() ?>1За список спсб.
September 27th, 2007 at 20:14:31
// php gravatar() ?>2m2x, спасибо в карман не намажешь – ссылочкой отблагодарить лучше всего.
September 28th, 2007 at 10:57:37
// php gravatar() ?>3Ссылку забыл, откуда скачать то твой прокси чекер?
September 28th, 2007 at 12:45:00
// php gravatar() ?>4Tupoj, я ничего не забыл. С чего ты взял что этот скрипт можно скачать?
September 29th, 2007 at 20:18:23
// php gravatar() ?>5Ну мне нужен такой чекер тоже. Как быть?
September 30th, 2007 at 15:30:21
// php gravatar() ?>6Я не знаю как быть, халявных проксей не так много, мне своим скриптом делиться нет резона.
Разве что за большие деньги.
October 3rd, 2007 at 00:05:36
// php gravatar() ?>7Мысли хорошие, но для непосвященных они будут не слишком полезны. Я бы предложил такой заголовок: “Alexf хвастается чекером”
October 3rd, 2007 at 00:41:29
// php gravatar() ?>8Для непосвящённых есть категория “новичкам” и есть Давыдов и прочие развещиватели лапши на уши.
Я может потом тоже вешать буду, сейчас времени особо нет на это.
November 9th, 2007 at 14:04:28
// php gravatar() ?>9Да интересные способы конечно вы изложили здесь, ато я уже запарился каждый день отсюда http://anonimsurfer.profikom.ru/?buy_fresh_proxy покапуть прокси (дешево, но каждый день напрягает включать из-за этого кипер)
Завтра начну себе парсер гугли писать для поиска на стандартный портах.
Спасибо alexf!
November 14th, 2007 at 17:20:29
// php gravatar() ?>10[...] небольшой трюк, как заставить гугл проверять для нас прокси. Обычно для проверки прокси на анонимность, [...]
November 14th, 2007 at 17:22:56
// php gravatar() ?>11[...] по назначению плагин Bad Behavior такими замечательными качествами не обладает, просто [...]
November 21st, 2007 at 10:52:11
// php gravatar() ?>12Очень информативный и полезный блог. Спасибо создателю.
)
Ссылочки с доров приветствуются?
November 21st, 2007 at 21:51:08
// php gravatar() ?>13Привет. Интересный метод про гуглю надо попробовать.
Немного бесплатных “анонимных” Соксов можно взять у меня :
http://www.mlm-master.net/index.php?showtopic=116
Но обновления не очень частые – обычно 1-2 раза в день
July 26th, 2008 at 18:21:23
// php gravatar() ?>14А абузу только по чьей-то жалобе можно поймать?
RSS feed for comments on this post · TrackBack URI
Написать комментарий
Про что писал
Календарь
Куйворды
Архив
Подписка на блог
Статистика подписки
Страницы
Комментарии
Последние посты
Blogroll
Счётчики
Свежие записи
Последние комментарии
Интересное на блоге
Самое комментируемое
SEO блог где палят темы is proudly powered by WordPress - BloggingPro theme modified by alexf