66-eco-3

Помнится, пару-тройку лет назад одни известные деятели сделали парсер гугла, который мог сутками безперерывно посылать порядка 5-10 запосов в секунду без бана. Я тогда сильно удивлялся, зачем тратить столько электичества. :) Вместо того, чтобы тратить серверные ресурсы и насиловать гугль сигнатурными запросами для поиска мест под спам, можно сделать по другому. Всех значимых сайтов в интернете не так уж много, видимо цифра не дотягивает и до 10 миллионов. Десятки миллионов якобы зарегистрированных доткомов, это всё обман публики, домен тестинг и т.п. киберсквоттертство, живых сайтов где хоть что-то есть - гораздо меньше. То есть их все можно учесть и поставить на карандаш вполне скромными средствами. А дальше уже просто классифицировать сайты по типу установленного на них скрипта и по пригодности для спама или ещё чего-нибудь.
Подобный классификатор можно было бы приделать к моему сканеру сигнатур ownerspy.com, за пару месяцев он бы мог собрать всю нужную информацию, правда автоматически классифицировать сайты это довольно трудоёмкая, хоть и тривиальная задача, так что пока особой нужды нет.

Похожие посты