« Пресс-портреты | Анализатор апдейтов »
Приделал категории к рейтингу блогов
. Моя первоначальная идея с составлением словаря не очень сработала, точнее я как-то неправильно пытался её реализовать, в лоб. Возникали проблемы, когда словарь для категории был маленький. Например, у технарей (сеошников или программистов) язык блога беднее чем у гуманитариев (копирайтеров и блоговедов) и из-за этого блог копирайтера где “много букаф” сильно пересекается по словарю с сеошниками где “букаф” мало, но зато иногда есть какой-то полезный смысл.
То есть в категорию попадали все блоги с более жирной словарной базой. Почему язык беднее понятно, программист когда в блог пишет – мысль думает, ему растекаться по древу некогда, а блоговед - наоборот. :) Пришлось тоже слегка подумать и модифицировать алгоритм, тепеть там что-то вроде w-шинглов и скрипт сравнивает каждый блог с блогами выбранными как “эталонные”. Если степень похожести выше установленного порога, блог включается в категорию, иначе нет. Можно доделать эту идею, сделать “двухпроходное” определение – в первом проходе сравнивать с эталоном, во втором с эталоном + несколькими блогами, наиболее похожими на эталон. Вдруг эталонный автор стал гнать пургу, надо как-то учесть эту ситуацию. Может потом сделаю так. Также прошу заинтересованных читателей покритиковать идею, может лучше сделать вообще что-то другое. Но вроде бы то что я сделал, работает достаточно неплохо, пользуясь новыми категориями уже выцепил для себя несколько новых интересных блогов. Чем ещё интересен такой подход – в пределе можно для каждого блога завести свою категорию и там сортировать блоги по степени похожести на выбранный.
P.S. Также добавлены категории определяемые наивным байесом, чтобы их увидеть вместо category нужно писать bayes: http://www.dobrobot.com/?filter=bayes%3ASEO
4 Responses
November 2nd, 2007 at 18:12:24
// php gravatar() ?>1Копирайтинг у тебя засранный получился…
November 3rd, 2007 at 13:12:32
// php gravatar() ?>2Ну дык, значит так пейсатели пишут.
Я влияю только путём добавления/удаления эталонных блогов, в копирайтерском разделе эталонные блоги – копирайтерские. Вот например блог Гугла проходил по категории СЕО пока там зачем-то не написали про непонятный субботник. Написали – блог пошёл в копирайтеры.
November 4th, 2007 at 22:58:07
// php gravatar() ?>3Эх, Алекс, дизайнер тебе нужен
Сервисы у тебя отличные, но оформление совсем не впечатляет.
November 4th, 2007 at 23:29:02
// php gravatar() ?>4Конкрентно для добробота я уже присмотрел откуда дизайн скоммуниздить, а для чего ещё надо?
RSS feed for comments on this post · TrackBack URI
Написать комментарий
Про что писал
Календарь
Куйворды
Архив
Подписка на блог
Статистика подписки
Страницы
Комментарии
Последние посты
Blogroll
Счётчики
Свежие записи
Последние комментарии
Интересное на блоге
Самое комментируемое
SEO блог где палят темы is proudly powered by WordPress - BloggingPro theme modified by alexf