Приделал категории к рейтингу блогов Добрый рейтинг блогов. Моя первоначальная идея с составлением словаря не очень сработала, точнее я как-то неправильно пытался её реализовать, в лоб. Возникали проблемы, когда словарь для категории был маленький. Например, у технарей (сеошников или программистов) язык блога беднее чем у гуманитариев (копирайтеров и блоговедов) и из-за этого блог копирайтера где “много букаф” сильно пересекается по словарю с сеошниками где “букаф” мало, но зато иногда есть какой-то полезный смысл. :) То есть в категорию попадали все блоги с более жирной словарной базой. Почему язык беднее понятно, программист когда в блог пишет – мысль думает, ему растекаться по древу некогда, а блоговед - наоборот. :) Пришлось тоже слегка подумать и модифицировать алгоритм, тепеть там что-то вроде w-шинглов и скрипт сравнивает каждый блог с блогами выбранными как “эталонные”. Если степень похожести выше установленного порога, блог включается в категорию, иначе нет. Можно доделать эту идею, сделать “двухпроходное” определение – в первом проходе сравнивать с эталоном, во втором с эталоном + несколькими блогами, наиболее похожими на эталон. Вдруг эталонный автор стал гнать пургу, надо как-то учесть эту ситуацию. Может потом сделаю так. Также прошу заинтересованных читателей покритиковать идею, может лучше сделать вообще что-то другое. Но вроде бы то что я сделал, работает достаточно неплохо, пользуясь новыми категориями уже выцепил для себя несколько новых интересных блогов. Чем ещё интересен такой подход – в пределе можно для каждого блога завести свою категорию и там сортировать блоги по степени похожести на выбранный.

P.S. Также добавлены категории определяемые наивным байесом, чтобы их увидеть вместо category нужно писать bayes: http://www.dobrobot.com/?filter=bayes%3ASEO

Похожие посты