« На Украине закрыли Блоггер.ком? | SEO-форумы »
Пара полезных инструментов для процессинга (в правильном направлении) текстов:
1. Open Text Summarizer - на входе подаётся длинный текст, например найденный в гугле пдф. На выходе имеем обрезанную копию, которая не совсем уникальна, но и не является копией 1 в 1.

2. Яндексовский mystem. Программа производит морфологический анализ слов на русском языке. Полезно для генерации стандартных шаблонов предложений, для простого стемминга можно найти/сделать что-то пошустрее.
С mystem кстати связана одна странная история: какое-то время по ссылке что я привёл, висело только описание программы, без возможности её скачать и с всевозможными предупреждениями о копирайтах Яндекса. Но одновременно с этим, там же было написано, что программа разработана на грант РФФИ. Я когда это увидел, то был очень удивлён, что государственная деньгораздаточна кормушка спонсирует закрытую разработку в интересах частной фирмы. Видимо со временем до яндексоидов тоже дошёл комизм и двусмысленность ситуации. Понятно, что для разработки им этот грант был нужен как рыбе зонтик, но зато теперь имеется редкая возможность воспозоваться тем, на что тратятся налоги россиян.
3 Responses
November 11th, 2007 at 03:26:46
// php gravatar() ?>1оффтоп
афтар жжот!
November 11th, 2007 at 03:38:18
// php gravatar() ?>2Спалил.
November 12th, 2007 at 16:12:30
// php gravatar() ?>3Есть еще Brill Tagger для английского языка, который разработал Eric Brill (ныне большая шишка из Microsoft Research). Скачать его можно совершенно бесплатно вот отсюда.
RSS feed for comments on this post · TrackBack URI
Написать комментарий
Про что писал
Календарь
Куйворды
Архив
Подписка на блог
Статистика подписки
Страницы
Комментарии
Последние посты
Blogroll
Счётчики