Новости отличаются от обычных произвольных текстов тем, что над ними постоянно “работают” живые и голодные журналисты, которым надо быстро пересказать новость своими словами, добить нужное количество слов и пропечатать в газете. То есть сейчас практически у каждой онлайновой новости есть один-два оригинальных источника и десятки переписанных вручную копий. Как можно использовать этот интересный факт?

Во-первых, можно сделать специальный новостной синонимайзер, который бы собирал клон новости не из словаря синонимов пословно, а из нескольких переписанных статей, выдёргивая разные предложения из разных источников. Предложения можно сравнивать шинглами, думаю результат “узнавания” будет неплохой, то есть можно автоматически определить, какое предложение можно заменить и на какое менять.

Во-вторых, на базе почти одинаковых статей на одну и туже тему, можно быстро и в автоматическом режиме выращивать словарь синонимов. Правда он будет несколько специализированного вида – с теми словами, что используются в новостях. :)

Похожие посты