« График цен Добробота | Гуглотренды для сайтов »
Новости отличаются от обычных произвольных текстов тем, что над ними постоянно “работают” живые и голодные журналисты, которым надо быстро пересказать новость своими словами, добить нужное количество слов и пропечатать в газете. То есть сейчас практически у каждой онлайновой новости есть один-два оригинальных источника и десятки переписанных вручную копий. Как можно использовать этот интересный факт?
Во-первых, можно сделать специальный новостной синонимайзер, который бы собирал клон новости не из словаря синонимов пословно, а из нескольких переписанных статей, выдёргивая разные предложения из разных источников. Предложения можно сравнивать шинглами, думаю результат “узнавания” будет неплохой, то есть можно автоматически определить, какое предложение можно заменить и на какое менять.
Во-вторых, на базе почти одинаковых статей на одну и туже тему, можно быстро и в автоматическом режиме выращивать словарь синонимов. Правда он будет несколько специализированного вида – с теми словами, что используются в новостях.
8 Responses
June 22nd, 2008 at 23:23:25
// php gravatar() ?>1Угу, теоретически можно много чего сделать
June 23rd, 2008 at 00:52:27
// php gravatar() ?>2Новости гугл не воспринимает как дубль
June 23rd, 2008 at 19:20:05
// php gravatar() ?>3Интересная идея, как раз следующий проект куда буду вкладывать деньги и силы это он-лайн СЕО утилиты, попробую дать своим программистам задание на разработку вашей идеии, надеюсь не против?
June 23rd, 2008 at 22:59:18
// php gravatar() ?>4Да, поисковая система будет благсоклонно относиться к подобным вещам. Поддерживаю.
June 24th, 2008 at 15:29:14
// php gravatar() ?>5Да. Синонимайзеров много уже накупил, но всё не то
хотя есть очень толковые…
А вот такую шнягу бы купил с удовольствием одним из первых!
Ждёмс… кто же возьмётся…?!
June 25th, 2008 at 15:25:31
// php gravatar() ?>6Я думаю задумка сама по себе бесперспективная
June 26th, 2008 at 13:39:35
// php gravatar() ?>7Это почему же?
У Вас есть какие-то другие методы добычи контента? Граб РСС?
July 4th, 2008 at 00:43:03
// php gravatar() ?>8Этот подход будет чем-то похож на размножение текстов. Ну это когда из нескольких рерайтов по формулам генерица куча нового.
Вобще не знал про такое отношение поисковиков к новостям.
Идея понравилась. +1!
RSS feed for comments on this post · TrackBack URI
Написать комментарий
Про что писал
Календарь
Куйворды
Архив
Подписка на блог
Статистика подписки
Страницы
Комментарии
Последние посты
Blogroll
Счётчики
Свежие записи
Последние комментарии
Интересное на блоге
Самое комментируемое
SEO блог где палят темы is proudly powered by WordPress - BloggingPro theme modified by alexf