« Чёрный анти-bouncing | Добробот: категории »
Широкоизвестный в узких кругах юмаксфорум толи хакнули, толи пытаются поставить туда новый дизайн. Меня сейчас интересует, как делаются пресс-портреты на яндексе, вспомнил что на форуме есть раздел про поисковые машины и хотел там спросить. Но попав на форум сильно удивился, привычный дизайн, который мало менялся минимум 3 года – пропал без следа. Снегурок с сиськами нету! (השואה) :) Вместо них голубые облачка. Писать на форуме тоже не получается, он сейчас в каком-то заблокированном режиме, поэтому насчёт создания пресс-портретов можно пообщаться тут. Собственно самый интересный момент – каков вклад модераторов, понятно что яндекс, где одной колбасы на обеде съедается по 15кг в день (по данным 2х летней давности), может посадить пару человек писать оные портреты вручную. Но хочется думать, что эту задачу как-то можно автоматизировать. Вопрос – как?
9 Responses
November 1st, 2007 at 11:57:56
// php gravatar() ?>1а с чего ты взял что пресс-портреты пишутся вручную ?
как видно например по этому примеру
http://www.news.yandex.ru/people/voronin_vladimir.html
они составляются автоматически, на основе текста, расположеного “близко” с именем “Владмир Воронин”. А как конкретно анализируются упоминания – тебе никто не скажет, об этом только на курсах яндекса по “content extraction” говорят.
November 1st, 2007 at 16:29:28
// php gravatar() ?>2Может и не вручную, я ничего наверняка не утверждал.
November 2nd, 2007 at 14:37:28
// php gravatar() ?>3А мне нравится диз на юмаксе! VB – лучший двиг.
November 4th, 2007 at 14:07:43
// php gravatar() ?>4[...] поисковый стартап по поиску людей (то про что я думал парой постов ранее), но самое интересное не в этом. А в том, что люди не [...]
November 5th, 2007 at 00:26:44
// php gravatar() ?>5Это называется facts sxtraction. Никто, конечно, руками не пишет. Извлечение фактов из новостных коллекций – это когда мы на основании проиндексированных текстов можем сказать, что президент сказал то-то, а событие произошло в таком-то месте – это не просто выбрали кусок текста, а распознали известный факт, как, например, место на карте.
November 5th, 2007 at 00:39:26
// php gravatar() ?>6Gray, спасибо за комментарий. А “место на карте” откуда взялось? Оно предварительно как-то вручную введено? И сама возможность категоризации по “местам на карте” – вручную запрограммирована или нет?
И с самими отслеживаемыми людьми тоже интересно, как происходит выбор – кого отслеживать, а кого нет? Если по частоте упоминаний, то почему Вася Пупкин не отслеживается?
November 5th, 2007 at 17:48:44
// php gravatar() ?>7думаю Грей не обидится если я отвечу
запрограммирован поиск имен в_новостях, транслируемых новостными_сайтами, а не всем рунете. Выделение из массива текста имени и фамилии вроде не такая уж сложная задача. Новостные сайты, видимо, выбраны не автоматически, а взяты из каталога яндекса.
Вот кстати пупкин
http://www.news.yandex.ru/people/pupkin_vasilij.html
А вот кстати доказательство “автоматичности” алгоритма:
(если бы база составлялась вручную, там был бы только 1 человек)
http://www.news.yandex.ru/yandsearch?rpt=pressp&text=%EA%E8%F0%F1%E0%ED
November 5th, 2007 at 18:20:42
// php gravatar() ?>8епть. и правда на умаксе новый диз. п.с. давно не заходил туда
November 6th, 2007 at 01:20:46
// php gravatar() ?>9Corbenov, прикольно, я искал Pupkin Vasya, такой страницы нет. Выходит оно ещё как-то определяет какое имя более правильное.
RSS feed for comments on this post · TrackBack URI
Написать комментарий
Про что писал
Календарь
Куйворды
Архив
Подписка на блог
Статистика подписки
Страницы
Комментарии
Последние посты
Blogroll
Счётчики
Свежие записи
Последние комментарии
Интересное на блоге
Самое комментируемое
SEO блог где палят темы is proudly powered by WordPress - BloggingPro theme modified by alexf