« Защита от лёгкого ДДОСа (DDOS) | Прикольный мультик про таблетки »
Обычно, когда натыкаешься на пиаристый ресурс типа блога, то трудно сразу определить, где там разложен ПР, кроме главной страницы. Помочь его найти может например такой сервис как PageRank search, его можно заставить выдать все странички с сайта, найденные гуглом, отсортированные по ПР. Но проблема с этим сервисом в том, что он выдаёт мало страниц и происходит двойная сортировка – сначала гугл выдаёт страницы по “релевантности”, а потом сайт сервиса пересортирует список по ПР. Из-за этого некоторые ценные страницы могут потеряться. Поэтому можно сделать свою собственную пиароискалку.
Алгоритм работы примерно такой - сначала на входе получаем 1 или несколько урлов, с которых надо начинать обход. Из этих урлов вычленяется часть, которая будет считаться “внутренней”, чтобы можно было откинуть внешние ссылки. Скачиваем урлы, парсим из них ссылки, откидываем внешние. Проверяем ПР, причём делаем это хитро, вычисляем “вес” урла, по числу ссылающихся на него других страниц, вероятность что у такого урла будет высокий ПР – больше. Выдаём юзеру список урлов отсортированный по пр, дальше в цикле переходим к скачиванию необработанных урлов. За 5-10 итераций таким способом можно вытянуть все пиаристые страинцы с любого небольшого сайта. За большее число итераций, можно распарсить всё, включая дигг, нетскейп и им подобные.
Обновление 2008-03-18
Пара сервисов, которые делают почти то что надо, правда они выдают только страницы известные гуглу на том же домене, что не совсем то:
1. http://www.seocompany.ca/tool/internal-page-rank.php
2. http://www.livepr.info/internal-pages-page-rank3.php
13 Responses
January 20th, 2008 at 18:52:43
// php gravatar() ?>1А ты Вики попробуй распарсить
На самом деле, все это уже есть в привате… Но серв грузит и траффик жрет нещадно))
January 20th, 2008 at 22:32:09
// php gravatar() ?>2Tex, довольно очевидно, что в привате у кого-то есть “всё это”. Непонятно, зачем писать про неизвестно чей приват в моём блоге?
January 20th, 2008 at 22:42:17
// php gravatar() ?>3Хех, такие пиароискалки в виде сервисов давно существуют в нете, нежели ты не видел???
January 20th, 2008 at 22:49:14
// php gravatar() ?>4ant1-pa, не видел. Любопытно было бы взглянуть.
January 20th, 2008 at 22:58:46
// php gravatar() ?>5Буду рад тебе помочь, вот один из них: http://www.pagerank-monitor.com/ удобно сканить блоги а так же и собственные сайты =)
У тебя классный блог, продолжай в таком же духе
January 20th, 2008 at 23:19:37
// php gravatar() ?>6ant1-pa, в принципе похоже на то про что я написал, только не работает.
Попробовал ввести http://www.propeller.com. ПР по нулям выдаётся. Ещё есть варианты?
January 20th, 2008 at 23:31:03
// php gravatar() ?>7То что уже не работает это конечно плохо =(
видимо сервис лег, но раньше работал исправно, были другие еще, но урлы не сохранил…
January 21st, 2008 at 03:29:09
// php gravatar() ?>8[...] Пиарокопалка Помочь его найти может например такой сервис как PageRank search, его можно заставить выдать все странички с сайта, найденные гуглом, отсортирован (tags: PageRank) [...]
January 21st, 2008 at 06:50:37
// php gravatar() ?>9ай-яй, жаль, что для меня второй абзац почти как китайский язык, а ведь такая полезная вещь…
January 21st, 2008 at 08:46:57
// php gravatar() ?>10т е мы медленно подошли к сервису Independednt Link Watch ?
January 21st, 2008 at 09:51:25
// php gravatar() ?>11[...] 2008 Сбор информации о PR всех страниц в индексеВчера alexf писал о сервисе seochat’a Pagerank Search. Раньше я и сам пользовался [...]
January 21st, 2008 at 14:01:09
// php gravatar() ?>12Когда напишешь такую тулзу, не забудь поделиться
January 21st, 2008 at 15:53:11
// php gravatar() ?>13lordtime, я не знаю куда вы подошли и с какой скоростью. Я тут написал, как сделать для себя полезный в хозяйстве инструмент.
Reach, делиться не вижу смысла, выше дали ссылку на того кто поделился, результат понятно какой – задроченный халявщиками ип и неработающий скрипт.
RSS feed for comments on this post · TrackBack URI
Написать комментарий
Про что писал
Календарь
Куйворды
Архив
Подписка на блог
Статистика подписки
Страницы
Комментарии
Последние посты
Blogroll
Счётчики
Свежие записи
Последние комментарии
Интересное на блоге
Самое комментируемое
SEO блог где палят темы is proudly powered by WordPress - BloggingPro theme modified by alexf