Uru-ru.ru - web дизайн, программирование, система оперативного управления компанией, 3d art
about web design web programming 3d art contacts

Фил Крэйвен: Что такое PageRank (ПэйджРанк) Google'а и как получить его по максимуму Фил Крэйвен: Что такое PageRank (ПэйджРанк) Google'а и как получить его по максимуму

Итак, сколько дополнительного ПэйджРанка нам нужно, чтобы подвинуть ленточку на тулбаре?

Прежде всего, позвольте мне пояснить более детально, почему цифры, появляющиеся на тулбаре Гугла, не являются реальными значениями ПэйджРанка. В соответствии с основной формулой, и по данным выступлений основателей Гугла, миллиарды страниц интернета имеют средний вес ПэйджРанка порядка 1.0 на страницу. Таким образом, общий ПэйджРанк интернета эквивалентен количеству страниц на вебе, умноженному на 1, что в масштабах всего интернета дает огромное количество ПэйджРанка, распределяемого внутри всего интернета.

Шкала на тулбаре Гугла градуирована от 1 до 10. (Иногда там можно увидеть и 0, но эта цифра не является результатом вычислений ПэйджРанка). Гугл поступает таким образом, что делит полное реальное значение всего ПэйджРанка всего интернета на 10 частей. При этом каждая часть отображается значением, указанным на тулбаре. Таким образом, значения на тулбаре указывают лишь на то, в каком диапазоне находится ПэйджРанк доставленной браузером страницы, а не выводит точного значения ПэйджРанка самого по себе. Цифры на тулбаре - всего лишь относительные отметки.

Эквивалентны ли эти 10 отрезков или нет - все это предмет для дискуссий; Гугл на эту тему не распространяется. Однако, поскольку из практики известно, что, чем в более высоком диапазоне находится выводимый показатель, тем все более трудно добиться его дальнейшего повышения, многие люди (включая и меня самого) полагают, что градуировка производится по логарифмической шкале, или на очень похожем принципе, но уж никак не на основе простой линейной закономерности.

Давайте предположим, что используется логарифмическая закономерность, базирующаяся на десятичной шкале, и что требуется 10 правильно организованных с точки зрения ссылочных структур, страниц, чтобы поднять важную страницу сайта на одно деление шкалы тулбара. Тогда для следующей подвижки потребуется уже 100 новых страниц, 1,000 новых страниц, чтобы пройти следующее деление, 10, 000 - для еще одной подвижки, и так далее. Вот почему передвижения внизу шкалы (левый край) даются гораздо легче, чем в центре, и, тем более, на правом краю шкалы.

На самом деле, навряд ли основание логарифма составляет ровно 10. Некоторые исследователи считают, что это 5 или 6, а, возможно, даже и менее. Но даже и в этом случае, чем выше поднимаешься по шкале - тем более затрудненным становится процесс перемещения.

Примем во внимание, что, по мере того как количество страниц в интернете постоянно возрастает, суммарный ПэйджРанк также растет. А, коль скоро растет суммарный ПэйджРанк, расположение позиций градуировки шкалы должно меняться. При этом некоторые страницы опускаются на указателе тулбара по «непонятным» причинам. Если актуальное значение ПэйджРанка страницы было чуть-чуть выше какого-то деления шкалы, то добавление новых страниц в пространстве интернета должно вызывать незначительное перемещение маркера деления вверх; при этом положение страницы должно незначительно сползать вниз по шкале, оказываясь немного под соответствующим делением. Индекс Гугла постоянно растет, и они переоценивают значимость каждой из страниц с периодичностью, близкой к ежемесячной. Этот процесс известен как «Танец Гугла». Когда танец заканчивается, некоторые страницы падают относительно соответствующей отметки тулбара. Поэтому, «вливание» в массив мирового интернета новых страниц - зачастую это все что нужно, чтобы откатиться на позицию назад после очередного «танца».

Конечно, цифра, выводимая на тулбар - это хороший индикатор ПэйджРанка страницы, но все, о чем она свидетельствует, так это о том, что ПэйджРанк данной страницы находится в определенном диапазоне по отношению ко всему пространству шкалы. Так, PR 5 может означать, что страница не дотягивает до реального значения в 5, а также - что страница имеет больше 5, но пока не дотягивает до 6.

Подсказки

Доменные имена и имена файлов

С точки зрения робота, www.domain.com/, domain.com/, www.domain.com/index.html и domain.com/index.html - это разные URL-ы, и, следовательно, разные страницы. Люди посещают домашнюю страницу сайта, не делая различий между URL-ами, но для роботов все по-другому; и этот фактор влияет на результаты расчетов ПэйджРанка. Поэтому лучшим решением служит стандартизация обращения к URL-у, который вы используете для домашней страницы. Если же этого не сделать, то каждый URL будет обладать собственным ПэйджРанком вместо того чтобы укреплять ПэйджРанк одного-единственного URL-а.

Если вы задумаетесь над этим, как может робот знать имя файла страницы, которая выдается при подаче запроса в форме www.domain.com/? Да никак. Имя файла может быть index.html, index.htm, index.php, default.html, и так далее. Паук об этом не знает. Если вы внутри сайта проставляете ссылку на index.html, паук может сравнить две страницы, но и то это вряд ли будет произведено. Итак, получается два URL-а, и каждый из них получает свой ПэйджРанк от входящих ссылок. Стандартизация обращения к URL-ам домашней страницы позволяет быть уверенным, что не происходит распыления ПэйджРанка между основным URL-ом и URL-ами-«призраками».

Пример: Зайдите ко мне на UK Holidays and UK Holiday Accoommodation site (http://www.holidays.org.uk/) - хотя бы за такой длинный текст ссылки ;). Обратите внимание, что URL в адресной строке браузера содержит «www.». Если у вас инсталлирован тулбар Гугла, вы увидите, что PR этой страницы составляет 5. А теперь удалите «www.» из адреса и повторите запрос страницы. На этот раз отобразится PR 1, и это для одной и той же страницы. PR 1 - это достойный ПэйджРанк для спрятанной страницы, выводимой в составе фрейма.

Когда я только начинал написание этой статьи, URL-адрес, не содержащий «www.», имел PR 4 в связи с тем, что внутри сайта использовались различные версии синтаксиса ссылок. Это приводило к тому, что ПэйджРанк распределялся между двумя страницами, и, соответственно, между двумя сайтами. Это не самый лучший выход. С тех пор, я исправил внутренние ссылки, что привело к снижению PR не содержащей «www.» версии до 1 и нахождению большей доли ПэйджРанка в версии, содержащей «www.». Хотя, возможно и обратное решение, когда большая доля ПэйджРанка будет концентрироваться в версии, не содержащей «www.».

Представьте себе страницу, имеющую адрес www.domain.com/index.html. Индексная страница содержит ссылки на ряд относительных URL-ов, названных как products.html и details.html. Робот видит эти URL-ы как www.domain.com/products.html и www.domain.com/details.html. А теперь давайте добавим на другую страницу URL не в относительном, а в абсолютном формате, но опустим префикс «www.»: domain.com/anotherpage.html. Эта страница имеет ссылку назад на страницу index.html; таким образом, робот видит индексную страницу уже как domain.com/index.html. Несмотря на то, что это та же самая индексная страница, для паука - это совсем другая страница, поскольку она расположена на другом домене. Теперь смотрите, что получается. Каждый из относительных URL-ов на индексной странице также отличается, поскольку принадлежит к домену с именем domain.com/. В результате, ссылочная структура приводит к потере потенциального ПэйджРанка сайта из-за его распыления между страницами-«призраками».

Добавление новых страниц

При добавлении новых страниц возможны отрицательные последствия. Возьмем прекрасный благополучный сайт. Он имеет ряд входящих с других сайтов ссылок, а его страницы имеют определенные значения ПэйджРанка. Затем на сайт добавляется новая страница, имеющая ссылки на одну или более уже существующих страниц. Новая страница будет, безусловно, отнимать ПэйджРанк у уже существующих страниц сайта. В результате, хотя общий ПэйджРанк сайта возрастает, хотя бы одна или несколько ранее существовавших страниц испытают уменьшение ПэйджРанка в связи с тем, что новая страница возьмет от них часть значения ПэйджРанка. Таким образом, чем больше новых страниц мы добавляем на сайт, тем существеннее потери ПэйджРанка у страниц, уже существующих. В случае больших сайтов этот эффект малозаметен, но при небольшом количестве страниц потери могут быть существенными.

Иными словами, добавление новых страниц увеличивает суммарный ПэйджРанк сайта, но вызывает снижение индивидуального ПэйджРанка отдельных страниц. Решением проблемы служит постановка ссылок на новые страницы таким образом, чтобы не страдали важные страницы.

Дополнительно

Тулбар Гугла

Если в вашем браузере установлен тулбар Гугла, вы можете видеть ПэйджРанк каждой загружаемой в браузер страницы. Но ПэйджРанк будет выводиться далеко не каждый раз. Многие страницы не были проиндексированы Гуглом и, соответственно, не имеют вычисленного значения ПэйджРанка. А другие страницы на том же сайте - были проиндексированы и имеют значение ПэйджРанка. Что же происходит в этом случае? Значения ПэйджРанка для не проиндексированных страниц выводятся «на лету» - самым приблизительным образом, и только для вашего тулбара. В этой ситуации - цифра есть, а ПэйджРанка нет.

Об этом важно помнить, дабы избежать обмена ссылками со страницами, которые на самом деле не имеют никакого ПэйджРанка сами по себе. Перед тем, как обмениваться ссылками, зайдите непосредственно на Гугл, и убедитесь, что страница, с которой вы планируете осуществить обмен, действительно проиндексирована.

Поддиректории

Некоторые полагают, что Гугл присваивает ПэйджРанк странице в зависимости от того, на каком уровне поддиректории она находится - точнее, понижает значение на единицу в зависимости от глубины нахождения директории. Так, если уровень PR для корневой директории составляет 4, то для вложенной директории это будет около 3, для следующего уровня вложения - около 2, и так далее. Другие же (включая меня) не принимают эту точку зрения вообще. Хотя, поскольку некоторые роботы имеют привычку избегать глубоких вложенных поддиректорий, будет правильным не делать структуру директорий чересчур глубокой - вполне достаточно иметь один или два уровня глубины, считая от корневого уровня.

ODP и Yahoo!

Была такая мысль, что Гугл усиливает ПэйджРанк для сайтов, прописанных в Yahoo! и ODP (a.k.a. DMOZ), но на сегодня, похоже, что это не совсем так. Действительно, такой факт имеет место, но, похоже, по совсем иной причине.

Роботы Гугла обходят эти директории точно так же, как и любой другой сайт, причем сайты, содержащиеся в этих директориях, имеют неплохие значения ПэйджРанка, поскольку обладают хорошими входящими на них ссылками. В случае ODP, директория Гугла представляет собой копию директории ODP. Каждый раз, когда в директорию ODP добавляются новые сайты (или исчезают старые), то же самое происходит и с директорией Гугла при ее следующем обновлении. Вход в директорию Гугла очень хороший, ПэйджРанк увеличивается, количество входящих ссылок, соответственно, тоже. Кроме того, данные из ODP используются для поиска на бесчисленном количестве сайтов - а это ведет к увеличению количества входящих ссылок.

Размещение в ODP бесплатно, но, поскольку сайты, стоящие в очереди на размещение, отсматриваются вручную, то с момента постановки в очередь на размещение до момента реального размещения проходит много времени. Поэтому, чем быстрее сайт будет поставлен в очередь на размещение, тем лучше. Полезные советы по подаче сайтов на размещение в DMOZ смотрите в этой статье о DMOZ.

 Фил Крэйвен: Что такое PageRank (ПэйджРанк) Google'а и как получить его по максимуму
Дата публикации 15 мая 2008

Реклама

about | design | programming | art | contacts

copyrights (C) 2005-2014 Uru-ru.ru