Татьяна Зуёнок
zuenok@webcom.by
http://promo.webcom.by/
Стремясь удерживать лидирующие позиции лучшего поисковика по русскоязычному Интернету, Яндекс постоянно совершенствует алгоритм расчета релевантности страниц, заимствуя передовые идеи у машин с мировым именем. Последние изменения, внедренные Яндексом, оказались наиболее кардинальными.
На сегодняшний день стало ясно, что поиск не может быть эффективным и корректным, если он основан только на анализе текста документов, т.к. внетекстовые факторы могут играть не меньшую роль, чем сам текст. Поисковая машина должна учитывать положение страницы на сайте, авторитетность источника, частоту обновления, цитируемость страницы. Сочетание этих факторов может дать более полноценную картину о деятельности ресурса и его восприятии сетевой общественностью, чем анализ только текстового содержимого. Поэтому Яндекс постепенно внедряет в свою практику анализ влияния подобных факторов на релевантность страницы запросу пользователя.
При анализе текстовых критериев релевантности Яндекс учитывает:
- позицию найденных слов в тутульной фразе
- «вес» слова и его близость к началу документа
- наличие найденных слов в заголовках и фрагментах выделенного текста
- компактность цитаты, т.е. учет расположения найденных слов относительно друг друга
Нетекстовые критерии, учитываемые Яндексом, можно условно разделить на три вида:
- каталожные
- ссылочно-расчетные
- ссылочно-текстовые
К первому типу критериев относят индекс цитирования (ИЦ) Яндекса, который определяется как совокупность всех страниц, ссылающихся на данную (включая и страницы данного сайта). На Яндексе ИЦ исследуемого ресурса можно узнать по адресу yandex.ru/info/cy.html#cycounter.
Индекс цитирования Яндекс рассчитывает для всех ресурсов, ссылки на которые были найдены им в русском интернете, при условии, что результирующее значение тематического ИЦ для них не меньше 10. При учете ИЦ Яндекс наверху результатов поиска по запросу выдает несколько ссылок на сайты, зарегистрированные в своем каталоге.
При подсчете ИЦ не берутся во внимание ссылки с форумов, электронных досок, конференций. Кроме того, Яндекс не учитывает ссылки с сайтов, которые не были ими проиндексированы.
Учет при расчете релевантности ИЦ был очень популярен в зарубежных поисковых системах примерно до 1998 года. Однако из-за того, что этот показатель легко подвергается накрутке и не учитывает качество самих источников, дополнительно ввели его усовершенствованные версии – тематический и взвешенный индексы цитирования (тИЦ и вИЦ соответственно). Эти два показателя по указанной выше классификации нетекстовых критериев расчета релевантности относят к ссылочно-расчетным.
Для быстрого анализа индекса цитирования можно использовать специальный плагин Яндекс.Бар для Internet Explorer 5-6. Модуль, который можно скачать по адресу bar.yandex.ru, формирует в браузере дополнительную панель инструментов. При этом расширяются возможности поиска и просмотра страниц, а главное, отображается взвешенный индекс цитирования. Индикатор показывает «весомость» и «авторитетность» сайта, просматриваемого в данный момент браузером, позволяет узнать раздел каталога Яндекса, в котором зарегистрирован ресурс, и список ссылающихся на него сайтов.
В начале 2000 г. учет поисковыми алгоритмами качества ссылочной политики сайта был взят за основу при модификации наиболее популярных зарубежных поисковых систем, уточнивших методику ранжирования результатов. Яндекс, следуя общемировой тенденции, также научился учитывать не только количество ссылок, но и их качество. В связи с этим им рассчитывается три вида индекса цитирования: ИЦ, вИЦ и тИЦ (взвешенный с учетом тематики) .
Т.к. все ссылки на некоторый ресурс нельзя признать равными, используется ранжирование их ценности, т.е. определение веса ссылки. Чем популярнее ресурс, тем больше вес, а значит, качество ссылки. Т.о. ВИЦ сайта определяется не количеством ведущих на него ссылок, а суммой их весов.
Тематический индекс цитирования рассчитывается по специальному алгоритму, в котором главную роль играет близость тематики анализируемого ресурса и ссылающихся на него сайтов. При подсчете используется количество ссылок на сайт и их тематический вес.
При анализе ресурсов на степень схожести тематики исследуется их взаимное положение в каталоге Яндекса. Например, сайты, расположенные в одной рубрике каталога, считаются близкими по тематике. Однако только этого фактора мало для того, чтобы полноценно рассчитать тИЦ ресурса. Чтобы решить эту проблему, Яндекс позаимствовал у Гугла уже отработанную «человеческую» технологию использования асессоров – специалистов, выносящих вердикт о релевантности страницы.
Некоторые зарубежные поисковики уже давно применяют практику использования человека для оценки релевантности результатов поиска. Приход новой методики работы асессоров на Яндекс должен был частично заменить учет оценки интервала между кликами одного и того же пользователя на разных позициях в результатах поиска. Анализ кликов теперь используется Яндексом, но для других целей, например, для интегральной оценки качества поиска. Непосредственно для настройки качества поиска эти данные не годятся, т.к. пользователи делают выбор только по цитатам из документов и адресам страниц. Асессоры же работают по более полноценной методике. Однако Яндекс не отказался от старого способа, а просто удачно совместил их, получив тем самым синергетический эффект. Благодаря работе асессоров поисковый механизм Яндекса отделяет тематические ссылки, т.е. связывающие сайты одинаковой тематики, от любых других. Т.о. для оценки качества поиска Яндексом совмещаются как автоматические, так и ручные методы оценки.
Ссылочно-текстовые критерии, учитываемые Яндексом при определении релевантности страницы, основаны на анализе текста ссылок. При этом, если содержимое запроса совпадает с содержимым тега ссылки, в результатах поиска выдается адрес, указанный в теге. При этом в результатах поиска такая страница выводится Яндексом без титула и сопровождается текстом: «адрес найден по ссылке».
Т.о. для высоких позиций в Яндексе оптимизируемый сайт должен иметь как можно большее количество входящих ссылок, увеличивающих ИЦ, вИЦ и тИЦ, расположенных на ресурсах, близких по тематике исходному.
При ранжировании результатов поиска по запросу пользователя Яндекс учитывает не только наличие ссылок на эту страницу с других страниц, но и их текст. Поэтому при верстке html-кода рекомендуется ссылаться на различные страницы сайта с использованием характерных ключевых слов и словосочетаний. А также стараться выделять несколько страниц, которые будут посвящены высококонкурентным темам, и ставить на них ссылки как можно чаще.
Однако гонка за высокими показателями ссылочных критериев приводит к определенным трудностям. Оптимизированная ссылочная структура сайта не должна затруднять полную индексацию сайта поисковой системой. Для этого желательно уменьшать число уровней иерархии, т.е. количество ссылок, которое должен пройти робот Яндекса, чтобы проиндексировать самую глубокую страницу сайта. Если же структура сайта имеет более 3-4 уровней желательно вынести наиболее важные внутренние ссылки на отдельную страницу.
Для того, чтобы правильно задать тематическую концепцию ресурса, содержащего разнородную информацию, необходимо при проектировании распределять страницы сайта по разделам, посвященным отдельным темам, и правильно связывать между собой страницы каждого из разделов. Главная страница или карта сайта, в свою очередь, должны ссылаться на одну из страниц каждого раздела. Т.о. при оптимизации сайта под Яндекс необходимо особое внимание уделять соблюдению тематической целостности ресурса.
Как видно из изложенного выше материала, Яндекс постоянно вносит коррективы в методику расчета релевантности страниц. Одними это воспринимается как очередной камень преткновения для оптимизаторов, другими - как благо. Однако в целом качество поиска постоянно улучшается, чем довольны все. Сегодня Яндекс заслуживает особого внимания, поэтому знание его возможностей, а также методов улучшения показателей, которые берутся им при расчете релевантности страниц, необходимо для любого пользователя.