Алгоритмы ранжирования. Алгоритм ссылочного ранжирования PageRank и линейная алгебра. Алгоритмы ранжирования Яндекс

12.01.2024

О том, что такое поисковая система и как она ранжирует сайты я писала в общих чертах ещё в статье от 8 августа.
Там мы рассмотрели, что из себя представляет поисковая система, как она узнает о новых сайтах, и как она определяет порядок показа сайтов в поисковой выдаче по запросу. Повторюсь, это были общие, и более абстрактные понятия. Сегодня же речь пойдет о конкретном алгоритме ранжирования в поисковой системе Яндекс.

Ещё в прошлом, 2009 году, поисковая система Яндекс перешла на новый алгоритм поиска – Снежинск, в котором используется технология Matrix. Net (Матрикснет). Но все это слова и ни о чем нам не говорят. Что такое Матрикснет? И при чем здесь город Снежинск? Постараемся постепенно во всем разобраться.

Итак, в ноябре 2009 года у Яндекса появился новый поиск. Чтобы понять смысл нового поиска стоит немного обратиться к истории и выяснить, а какой был старый? Ведь я сама начала изучать SEO уже в конце 2009 года, т.е. когда Снежинск с Матрикснетом уже был внедрен. Как строился поиск релевантных документов в поисковой системе Яндекс до Снежинска?

Не забываем, что поисковая система, это всего лишь робот, машина, основанная на математической логике. Т.е. в программу можно заложить математические формулы, х=1, у=3, x

Например, x=внутренняя оптимизация, y=внешние ссылки и т.п. Каждой такой переменной присваивалось некое число, а таких переменных было сотни. Все показатели потом "суммировались", т.е. каждому сайту присваивалось определенное число, в соответствии с которым и происходило ранжирование, выстраивание сайтов в определенной последовательности в поисковой выдаче. Естественно, что это самый примитивный пример, только для того, чтобы передать суть.

К чему в итоге это привело. Хоть секрет формулы никогда не раскрывался, всем было известно, что за основу берутся какие-то определенные показатели сайта, и естественно, это привело к тому, что каждый оптимизатор, обладающий аналитическими способностями, опытным путем мог выделить какое-то количество значимых параметров, которые влияют на ранжирование, и начать их использовать для продвижения, т.е. искусственным путем влиять на поисковую выдачу. Подстраивать свой сайт под конкретные показатели.

А раз оптимизаторы научились влиять на поисковую выдачу, значит на первых местах стали появляться сайты, которые, хоть и соответствуют поисковому запросу, но, своим нахождением в топе, не дают возможности пробиться в топ другим сайтам, которые также могут быть интересны и полезны людям. И самое печальное в этой ситуации было то, что в топе было много коммерческих сайтов, у которых были возможности тратить деньги на продвижение.

Что принес с собой новый алгоритм поиска Снежинск со своей технологией Матрикcнет? Я постаралась максимально полно изучить информацию об этом алгоритме ранжирования, и постараюсь передать вам его суть.

За основу были взяты не какие-то определенные показатели сайтов, а сами сайты, которые на взгляд работников Яндекс являются полезными ресурсами с человеческой точки зрения. На сколько оценка этих сайтов была объективной? Мы не можем судить об объективности подхода к этому. Но просто примем на веру.

Опустим кучу негативных отзывов оптимизаторов о том, что Яндекс – коммерческая организация, что его не интересует пользователь, а интересует только заработок с контекстных объявлений. Лично мое мнение такое – плохому танцору всегда что-то мешает:).

Яндекс всегда заявляет, что главная его задача – дать ответ пользователю. Примем это за аксиому. И поверим тому, что для нового алгоритма были отобраны сайты по объективным признакам.

Итак, было выбрано какое-то число определенных запросов, и определенное число сайтов, которые наиболее полно отвечают этим запросам. И специально обученные люди, асессоры, сопоставили каждому запросу определенный документ. Т.е. на их объективно-субъективный взгляд запросу 1 соответствует сайт А, запросу 2 – сайт Б и т.д.

Каждая такая пара "запрос=документ" была проанализирована машиной (программой), которая нашла среди этих документов закономерности (естественно, основываясь все на той же математической логике), и на основе выявленных закономерностей вывела формулу. Вот по этой-то формуле все и стало ранжироваться в поисковой системе Яндекс. Но, есть ряд оговорок.

Первая оговорка – таких формул много. Я могу предположить, что, чуть ли не для каждой тематики и направленности была выведена своя формула. Т.к. невозможно оценивать по одним и тем же признакам коммерческие сайты и не коммерческие, сайты развлекательной тематики с сайтами с научными трудами.

Вторая важная оговорка, что для того, чтобы вывести формулу, в машину в любом случае необходимо было заложить определенные переменные, т.е. показатели сайтов. То, на основании чего машина будет сравнивать сайты между собой.

А опять же, за счет чего можно сравнить сайты между собой? Конечно, тут не могут не рассматриваться внутренние и внешние факторы. Но и они уже не являются определяющими. В свете недавних заявлений Яндекс о , какие ещё показатели могут быть определяющими при ранжировании сайтов?

Все больше говорят о таком факторе ранжирования, как поведенческий фактор.

И именно он, по мнению многих, и по оговоркам представителей Яндекс, является определяющим при ранжировании. И, в определенной степени это действительно, может быть правдой.

Итак, в чем заключается уникальность нового алгоритма? Первое, именно человеческий фактор определяет на сколько один сайт интересней другого. С одной стороны, человеческий фактор – это субъективное мнение, одному нравится одно, другому – другое. Но тут скорее вопрос не об интересности, а о том, чтобы документ давал исчерпывающий ответ на заданный вопрос. И именно по этому принципу отбирались документы и присваивались определенным запросам.

И получается, что с другой стороны, машину пытаются обучить мыслить, как человек. Второе вытекает из первого, сотрудники Яндекс учат машину находить закономерности в человеческом мышлении. Машина эти закономерности находит (хорошо или плохо – это другой вопрос), и на основании этих закономерностей выстраивает свою формулу и следовательно поисковую выдачу.

И на самом деле, технология Матрикснет - это не что иное, как машинное обучение.

Благодаря этому, в поисковую выдачу с большей вероятностью попадают именно полезные ресурсы, в которых пользователь действительно находит ответ на свой вопрос. И вот тут важным является то, что, чтобы попасть в топ Яндекс, не обязательно быть старым трастовым ресурсом, не обязательно закупать большое количество ссылок.

Важным является интересный полезный контент, и явный интерес пользователей сети к сайту.

Да, а при чем здесь Снежинск? Дело в том, что именно в новом алгоритме улучшена формула ранжирования по региональным запросам. Т.е. где-бы не находился пользователь, и какие-бы запросы не набирал, приоритет будет отдаваться региональным сайтам, сайтам тех организаций, которые находятся в том же регионе, что и пользователь.

В следующих статьях я собираюсь более детально рассмотреть все возможные факторы, которые оказывают влияние на ранжирование сайтов, естественно, на основе заявлений официальных источников. И, естественно, что невозможно дать исчерпывающий ответ по факторам, т.к. все, что может оказывать влияние на ранжирование сайтов является тайной и не раскрывается представителями Яндекс. Также, постараюсь больше уделить внимание именно поведенческому фактору, по каким признакам определяется поведение пользователя, и почему это является "основным" фактором. Следите за обновлениями блога.

Все больше людей интересуется фрилансем, о том, какая может быть работа дома обещает рассказывать автор блога seolabel.ru. Возможно, вы найдете для себя что-то интересное.

Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Алгоритмы ранжирования – методы оценки качества сайтов

В ТОП-10 должны попадать только те сайты, которые максимально полно отвечают на запрос пользователя. Качественную выдачу обеспечивают – специальные математические формулы, по которым определяется «полезность» того или иного сайта. Поисковики не разглашают информацию о своих алгоритмах, они предоставляют вебмастерам лишь общие рекомендации по улучшению и оптимизации сайтов. Тем не менее, оптимизаторы научились выявлять определенные закономерности, на основании которых разрабатывается стратегия п

родвижения.

Больше видео на нашем канале - изучайте интернет-маркетинг с SEMANTICA

Какие критерии учитывает алгоритм ранжирования

Поисковики оценивают сайты по многим параметрам. Среди наиболее значимых критериев следует отметить:

уникальность и оптимизация текстов (наличие ключевых фраз, тошнота, водность);
возраст домена;
количество и качество входящих ссылок;
тип используемой CMS;
скорость загрузки страниц сайта;
наличие ошибок в коде.

Понимая, как работает алгоритм поисковых систем, вебмастер может оказывать влияние на выдачу своего сайта. Для этого необходимо «подогнать» страницы web-проекта под требования ПС. В частности, потребуется внедрить ключевые фразы в метатеги title и description, а также непосредственно в текст страницы. Если выполняется продвижение по геозависимому запросу, то, кроме ключей, следует добавить название нужного города или региона.

Это интересно! Периодически происходит апгрейд поисковой системы, что приводит к кардинальному изменению действующих алгоритмов. Такие меры направлены на борьбу с поисковым спамом. Нередко смена алгоритма Яндекса приводит к ухудшению позиций сайтов, продвигавшихся «черными» и «серыми» методами.

Поисковые санкции

Если вебмастер явно пытается манипулировать алгоритмами Яндекса, то поисковая система может применять к нему разнообразные санкции. Могут возникнуть следующие проблемы:

Понижение позиций в выдаче
Плохое индексирование новых страниц (или выпадение из индекса старых документов)
Полный или частичный БАН

Алгоритмы Яндекса предполагают санкции за избыточную оптимизацию текстов, например, за размещение на страницах списков ключевых фраз. Фильтр может быть наложен за «невидимый» текст, сливающийся с фоном. Также под санкции попадают сайты-дорвеи и интернет площадки, копирующие чужой контент.

Новый алгоритм Яндекса – Минусинск

Этот алгоритм предполагает пессимизацию web-проекта за использование SEO-ссылок. Речь идет о сайтах, закупающих тысячи ссылок с помощью автоматизированных бирж типа Sape. С точки зрения Яндекса, ссылка считается «сеошной», если она ведет с некачественного сайта-донора и имеет коммерческий анкор.

Основанием для применения фильтра « » может стать резкий прирост ссылочной массы. Поэтому чтобы обезопасить свой web-проект от возможности применения подобной санкции, следует закупать ссылки постепенно и разбавлять анкорные линки безанкорными гиперссылками.

PageRank - это числовая величина, характеризующая «важность» веб-страницы сайта. Чем больше ссылок ведет на страницу сайта и чем они более качественнее, тем страница становится «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank - это метод вычисления веса страницы с помощью подсчёта важности ссылок на неё.

Этот метод расчета запатентовали разработчики и сооснователи поисковой системы Google Сергей Брин и Ларри Пейдж. Более подробно ознакомиться с текстом исследования (на английском языке). На русском языке .

Что такое вес страницы сайта?

Под весом страницы степень ее важности. Если проводить аналогию с человеческими отношениями, то фраза "его слово имеет вес" будет отражать суть понятия "вес страницы сайта".

Вес страницы выражается в конкретных цифрах и его можно рассчитать.

Условно, вес страницы бывает двух видов:

Статический вес (определенная цифра), который вычисляется на основании запросонезависимых факторов - это все факторы, которые не имеют отношения к поисковом запросу. Например, возраст сайта, его страниц, дата индексации страниц, количество внутренних и внешних ссылок, ведущих на страницу.
Динамический вес, который вычисляется на основании запросозависимых факторов - это все факторы, который связаны с поисковым запросом (текстом). Текст запроса сопоставляется с текстом страницы сайта, поэтому, запросозависимые факторы это те, которые в первую очередь зависят от текстовых элементов страницы - ее заголовка title, описания description, текста на ней, анкоров (текстов) ссылок, которые указывают на нее и исходят с нее.

Алгоритм PageRank определяет статический вес страницы, а не динамический. Иначе говоря, статический вес страницы - это и есть ее PageRank. На сайте может быть страница без контента, но если на нее ведет хотя бы одна ссылка, то она будет иметь статический вес.

Статический вес считается поисковиками в фоновом режиме и присваивается странице сайта. Спустя определенное время он пересчитывается. Динамический вес считается не в фоновом режиме, а на лету, когда пользователь отправляет поисковый запрос поисковой системе для поиска результатов.

Как выглядит формула PageRank?

Никто точно не знает, как на самом деле Google рассчитывает PageRank. Но можно ориентироваться на эту формулу, предложенную Сергеем Брином и Ларри Пейджом в их исследовании.

PR(A)=(1-d)+d(PR(T_1)/C(T_1) +⋯+PR(T_n)/C(T_n)) , где

PR(A) - вес страницы-акцептора A (на которую проставлена ссылка)

PR(T_n) - вес страницы-донора, ссылающейся на страницу A (с которой проставлена ссылка)

C(T_n) - число ссылок со страницы-донора

D - коэффициент затухания, обычно принимается равным 0,85. В вероятностной модели он подразумевает, что пользователь не перейдет по ссылке вообще, а закроет страницу сайта. Такому событию присвоили вероятность равной 15 %. Остальные 85 % отданы ссылкам.

1-d - элемент, который нужен для того, чтобы формула не занулилась, если вес ссылающихся страниц-доноров будет равен 0. Это означает, что даже самая незначительная страница сайта может передавать какой-то минимальный вес по ссылке.

Формулу можно записать в таком виде

Вес страницы-акцептора сайта равен сумме весов, передаваемых по ссылкам от страниц-доноров к странице акцептору.

Пример

Если продвигается сайт в тематике по продаже рулонных штор, то нам нужно найти страницы на сайтах-донорах с высоким PageRank. При аутриче я не анализирую значение PageRank каждой страницы сайта, с которым хочу провести аутрич, т.к. такая страница может быть на заспамленном сайте. Я ориентируюсь на тематичность страницы-донора и чтобы такая страница была в ТОП-10 поисковый системы по тематическим информационным запросам, которые относятся к продвигаемому продукту/услуге и на показатели, по которым проверяю каждый потенциальный сайт-донор перед тем, как написать предложение его владельцу или лицу, ответственному за размещение материалов на нем, о публикации ссылки или упоминания.

Если страница находится на первой странице результатов поиска, значит алгоритм поиска посчитал ее качественной для того, чтобы быть в ТОП-10 по интересующему нас поисковому запросу. С такой страницы и нужно постараться получить активную ссылку или упоминание, т.к. она уже имеет трафик из поиска и ссылка, размещенная на такой странице, будет иметь большую вероятность перехода пользователями за счет нахождения в ТОПе.

Помимо графического и теоретико-множественного часто используют и алгебраическое представление графа в виде матрицы.

Рассмотрим орграф G , содержащийn вершин иm ребер.Матрицей смежности орграфаG называется матрицаA размераn  n

Иногда матрицу смежности называют матрицей отношений , или матрицей непосредственных связей .

Матрицей инцидентности (илиматрицей инциденций ) орграфаG называется матрицаB размераn  m , у которой

Для введения матрицы смежности нужно пронумеровать вершины, а для матрицы инцидентности - и ребра графа.

Алгебраическое представление позволяет алгоритмизировать в удобной для программирования на ЭВМ форме процедуру определения структурных количественных параметров системы.

Рассмотрим теперь некоторые методы решения практических задач, используя введенный нами математический формализм.

Ранжирование элементов систем

Анализ связей в графе заключается, прежде всего, в нахождении и оценке путей между его вершинами. Помимо непосредственного отыскания пути в некоторой системе коммуникаций к этой задаче относится, например, задача выбора оптимальной стратегии и др. Действительно, достаточно вершинам графа поставить в соответствие некоторые цели, а длинам путей - стоимости достижения этих целей, чтобы получить задачу выбора стратегии достижения цели с наименьшими издержками.

Поиски путей по чертежу при сложной структуре графа (на практике приходится анализировать графы с числом вершин более 100) затруднены и сопряжены с возможностью ошибок. Рассмотрим один из алгебраических методов, удобный для использования на ЭВМ. Этот метод позволяет, исходя из матрицы непосредственных связей , построитьполную матрицу путей
, где- число путей из вершиныi к вершинеj (= 0), либо ограничиться отысканием одного из ее элементов.

Числа или их буквенные выражения определяются при помощи определителей особого рода -квазиминоров (беззнаковых определителей ). Имеет место формула

Выражение
называютквазиминором элемента матрицы. Знак
является символом квазиминора, а
указывает на матрицу с вычеркнутымиl -й строкой иk -м столбцом, которая вписывается в символ квазиминора подобно матрице, вписываемой в символ обычного минора.

Вычисление квазиминора сводится к разложению его на квазиминоры меньшего порядка по формуле

Процедура вычисления во многом сходна с процедурой вычисления обычных определителей, но для овладения этим методом требуется некоторый навык.

Пример.

Пусть матрица непосредственных связей имеет вид

Необходимо найти все пути, ведущие из вершины 1 в 5, и подсчитать их число.

Для рассматриваемого примера получаем

Первоначально в матрице вычеркивается столбец 1, соответствующий номеру вершины, от которой начинается путь, и строка 5, соответствующая номеру вершины, в которой путь заканчивается. Это соответствует удалению из графа всех ребер, ведущих в вершину 1 и выходящих из вершины 5. Положение и нумерацию остальных строк и столбцов удобнее оставить без изменения. Далее необходимо произвести разложение полученного квазиминора по ненулевым элементам 1-й строки

Разложение для первого слагаемого ведется по второй строке, второго - по третьей, третьего - по четвертой, т.е. номер строки, по которой ведется разложение, равен номеру столбца, в котором находился последний член разложения.

Если теперь положить для ненулевых элементов = 1 и произвести операции по правилам обычной арифметики, то получим -
.

Если же в полученном выражении произвести действия по правилам булевой алгебры, то получим значение полной матрицы связей , которая характеризуетсвязность графа . Значения элементов полной матрицы связейопределяются так:

= 1, если вершина i связана с вершиной j хотя бы одним путем,

=0 в противном случае.

Обычно считают, что
.

Связность - важнейшая характеристика структурной схемы системы. Структура тем лучше, чем полнее заполненность полной матрицы связей. Наличие большого числа нулей говорит о серьезных изъянах в структуре системы.

Другая важная характеристика структуры - распределение значимости элементов системы. Количественная характеристика значимости - ранг элемента - впервые явно была сформулирована при анализе структуры отношений доминирования (превосходства, преобладания) в группах индивидуумов (людей, животных).

Используя полную матрицу путей
, значения рангов элементов определяются по формуле

Следует иметь в виду, что значимость элемента определяется не самим значением , а сравнением рангов всех элементов, т.е. ранг- это относительный показатель значимости.

Чем больше ранг данного элемента, тем большим числом путей он связан с другими элементами и тем для большего числа элементов нарушатся нормальные условия работы при его отказе. Следовательно, при формировании программы обеспечения надежности рассматриваемой системы необходимо уделить особое внимание элементам с большим рангом.

Для систем со структурой типа сетей наличие элементов с рангами, значительно большими, чем у остальных, обычно свидетельствует о функциональной перегрузке этих элементов. Желательно перераспределить связи, предусмотреть обходные пути, чтобы уравнять значимость элементов данной системы.

Существуют и другие методики определения рангов. Выбор подходящей методики определяется спецификой задачи.

Следует отметить, что имеются структуры, ранжирование элементов которых может потерять практический смысл. Это, прежде всего, иерархические структуры. Значимость элемента в них определяется уровнем иерархии.