English

Blog

Алгоритм контекстно-зависимого аннотирования Яндекс 2014 ( Сниппеты в яндекс часть 2 )

Categories: Search Engine Optimization

Определения

Опорная пара — две самые редко встречающиеся* леммы из запроса.
Позиция опорной пары — количество слов от начала пассажа до первого встретившегося слова пары.
Ширина опорной пары — количество слов между словами пары.
Вес слова** — величина обратная частотности слова.
Синонимы — подсвеченные слова, смысловые не подсвеченные синонимы, сокращения, транслителированные слова, перевод слова на английском языке.
Тяжелое слово*** — достаточно редко встречающееся в базе Яндекса.

*Точно не уверен как вычисляет частотность слов Яндекс — есть множество эквивалентных формул. Да и точно значение частотности слова нам не нужно, достаточно просто их сравнить. Поэтому я сравнивал количество ответов по запросу для разных слов.

**Как в случае с частотностью я вычислял примерный вес слова и сравнивал их.

***Пример: “закольцевание” — 2 тыс. ответов, “сонитель” — 24 ответа в базе Яндекса.

Простой пример для понимания что такое «опорная пара»

Берет текст.

Находит опорные пары.

По ним просматриваются все основные фрагменты текста: опорные пары +- 150* символов без пробелов.

*Средняя длина сниппета варьируется в зависимости от количества слов в запросе. Однословники примерно 120 символов, для 2-х и 3-х около 150, 4-х и более 170+. Как не крути всегда можно набрать запрос в поиске яндекса и посчитать среднюю длину, и это будет то что вам нужно.

Принципы формирования основных фрагментов:

  1. Пассаж, если опорная пара стоит в пассаже
  2. Фрагмент, если опорная пара стоит в начале пассажа и пассаж стоящий перед + начало пассажа с вхождение опорной пары = длиной примерно 150 символов без пробелов.
  • Так же для всех комбинаций лемм запроса формируются простые фрагменты, по тем же правилам.

Пример:

запрос “аудит продвижения сайта”, опорная пара “аудит”, “продвижение” .

Текст:

Аудиты сайтов бывают нескольких видов, наиболее актуальные из них — аудит юзабилити и поисковый аудит (seo-аудит). При сео-аудите продвижения сайта отдел профессиональных аналитиков изучит Ваш сайт, определив слабые места, сформирует рекомендации для значительного улучшения позиций.

Основные фрагменты:

При сео-аудите продвижения сайта отдел профессиональных аналитиков изучит Ваш сайт, определив слабые места, сформирует рекомендации для значительного улучшения позиций.

Аудиты сайтов бывают нескольких видов, наиболее актуальные из них — аудит юзабилити и поисковый аудит (seo-аудит). При сео-аудите продвижения сайта отдел профессиональных

Факторы ранжирования фрагментов

  1. Сумма весов всех лемм запроса во фрагментах без учета дублей;
  2. Расположение в основном контенте или барах;
  3. Расположение в заголовке или тексте;
  4. Сумма весов тяжелых слов из фрагмента;
  5. Сумма весов синонимов в предложении;
  6. Сумма весов всех лемм запроса во фрагментах с учетом дублей;
  7. Позиция опорной пары;
  8. Ширина опорной пары;
  9. Точное вхождение запроса;
  10. Вес всех слов во фрагменте.

Фрагменты ранжируются по факторам

Приоритет факторов от 1 к 10. В случае равенства фрагментов по первому признаку, сортировка по второму и т.д.

Фрагмент победитель берется в сниппет.

Пример

Есть тест, в нем есть пять вхождений опорных пар. Соответственно есть как минимум пять основных фрагментов. Применяем первый фактор ранжирования к ним, у нас остается три фрагмента, где есть все леммы из запроса. Дальше к этим трем фрагментам применяем второй фактор ранжирования. Предположим два фрагмента находятся в тексте и один — это кнопка в сайдбаре, соответственно его отбрасываем. У нас остается два фрагмента, к ним последовательно применяем факторы ранжирования, пока не выявится победитель.

На выбор сниппета не влияет нахождения фрагмента в определенном месте текста.

Сниппет может взяться из мета тега description, только если на странице не присутствуют все леммы из запроса, а в description присутствует.

Если выигрывает фрагмент в которым нет всех лемм из запроса. Берутся простые фрагменты без использования лемм которые есть в победившем фрагменте, ранжирутся по тем же правилам, только сумма весов считается без уже использованных слов, которые есть в выигравшим фрагменте. После этого фрагменты сортируются по порядку следования в документе, обрезаются и разбиваются троеточием. Сниппет некогда не может начинаться с троеточия.

Вместо заключения

Продолжение описания экспериментов.