Поиск в Яндексе<br><span style='font-size:14pt;'>Может быть, пора привлечь системный подход с использованием корректной методологии?</span>

Поиск в Яндексе. Может быть, пора привлечь системный подход с использованием корректной методологии?

Цель статьи - выявить неоправданные сложности и неадекватности (не соответствия желаемого и получаемого) алгоритмов движка поиска Яндекса (и более второстепенно - Гугла) и предложить модель, основанную на механизмах поведенческой адаптивности, формализованную в материалах этого сайта, учитывая, что таковую проявляют, с одной стороны, пользователи, а с другой пытается проявлять поисковик.

Сегодня большинство пользователей не удовлетворены поиском ни Яндекса ни Гугла потому, что их алгоритмы достигли абсурда в попытках решить проблемы, которые сами же и спровоцировали. Эти проблемы маскируются тем, что разработчики обоих поисковиков декларируют некие "интеллектуальные" механизмы (ведь это - очень интригует), при том, что у них нет корректных моделей адаптивных интеллектуальных систем (не специалисты они в этих чрезвычайно сложных вопросах, где даже специалисты сегодня не имеют согласованных в корректности представлений). Судя по описаниям алгоритмов, нет даже понимания, как такие системы организуются в природной реализации. Понятно, что назвать нечто "интеллектом" не достаточно для того, чтобы это и в самом деле демонстрировало адекватную реальности адаптивность.

Есть немало жизненных примеров корпоративной игры в "науку" и того, насколько это никак не относится к науке (наука предполагает строгое соответствие научной методологии).

Реальная проверка показывает: списки позиций страниц сайта по определенным запросам у Яндекса и у Гугла до противоположности различаются: если какая-то страница в одном поисковике находится по данному запросу на первых позициях, то в другом поисковике может не находится вообще в обозримой выдаче. Процент же относительных совпадений позиций очень небольшой и сильно зависит от особенностей содержания страницы. Поэтому утверждать, что результаты поиска хоть сколько-то объективны - невозможно.

Сначала - о проблемах в поисковиках, которые активно вынуждают создателей сайтов следовать навязываемым требованиями поисковиков правилам (у каждого поисковика имеющим свои особенности) и вынуждают нескончаемо "оптимизировать" страницы в постоянной гонке с конкурентами и текущими изменениями алгоритмов ранжирования поисковиков, а так же чтобы соответствовать текущим представлениям разработчиков поисковиков о том, каким должен быть сайт, чтобы не попадать под санкции.

С самого начала, на заре становления алгоритмов ранжирования, были приняты за основу несколько основополагающих принципов, определяющих ранг страницы в выдаче. Эти принципы оказались недостаточными и требовали корректировки реализации, все более усложняя алгоритмы и требования к создаваемым страницам. Но более всего алгоритмы усложнялись в спровоцированной самими поисковиками нескончаемой борьбе с "накрутчиками", которые находят эффективные возможности повлиять на алгоритмы. Эта борьба порождается самим существованием некоторых критериев, которые учитываются при расчете ранга страницы. Далее они рассмотрены по номерам.

1. Принцип учета "индекса цитирования" страницы (раньше было - даже всего сайта) или числа ссылок на страницу с чужих ресурсов - для расчета позиции страницы в выдаче. Раз у ученых есть такая "фишка", должно быть, это - очень важный критерий, что представляется как очевидное без должного изучения реальной значимости такого критерия.

Алгоритм 2014 года Яндекса декларирует, что ссылки со сторонних ресурсов более не учитываются в ранжировании (но пока не везде и не в каталоге сайтов, и, может быть, это - вообще "военная хитрость"). Тем не менее, стоит рассмотреть этот момент, который продолжительное время считался одним из наиболее важных факторов, так что это - хороший пример недостаточной прогностической способности разработчиков вследствие системного непонимания сути адаптивных процессов.

Этот критерий усложнился с введения понятия "качества" страниц, с которых ведет ссылка, соответствии тематики страницы со ссылкой и т.п. Но самая большая беда возникла от того, что, закономерно, возникли платные предложения по продаже мест для ссылок, что повлекло борьбу с такой "нечестной" накруткой. Но не было бы спроса, не было бы и предложений.

Чем более важным представляется критерий внешних ссылок на страницы сайта, тем в большей степени он эксплуатируется, и нет принципиальной возможности раз и навсегда выиграть гонку технологий с накрутчиками. Яндекс это понимает с предельной ясностью.

В плане ссылок вообще очень много того, к чему поисковик принуждает владельца сайта. С одной стороны декларируется, что сайт должен быть максимально "хорошим" (этому противопоставляется чуть ли не официальное понятие "говносайта"), с другой стороны, сайт вынужден исходить не из разумного оптимума структуры взаимных ссылок на свои страницы, а "перелинковывать" ссылки так, чтобы убедить поисковик в своих добрых намерениях. Ссылка на страницу, где есть обратная ссылка, определяется как неправильная "линковка", характерная для накрутки. А что может быть естественней, что более главная страница содержит ссылку на частный раздел, откуда есть ссылка - на более главную? Или что, в принципе, плохого в том, что партнеры обменялись ссылками? Они не станут этого делать с чужими, если не будет так заманчиво иметь внешние ссылки для ранжирования, а ведь обмануть систему очень просто, достаточно перелинковать партнеров через один сайт.

Короче говоря, презумпция невиновности поисковиками во всем постоянно нарушается, плюс возникает система репрессивных мер в ущерб качеству и гибкости содержимого страниц, приводя к абсурду в выдаче.

В общем, можно очень много говорить по этому пункту, но правильнее рассмотреть и альтернативный вариант, когда ссылочным факторам не будет придаваться столь важное значение, ведь они вообще, по сути, не относятся к задаче удовлетворения пользовательского запроса. Вариант как это сделать будет показан ниже.

2. Принцип уникальности страницы - так же как бы самоочевидно важен, хотя пользователю чаще всего, как раз, не так важно найти нужный ему материал именно в первоисточнике. Например, есть книга какого-то автора, ее отсканировал кто-то и выложил у себя, - пользователь удовлетворен. Автор, наконец, делает себе сайт и тоже решает выложить на нем текст своей книги. Но теперь это уже не уникальный текст, и страница уйдет в конец выдачи. Кто должен больше побеспокоиться об авторстве: автор или поисковик за автора? Первый воспользуется средствами, предоставляемым законом, но он не восстановит уникальность ушедшей на другие сайты копии.

У Яндекса появился специальный инструмент для того, чтобы заявлять свое авторство, впрочем, но без гарантий, что это будет в самом деле учтено и без шансов решить проблему. Отсканировавший же книгу запросто может воспользоваться этим инструментом, особенно если книга старая или автор живет далеко за границей.

Бывает очень важно и естественно сохранять копии источников на своем сайте на тот случай, если они будут сняты с показа, конечно же, давая ссылку на первоисточник. Но это чревато для сайта понижением рейтинга, а внешние ссылки вызывают подозрение в накрутке, что они проплачены, что вынуждает запрещать их индексирование, иначе сайт, опять же, может попасть "под фильтр" санкций поисковика.

Во всем этом - явное противоречие: с одной стороны декларировать важность "индекса цитирования", а с другой считать внешние ссылки - нежелательными и подозрительными.

Из принципа уникальности делается целая проблема с соответствующими санкциями в отношении сайта с неуникальными страницами. То, что статьи постоянно репостят и это - вполне даже законно с точки зрения авторских прав при условии указания источника, как-то не замечается. Даже если там помещается ссылка на первоисточник, уникальность с точки зрения поисковиков теряется, что требует для поддержания страницы на должном уровне в выдаче заново ее переписывать (а кто не позаботиться о выдаче в поисковике раз уж сайт сделан для людей?). Появляются совершенно абсурдные заботы о постоянном поддержании уникальности, а у поисковика - по борьбе с "плагиаторами", хотя это ну никак не касается задач поисковой выдачи.

3. Принцип "поведенческие факторы" - отслеживание действий посетителей сайта и попытка таким образом определить нужность страницы. Но почему вдруг это подразумевает и нужность для данного конкретного посетителя? Важность чего-то для отдельно взятого человека вовсе не является среднестатистически усредненной оценкой количества проявленного интереса и не может ею выявляться.

Стоит ли говорить, насколько легко симулировать такие "факторы" самым различными техническими приемами?.. Это - особенно нескончаемый простор для "перетягивания одеяла" справедливости между поисковиками и накрутчиками.

"Полезность страницы определяется пользователем, а не поисковой машиной". На самом деле, обращаю особое внимание: получается, что не каждым пользователем индивидуально так, как именно ему нужно пользователем, а усредненными и обезличенными данными от всех пользователей. Здесь не учитывается то, что оценки пользы или вреда - сугубо субъективны и касаются только конкретного оценивающего субъекта. То, что много субъектов продемонстрировали, что им эта страница полезна, говорит лишь о ее популярности, но никак не о том, насколько она может оказаться (не)полезной для конкретного пользователя, забившего запрос. Здесь - явная объективизация того, что существует только субъективно - порождение лишних сущностей.

Опять же возникает проблема бесконечной борьбы с накрутчиками.

4. Про "невидимые и бессмысленные" тексты на странице. "Яндекс автоматически исключает их из поиска или понижает в ранжировании"
Подробнее: http://company.yandex.ru/rules/ranking/". Сюда относятся страницы со всплывающей рекламой и т.п. элементами навязчивого спама. Это требует умения распознавать зловредность кода, что принципиально не может быть сделано универсально. Причем, распознать то, что такое сделано именно со зловредной целью так же принципиально невозможно. Например, страница может быть выполнена в виде нескольких закладок, только одна из которых оказывается открытой пользователю. Но разработчик должен думать о том, а как же поисковики воспримут пока "невидимый" код и обязательно делать перезагрузку выбранной закладки по ссылке (потому, что яваскрипт роботом игнорируется) или придумывать способ обмануть распознаватель этого принципа.

Опять на первый план выходит борьба с накрутчиками, которая оказывается более важной, чем все остальное.

Смысл придается лишь контекстом информационной подачи и возможны случаи, когда на странице окажется "бессмысленный" с точки зрения робота текст (и тем более - с орфографическими ошибками) например: "по рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемет занчненя в кокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы перавя и пслоендяя бквуы блыи на мсете Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм. Пирнчиной эгото ялвятеся то, что мы не чиатемкдаужю бкуву по отдльенотси, а все солво цликеом.", - фраза из статьи про принципы распознавания. И даже вот такое распознается при беглом просмотре:
D94НН03 С006Щ3НN3 П0К4ЗЫ8437, К4КN3 У9N8N73ЛЬНЫ3 83ЩN М0Ж37 93Л47Ь Н4Ш Р4ЗУМ! 8П3Ч47ЛЯЮЩN3 83ЩN! СН4Ч4Л4 Э70 6ЫЛ0 7РУ9Н0, Н0 С3ЙЧ4С Н4 Э70Й С7Р0К3 84Ш Р4ЗУМ ЧN7437 Э70 4870М47NЧ3СКN, Н3 З49УМЫ84ЯСЬ 06 Э70М. Г0Р9NСЬ. ЛNШЬ 0ПР393Л3ННЫ3 ЛЮ9N М0ГУ7 ПР0ЧN747Ь Э70

Что же касается орфографических ошибок, то они тоже не являются мерилом полезности текста для ищущего настолько, чтобы придавать этому особое значение в вопросе ценности материала для конкретно (а не абстрактно обезличенного) пользователя: О правописании.
И в этом пункте поисковик поставил себе принципиально не решаемую задачу, важность которой для удовлетворения ищущего неверно оценивается.

5. Столь же нелогичным с точки зрения полезности пользователю представляется учет различия в возрасте доменом, но, тем не менее, Яндекс сильно изменяет рейтинг выдачи в зависимости от этого фактора. К примеру, авторитетный ученый решит начать вести научно-популярный сайт, как это сделал в свое время А.Марков и понижать значимость его материалов на основе возраста выбранного домена - неадекватно. А накрутчик просто купит старый домен или уже имеет есть запас доменов "на вырост". Есть сайты совершенно добросовестно полностью меняющие контент.

Вообще критерии типа: "хорош ли сайт" - сугубо личные, они не могут быть объективными в том, что не выходит за границу общеразделяемых представлений, а вот вне таких границ, явный "беспредел", безусловно, нужно отслеживать. Так что определение границ возможной полезности, все же необходимо, но - именно как область, точно не удовлетворяющую никого из потенциальных пользователей, возможно, классифицируемых по типам аудитории. Возраст домена к этому точно не имеет отношения.

С позиций определения возможных границ полезности стоит подходить вообще к любым критериям ранжирования: с какого момента они применяются или вообще не учитываются.

Сюда же относится и переоценка роли "геозависимости" результата выдачи для интереса пользователя и т.п. Тоже можно сказать о такой оценке как "доверие". Яндекс же сегодня пытается делать такие оценки вместо самого пользователя на основе обезличивающих усредненных выборок.

Дизайн сайта, профессионализм исполнения, безошибочность кода и текста - не являются определяюще важными для конкретного интереса пользователя при запросе, и то, что он ищет, может никак не коррелировать или совершенно неоднозначно коррелировать с этими факторами

Почему именно все это оказывается надуманным и избыточным станет ясно ниже.

6. Среди множества надуманных фичей, проблем, “Колдунщиков” и “Графов знаний” особенно показательно использование "поисковой истории и предпочтений пользователя" - это то, что всерьез раздражает пользователей, когда после заказа авиабилетов на курорт или покупки шубы жене их начинает преследовать контекстная реклама и измененный рейтинг поисковой выдачи на давно закрытую тему. Предполагать, что пользователь имеет раз и навсегда определенные хотя бы в каком-то промежутке времени предпочтения - значит вообще не учитывать реальные особенности мотивации в поиске, которые постоянно меняются даже у фанатов компьютерных игр или сексоманов. Это вносит ощутимый вклад в абсурд поисковой выдачи.
Конечно, с контекстной рекламой все не так просто, о чем предупреждается на ресурсе http://justwe.ru/adv/: она имеет множество настроек и нюансов.

Итак, "Релевантность найденных страниц заданному запросу Яндекс определяет полностью автоматически — с помощью сложных формул, учитывающих тысячи свойств запроса и документа." Подробнее: http://company.yandex.ru/rules/ranking/

Любой серьезный ученый совершенно ясно способен показать, почему именно попытка учесть "тысячи свойств" в условиях бесконечного разнообразия запросов в связанных с ними контекстов задачи пользователя с позиции его личного интереса - это лишь создание видимости порядка в выдаче и никогда не может оказаться адекватно желаемому для пользователя.

Но убедительнее всего - реальные результаты сравнения позиций одних и тех же страниц по одним запросам в разных поисковиках. Объяснять это можно как угодно, но объяснения и понимание сути явления - совершенно разные вещи (и вот почему).

Это похоже попытку организовать ИИ компьютерной игры, накручивая все больше условий, но так и не получая в самом деле достоверность имитации интеллекта персонажей. Вот такой путь напролом без понимания сути проблематики, принципов смыслообразования и адаптивности в зависимости от меняющихся условий просто не имеет шанса привести к желаемым результатам.

А вот декларированный Яндексом принцип, приближающий алгоритм выдачи к желаемому результату:

По запросам, которые не подразумевают явно потребность в эротическом контенте, Яндекс ранжирует сайты для взрослых ниже или вообще не показывает их в результатах поиска. Дело в том, что ресурсы с эротическим контентом часто используют достаточно агрессивные методы продвижения — в частности, они могут появляться в результатах поиска по самым разнообразным запросам. С точки зрения пользователя, который не искал эротики и порнографии, «взрослые» результаты поиска нерелевантны, и, к тому же, могут шокировать. Более подробно об этом принципе можно почитать здесь.
К этому и корректная постановка проблемы:

Иногда по запросам пользователей невозможно определить, какой ответ ему подойдет. Например, человек, задавший запрос [пушкин], возможно, ищет информацию о поэте, а возможно — о городе. Подробнее: http://company.yandex.ru/rules/ranking/

Но пока что здесь реализованы даже не полумеры, а лишь некие наметки в верном направлении.

К сожалению, понимание принципов адаптивности поведения к изменяющимся условиям - требует очень серьезных усилий и длительной предварительной подготовки, хотя и доступно тем, кто пожелает встать на этот путь: Гид по механизмам психических явлений.

Поэтому здесь будут использоваться уже конечные выводы, не вызывающие сомнения. В частности, для задачи распознавания однозначного смысла поискового запроса и соответствия ему выдачи, необходимо грамотное использование контекстов понимания.

Самое главное для обеспечения адекватности выдачи - понимание конкретного смысла запроса конкретного человека, а это означат, что, кроме собственно поисковой фразы необходимо выяснить и то, в каком контексте она запрашивается, что и придает ей определенный смысл. В том числе и контекст: "мне нужны тексты, содержащие вот такой фрагмент", на что сегодня поисковики, кроме найденных текстов с точным соответствием, выдают огромное количество бессмысленных для пользователя страниц.

Понять, какой именно материал хочет получить человек, забивший слово: "козлы" невозможно, но поисковик с помощью сложных формул, учитывающих тысячи свойств, пусть даже и зависимых от запроса формул, все равно пытается это сделать, вызывая раздражение огромным числом страниц в выдаче.

Если бы вопрос был задан человеку, тем более специалсту-библиографу, то он, распознав совершенно неподъемную многозначительность, обязательно задал бы наводящие вопросы и, достаточно однозначно поняв смысл вопроса, предложил бы желаемое.

Яндекс это понимает, конечно же: "Иногда по запросам пользователей невозможно определить, какой ответ ему подойдет. Например, человек, задавший запрос [пушкин], возможно, ищет информацию о поэте, а возможно — о городе.", но ничего не предпринимает, а тупо выдает все, согласно некоей своей мегаформуле, что приводит к неадекватности выдачи. Да, есть ссылка на "расширенный поиск", но ей пользуются только мизерный процент пользователе и она никак не обеспечивает однозначность смысла запроса. В то же время организовать систему, "на лету" уточняющую смысл запроса, не так уж сложно как технически (не зря же есть ajax, наконец) так и принципиально.

Ставшее уже каноничным представление о том, что "нельзя перегружать пользователя сложной навигацией" проигрывает представлению, что качество выдачи - важнее, и за такую подсказку люди с удовольствием зацепятся.

Те же пользователи, которые не последуют оперативной подсказке для уточнения запроса, должны бы получать не кучу наваленных страниц самых разных контекстов, а первыми страницами выдачи должны быть уточняющие разделы иерархии контекстов, один из которых нужно выбрать (возможно, что с графом включаемых подконтекстов, но лучше - еще страницу этих подконтекстов).

В запросе принципиально необходимо определять контекст - ту область представлений, которая придает смысл конкретному запросу и предает зависимый смысл в выдаваемых поисковиком страницах. Без этого попытка среагировать на многозначительный (некорректный) запрос неизбежно приводит к абсурдному результату.

Организация системы уточнения контекста - наиболее простая технически и структурно задача для поисковиков, которая должна быть решена для организации полноценной системы адекватного реагирования.

Любой пользователь с готовностью и пониманием последует предлагаемым уточнениям потому, что это напрямую соответствует его цели, если показывать, какое море информации сопровождает неоднозначность (например, показывая цифру количества страниц, соответствующих запросу для каждого контекста). Конечно, тут нельзя переигрывать и утомлять излишними придумками, нужен оптимум, который достигается обучением системы (та самая поведенческая адаптивность или же ее достаточно эффективный и более жесткий суррогат).

Более сложно может оказаться при индексации страниц относить их к какому-то из контекстов (это - не просто тематика). Кроме того, что по ключевым словам и терминам (в данном случае, термины - слова, имеющие относительно ограниченное понимание в данной области представлений) можно классифицировать страницы сайта при индексации.

Для уточнения такой классификации, создателям страниц можно предложить возможность прямо указать иерархию контекстов страницы, в виде списка, от наиболее важного к менее значимому для тематики страницы (понятно, что поисковик будет учитывать эту иерархию значимости - для большого количества материалов данного контекста учитывать только самые важные, а для малого - все).

Ну а если на сайте нет разметки задания контекстов, то - только по имеющегося содержимому страницы, в контексте других страниц этого сайта - по его специализации. Яндекс уже давно делает что-то подобное и, возможно, хорошо развил такое распознавание, но не по контекстам понимания, а по тематикам.

Контекст отличается от темы тем, что одна и та же тема может присутствовать в самых разных контекстах: тема "о любви" - в контексте понимания эстетическом, общем научном, специфическом научном (психофизиология, соматология, гормональная регуляция, социальные аспекты и т.п.). Иерархию контекстов создает сам поисковик, это - его адаптивная наработка, его навык классификации, обеспечивающий однозначность понимания, и он предлагает создателям страниц выбрать из этой иерархии то, чему страница соответствует в наибольшей степени (это будет самый значимый уровень), затем, если нужно, так же добавить менее значимые уровни. Было бы просто нирваной взаимодействия предоставить иэб-мастеру инструмент для разметки его страницы по контекстам с возможностью уточняющего редактирования, а не оставаться в привычно-обычной оппозиции.

А пользователю, который ввел неоднозначный запрос, может предлагаться та наиболее общая часть иерархии, которая соответствует этому запросу с последующим уточнением после выбора.

В рамках же уточненного, однозначно понимаемого запроса возможно применение намного более облегченного алгоритма ранжирования, с учетом возможных дополнительных пожеланий пользователя (по желанию вначале могут идти новые, или - самые популярные или - самые длинные тексты и т.п.).

Я надеюсь, что, несмотря на очень лаконичное изложение, предлагаемый принцип теперь достаточно понятен, хотя здесь очень многое необходимо уточнять, но это сильно усложнило бы понимание. Можно развить систему уточнений запросов, дать выбор разных моделей и т.п. Это - наработки поисковика.

Понятно, что никаких мегаформул при этом уже не используется, так же как нет неоправданной жесткости требований к страницам сайтов. Все перечисленные порблемы так же исчезают. Главный результат - максимально довольны пользователи, получающие более обозримый и желаемый набор страниц, а не миллионы "найденных страниц", из которых реально просматриваются только первые 2-5. Так же довольны оказываются и создатели сайтов, более не гадающие о подчас абсурдных требованиях и фильтрах. Поисковик же использует куда меньшие ресурсов для организации в самом деле адекватной желанию пользователя выдачи.

О том, как возможно организовать адаптивность алгоритма выдачи в зависимости от оценки желательности результатов выдачи на основе принципов природной реализации - отдельная большая и интересная тема. Попытки же создать "самообучающиеся автоматы", без понимания этих принципов, обречены на неудачи.

Конечно, не сталкиваясь напрямую с проблематикой организации поиска, я не могу в полной мере и многообразии представить себе все возникающие ситуации и специфику условий. Но, с другой стороны, специалисты по поиску явно не дотягивают до понимания системной организации адаптивного алгоритма, а, судя по фактическим реализациям алгоритмов ранжирования, не всегда, мягко говоря, должным образом моделируют ситуацию для прогноза последствий. Так что есть резон в консолидации усилий.

Попытки внедрения аналогов:

Российская компания ABBYY реализовала разработанную ею технологию Compreno

...возможности «понимать» не только формальное содержание, но и смысл текста.

....система анализирует не просто ключевые слова, но и контекст, в котором они упоминаются.

...Поисковый инструмент ABBYY автоматически проводит семантико-синтаксический разбор поискового запроса и выдает результаты, которые сразу соответствуют его смыслу.

Дополнительно:

История развития алгоритмов ранжирования Яндекс

Алгоритм ранжирования Янндекса 2014

Принципы ранжирования поиска Яндекса

Организация механизмов психики

О дружественности политики Яндекса

Обсуждение