Нефть и песок О стали Компрессор - подбор и ошибки Из истории стандартизации резьб Соперник ксерокса - гектограф Новые технологии производства стали Экспорт проволоки из России Прогрессивная технологическая оснастка Цитадель сварки с полувековой историей Упрочнение пружин Способы обогрева Назначение, структура, характеристики анализаторов Промышленные пылесосы Штампованные гайки из пружинной стали Консервация САУ Стандарты и качество Технология производства Водород Выбор материала для крепежных деталей Токарный резец в миниатюре Производство проволоки Адгезия резины к металлокорду Электролитическое фосфатирование проволоки Восстановление корпусных деталей двигателей Новая бескислотная технология производства проката Синие кристаллы Автоклав Нормирование шумов связи Газосварочный аппарат для тугоплавких припоев
Главная страница / Архитектура отрасли

поиск в интернете : как правильно искать : семантический механизм поиска : как работают поисковики?

Интернет постепенно стал частью нашей повседневной жизни. Количество сайтов растет, и все меньше становится людей, которые при слове «сеть» недоумевающе пожимают плечами. Однако пока еще многие теряются, когда надо найти конкретную и сложную информацию. Она обязательно есть в киберпространстве, но путь к ней для неопытного пользователя лежит сквозь настоящие тернии.

Самый простой вариант информационного поиска в www-пространстве – когда пользователю известен уникальный сетевой адрес информационного источника (URL). В этом случае доступ к информации может быть ограничен только техническими параметрами, например скоростью и надежностью связи.

Но в большинстве случаев пользователь прибегает к помощи специальных поисковых инструментов. Чаще всего ими являются поисковые системы и каталоги. Анализ запросов показывает, что, как правило, пользователю приходится несколько раз переформулировать запрос, прежде чем найти искомый результат.

Каков семантический механизм «расширения» и «дополнения» запроса? Многие пользователи используют различные парадигматические связи между словами для уточнения запросов, в частности синонимы и варианты (например, замена запроса СВЧ-печь на микроволновка). Иногда к запросу добавляется слово (или несколько слов), обозначающее более общее, родовое понятие. Такая ситуация возникает, например, при расширении запроса аквариум (может относиться к предметам – аквариум для рыбок и к названию музыкального коллектива «Аквариум») с использованием более общего понятия «музыка» – аквариум-музыка.

К сожалению, не каждый пользователь способен самостоятельно переформулировать запрос таким образом, чтобы это привело к повышению релевантности найденных документов. Ниже рассматривается алгоритм, позволяющий с минимальными временными потерями уточнить запрос и получить нужную информацию.

Что такое ассоциативные запросы

В общем виде под «ассоциациями» или «ассоциативными запросами» можно понимать список слов и словосочетаний (запросов), который определенным образом связан с исходным запросом и формируется автоматически.

В поисковой машине компании Rambler такой список выдается на ответной странице вместе с результатами поиска. В режиме просмотра найденных документов, принятом по умолчанию, ассоциированные запросы расположены в нижней части ответной страницы, после всех найденных документов. Они снабжены заголовком «У нас также ищут...». Это сокращенный список запросов, тематически связанных с исходным. Пользователи, которые часто обращаются к ассоциациям, могут перейти к другому режиму просмотра найденного, в котором доступен полный список ассоциаций к исходному запросу. Его удобно просматривать, так как он находится в самостоятельной зоне слева.

Таким образом, каждый посетитель сайта поисковой системы имеет возможность сравнить свой исходный запрос с теми формулировками и вариантами запросов, которые использовали другие пользовасмысл запроса. Например, пользователь набирает запрос «отдых на Кипре» и получает список сайтов туристических агентств, а также тематических ресурсов, рассказывающих о регионе. Внизу страницы появляется строка: погода на Кипре, апартаменты отдых на Кипре, погода Кипр, отели на Кипре, детский отдых на Кипре... еще >>. Если кликнуть на слово «Еще», в левой части монитора возникает колонка, содержащая полный список ассоциаций.

Как формируются ассоциации

Когда пользователь, дав запрос x, сразу дает запрос y, можно предположить, что запросы x и y связаны между собой.

Если это предположение подтверждается в результате анализа запросов от других пользователей, т. е. мы видим, что не один, а несколько посетителей сайта после запроса x переходят к запросу y, то всем новым пользователям, подавшим запрос x, можно порекомендовать поискать еще и запрос y. И наоборот, поискавшим запрос y предлагается попробовать и запрос x.

Вероятность тематического совпадения запросов

x и y увеличивается, если они заданы подряд, поэтому при автоматическом формировании ассоциаций целесообразно учитывать именно пары «соседних» или непосредственно следующих друг за другом запросов. Что касается промежутка времени, то за единицу измерения можно принять одну отдельно взятую поисковую сессию. Если она слишком велика, имеет смысл ограничить временной промежуток формирования ассоциаций. Подбирается он экспериментально и редко составляет более 1,5 часа.

Механизм достаточно сложен, поэтому мы не будем приводить в этой статье математический алгоритм его работы. Важно то, что первый список, который получают программисты, нельзя демонстрировать широкой публике. Многие пользователи практически в каждой поисковой сессии дают запросы sex, porno, рефераты, Москва, знакомства и т. п. Получается, что в списке ассоциаций практически любого запроса в большом количестве присутствуют эти слова, их частотность и повторяемость достаточно высока. Поэтому на втором этапе ассоциации ранжируются. Последний этап формирования ассоциаций – фильтрация запросов, содержащих ненормативную лексику.

В чем польза

Механизм ассоциаций открывает массу новых возможностей как перед пользователями, так и перед web-мастерами. Прежде всего пользователь теперь может уточнить и детализировать свой запрос. Релевантность документов, которые выдает поисковик, значительно повышается. Ассоциации – это коллективный разум как на ладони. Неопытному посетителю киберпространства легко научиться правильно формулировать запросы, находя максимально короткий путь к конечной информации. Кроме того, пользователь получает больше информации по интересующей его теме.

Например, запрос «велосипеды» приводит к появлению ассоциаций: вело, детские велосипеды, горные велосипеды, продажа велосипедов, merida, велозона, веломир и т. д. Автоматически сформированный список содержит не только наименования различных типов велосипедовмарок и магазинов (велозона, веломир), брендов (merida) и т. д. В некоторых случаях ассоциации позволяют исправить допущенную в запросе ошибку (наиболее типичная – использование латинской раскладки клавиатуры для написания русского слова, и наоборот). Так, на запрос htathfns’ (рефераты) поисковик выдает подходящие ассоциации: рефераты по экономике/по истории/... доклады, курсовые и т. п. Более того, механизм ассоциаций дает возможность исправить самые распространенные орфографические ошибки.

Ассоциации – источник полезных данных о том, чем интересуются люди, посещающие те или иные сайты. Например, из списка ассоциаций по слову Nokia следует, что обладатели мобильных телефонов этой фирмы интересуются возможностью программирования мелодий. Следовательно, для повышения популярности сервера, посвященного мобильным телефонам, на нем надо разместить информацию по мелодиям для сотовых телефонов.

Если поисковая машина позволяет показать рекламный модуль под конкретные запросы или блоки запросов, рекламисты имеют возможность сузить круг пользователей, которым будет показана реклама (т. е. уменьшить ее стоимость), и увеличить эффективность кампании, более точечно воздействуя на потенциальных клиентов. Механизм ассоциаций предоставляет рекламисту информацию о том, «как думает» массовая аудитория. Эта информация очень ценна, поскольку подсказывает нужные решения и определяет целевую аудиторию. Например, аудитория канала СТС (пользователи, интересующиеся сайтом и чатом СТС) часто спрашивает «земфира, тату, руки вверх, ддт, britney spears и дельфин», а вот у аудитории MTV другие музыкальные пристрастия: «децл, eminem, limp bizkit, prodigy, сектор газа».

***

Таким образом, ассоциации – это потрясающий

источник информации о массовом сознании. Они интересны не только лингвистам, но и самим пользователям – для улучшения навыков поиска. Web-мастерам и рекламистам они позволяют повысить эффективность работы. В конце концов, любому человеку, попавшему в киберпространство, наверняка интересно узнать, о чем думают тысячи таких же, как он, искателей. Наберите в Рамблере слово «счастье» и посмотрите ассоциации – возможно, результат удивит вас.

Главная страница / Архитектура отрасли