Модуль 2.3 Волновая оптика

Классификация поисковых систем

Процесс поиска информации

Когда пользователь хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую запрос на необходимую ему информацию. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

Затем база данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит список соответствующих документов, подготовленный базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее адекватные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако, основные принципы определения адекватности следующие:

· Количество слов запроса в текстовом содержимом html-страниц;

· Тэги (разделители, которые используются для разметки информации в html-страницах), в которых эти слова располагаются;

· Местоположение искомых слов в документе;

· Удельный вес слов, относительно которых определяется адекватность, в общем количестве слов документа.

Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными.

Время – как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует сайтов, которые живут максимум месяц. Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.

Индекс цитируемости – как много ссылок на данную страницу с других страниц, зарегистрированных в базе поисковой системы.

База данных выводит ранжированный подобным образом список документов и возвращает его пользователю, сделавшему запрос. Различные поисковые механизмы также выбирают разные способы показа полученного списка – некоторые показывают только ссылки; другие выводят ссылки с первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ссылкой.

Существует несколько видов классификации поисковых систем. Приведём некоторые из них.

1. По способу реализации

· Уникальные поисковые, которыеиспользуют собственные оригинальные механизмы поиска и базы данных. К ним относятся, например: Я́ндекс, Google.

· Мета-ситемы (также называемые метакраулером или мульти-поточной системой), представляющие собой поисковый инструмент, посылающий запрос одновременно на несколько поисковых систем, каталогов и, иногда, в так называемое невидимое (скрытое) - собрание онлайновой информации, не проиндексированной традиционными поисковыми системами. Собрав результаты, мета-поисковая система удаляет дублированные ссылки и, в соответствии со своим алгоритмом, объединяет/ранжирует результаты в общем списке. К ним относятся, например: Metabot.ru, Nigma, Search.com.

2. По национально-территориальной направленности.

Большинство национальных поисковиков при реализации механизма поиска в основном индексируют ресурсы, расположенные в тех доменных зонах, где доминирует национальный язык или другими способами ограничивают своих роботов национальными сайтами. Они также учитывает морфологические особенности национального языка.

Здесь важным является понятие национального корпуса языка.

Национальный корпус – это информационно-справочная система, основанная на собрании текстов в электронной форме. Национальный корпус представляет данный язык на определенном этапе существования во всём многообразии жанров, стилей, территориальных и социальных вариантов и т.п. Например, национальный корпус русского языка – http://www.ruscorpora.ru. Корпус русского языка – это собрание грамматически размеченных русских текстов XIX–XXI вв. в электронной форме, удобной для автоматического поиска и научных исследований. В его состав входят тексты самых разных жанров, причем не только произведения художественной литературы, но также – в сбалансированном объеме – научные, научно-популярные, религиозные и иные сочинения, публицистика, производственно-технические, юридические и многие другие тексты. Благодаря этому Корпус максимально представительно отражает русский литературный язык во всем многообразии его письменных форм. Объём корпуса русского языка к началу 2007 года составил около 120 миллионов словоупотреблений.

3. По специализации.

Например: поиск изображений, поиск файлов, поиск новостей и т.п.