Поисковые операторы и структура запроса

Большинство систем сегодня базируется на булевой (логической) модели поиска. Запрос в этих системах представляет собой булево выражение – набор поисковых терминов, объединенных логическими операторами с учетом правил поискового синтаксиса. Булевское выражение в результате сравнения его с документом всегда получает значение «истина» или «ложь». Если «истина» – документ признается релевантным запросу, если «ложь» – нерелевантным.

Во всех системах обработка булевских выражений ведется слева направо с учетом иерархии булевских операторов: первым выполняется оператор NOT, затем AND, затем OR. Однако в подавляющем большинстве случаев логическая формула запроса представляет собой конъюнктивную нормальную форму – конъюнкцию дизъюнкций (AND-выражение, объединяющее OR-группы). В этом случае порядок обработки запроса должен быть изменен: в начале обрабатываются OR-группы, т.е. вычисляется значение истинности для каждой OR-группы (аспекта запроса), затем – для всего запроса в целом (AND-выражение). Поэтому OR-группа должна быть заключена в скобки. В свою очередь, каждая OR-группа может представлять собой сложное выражение. Например, поисковое предписание по теме «Исследование и анализ информационных потоков» может выглядеть следующим образом:

[Исследование OR Анализ OR Модель OR (Количественная and мера) OR Критерий OR (Ранговое and распределение) OR (Закон and Ципфа) OR (Закон and Бредфорда) OR Параметр OR Цитируемость OR (Частотное and распределение) OR (Распределение and Лотки) OR (Показатель and рассеяния) OR (Частота and терминов)]

AND

[(Информационный and поток) OR (Документальный and поток) OR (Периодическое and издание) OR (Продолжающееся and издание) OR (Рассеяние and информации) OR (Распределение and публикаций) OR (Поток and публикаций) OR (Массив and публикаций)]

Пример упрощенный: на самом деле словосочетания, заключенные в круглые скобки, представляют собой не простые AND-выражения внутри OR-групп, а устойчивые словосочетания, задаваемые специальными контекстными операторами (условно показаны как and строчными буквами).

***