Понятие и состав языка запросов

Информационный запрос – это словесное выражение определенной информационной потребности. Запросы анализируются по своему предметному содержанию и описываются в терминах, отобранных из контролируемого словаря конкретного ИПЯ. Как известно, процедура собственно поиска состоит из поочередного сопоставления поискового образа каждого документа с поисковым образом запроса и вычисления (по установленным правилам) их соответствия (степени соответствия). Если такое соответствие имеется, то документ, соответствующий данному поисковому образу запроса, считается релевантным (т. е. отвечающим (предположительно!) на данный информационный запрос) и подлежит выдаче.

Обычно считают, что индексирование и поиск являются зеркальными отражениями друг друга. При индексировании содержание документов каким-то образом описывается или представляется. Со стороны поиска пользователь формулирует информационную потребность в виде пользовательского запроса или поискового предписания. Затем эти два представления документа и запроса сопоставляются в блоке поиска. На самом деле отношение симметрии между индексированием и поиском является кажущимся, поверхностным. Опыт пользователя кардинально отличается от опыта индексатора, т.к. пользователю предстоит описать что-то ему еще не известное, т.е. некий «пробел» в его знаниях. Это приводит к неточности в описании информационной потребности или к описанию более широкой тематической области. При этом, естественно, словарь пользователя и словарь индексатора не совпадают. Это противоречие является одной из центральных проблем информационного поиска.

Далее: индексатор обычно не знает или не задумывается над критерием смыслового соответствия, в то время как для пользователя это знание обязательно и критерий тем или другим способом входит в понятие «язык запросов».

Языки запросов представляют собой сложные объекты и объединяют собственно ИПЯ и критерий смыслового соответствия, а также могут содержать в себе требования к интерфейсу выдачи. Обобщенная структурная модель языка запросов включает следующие элементы:

1. Собственно поисковые элементы (термины, выражающие информационную потребность, и т.п.).

2. Средства морфологической нормализации текстовых элементов запроса.

3. Поисковые (булевские) операторы.

4. Средства линейной грамматики (операторы расстояния, позиционные операторы).

5. Дополнительные условия поиска:

- поиск в определенных полях (частях) документа;

- ограничение области поиска по языку, региону, дате создания документа;

- и т.п.

6. Средства управления критерием смыслового соответствия.

7. Требование на сортировку (ранжирование) выдаваемых результатов поиска.

8. Требования к форме представления результатов поиска:

- вид выдаваемых результатов;

- количество выдаваемых документов;

- и т.п.