Средства и методы выражения информационной потребности

Фактически в ИПС всегда происходит преобразование содержательного пользовательского запроса, сформулированного на естественном языке, в поисковое предписание для осуществления системой поиска по формальным критериям. Поисковое предписание, помимо терминов, описывающих содержательную сторону запроса, содержит также набор операторов, управляющих поиском, и другие формальные характеристики. Обработка запроса включает как формальные, так и семантические операции. Процесс анализа и преобразования запроса на естественном языке в формализованное поисковое предписание, соответствующее выше описанной структурной схеме, в общем случае сводится к следующим операциям:

1) минимизация текста запроса (удаление неинформативных и избыточных терминов);

2) лексикографическая обработка терминов в системах с фиксированным ИПЯ (замена терминов дескрипторами или кодами классификатора);

3) морфологическая нормализация оставшихся терминов запроса в системах без лексического (лексикографического, словарного) контроля;

4) пополнение набора лексических единиц поискового предписания синонимами и нижестоящими лексемами (дескрипторами) при поиске на “точность”, а также ассоциативными терминами (дескрипторами) при поиске на полноту;

5) определение структуры запроса и расстановка в явном виде поисковых операторов;

6) дополнение поискового предписания требованиями на оформление выдачи.

И если первые три операции суть формальны и сравнительно легко формализуемы (автоматизируемы), то следующие две относятся к сфере семантики и реализуются, как правило, на уровне пользователя.

Определение структуры запроса заключается в выделении основных аспектов запроса (подтем) и формулировании логики поиска. Аспекты запроса, по сути, представляют собой основные и вспомогательные понятия, выраженные в формулировке запроса. В дескрипторных ИПС эти понятия выражаются с помощью дескрипторов, в классификационных – посредством индексов. В системах бестезаурусного типа содержание запросов, так же как и документов, выражается с помощью слов естественного языка. При этом говорят о ключевых словах, т.е. таких лексических единицах, использование которых существенно с точки зрения содержания документа и запроса. Слова, несущественные с этой точки зрения, в запрос не включаются. К ним относятся служебные части речи: предлоги, союзы, местоимения, а также незнаменательная лексика, задаваемая списком. Кроме того, имеется класс полнозначных слов, которые встречаются в слишком большом количестве документов и которые в определенных случаях также могут быть отнесены к стоп-словам (например, «компьютер», «Web», «Интернет» в тематической ИПС по новым технологиям, слово «история» в базе данных по истории, и т.п.). Пример такого отрицательного словаря (словаря «стоп-слов») дается в приложении 2.

Как правило, предметы документов и запросов выражаются существительными и субстантивными словосочетаниями. Аспекты запроса, уточняющие главную тему (предмет), могут выражаться и другими частями речи (прилагательные, причастия и глаголы, при этом вместо глаголов рекомендуется использовать отглагольные существительные). При подборе ключевых слов желательно также знать и учитывать их частотные характеристики – как в языке (подъязыке), так и в конкретном поисковом массиве. В некоторых системах эти характеристики можно получить непосредственно из системы.

Понятие может выражаться в языке с помощью различных слов и словосочетаний. Поскольку тема запроса и ее аспекты – это суть имена понятий, и мы не знаем, каким способом это понятие будет выражено в искомых документах, то необходимо в запросе «развернуть» все гнездо близких по смыслу слов и словосочетаний, описывающих это понятие (синонимы, синонимичные выражения). В первую очередь это относится к вербальным ИПЯ, но и дескрипторные ИПЯ не решают полностью проблему различий в языке авторов документов и пользователей. Для этой цели рекомендуется опираться как на личный опыт пользователя, так и на различные лексикографические пособия (дескрипторные словари и информационно-поисковые тезаурусы, вне зависимости от типа системы, словари синонимов, лексические тезаурусы, терминологические словари и т.п.).

В информационно-поисковых тезаурусах, как минимум, явно выражены два отношения: синонимия и иерархия. Второе отношение, называемое также «род–вид», «выше–ниже», «шире–уже», в ряде случаев также целесообразно раскрывать в информационном запросе в явном виде. То есть, видовые термины могут рассматриваться как поисковые синонимы к родовому – и в этом случае возрастает полнота выдачи. В ряде случаев использование видовых терминов позволяет решить проблемы, возникающие в связи с многозначностью терминов. Например: пусть имеется запрос «Цветная фотография». Аспект «цветной» в этом случае раскрывается с помощью ключевого слова «цветной», а в качестве синонимов к нему можно добавить «полихромный», «многоцветный». Если имеется запрос «Цветные карандаши», то в качестве синонимов к ключевому слову «цветной» имеет смысл приписать названия отдельных цветов: красный, синий, желтый и т.п.

В качестве поисковых синонимов используются также ассоциативно связанные термины. Так, при строительстве домов существенную роль играет фундамент. Поэтому данное слово можно использовать как поисковый синоним к терминам «строительство домов», «домостроительный». В некоторых случаях при подборе лексики для поискового предписания выясняется, что часть имеющихся терминов раскрывает дополнительный смысловой аспект запроса. Этот аспект в явном виде в формулировке запроса может не присутствовать. Так, для запроса «Управление промышленными роботами» значимыми лексическими единицами могут оказаться термины, раскрывающие (или дополняющие) аспект «управление» в плане способов его осуществления: «команда», «перемещения», «движение», «ориентация» и т.п. Эти лексические единицы являются более узкими понятиями по отношению к термину «управление». Поэтому для получения более точной выдачи подобная лексика, относящаяся к «неявным» смысловым аспектам запроса, может включаться в поисковое предписание как условный синоним к термину «управление» (через оператор OR) или как как дополнительный аспект (через оператор AND).