Инструменты нелинейного поиска и построение связей.

Составление запросов для систем линейного поиска.

Работа с линейными поисковыми системами подразумевает определенные навыки в составлении запроса. Традиционные языки запросов подразумевают выбор ключевых слов, указание на их обязательное наличие или отсутствие в текстах, положение ключевых слов относительно структуры текста (например, в заголовке или в самом теле документа) и относительно друг друга (расстояние между словами, последовательность употребления, жесткость словосочетаний, нахождение внутри одного предложения, одного документа и пр.).

В профессиональных системах линейного, или универсального, поиска возможности дополнительных параметров значительно расширены. Например, в системе «Гарант» реализована уникальная технология поиска через «Энциклопедию ситуаций». Пользователь формулирует запрос, используя привычные ему термины, система «переводит» запрос и в течение нескольких минут предоставляет ответ. В «Интегруме» реализованы следующие уникальные возможности – поиск с опечатками или вариантами написания, поиск по фамилии, имени, отчеству, когда умная система находит в текстах все формы употребления фамилии, имени, отчества, которые могут соответствовать заданному, даже уменьшительные. Например, если вы ищете человека с фамилией Александров и инициалами А.Ю., то, задав эти параметры при поиске с включением нужной функции, получите документы, где упоминается Шурик Александров, Алексей Юрьевич Александров, Антон Александров, Александров Автандил Юлианович, А. Александров и т.д.

В материалах проекта «Гардарика» поисковикам рекомендуется составлять тезаурусы в зависимости от конкретных интересов и пополнять их постоянно, по мере выявления новых терминов в ходе работы. Более адекватной представляется структура тезауруса в виде семантических срезов, где для каждого основного термина отдельно строится таблица сопутствующих слов и слов шумовых (которые не должны встречаться в источнике). Это весьма актуально для журналистов, работающих по одной теме, но, прежде всего этот совет относится к пользователям общедоступных поисковых систем. Профессиональные системы более специализированы и поэтому могут предложить пользователю готовые тезаурусы и типовые запросы.

Особую ценность для профессиональных журналистов и поисковиков представляют системы, позволяющие выбирать данные о связях между объектами. Именно построение связей, систематизация фактов и является конечной задачей поисковика. В некоторой степени эту задачу можно автоматизировать. Так, например, в «Интегруме» разработан инструмент, позволяющий выбирать из текстов отдельных документов информацию вида человек – должность – организация (ФДО). Фактически ФДО – это база данных, в которой хранятся объекты «человек» и «организация», связанные отношением «занимать должность». Другими словами, это база, из которой можно узнать, в каких организациях (и на каких должностях) работал определенный человек и какие люди (и на каких должностях) работали в определенной организации. База позволяет также получить все документы, из которых была почерпнута соответствующая информация.

Производными от ФДО являются сервисы «Коллеги?» (поиск общих мест работы для двух человек) и «Связанные организации?» (поиск общих сотрудников для двух компаний).

Сходные функции имеет разработанный компанией Xanalys инструмент анализа связей Quenza. Он позволяет получать и накапливать данные из текстов о людях, событиях и организациях и идентифицировать связи в пределах этих данных. Quenza работает с информацией, сохраненной в MS Word, PDF, электронной почте и формате HTML. Безусловный интерес для профессионалов представляет инструмент визуализации анализа информации Watson, разработанный той же компанией Xanalys. Watson позволяет в графической форме выявлять связи между внешне не связанными наборами данных. Например, Watson дает возможность накладывать информацию о транзакциях из одного файла на информацию о телефонных переговорах из другого файла. Полученная в результате база данных позволяет запрашивать информацию о соответствующих связях. Развитие технологий и объемы информации, которую приходится перерабатывать журналистам и профессиональным поисковикам, требуют появления новых и новых инструментов для ее оптимальной обработки, поэтому здесь мы приводим лишь отдельные примеры наиболее оригинальных инструментов. К средствам нелинейного поиска также можно отнести инструменты рейтингов и статистики. Так, например, «Медиалогия» предоставляет клиентам инструмент расчета индексов отношения прессы к персонам, компаниям или торговым маркам, «Интегрум» позволяет автоматически определять персон, лидирующих в информационном поле дня, не по заранее заданному списку, а выбирая из СМИ все упоминания о физических лицах.

Самые продуктивные результаты, как уже говорилось в начале данного раздела, дает совмещение онлайновых и офлайновых методов и инструментов работы с информацией.