Технологии поиска информации

Геоинформационные технологии

Геоинформационные системы (ГИС) получили широкое распространение около 10 лет назад, хотя первые системы появились значительно раньше, к 70-м годам. Причина этого очевидна и заключается в возможностях современной компьютерной техники, позволяющей обрабатывать огромные массивы графической информации, требуемые для ГИС.

Геоинформационные системы могут найти применение в правоохранительных органах для решения следующих задач:

· планирование спасательных операций и охранных мероприятий;

· моделирование чрезвычайных ситуаций;

· навигация служб быстрого реагирования и других служб силовых ведомств.

Основными компонентами геоинформационной технологии являются графические и тематические (атрибутивные) базы данных, обладающие модельными и расчетными функциями для принятия на этой основе разнообразных решений и осуществления контроля. В графических базах данных хранится метрическая основа компьютерной карты. Атрибутивные базы данных содержат в себе описания территории и дополнительную информацию. Для работы с этими данными имеется одна или две системы управления данными (СУБД). Функции СУБД – поиск, сортировка, добавление и исправление информации в базах данных. Система вывода данных предназначена в для визуализации данных на экране в виде карт, таблиц, схем и т.п.

Система ввода отвечает за получение данных, источниками которых могут являться разнообразные электронные устройства (дигитайзер, сканер, электронные теодолиты и другие геодезические приборы). Информация может быть введена с клавиатуры вручную или получена из другой компьютерной системы [24].

На практике хорошо себя зарекомендовали такие ГИС, как ArcInfo и ArcView GIS (разработка США) и отечественная система GeoDraw[25].

В последнее 15 лет наметилась тенденция сбора и обработки неструктурированной информации. Доля структурированных данных (баз данных) в современных архивах составляет не более 20%, остальные же 80% приходятся на долю различных документов, текстов и другой информации, хранящихся в произвольном, чаще текстовом виде. Это обстоятельство существенно обострило проблему поиска и анализа данных.

Выделяют три группы методов поиска информации: методы индексного поиска, статистические методы и методы, основанные на базах знаний[26].

Индексный поиск применяется чаще всего. Он используется при поиске по текстовым полям баз данных и основан на формальном совпадении символов. Такой режим реализован в справочных правовых системах при поиске по тексту документа.

Системы индексного поиска имеют ряд существенных недостатков. Во-первых, они имеют низкую точность поиска. Это связано с тем, что один и тот же смысл может быть выражен различными словами: то слово, поиск которого задал пользователь, может отсутствовать в тексте. Во-вторых, система не может оценить, насколько точно смысл найденного документа соответствует поисковому запросу. Поэтому нужный документ может оказаться в конце списка найденных системой.

Статистические методы отличаются тем, что они исходят из предположения – чем чаще встречается слово в документе, тем в большей степени этот документ соответствует запросу. Документы с часто встречающимся искомым словом выводятся первыми, тем самым происходит ранжирование списка найденных документов, что существенно повышает эффективность работы. Однако остается проблема пропуска нужного документа, если его содержание выражается иными словами, чем введенными в запросе.

Системы, основанные на базе знаний. Такое название получили методы поиска, которые каким-либо образом учитывают смысловое значение искомого слова. Для этого чаще всего ищут не только заданное слово, но и те слова, которые ему близки по смыслу. Это реализуется путем использования словаря синонимов.

Более сложные системы основаны на так называемых лингвистических правилах. В таких системах осуществляется грамматический разбор и анализ исходных документов, что позволяет выявить слова, определяющие основную тему документа. По этим словам и осуществляется поиск, что в итоге позволяет найти документ, близкий к теме запроса.

Наиболее перспективным технологическим методом считается использование семантических сетей. Семантическая сеть отражает значение (смысл) не конкретного слова, а целой фразы. Для этого предметная область отображается в виде совокупности связанных между собой понятий. Понятия задаются не одним словом, а совокупностью слов, близких по значению. Такая базовая семантическая сеть поддерживается многоуровневыми структурами словарей по отдельным отраслям знаний.

При построении семантической сети используются сложные алгоритмы синтаксического, грамматического и морфологического разбора. Учитываются и устойчивые словосочетания, например, «подложный документ», которые воспринимаются как единое понятие. Реализуется распознавание разных значений слов.

Подход, основанный на построении семантических сетей, обладает достаточной гибкостью, доступен для расширения и не слишком громоздок при эксплуатации. Наиболее мощная и распространенная система данного типа – Convera компании Excalibur Technologies[27].