Инструменты линейного поиска.

Глава 3. Инструменты поиска.

Глава 2. Мир платной информации.

Навигация по источникам.

Источники информации.

1999–2000 1999 2000

Законодательная власть 56,6 39,1

Исполнительная власть 83,7 76,8

Правоохранительные, судебные органы 46,2 53,6

Госпредприятия 48,4 58,0

Коммерческие структуры 22,9 36,2

Финансовые структуры 17,9 34,8

Партии и общественные организации 34,6 31,9

Информационные органы 37,5 47,8

Частные лица 39,7 56,5

 

Количество источников информации, которые могут пригодиться в работе профессиональному поисковику или журналисту, так велико, а классификации их так разнообразны, что выбор был бы невозможен, если бы не каталоги, перечни и другие средства навигации в информационном пространстве, а также профилированные базы данных, объединяющие едиными инструментами поиска иногда сотни тысяч источников.

Простейший способ навигации – вопрос к компетентному коллеге. Как правило, в каждом издании существует уже сложившийся круг источников, которыми принято пользоваться. Обращение к справочной литературе также служит ориентиром в море источников. Однако опять же следует отметить, что готовые списки быстро устаревают. Представляется более целесообразным пользоваться профессиональными онлайновыми ресурсами, где актуальность списков поддерживается редакцией или самими посетителями. Навигаторами могут быть также специализированные ресурсы, оповещающие о появлении новых источников информации в новостийном режиме.

Чаты и форумы, особенно профессиональные, также могут служить делу навигации в информационном поле – значительное количество посетителей обращается к сообществу с вопросом, где бы найти нужную информацию. В этом случае ответ будет содержать не только ссылки или названия, а также характеристики источников, но не будут гарантированы полнота или компетентность.

Общего закона навигации по информационным источникам не существует. Отвечая на вопрос, где об этом можно узнать, каждый выбирает свой путь, определяемый особенностями поисковой задачи, фантазией, логикой, компетентностью и связями с окружающим миром.

Однако существуют системы, объединяющие порой сотни тысяч источников, с практически идеальной навигацией. Речь идет о базах данных как источниках информации для профессиональных журналистов.

 

Разговор о базах данных обязательно должен коснуться темы платной информации. Связь проста – базы данных есть продукт серьезного профессионального труда. Чем выше профессионализм создателей базы, чем большие массивы информации им удалось обработать и подготовить для хранения, чем совершеннее инструменты поиска и обработки информации, которые сопровождают базу, тем выше ценность базы, но тем выше и цена обращения к базе. Поэтому, базами пользуются в основном профессиональные поисковики и журналисты. Большинство серьезных изданий подписаны на следующие текстовые базы данных.

• «Лексис-Нексис» – крупнейшая полнотекстовая политематическая электронная библиотека, инструменты и информационные ресурсы которой позволяют решать любые поисковые задачи. Ресурсы системы баз данных LexisNexis, созданной в 1968 г., насчитывают более 33000 информационных источников (более 3,5 млрд. документов) с глубиной архива до 30 лет для бизнес-информации и более 600 лет для юридической информации. Общий объем информации в LexisNexis – около 30 терабайт. Еженедельно в архивы LexisNexis ложится 18 млн. документов из самых разных сфер – бизнеса, экономики, политики, науки, юриспруденции в Европе, Америке, Азии, Австралии, Африке и Тихоокеанском регионе. LexisNexis включает: финансовые отчеты и прогнозы о компаниях во всем мире, аналитические исследования по странам и регионам, маркетинговые отчеты, подготовленные наиболее известными коммерческими и государственными компаниями; более 20000 постоянно обновляемых полнотекстовых периодических источников деловой и юридической информации, включая специальную и отраслевую прессу, информагентства; законы, судебную практику, юридическую информацию США, ЕС, Великобритании, Франции, Канады, Австралии, Новой Зеландии, Китая, РФ и других стран; более 6,5 млн. патентов, поданных в Бюро Патентов США с 1790 г.; более 100 баз данных о сотнях миллионов компаний мира и др.

• «Интегрум» – российская компания, которая ведет единый электронный архив всех русскоязычных открытых источников информации и предлагает клиентам доступ к архиву в комплексе с уникальными инструментами поиска и обработки данных. «Интегрум» располагает крупнейшим в мире массивом русскоязычных документов в электронном виде. Это старейшая компания России, занимающаяся сканированием информационного пространства. Круглосуточно базы «Интегрума» пополняются материалами прессы, радио и ТВ, открытыми документами коммерческих и государственных структур, материалами интернет-сайтов, адресно-справочными базами данных – более 10000 документов ежедневно, включая и электронные версии только что вышедших из печати документов и архивные массивы. На момент написания этого текста в хранилищах «Интегрума» насчитывалось 257,45 млн. документов, а объем баз составлял 896,79 Гбайт. В отличие от большинства платных поисковых систем, работающих либо со СМИ, либо с узкотематическими базами данных, «Интегрум» аккумулирует электронные версии любых текстовых документов и документы, относящиеся к любым общественно значимым темам.

• Публичная интернет-библиотека – специализируется на предоставлении услуг «в области отечественной периодики и исходя из этого решает следующие основные задачи: создание архива публикаций центральных и региональных периодических изданий, предоставление массового доступа к нему, организация справочно-библиографического обслуживания пользователей, исследование рынка СМИ. Основной фонд библиотеки составляют публикации отечественных газет и журналов. Фонды хранятся на бумажных носителях и в электронном виде.

• «Лабиринт» – электронная БД, включающая комплекс справок по политической и экономической жизни России. На апрель 2004 г. включала в себя 34500 справок общим объемом 211 Мбайт: 21685 биографий российских политиков, чиновников, бизнесменов; комплексные справки по 89 субъектам Российской Федерации (1869 справок) и материалы по региональным выборам; свыше 1000 справок по федеральным органам власти; 1470 справок по коммерческим структурам; 1810 справок по политическим организациям. 1373 справки по федеральным выборам 1993–2004 гг.

• «Гарант» – компьютерная справочная правовая система. Полный объем информационного банка системы «Гарант» более 1000000 документов и комментариев к нормативным актам, еженедельное пополнение составляет около 4000 документов. Это специализированные правовые блоки по всем разделам федерального законодательства и 132 правовых блока по законодательству субъектов Федерации. В системе «Гарант» представлено законодательство 77 регионов Российской Федерации, а также практика 10 федеральных арбитражных судов.

• «Кодекс» – интернет-версия профессиональных юридических и специализированных систем «Кодекс». Банк данных нормативно-правовой, нормативно-технической и специализированной информации для всех сфер деятельности, включающий более чем 700000 документов. Система представляет в том числе базы данных по арбитражной практике и нормативно-технические документы (ГОСТы, СНиПы, СанПиНы, ЕНИРы и т.п.) по различным отраслям: строительство, топливно-энергетический комплекс, электроэнергетика, торговля, библиотечное дело и т.п. Кодекс предоставляет также образцы правовых и деловых документов, формы отчетности в той или иной области, консультации юристов и аудиторов, словари юридических и бухгалтерских терминов, ежедневные обзоры законодательства России, Москвы, Санкт-Петербурга, проекты нормативно-правовых документов и новости о них, электронную юридическую библиотеку, Большую Российскую юридическую энциклопедию и др.

• AK&M-LIST. База данных содержит полную информацию о деятельности предприятий, банков и финансовых компаний, а также подробную информацию обо всех сегментах финансового рынка. Объединяет все данные о российском фондовом рынке и компаниях-эмитентах за период с 1993 г. по настоящее время. Веб-интерфейс AK&M-LIST позволяет получить доступ к информации этой базы данных через сеть интернет (www.disclosure.ru).

В числе наиболее популярных баз данных, доступных в онлайновом режиме. «Лексис-Нексис» и «Интегрум» заслуживают отдельного внимания, так как фактически являются гипертекстовыми, аккумулируя документы различного типа, включая в себя массивы других баз данных, в том числе и не имеющих электронных версий вне «Лексис-Нексис» или «Интегрум».

По сути, база предполагает, что часть поисковой работы уже выполнена – материалы собраны по тематике, разложены в определенной последовательности и снабжены каталогом, который позволяет легко ориентироваться в информационном пространстве базы, снабжены инструментами поиска и обработки информации, а также часто дополнительными видами сервиса.

Доступные бесплатно в онлайновом режиме фрагменты такого рода баз, как правило, отличаются от платного массива отсутствием последних обновлений, наиболее актуальной информации или наиболее ценных источников.

Выбирая между платными и бесплатными источниками, следует учесть и еще один момент – бесплатные поисковые машины типа Яндекса и Google предоставляют журналисту не материал, а лишь ссылку на страницу, где он находится. Однако может оказаться, что попасть на страницу нельзя – хранение бесконечно больших объемов информации, кроме того бесплатное архивирование даже одного сегмента глобальной сети, например рунета, несколько раз в сутки попросту невозможно. В то же время базы данных гарантируют бессрочное хранение информации в том виде, как она поступила в базу.

В ряде сетевых ресурсов, куда приведет журналиста общедоступная поисковая машина, существуют сложности с идентификацией текстов – определением даты создания материала, автора или первоисточника (например, при перепечатке), и найденная интересная «новость» может оказаться не такой уж новой. В базах данных, как правило, дата, автор и источник восстановлены и указаны, и наличествуют гарантии правовой чистоты материалов.

Безусловно, поисковый аппарат баз данных (язык поиска, поля описания материалов, структура базы) создан с учетом особенностей базы и материалов, которые в ней содержатся. Глобальные поисковики работают с разными материалами сети на общих принципах.

Итак, основные отличия поиска в платных базах данных от бесплатных источников: гарантии доступа к материалу и совершенство инструментов. Следовательно, журналист или поисковик, определяя, пользоваться ему платными или бесплатными ресурсами, может выбирать по следующим параметрам: охват источников, глубина архивов, уровень «шума», полнота документов, а также доступность материалов и время на доступ.

Кроме платных баз данных существуют также отдельные платные источники – информационные агентства, газеты, журналы, аналитические издания, ресурсы, занимающиеся маркетинговыми или социологическими исследованиями и т.д. Как правило, они предлагают действительно эксклюзивную информацию. Среди крупнейших российских источников платного контента можно назвать РБК, Интерфакс, РИА «Новости». Однако перед тем как платить за доступ к такого рода источнику, следует выяснить, не поступают ли его материалы в глобальные базы данных, чтобы не платить дважды и получить доступ сразу к максимальному количеству источников.

Платным является большинство ресурсов мультимедийной информации, которая также может потребоваться журналистам как онлайновых, так и традиционных изданий в целях получения информации, а также для иллюстрации текстов.

Говоря о платных источниках, нельзя не упомянуть о существовании так называемых «серых» баз. По сути, эта информация в момент появления на рынке уже открыта, но необходимо отметить, что такие серые базы даже при условии, что диск, на котором они записаны, не имеет брака, не гарантируют полноты и актуальности данных и не имеют профессионального инструментария.

 

Инструменты поиска и обработки информации могут существовать как отдельно от источников (например, общедоступные поисковые машины или специальные программы), так и внутри баз данных. Встроенные инструменты позволяют работать только с содержимым базы, но зато результат этой работы отличается, как правило, высокой четкостью.

Значительная группа поисковых инструментов предназначена для линейного поиска информации, т.е. для обнаружения в текстах (а именно с текстами работают поисковые машины, даже если поиск идет по базе видеосюжетов или фотографий) фрагментов, аналогичных заданному.

К таким инструментам относятся прежде всего общедоступные поисковые машины.

Среди поисковиков наибольшей популярностью в рунете пользуются Яндекс, Google и Рамблер. Мировой лидер Google в среднем дает больше ссылок на запрос, так как у него шире охват индексируемых страниц, но у Яндекса в целом выше релевантность. Рамблер превосходит конкурентов по ценности как рейтинговая система, позволяющая осуществлять не только поиск информации, но и поиск источников с одновременной их оценкой – по тематике и степени их авторитетности, популярности.

Выбор поисковой машины – дело субъективное и определяется по результатам поиска опытным путем. При выборе следует внимательно изучить возможности расширенного поиска, который предлагают глобальные поисковые системы. Именно условия составления поискового запроса определяют степень «зашумленности» результата.