И проблемы технические

Вычислительные машины не сразу нашли широкое применение в информационном поиске. Причиной этому послужила высокая стоимость и низкая эффективность работы первых ИПС. Однако такое положение длилось не долго. Прогресс вычислительной техники сделал применение ЭВМ к поиску научной информации не только целесообразным с точки зрения эффективности поиска, но и выгодным экономически.

Автоматизированные ИПС (АИПС), реализованные на ЭВМ, появились на рубеже 60-х годов. Уже в 1961 г., по данным Центра по обработке научной информации Евратома, из 121 ИПС, созданных в разных странах мира, 16 были реализованы на ЭВМ. За прошедшие годы число АИПС неизмеримо возросло. Стремительным был и качественный рост АИПС, обусловленный с одной стороны, быстрым совершенствованием технических средств, с другой — развитием теоретических работ в области информатики.

Роль технических средств в обработке научной информации настолько велика, что само становление и развитие информатики связывают с ходом работ по механизации и автоматизации процессов обработки информации. В развитии информатики в связи с этим можно проследить три периода.

Первый период (1950-е годы) связан с первоначальными исследованиями и опытно-конструкторскими разработками, получившими широкое признание и заложившими здание современной информатики.

В течение второго периода (1960-е годы) в широких масштабах началось промышленное внедрение АИПС. К концу периода потребителей обслуживали сотни крупных информационных систем различных типов.

В настоящее время мы переживаем третий период развития информатики. В чем же его особенность?

Уже к концу 1960-х годов стала очевидной малая экономичность большого числа независимых (автономных) информационных систем, зачастую обрабатывающих сходными методами одну и ту же информацию для решения сходных задач. Продолжающийся рост объемов информационных массивов требовал дальнейшего снижения себестоимости информационных процессов.

В поисках решения возникших проблем выяснилось, что гораздо экономичнее хранить документ в памяти ЭВМ как бы разобранным на отдельные фрагменты и при необходимости предоставлять эти фрагменты потребителю в самых разнообразных и удобных для него сочетаниях.

Информационная система, построенная по такому принципу, фактически объединяет, интегрирует в себе сразу несколько информационных систем, предназначенных для выполнения только определенной функции.

Системы, которые при однократной исчерпывающей обработке документальных источников научной информации и однократном вводе результатов этой обработки в машину в дальнейшем позволяют многократно использовать эту информацию для решения самых разнообразных задач, называются интегральными информационными системами (ИИС). К задачам, решаемым с помощью ИИС, относятся:

ретроспективный поиск информации, при котором ИПС отыскивает документы с необходимыми сведениями, фактами во всем накопленном массиве таких документов, причем это делается по разовым информационным запросам, т. е. в режиме «запрос-ответ»;

избирательное распространение информации — поиск по постоянным запросам некоторого ограниченного числа потребителей (абонентов), который осуществляется через установленные промежутки времени только в массиве документов, поступивших в ИПС за этот период времени, причем между данной системой и ее абонентами постоянно поддерживается обратная связь;

подготовка реферативных журналов с различными указателями (авторскими, алфавитно-предметными и т. д.);

подготовка бюллетеней сигнальной информации, назначением которых является быстрое (не более 1—2 недель с момента получения оригиналов) оповещение потребителей обо всех новых публикациях по интересующим их отраслям (дисциплинам), проблемам или предметам.

Помимо этих основных функций многие ИПС выполняют различные вспомогательные операции, например, статистическую обработку ключевых слов с целью автоматизированного построения тезауруса, автоматический перевод на информационно-поисковый язык — автоматическое индексирование. При автоматическом индексировании ЭВМ сама выбирает наиболее подходящие для поискового образа документа термины из его текста (для осуществления автоматического индексирования в память ЭВМ приходится вводить полные тексты рефератов документов).

Появление интегральных информационных систем — важная, но не единственная сторона процесса интеграции обработки научно-технической информации. Другой стороной этого процесса было объединение при помощи каналов связи отдельных информационных систем в комплексы — так называемые сети.

Разработка теоретических принципов построения информационных сетей различного Уровня и назначения и их практическое создание составляют содержание третьего, современного периода развития информатики.

Многофункциональные системы, какими являются ИИС, объединенные в сети, обеспечивают несравненно большую эффективность процессов обработки научной информации.

Три периода развития информатики достаточно точно совпадают во времени с периодом распространения очередных поколений ЭВМ (50-е годы — I поколение, 60-е — II, 70-е — III поколение), что еще раз свидетельствует об огромной роли средств вычислительной техники в реализации задач информатики. Здесь мы наблюдаем единство в развитии технических средств обработки информации и научной дисциплины, изучающей природу, свойства и распространение самого важного на сегодня вида информации — научной информации.

Какие же характеристики современного состояния вычислительной техники имеют первостепенное значение для решения задач информатики, выполнение которых «возложено» на автоматизированные ИПС?

Для потребителя информации при его взаимодействии с АИПС наиболее важным является форма обращения к ней и скорость, качество и форма выдачи ответа на запрос. Остановимся подробнее именно на этих моментах функционирования АИПС — вводе и выводе информации.

Ввод информации, в том числе и запросов потребителей, может осуществляться в настоящее время либо с промежуточных носителей (перфокарт, перфолент), либо путем непосредственного ввода сигналов, получаемых от технических средств через каналы связи, либо через устройства прямой связи человека с ЭВМ при помощи пультов.

Особенно интересным представляется третий способ ввода информации, так как после появления систем, работающих в режиме разделения времени (первые такие системы появились в 1963—1964 гг.), появилась возможность одновременного доступа к системе сразу нескольких пользователей, зачастую удаленных от ЭВМ на большие расстояния.

Режим разделения времени позволил пользователю вступить в непосредственный «диалог» с информационно-поисковой системой, используя для этого клавиатуру пишущей машинки: и запрос, и ответ системы на него печатались на бумаге.

Одним из наиболее удобных средств для связи человека с машиной являются экранные пульты — дисплеи. Но возможность работать с дисплеем не является единственным перспективным способом доступа пользователя к информации. Вывод информации из системы может быть осуществлен не только на экран, но и на традиционные носители, например на бумагу.

Для связи человека с машиной могут использоваться совокупности методов и технических средств копирования и размножения документов. Предположим, что система в ответ на запрос выдала (распечатала на бумаге, высветила на экране дисплея) названия тех документов, которые отвечают на запрос, может быть даже воспроизвела на экране весь текст нужного документа. Но как пользоваться в дальнейшем этой информацией? Выход один: снять с документа копию. Здесь на помощь приходят средства ретрографии. С помощью этих средств современные информационные системы копируют огромное количество документов. При этом скорости отдельных копировальных аппаратов могут достигать скоростей полиграфического оборудования (до 3600 копий/ч) при высоком качестве воспроизводимых копий.

Легкость воспроизведения документов породила, как ни странно, новую проблему. Если ученый или специалист получил от АИПС копии всех релевантных документов, то вряд ли он сможет решить проблему их хранения. Ведь это, по сути дела, те же самые документы, ведь копии-то выполнены на бумаге!

С течением времени человечество решило и эту проблему путем резкого уменьшения физического объема документов (копий документов) с помощью микрофильмирования. Этот способ хранения документов был известен почти сто лет назад. Уникальные практические возможности микроносителей продемонстрировал парижский фотограф Дагрон. В 1870 г. между французским правительством в Туре и осажденным прусскими войсками Парижем курсировала оригинальная почта. Телеграммы и письма в Париж пересылались на микропленке голубями. Письма проецировали на экран, с которого затем переписывали. Всего почтой Дагрона в осажденный город было доставлено более 115 тыс. телеграмм и около полумиллиона писем! Так микрофильм сдал экзамен на практичность. Однако в течение длительного времени микрофильм в силу ряда причин не находил широкого применения.

Достойное место среди других носителей информации микрофильм нашел в наше время, когда появились читально-копировальные аппараты, которые позволяют не только просмотреть микрокадр, но и получить увеличенную его копию на специальной бумаге. Такие устройства широко используются в крупнейших библиотеках и информационных центрах, например, в ГПНТБ СССР, Всесоюзной патентно-технической библиотеке.

В настоящее время документы на микроносителях составляют значительную часть фондов библиотек. Так, в Государственной библиотеке СССР им. В. И. Ленина ежегодно микрофильмируется 30 млн. книжных и журнальных страниц. В США в 1969 г. в фонде каждой научно-технической библиотеки в среднем на каждые 100 книг приходилось 28 микроносителей.

Главным преимуществом микрофильма является его малый объем. При достигнутых сверхвысоких кратностях уменьшения (до 150—250 крат), реализованных с помощью так называемых ультрамикрофиш или ультрафиш, стало возможным уменьшение в 62 500 раз! При таком уменьшении в пачке пленок форматом 75 X 125 мм и высотой 8 см можно разместить 1 млн. страниц текста!

Если фонд АИПС хранится в виде микрофильмов, то работа такой системы организуется следующим образом: с помощью ЭВМ определяются адреса релевантных документов, затем с помощью специального устройства эти документы отыскиваются по их адресам в массиве микрофильмов, а уже потом с них получают копии обычных размеров, либо просматривают на читающем устройстве. Если же массив документов хранится в АИПС на машинных носителях, например на магнитных лентах или дисках, то после непосредственного вывода информации на экран дисплея последний может быть сфотографирован. Так в настоящее время осуществляется вывод информации из ЭВМ на микрофильм.

Особое значение в этом плане приобретают скоростные микрофотопечатающие устройства типа «COM» (Computer Output Microfilm), обеспечивающие непосредственную регистрацию данных с ЭВМ на различного рода микрофильмы (рулонные микрофильмы, микрофиши и т. п.). Примером может служить скоростная микрофильмирующая система «СОМ-90» с производительностью 90 тыс. знаков в секунду. Такая скорость позволяет «печатать» за 1 минуту 300—500 страниц, каждая из которых содержит 64 строки по 132 знака.

При подготовке тиражных изданий в автоматизированных ИПС до последнего времени узким местом был набор, на который затрачивалась значительная часть технологического времени. В современных интегральных информационных системах сейчас используются быстродействующие фотонаборные машины высокой производительности. Например, машина Ultra — Digiset набирает текст со скоростью 8 тысяч знаков в секунду, машина IBM-2680—6 тысяч, а фотонаборная машина Linotron-1010 имеет быстроту действия до 100 тысяч знаков в секунду.

Совершенное техническое оснащение систем научной и технической информации требует и соответствующего уровня лингвистического обеспечения этих систем. Это особенно важно в период интеграции информационных систем, когда последние переходят к более тесному взаимодействию. Например, в настоящее время технически несложно организовать обмен информацией между автоматизированными системами при помощи машинных носителей. Предположим, сформированный в одной системе массив информации записывается на магнитную ленту, доставляется в другую ИПС, в массиве которой осуществляется поиск. Такой обмен информацией резко повышает эффективность систем. Однако он требует их совместимости. Это значит, что системы должны использовать сходные ИПЯ, математическое обеспечение, ориентироваться на определенную группу технических средств. В таких случаях особую сложность часто представляют лингвистические проблемы.

Автоматизированные информационно-поисковые системы широко применяются в народном хозяйстве нашей страны, осуществляя как ретроспективный поиск, так и текущее информирование потребителей.

Вот уже несколько лет в приборостроении функционирует автоматизированная система научно-технической информации (АСНТИ) «Реферат>, стержнем которой является автоматизированная информационно-поисковая система. АСНТИ «Реферат» обеспечивает все категории потребителей информацией документального характера по тематике отрасли и работает в режимах ретроспективного поиска и избирательного распространения информации.

Документальный фонд АСНТИ «Реферат» ежегодно увеличивается на 110—115 тыс. документов. Рефераты документов наносятся на специальные реферативные бланки, которые затем микрофильмируются. Поисковые образы и номера этих документов вводятся в память ЭВМ. В режиме избирательного распространения информации поиск проводится раз в месяц на массивах новых поступлений (10 тыс. документов). Процесс обслуживания включает: сбор и индексирование запросов, т. е. формирование их поисковых образов; ввод поисковых образов запросов в систему; поиск номеров соответствующих документов на ЭВМ; поиск микрофотокопии нужного реферативного бланка в автоматизированном накопителе микрофильмированной информации; изготовление копии реферативного бланка на бумаге; рассылку копий документов абонентам (по почте или с помощью средств оперативной передачи данных).

С 1973 г. обслуживание абонентов системы ведется на договорных началах. В 1976 г. АСНТИ «Реферат» осуществил обслуживание 274 коллективных абонентов. Система удобна тем, что в начале предоставляет потребителям рефераты документов, отвечающих на запрос, которые позволяют решить, нужно ли затребовать сам документ (его копию). Вполне возможно, что знакомство с полным текстом документа и не потребуется, ибо реферат содержит важнейшие данные о нем.

Примерами автоматизированных систем НТИ, находящихся в промышленной эксплуатации, могут быть система «АСИНИТ», функционирующая во Всесоюзном научно-техническом информационном центре (ВНТИЦентре), АСНТИ «Электротехника», обслуживающая многочисленных абонентов электротехнической промышленности. Эти системы насчитывают в своих поисковых массивах от 600 тыс. до 1 млн. документов. Ежегодный прирост массивов исчисляется сотнями тысяч документов.

В настоящее время в нашей стране в промышленной эксплуатации насчитывается более двух десятков крупных автоматизированных ИПС. Множество таких систем работает в экспериментальном режиме.

С каждым годом в области автоматизации обработки НТИ происходят заметные перемены.

Исследования* в области автоматизации процессов обработки НТИ интенсивно ведутся не только в нашей стране, но и во многих других странах мира, где создаются высокоэффективные информационные службы. Так, в США разработана автоматизированная система MEDLARS, которую часто называют прообразом систем будущего. Эта гигантская система, работающая в области медицины, ежемесячно «впитывает» в себя данные по 15 параметрам из 2300 медицинских журналов, которые издаются на земном шаре. Операции по вводу информации осуществляются как в США, так и еще в 9 странах — с которыми система соединена каналами прямой связи. В год эта система аккумулирует информацию из 20000 статей и 16000 монографий. Получить доступ к системе можно во многих городах США: терминалы установлены в десяти медицинских библиотеках, в 500 больницах, институтах и других учреждениях. Система имеет также региональные центры в различных странах мира. Например, автоматизированный центр биохимической информации в Швеции является региональным центром MEDLARS для скандинавских стран. Многоязычная структура массива системы позволяет использовать его в международном масштабе. Потребители получают возможность «беседовать» с системой, формулируя свои вопросы на естественном языке и в самой различной форме, касаясь самых различных аспектов медицины. Система MEDLARS имеет техническую базу, включающую ЭВМ IBM-370/155 и фотонаборные машины. Выпускаемое системой ежемесячное информативное издание содержит сведения более, чем о 14000 публикациях.

В 1976 г. завершилась автоматизация одной из старейших действующих систем информационного обслуживания — информационной службы Американского химического общества CAS (Chemical Abstracts Servise). В систему введена информация о 3,36 млн. химических веществ. Здесь обрабатывается около 14 000 периодических научно-технических изданий из 134 стран на 56 языках, патенты 26 стран и другие материалы. Ежегодно в систему поступает около 100 тыс. документов. Основой информационного обслуживания службы CAS является реферативный журнал по химии и химической технологии на английском языке. Выпускается ряд других информационных изданий. Наряду с периодическими изданиями, эта служба издает инструкции, руководства, справочники, а также сборники рефератов, ориентированных на небольшие группы потребителей, поскольку благодаря высокой степени автоматизации и механизации подготовка и издание таких сборников стали экономически выгодными. Все издания готовятся к печати с помощью фотонабора на базе ЭВМ.

С 1970 г. вступила в действие созданная по инициативе СССР и США Международная система ядерной информации (INIS), объединившая национальные информационные системы по атомной науке и технике. В 1972 г. система обрабатывала около половины мировой литературы в этой области знаний. Тематический охват системы весьма обширен: ее тематика сейчас включает практически все разделы мирного использования атомной энергии.

Крупные информационные органы (CAS — США, Excerpta Medica Foundation — Нидерланды и другие) в последнее время перешли к распространению подготовленных в централизованном порядке информационно-поисковых массивов на магнитных лентах.

Автоматизация, внедряясь в сферу обработки научной и технической информации, увеличивает «управляемость» информационных потоков, способствует установлению контроля человека над ними.

Плюс аналитико-синтетическая обработка!

Автоматизация процесса поиска документов в огромных массивах современных информационных центров и библиотек не избавляет потребителей информации от неприятностей, связанных с информационным кризисом. Парадоксально, но она... только видоизменила его. Если до применения автоматизированных ИПС потребитель терялся среди огромной массы ненужной информации, то ЭВМ обратила его внимание на поток, максимально отвечающий его потребностям. Но, к сожалению, информации все же слишком много, чтобы успевать просматривать ее, оставляя время хотя бы для сна.

Информационный кризис не был бы принципиально преодолим вообще, если бы научная информация не обладала важнейшим свойством — кумулятивностью. Так, содержание научной статьи может быть кратко изложено в реферате, многие пространные выводы сведены до лаконичных математических формул. Достижения науки были бы гораздо скромнее, если бы каждый ученый не мог воспользоваться теми знаниями, которые накоплены обществом до него, если бы он открывал законы природы заново. И поскольку воспользоваться этими знаниями, а следовательно, и внести в прогресс что-либо новое невозможно без обращения к научным документам, то каждое поколение ученых занято не только получением новых научных данных, но и специальной работой по систематизации, оценке и обобщению научной информации, которая и основана на ее кумулятивности. Такая работа основана, с одной стороны, на анализе научной информации, с другой — на синтезе новой информации. Поэтому эта работа называется аналитико-синтетической обработкой (АСО) информации. Ее можно сравнить с той, которую проводят пчелы, собирая нектар с тысяч цветов и превращая в конце концов его в целебный мед.

Извлечь из документа его основной смысл, как это делается при составлении рефератов, обобщить информацию, содержащуюся в десятках публикаций в одном сжатом обзоре — вот задачи аналитико-синтетической обработки научных документов, решение которых позволяет не только уменьшить физический объем документов при сохранении их основного содержания, но и синтезировать новую информацию.

Наряду с автоматизацией процессов обработки документальной информации большое внимание уделяется и АСО: растет количество всевозможных обзоров, каталогов, указателей, реферативных журналов, пользование которыми значительно облегчает труд ученых и специалистов. Эти документы, созданные в результате аналитико-синтетической обработки других, называются вторичными.

Некоторые виды вторичных изданий могут быть подготовлены автоматически (авторские, предметные указатели и т. д.). Однако основной формой документа, отражающего результаты анализа и синтеза информации, является обзор. Подготовка обзоров, в том числе высшей их формы — аналитических обзоров, разумеется, под силу только высококвалифицированным специалистам. Существуют и объединяющие их усилия организации, которые выполняют работу по подготовке обобщенной научно-технической информации. Они получили название центров анализа научно-технической информации.

В начале шестидесятых годов в нашей стране были созданы информационные органы, которые осуществляли аналитико-синте-тическую переработку источников информации и подготавливали на этой базе информационные издания, содержащие фактографические данные. В настоящее время свыше 30% информационных органов предприятий •группы машиностроительных отраслей имеют в своем составе подразделения анализа и обобщения информации, укомплектованные специалистами по тематике предприятия.

Подразделения анализа информации успешно развиваются, прежде всего, в составе отделов НТИ крупных головных институтов, однако в ряде организаций такие подразделения являются самостоятельными отделами головных НТИ, использующими фонды и справочный аппарат ОНТИ.

Наиболее крупные центры анализа и обобщения информации действуют в составе отраслевых и подотраслевых информационных органов.

Деятельность центра анализа информации позволяет руководству принимать обоснованные управленческие решения на информационной и экономической основе, существенно повышать уровень разработки планов — от годового до перспективного. Совершенно исключительное значение имеет эта деятельность для прогнозирования развития отрасли.

За рубежом также уделяется большое внимание деятельности центров анализа и обобщения информации. Небезынтересно отметить, что, по данным США, эффект от деятельности центров анализа информации составляет 4,2 доллара на 1 доллар затрат.

Итак, по мере нарастания потоков научной и технической информации человечество предпринимает все более энергичные меры, чтобы уберечь мир от информационного хаоса. За короткий срок — каких-нибудь тридцать лет — технические средства обработки научно-технической информации претерпели революционные изменения.

В результате на сегодняшний день потребитель информации располагает целым арсеналом средств, позволяющим ему эффективно ориентироваться в потоках информации. О появившихся новых публикациях по интересующей его проблеме ему сообщит бюллетень сигнальной информации. Поближе познакомиться с новинками он может, просмотрев реферативный журнал, причем если его интересуют публикации определенных авторов или публикации по узким конкретным вопросам — к его услугам авторский, предметный и другие указатели, обычно прилагаемые к журналу. Потребитель может непосредственно взаимодействовать с автоматизированной ИПС при поиске как документальной, так и фактографической информации. Наконец, весьма ценную информацию он почерпнет из обзорных документов, подготовленных наиболее квалифицированными специалистами той области знаний, в которой он работает. Если представить себе потребителя информации погруженным в своеобразную «информационную среду», из которой он черпает необходимую информацию, то надо признать, что в настоящее время она стала для него гораздо более «комфортной». Однако, как известно, «комфортность информационной среды» требует от общества весьма значительных затрат. Можем ли мы, например, ожидать, что по любому выбранному нами тематическому направлению мы обязательно встретим обзорный документ? Конечно, нет. Вторичные документы обзорного характера должны быть рассчитаны на широкий круг потребителей и посвящены ключевым вопросам науки и техники.

Выбрать эти ключевые вопросы, точно рассчитать силы и средства для обеспечения максимального эффекта от аналитико-синте-тической обработки документов, как и от автоматизации обработки документальной информации, можно только в том случае, если регулировать эти работы в государственном масштабе.

В нашей стране эти функции возложены на Государственную систему научно-технической информации.