Машинные библиографические форматы

Машинные библиографические форматы также являются языками описания данных, но они уже гораздо больше ориентированы на автоматизированный поиск. Это перечни структурных элементов и правила их оформления, объединения, сочетания – т. е., опять же, словарь и грамматика. Необходимость обмена машиночитаемой информацией поставила задачу унификации машинных форматов, разработанных в разных системах, в разных странах, в разное время, на разной технике. В результате появились специальные коммуникативные форматы обмена библиографической информацией. Основу им положили форматы MARC (Machine-Aided Readable Cataloging) и ISO-2709. На базе ISO-2709 в СССР был разработан форматы ГКФ (Государственный коммуникативный формат) МЕКОФ (Международный коммуникативный формат), представленный двумя ГОСТами: “Коммуникативный формат для обмена библиографическими данными на магнитной ленте. Структура записи” и “Коммуникативный формат для обмена библиографическими данными на магнитной ленте. Содержание записи”. ISO-2709 также лежит в основе наиболее распространенных современных форматов UNIMARC и USMARC (новое название MARC21). В конце 1990-х годов на базе формата UNIMARC был разработан RUSMARC.

Рассмотрим кратко формат UNIMARC. Это международный коммуникативный формат, предназначенный для обмена библиографическими данными в машиночитаемой форме. UNIMARC определяет структуру и наполнение библиографических записей в машиночитаемых базах данных. Структура каждой записи включает МАРКЕР ЗАПИСИ, СПРАВОЧНИК и ПОЛЯ ДАННЫХ. 24-символьный маркер записи, в числе прочего, содержит элементы, описывающие структуру справочника и полей данных. Справочник представляет собой перечень статей – список полей. Каждая статья справочника состоит из трех частей: метка поля, относительный адрес поля в записи и длина поля. Поля данных переменной длины следуют за справочником и содержат библиографические данные. Метки не содержатся в полях данных, а приводятся только в справочнике. Каждое поле имеет свое обозначение (определитель содержания, имя) со своей «морфологической» структурой (метка, индикатор), причем каждый элемент этой структуры имеет свою семантическую нагрузку (ср. различные типы морфем в естественных языках). Располагаются эти элементы в различных частях машинной записи (метка – в справочнике, индикатор – в начале поля, внутри поля). Кроме того, поля могут разбиваться на подполя, в начале каждого подполя ставится идентификатор. За идентификатором следуют собственно данные в кодированном или текстовом виде. Поле, состоящее из одного подполя, также содержит идентификатор.

В описании формата задается полный список всех возможных библиографических элементов данных (полей), которые могут использоваться для описания документов, т. е. мы имеем дело с фиксированным словарем классов лексических единиц языка. Описание каждого поля содержит семь пунктов: определение, наличие (обязательность и повторяемость), индикаторы, подполя, примечания о содержании поля, взаимосвязанные поля, примеры. Все поля сгруппированы в блоки по принципу семантической (библиографической) близости.

Пример описания поля «700 ИМЯ ЛИЦА – ПЕРВИЧНАЯ ИНТЕЛЛЕКТУАЛЬНАЯ ОТВЕТСТВЕННОСТЬ « см. в Приложении 3.

Приведем пример описания одной и той же книги в виде библиографической записи (библиографической карточки) (ЯБО) и в виде машинной библиографической записи в формате UNIMARC в упрощенном, схематическом виде (опущен маркер записи, не приводятся данные справочника – лишь метка условно показана в поле данных и т.п.) (первый столбец; второй столбец – комментарий).

Торбан, Инна Ефимовна.Мини-грамматика английского языка : Справочник. – [2-е изд., изм. и доп.]. – М. : ИНФРА-М, 1996. – 140 с. ; 17 см. – ISBN 5-86225-219-3 : 6000 экз.

I. Загл. — — 1. Английский язык. — Грамматика — Справочники учебные

Пояснение к таблице:знак # обозначает здесь (невидимый) пробел,знак $ обозначает первый (невидимый) символ идентификатора подполя (шестнадцатеричный код '1F').

Как видим, одно и то же содержимое (метаданные о книге И.Е.Торбан) на ЯБО и на языке UNIMARC выглядят по-разному. В отличие от обычного библиографического описания в UNIMARC каждый элемент данных в явном виде назван (имеет метку). Более того, несмотря на то что запись в формате UNIMARC описывает то же произведение печати, объем содержания заметно увеличился (причем следует учесть, что запись представлена в упрощенном виде). Появились элементы данных, относящиеся не к объекту описания, а к ситуации описания (например, поле 801, описывающее место составления записи (страна, организация) и дата составления записи). Появилось специальное поле (метка 100), содержащее закодированную информацию, предназначенную для поиска, и т.д. Отметим наличие в формате UNIMARC специальных полей поискового назначения. Так, например, элемент данных “автор” (поле 200$f) фактически повторяется в записи еще один раз в поле с меткой 700, предназначенном как раз для организации поиска в электронном каталоге. Для организации тематического поиска, с возможностью создания инвертированного файла, имеется целый набор специальных полей (блок 6).

Машинные библиографические форматы предназначены для записи метаданных о печатных изданиях и использования в автоматизированных библиотечных системах. В последние годы в них появились дополнительные поля, позволяющие описывать издания на носителях, отличных от бумаги (аудио-кассеты, видео-кассеты, диски CD-ROM и т.п.). Однако все больше документов создается в электронном виде и учитывается не в электронных каталогах библиотек, в различных информационных службах, размещенных в сети Интернет. В связи с этим встает проблема их унифицированного описания. Для этого вводятся дополнительные поля в машинные форматы и создаются метаязыки описания электронных документов. Один из них, наиболее распространенный, под названием Дублинское ядро (Dublin Core) рассматривается далее.