Типология баз данных.
Классификация баз данных и информационных систем может быть произведена по разным признакам, относящимся к разным компонентам и сторонам функционирования информационных систем, среди которых выделяют следующие.
По форме представляемой информации можно выделить фактографические, документальные, мультимедийные, в той или иной степени соответствующие цифровой, символьной и другим формам представления информации в вычислительной среде. К. последним можно отнести картографические, видео-, аудио-, графические и другие БД.
По типу хранимой (не мультимедийной) информации можно выделить фактографические, документальные, лексикографические БД. Лексикографические базы — это классификаторы, кодификаторы, словари основ слов, тезаурусы, рубрикаторы и т. д., которые обычно используются в качестве справочных совместно с документальными или фактографическими БД. Документальные базы подразделяются по уровню представления информации на полнотекстовые (так называемые «первичные» документы) и библиографическо-реферативные («вторичные» документы, отражающие на адресном и содержательном уровнях первичный документ).
По типу используемой модели данных выделяют три классических класса БД: иерархические, сетевые, реляционные. Развитие технологий обработки данных привело к появлению постреляционных, объектноориентированных, многомерных БД, которые в той или иной степени соответствуют трем упомянутым классическим моделям.
По типологии хранения данных различают локальные и распределенные БД.
По типологии доступа и характеру использования хранимой информации БД могут быть разделены на специализированные и интегрированные (т.е. объединяющие в общей среде разнородные данные, хранимые возможно в разнотипных базах, но используемых для решения одной прикладной задачи).
По функциональному назначению (характеру решаемых с помощью БД) можно выделить операционные и справочно-информационные. К последним можно отнести ретроспективные БД (электронные каталоги библиотек, БД статистической информации и т. д.). Они используются для информационной поддержки основной деятельности и не предполагают внесения изменений в уже существующие записи. Операционные БД предназначены для управления различными технологическими процессами. В этом случае данные не только извлекаются из БД, но и изменяются (добавляются) в том числе в результате этого использования.
По сфере возможного применения можно различать универсальные и специализированные (или проблемно-ориентированные) системы.
По степени доступности можно выделить общедоступные и БД с ограниченным доступом пользователей. В последнем случае говорят об управляемом доступе, индивидуально определяющем не только набор доступных данных, но и характер операций, которые доступны пользователю.
Следует отметить, что представленная классификация не является полной и исчерпывающей. Она отражает сложившееся состояние дел в сфере разработки и применения баз данных.
БД могут соотноситься с различными уровнями информационных процессов: уровень информационных технологий (ИТ), уровень системы (ИС), уровень информационных ресурсов (ИР).
На уровне информационных технологий БД определяется как взаимосвязанная совокупность файлов ОС, содержащих данные о предметной области решаемой задачи. При этом основное внимание уделяется физической структуре БД.
На уровне информационных систем БД рассматривается как компонента, представляющая собой информационную модель предметной области. Здесь наиболее важной является проблема логической структуры БД.
При рассмотрении на уровне информационных ресурсов БД трактуется как элемент мировых ИР. Основной характеристикой здесь является содержание БД, хотя и структуры данных также немаловажны.
Лекция 4 (Базы данных)
Представление предметной области и модели данных
Темы: понятие предметной области, многоуровневые модели предметной области, модели данных, информационная модель данных, идентификация объектов и записей, поиск записей.
1. Понятие модели предметной области
Каждая информационная система в зависимости от ее назначения имеет дело с той или иной частью конкретного мира, которую принято называть предметной областью информационной системы. Анализ предметной области является необходимым начальным этапом разработки любой информационной системы. Именно на этом этапе определяются информационные потребности всей совокупности пользователей будущей системы, которые, в свою очередь, предопределяют содержание ее базы данных. Предметная область данной информационной системы рассматривается прежде всего как некоторая совокупность реальных объектов, которые представляют интерес для ее пользователей.
В теории БД объекты называют сущностями, а данные — атрибутами. Объект (или сущность) — это элемент реального мира, информация о котором сохраняется и обрабатывается, это нечто существующее и различимое, т. е. существуют название и способ отличать один подобный объект от другого. Например, каждый вуз — это объект. Объектами являются также человек, фирма, сплав, химическое соединение и т. д.
Объектами могут быть не только материальные предметы, но и более абстрактные понятия, отражающие реальный мир. Например, события, регионы, правовые нормы и проч.
Группа всех подобных объектов образует набор объектов. Например, наборами объектов могут быть группы в институте, фирмы, товары на складе т. п. Конкретный объект в такой группе называется экземпляром объекта. Информационная система оперирует наборами объектов, спроектированными применительно к данной предметной области.
Объект имеет различные свойства (например, цвет, вес, имя), которые важны для субъекта информационной системы в то время, когда он обращаемся к объекту (например, выбирает среди множества других) с какой-либо целью его использования. Причем свойства могут быть заданы как отдельными однозначно интерпретируемыми количественными показателями, так и словесными нечеткими описаниями, допускающими разную трактовку, иногда зависящую от точки зрения и наличных знаний воспринимающего субъекта. Например: «рейтинг», увлечения и темперамент человека и т. п. Рейтинг обычно выражается неким числом, однако это все-таки качественное данное, так как формируется чаще всего по субъективным оценкам.
Информационный объект — это описание некоторой сущности предметной области — реального объекта, процесса, явления или события. Информационный объект (сущность) образуется совокупностью логически взаимосвязанных атрибутов (свойств), представляющих качественные и количественные характеристики объекта (сущности).
Между объектами предметной области могут существовать связи, имеющие различный содержательный смысл. Эти связи могут быть обязательными или факультативными.
Если вновь порожденный объект оказывается по необходимости связанным с каким-либо объектом предметной области, то между этими двумя объектами существует обязательная связь. В противном случае связь является факультативной (необязательной)
Обязательная связь «ЗАМЕЩАЕТ» существует, например, между двумя объектами СОТРУДНИК и ДОЛЖНОСТЬ в предметной области кадровой информационной системы. Каждый принимаемый в организацию сотрудник зачисляется на какую-либо должность и не может быть сотрудника, не замещающею какой-либо должности. В то же время связь «ЗАМЕЩАЕТСЯ» между типами объектов СОТРУДНИК и ДОЛЖНОСТЬ является факультативной, поскольку могут существовать вакантные должности
Совокупность объектов предметной области и связей между ними характеризует (типовую) структуру предметной области.
Множество объектов предметной области, значения атрибутов объектов и связи между ними могут изменяться во времени Изменения могут сводиться к появлению новых или исключению из рассмотрения некоторых существующих объектов в предметной области, установлению новых или разрушению существующих связей между ними. Поэтому с каждым моментом времени можно сопоставить некоторое состояние предметной области.
Однако во всех случаях субъект, работая с информацией, имеет дело с абстракцией, представляющей интересующий его фрагмент реального мира — той совокупностью характеристических свойств (атрибутов), которые важны для решения его прикладной задачи. Атрибут (или данное) — это некоторый показатель, который характеризует некий объект.
Абстрагирование — это способ упрощения совокупности фактов, относящихся к реальному объекту. При этом некоторые свойства объекта игнорируются, поскольку считается, что для решения данной прикладной задачи они не являются определяющими и не влияют на конечный результат действий при решении.
Цель такого абстрагирования — построение рабочей модели, удобной в обработке как для субъекта, так и для машины, позволяющей организовать эффективную обработку больших объемов информации как вычислительной системой, так и взаимодействующим с ней субъектом. Модель предметной области соотносится с реальными объектами и связями так же, как схема маршрутов городского пассажирского транспорта с фактической траекторией движения автобуса. Схема адекватно отражает действительность на уровне основных понятий — маршрутов и остановок: выбрав по схеме маршрут, пассажир достигнет цели (прибудет на нужную остановку) независимо от того, в каком транспортном ряду будет двигаться автобус.
Обычно отдельная база данных содержит (отражает) информацию о некоторой предметной области — наборе объектов, представляющих интерес для пользователей. То есть, реальный мир отображается совокупностью конкретных и абстрактных понятий, между которыми существуют (и соответственно, фиксируются) определенные связи. Выбор существенных понятий и связей для описания предметной области (ПрО) является предпосылкой того, что пользователь будет иметь практически все необходимые ему в рамках задачи знания об объектах предметной области. Однако следует отметить, что пользователь, который хочет работать с базой данных, должен владеть основными понятиями, представляющими предметную область.
В этом смысле абстрагирование позволяет построить такую модель предметной области, которую любой пользователь сможет не только воспринять, но и безошибочно использовать для работы с описаниями экземпляров объектов, хранимых в базе данных.
2. Многоуровневые модели предметной области
Наиболее простой способ представления предметных областей в БД реализуется поэтапно. На первом этапе данные рассматриваются независимо от особенностей их хранения и поиска в конкретной вычислительной среде; на втором — определяется физическое представление данных с учетом выбранных структур хранения данных и архитектуры ЭВМ.
Абстрагированное описание предметной области с фиксированной (логической) точки зрения будем называть концептуальной схемой. Соответственно, систематизация понятий и связей предметной области называется логическим или концептуальным проектированием. Результатом абстрактного описания ПрОявляется модель данных, т.е. совокупность функциональных характеристик объектов и особенностей представления информации (например, в числовой или текстовой форме).
Отображение концептуальной схемы на физический уровень будем называть внутренней схемой. Соотношение этих понятий приведено на рис. 1.
Отражение точки зрения отдельного пользователя на концептуальную схему (как вариант восприятия предметной области) будем называть внешней схемой. Внешняя схема использует те же абстрактные категории, что и концептуальная, а на практике соответствует логической организации данных в прикладной программе. В общем случае для представления модели предметной области достаточно трех уровней.
2. Понятие модели данных
Практически любой объект характеризуется не только параметрами-величинами, но и взаимосвязями частей или состояний. При этом, одни объекты могут использоваться только как характеристики остальных объектов, другие — независимы и имеют самостоятельное значение.
Сам по себе отдельный элемент данных (его значение) ничего не представляет. Он приобретает смысл только тогда, когда связан с атрибутом (природой значения, что позволит интерпретировать значение) и другими элементами данных.
Поэтому физическому размещению данных (и, соответственно, определению структуры физической записи) должно предшествовать описание логической структуры предметной области — построение модели соответствующего фрагмента реального мира. Такая модель будет иметь очень мало физического сходства с реальностью, но будет полезна как представление пользователя о реальном мире. Причем это представление будет задаваться (описываться) удобными для пользователя средствами.
Таким образом, прежде чем описывать физическую реализацию объектов и связей между ними, необходимо определить:
1) способ, с помощью которого внешние пользователи представляют (описывают) объекты и связи;
2) форму и методы внутримашинного представления элементов данных и взаимосвязей;
3) средства, обеспечивающие взаимно однозначные преобразования внешнего и внутримашинного представлений.
При таком подходе пользователь, используя ограниченное множество формальных, но достаточно знакомых понятий, выделяя сущности и связи, описывает объекты и связи предметной области; программист (или система автоматизации проектирования БД), используя такие типовые абстрактные понятия (как например числа, множества, последовательности, агрегаты), определяет соответствующие информационные структуры. Система управления данными, используя двоичные формы представления типизированных данных, обеспечивает эффективные процедуры хранения и обработки данных.
Введение промежуточного уровня абстракции позволяет иметь раздельное описание логического и физического представлений, освобождает конечного пользователя от необходимости беспокоиться о деталях внутримашинного представления и обработки.
Модель данных должна дать основу для описания данных и манипулирования ими, а также дать средства анализа и синтеза структур данных.
Таким образом, модель данных — это базовый инструментарий, обеспечивающий на формальном абстрактном уровне конкретные способы представления объектов и связей.
Модель базы данных охватывает более широкий спектр понятий. Основное назначение модели базы данных состоит в том, чтобы:
Ø определить ясную границу между логическим и физическим аспектами управления базой данных (независимость данных);
Ø обеспечить конечным пользователям и программистам, создающим БД, возможность и средства общего понимания смысла данных (коммуникабельность);
Ø определить языковые понятия высокого уровня, обеспечивающие возможность выполнения однотипных операций над большими совокупностями записей (в общем случае разнотипных данных) как единую операцию (обработка множеств).
3. Информационная модель данных
Информационно-логическая модель (ИЛМ) — совокупность информационных объектов (сущностей) предметной области и связей между ними.
Рис. 2. Многоуровневое представление данных баз данных |
Процесс создания информационной модели начинается с определения концептуальных требований будущих пользователей БД.
Требования отдельных пользователей интегрируются в едином «обобщенном представлении», которое называют концептуальной моделью данной предметной области (рис. 2). Концептуальная модель отображает предметную область в виде взаимосвязанных объектов без указания способов их физического хранения. Концептуальная модель представляет интегрированные концептуальные требования всех пользователей к базе данных данной предметной области.
При этом усилия разработчика должны быть направлены в основном на структуризацию данных, принадлежащих будущим пользователям БД, и выявление взаимосвязей между ними.
Возможно, что отраженные в концептуальной модели взаимосвязи между объектами окажутся впоследствии нереализуемыми средствами выбранной СУБД. Это потребует изменения концептуальной модели. Версия концептуальной модели, которая может быть реализована конкретной СУБД, называется логической моделью.
Логическая модель отражает логические связи между атрибутами объектов вне зависимости от их содержания и среды хранения и может быть реляционной, иерархической или сетевой. Таким образом, логическая модель отображает логические связи между информационными данными в данной концептуальной модели
Различным пользователям в информационной модели соответствуют различные подмножества ее логической модели, которые называются внешними моделями пользователей. Таким образом, внешняя модель пользователя представляет собой отображение концептуальных требований этого пользователя в логической модели и соответствует тем представлениям, которые пользователь получает о предметной области на основе логической модели. Следовательно, насколько хорошо спроектирована внешняя модель, настолько полно и точно информационная модель отображает предметную область и настолько полно и точно работает автоматизированная система управления этой предметной областью.
Логическая модель отображается в физическую память, которая может быть построена на электронных, магнитных, оптических, биологических или других принципах.
Внутренняя модель предметной области определяет размещение данных, методы доступа и технику индексирования в данной логической модели и иначе называется физической моделью.
Информационные данные любого пользователя в БД должны быть независимы от всех других пользователей, т. е. не должны оказывать влияния на существующие внешние модели. Это первый уровень независимости данных. С другой стороны, внешние модели пользователей никак не связаны с типом физической памяти, в которой будут храниться данные, и с физическими методами доступа к этим данным. Это положение отражает второй уровень независимости данных.
Лекция 5 (Базы данных)