НОРМАЛИЗАЦИЯ БАЗ ДАННЫХ

Основные математические понятия

Пусть имеются множества А и В. Отношение А R В указывает на связь между отдельными элементами этих множеств. Различают рефлексивные отношения А R А (связи между элементами одного и того же множества), транзитивные (опосредованные связи) и т. д. На практике используется некоторая смысловая интерпретация связей между множествами и кардинальных чисел этих связей (т. е. числа элементов в экземпляре связи). Множества могут соответствовать атрибутам или типам записей. Связи могут быть функциональными, т. е. удовлетворяющими определению математической функции. Кардинальные числа связей используются также для определения типа отображения между парами множеств.

Для всех функциональных связей справедливо, что атрибут (или сущность), являющийся областью определения, однозначно определяет атрибут (или сущность) области значений. (Например, «если вы назовете стоимость дома, то можно однозначно определить его тип».) Говорят, что атрибут области определения определяет атрибут области значений, или иначе — что последний зависит от первого. Это приводит к понятию функциональной зависимости в теории баз данных. Функциональные зависимости играют большую роль в проектировании баз данных. Армстронг выделил некоторые свойства функциональных зависимостей и сформулировал их в виде аксиом. Эти аксиомы называются также правилами вывода, так как, используя их, можно вывести или получить из известных функциональных зависимостей ряд других. Это важно при проектировании и исследовании баз данных. Были сформулированы следующие правила вывода.

Основные правила:

1) Рефлексивность. Пусть задано множество Х и У Î Х, тогда Х ® Х или Х ® У. Это тривиальные функциональные зависимости, означающие, что множество определяет любое свое подмножество.

2) Транзитивность. Если Х ® У, У ® Z, то Х ® Z.

3) Дополнительность. Если Х ® У и Х Î W, то W ® Y

 

Следствия из основных правил:

1) Аддитивность (объединение). Если Х ® Y и W ® Z, то ХW ® УZ, или X ® Y и X ® Z, то Х ® YZ.

2) Проективность (декомпозиция). Если Х ® YZ, то Х ® Y и X ® Z

3) Псевдотранзитивность. Если Х ® У и YW ® Z, то XW ® Z.

 

Функциональные зависимости выражают семантику (т. е. смысл) базы данных. В любой момент непосредственно доступна только семантика, выраженная заданными функциональными зависимостями. Однако с помощью правил вывода можно получить дополнительную информацию или знания о базе данных, которые не сформулированы явно и не очевидны из доступной информации.

 


В реляционных базах данных схема содержит как структурную, так и семантическую информацию. Структурная информация связана с объявлением отношений, а семантическая выражается множеством известных функциональных зависимостей между атрибутами отношений, объявленных в схеме. Однако некоторые функциональные зависимости могут быть нежелательными из-за побочных эффектов или аномалий, которые они вызывают при модификации базы данных. В связи с этим возникает вопрос о корректности представленной схемы. Корректной считается схема, в которой отсутствуют нежелательные функциональные зависимости. В противном случае приходится прибегать к процедуре, называемой декомпозицией (разложением), при которой данное множество отношений заменяется другим множеством отношений (число их возрастает), являющихся проекциями первых. Цель этой процедуры—устранить нежелательные функциональные зависимости (а следовательно, и аномалии), что составляет суть процесса нормализации. Другими словами, нормализация – это пошаговый обратимый процесс замены данной схемы (или совокупности отношений) другой схемой, в которой отношения имеют более простую и регулярную структуру.

В теории нормальных форм определяются различные нормальные формы, которые ограничивают типы допустимых функциональных зависимостей отношения. Как уже было сказано, для приведения отношения к какой-либо нормальной форме прибегают к декомпозиции. При этом мы сталкиваемся с проблемой обратимости, т. е. возможности восстановления исходной схемы. Это означает, что декомпозиция должна сохранять эквивалентность схем при замене одной схемы на другую. Для обеспечения эквивалентности схем необходима декомпозиция, гарантирующая отсутствие потерь и сохраняющая зависимости. Декомпозиция без потерь гарантирует обратимость, т. е. получение исходного множества отношений путем применения последовательности естественных соединений над их проекциями. При этом в результирующем отношении не должны появляться ранее отсутствовавшие кортежи, являющиеся следствием ошибочного соединения. Сохранение зависимостей подразумевает выполнение исходного множества функциональных зависимостей на отношениях новой схемы.

Обеспечение отсутствия потерь и сохранения зависимостей при декомпозиции требует знания всех возможных функциональных зависимостей, имеющихся в данной схеме. Вначале известно лишь их подмножество, но можно получить все остальные, пользуясь рассмотренными выше правилами вывода функциональных зависимостей.

При нормализации базы данных используют следующую терминологию. Атрибут, входящий в первичный ключ, называется первичным; в противном случае он называется непервичным. Функциональная зависимость А ® В называется полной функциональной зависимостью, если В зависит от всей группы атрибутов А, а не от ее части (подмножества). Например, если А = А1, А2, ..., Аk и А1, А2 ® В, то функциональная зависимость В от A неполная.

Ниже мы рассмотрим нормальные формы от первой до пятой, включая нормальную форму Бойса – Кодда. Для обозначения нормальных форм используются сокращения 1НФ, 2НФ, 3НФ, НФБК, 4НФ, 5НФ. Первая (1НФ), вторая (2НФ) и третья (3НФ) нормальные формы ограничивают зависимость непервичных атрибутов от первичных ключей. Нормальная форма Бойса – Кодда (НФБК) ограничивает также зависимость первичных атрибутов. Четвертая нормальная форма (4НФ) формулирует ограничения на виды многозначных зависимостей, обсуждаемых ниже. Пятая нормальная форма (5НФ) вводит другие типы зависимостей, называемых зависимостями соединения.

Уровень нормализации отношения зависит от его семантики и не может быть однозначно определен из данных, содержащихся в текущий момент в базе данных. Это означает, что семантика должна быть задана с помощью функциональных зависимостей.