Цифровые технологии в записи, воспроизведении и хранении аудио данных.

 

Аналоговый метод звукозаписи достаточно точно передает первоначальную звуковую картину, однако он обладает рядом недостатков, причем основным недостатком является высокий уровень шумов и помех в записи. Шумы возникают из-за несовершенства материалов, из которых изготовлена лента, а также из-за постепенной «дезориентации» магнитных частичек в процессе хранения ленты, и некоторых других факторов. Кроме того, во время воспроизведения и записи лента движется несколько неравномерно, что приводит к эффекту детонации, а также создает проблему синхронизации записей с нескольких пленок. Искажения в аналоговой звукозаписи зачастую мешают восприятию звучания. Особенно ощутимы шумы, при прослушивании записей с большим динамическим диапазоном, поскольку их уровень оказываются иногда выше, чем уровень полезного сигнала. Как правило, эти искажения имеют широкий спектр, и поэтому просто нейтрализовать их на выходе не удается.

Цифровую запись можно представить как ряд чисел описывающих форму аналоговой волны. Секрет заключается в способе измерения этих числовых значений. Звуковая волна в каждой своей точке может иметь бесконечное множество значений, но мы можем сделать и зафиксировать конечное число замеров, то есть результаты наших измерений всегда будут приблизительны. Трюк заключается в снятии замеров через постоянные интервалы.

Для преобразования звука в цифровую форму, применяются специальные устройства - аналого-цифровые преобразователи (АЦП). Цифровой сигнал всецело зависит от качества АЦП, если преобразование произведено неудовлетворительно, то впоследствии для исправления положения придется затратить массу сил и времени.

Перед подачей на акустическую систему цифровой сигнал необходимо обратно преобразовать в аналоговый, для чего используются цифро-аналоговые преобразователи (ЦАП). Качество ЦАП также должно быть высоким, так как все достоинства цифрового сигнала могут сойти на нет, если звук будет воспроизведен через некачественный ЦАП. Низкий уровень шумов и устойчивость сигнала к помехам, являются преимуществами цифрового звука. Звуковая волна в цифровом виде представляет собой просто набор чисел. Эти числа могут свободно передаваться между медиа устройствами без каких либо искажений. Вспомним, что аналоговая запись при каждой перезаписи накапливала шумы и теряла качество. Другое преимущество цифрового звука – его гибкость. Цифровой сигнал можно легко редактировать на компьютере. С помощью математических моделей, цифровой звук можно как угодно модифицировать, придавая ему новые качества.

Цифровая запись не полностью описывает звуковую волну, а является приблизительной копией, состоящей из серии шагов. Некоторые звуки, имеющие очень быстрые переходы, такие как барабанная дробь или тон трубы, при оцифровке будут искажены, потому что они изменяются быстрее частоты семплирования.
Ваш проигрыватель преобразует цифровой сигнал CD или DVD-Audio в аналоговый и передаёт его на усилитель. Усилитель повышает напряжение сигнала до уровня достаточного для акустической системы. Запись на виниловой пластинке представляет собой вырезанные на диске углубления, которые повторяют форму звуковой волны. В результате сигнал с проигрывателя передаётся непосредственно на усилитель, миную этап конвертирование, что значительно уменьшает потерю и искажение информации. Это значит, что на виниловой записи форма волны может быть более точной, что отражается на достоверности и богатстве слышимого звука. Но есть и обратная сторона, любая пылинка или царапина на диске, привносит искажения в фонограмму. При воспроизведении тихих участков записи, шум от загрязнения или царапин может перекрывать полезный сигнал. Цифровые записи лишены этого недостатка и загрязнение или мелкие царапины на носителе не влияют на качество звучания. На рисунке выше, мы можем видеть, что CD, мягко говоря, не очень точно повторяет изначальную форму звуковой волны. Основные способы улучшения качества звуковой записи заключаются в повышении частоты и точности семплирования. ервой цифровой записи предшествовали многочисленные разработки ученых из самых различных прикладных областей математики, физики, химии. В 1937 году британский ученый Alec Reeves запатентовал первое описание импульсно-кодовой модуляции. В 1948 году Клод Шеннон опубликовал "Математическую теорию связи", а в 1949 - "Передача данных при наличии шума", где независимо от Котельникова доказал теорему с аналогичными результатами теореме Котельникова, поэтому в западной литературе эту теорему часто называют теоремой Шеннона. В 1950 Ричард Хэмминг опубликовал работу по обнаружению и исправлению ошибок. В 1952 Дэвид Хаффман создал алгоритм префиксного кодирования с минимальной избыточностью (известный как алгоритм или код Хаффмана) В 1959 Алекс Хоквингем создал код исправления ошибок, ныне известный как Код Боуза — Чоудхури — Хоквингема. В 1960 сотрудниками лаборатории Линкольна Массачуссетского технологического института Ирвином Ридом и Густавом Соломоном изобретён Код Рида — Соломона. Только в 1967техническим институтом исследований NHK представлен первый цифровой катушечный стереорекордер на 1-дюймовой видеоленте. В устройстве использовалась ИКМ-запись с разрядностью 12-бит и частотой дискретизации 30 кГц с применением компандера для расширения динамического диапазона

Процесс дискретизации - это процесс получения значений величин преобразуемого сигнала в определенные промежутки времени.

Оцифровка – это фиксация амплитуды сигнала через определенные промежутки времени и регистрация полученных значений амплитуды в виде округленных цифровых значений (так как значения амплитуды являются величиной непрерывной, нет возможности конечным числом записать точное значение амплитуды сигнала, именно поэтому прибегают к округлению). Записанные значения амплитуды сигнала называются отсчетами. Очевидно, что чем чаще мы будем делать замеры амплитуды (чем выше частота дискретизации) и чем меньше мы будем округлять полученные значения (чем больше уровней квантования), тем более точное представление сигнала в цифровой форме мы получим. Оцифрованный сигнал в виде набора последовательных значений амплитуды можно сохранить.

Теперь о практических проблемах. Во-первых, надо иметь в виду, что память компьютера не бесконечна, так что каждый раз при оцифровке необходимо находить какой-то компромисс между качеством (напрямую зависящим от использованных при оцифровке параметров) и занимаемым оцифрованным сигналом объемом.

Во-вторых, согласно теореме Котельникова частота дискретизации устанавливает верхнюю границу частот оцифрованного сигнала, а именно, максимальная частота спектральных составляющих равна половине частоты дискретизации сигнала. Попросту говоря, чтобы получить полную информацию о звуке в частотной полосе до 22050 Гц, необходима дискретизация с частотой не менее 44.1 КГц.

Существуют и другие проблемы и нюансы, связанные с оцифровкой звука. Не сильно углубляясь в подробности отметим, что в «цифровом звуке» из-за дискретности информации об амплитуде оригинального сигнала появляются различные шумы и искажения (под фразой «в цифровом звуке есть такие-то частоты и шумы» подразумевается, что когда этот звук будет преобразован обратно из цифрового вида в аналоговый, то в его звучании будут присутствовать упомянутые частоты и шумы). Так, например, джиттер (jitter) – шум, появляющийся в результате того, что осуществление выборки сигнала при дискретизации происходит не через абсолютно равные промежутки времени, а с какими-то отклонениями. То есть, если, скажем, дискретизация проводится с частотой 44.1 КГц, то отсчеты берутся не точно каждые 1/44100 секунды, а то немного раньше, то немного позднее. А так как входной сигнал постоянно меняется, то такая ошибка приводит к «захвату» не совсем верного уровня сигнала. В результате во время проигрывания оцифрованного сигнала может ощущаться некоторое дрожание и искажения. Появление джиттера является результатом не абсолютной стабильности аналогово-цифровых преобразователей. Для борьбы с этим явлением применяют высокостабильные тактовые генераторы. Еще одной неприятностью является шум дробления. Как мы говорили, при квантовании амплитуды сигнала происходит ее округление до ближайшего уровня. Такая погрешность вызывает ощущение «грязного» звучания.

return false">ссылка скрыта

Небольшая справка: стандартные параметры записи аудио компакт-дисков следующие: частота дискретизации - 44.1 КГц, уровень квантования – 16 бит. Такие параметры соответствуют 65536 (216) уровням квантования амплитуды при взятии ее значений 44100 раз в секунду.

На практике, процесс оцифровки (дискретизация и квантование сигнала) остается невидимым для пользователя - всю черновую работу делают разнообразные программы, которые дают соответствующие команды драйверу (управляющая подпрограмма операционной системы) звуковой карты. Любая программа (будь то встроенный в Windows Recorder или мощный звуковой редактор), способная осуществлять запись аналогового сигнала в компьютер, так или иначе оцифровывает сигнал с определенными параметрами, которые могут оказаться важными в последующей работе с записанным звуком, и именно по этой причине важно понять как происходит процесс оцифровки и какие факторы влияют на ее результаты.

 

Способы хранения цифрового звука.

 

Для хранения цифрового звука существует много различных способов. Как мы говорили, оцифрованный звук являет собой набор значений амплитуды сигнала, взятых через определенные промежутки времени. Таким образом, во-первых, блок оцифрованной аудио информации можно записать в файл «как есть», то есть последовательностью чисел (значений амплитуды). В этом случае существуют два способа хранения информации.

 

 

Первый - PCM (Pulse Code Modulation - импульсно-кодовая модуляция) - способ цифрового кодирования сигнала при помощи записи абсолютных значений амплитуд (бывают знаковое или беззнаковое представления). Именно в таком виде записаны данные на всех аудио CD.

 

 


Второй способ - ADPCM (Adaptive Delta PCM - адаптивная относительная импульсно-кодовая модуляция) – запись значений сигнала не в абсолютных, а в относительных изменениях амплитуд (приращениях). Во-вторых, можно сжать или упростить данные так, чтобы они занимали меньший объем памяти, нежели будучи записанными «как есть». Тут тоже имеются два пути.

Кодирование данных без потерь (lossless coding) - это способ кодирования аудио, который позволяет осуществлять стопроцентное восстановление данных из сжатого потока. К такому способу уплотнения данных прибегают в тех случаях, когда сохранение оригинального качества данных критично. Например, после сведения звука в студии звукозаписи, данные необходимо сохранить в архиве в оригинальном качестве для возможного последующего использования. Существующие сегодня алгоритмы кодирования без потерь (например, Monkeys Audio) позволяют сократить занимаемый данными объем на 20-50%, но при этом обеспечить стопроцентное восстановление оригинальных данных из полученных после сжатия. Подобные кодеры – это своего рода архиваторы данных (как ZIP, RAR и другие), только предназначенные для сжатия именно аудио.

Имеется и второй путь кодирования, на котором мы остановимся чуть подробнее, – кодирование данных с потерями (lossy coding). Цель такого кодирования - любыми способами добиться схожести звучания восстановленного сигнала с оригиналом при как можно меньшем объеме упакованных данных. Это достигается путем использования различных алгоритмов «упрощающих» оригинальный сигнал (выкидывая из него «ненужные» слабослышимые детали), что приводит к тому, что декодированный сигнал фактически перестает быть идентичным оригиналу, а лишь похоже звучит. Методов сжатия, а также программ, реализующих эти методы, существует много. Наиболее известными являются MPEG-1 Layer I,II,III (последним является всем известный MP3), MPEG-2 AAC (advanced audio coding), Ogg Vorbis, Windows Media Audio (WMA), TwinVQ (VQF), MPEGPlus, TAC, и прочие. В среднем, коэффициент сжатия, обеспечиваемый такими кодерами, находится в пределах 10-14 (раз). Надо особо подчеркнуть, что в основе всех lossy-кодеров лежит использование так называемой психоакустической модели, которая как раз и занимается «упрощением» оригинального сигнала. Говоря точнее, механизм подобных кодеров выполняет анализ кодируемого сигнала, в процессе которого определяются участки сигнала, в определенных частотных областях которых имеются неслышные человеческому уху нюансы (замаскированные или неслышимые частоты), после чего происходит их удаление из оригинального сигнала. Таким образом, степень сжатия оригинального сигнала зависит от степени его «упрощения»; сильное сжатие достигается путем «агрессивного упрощения» (когда кодер «считает» ненужными множественные нюансы), такое сжатие, естественно, приводит к сильной деградации качества, поскольку удалению могут подлежать не только незаметные, но и значимые детали звучания.

Как мы сказали, современных lossy-кодеров существует достаточно много. Наиболее распространенный формат – MPEG-1 Layer III (всем известный MP3). Формат завоевал свою популярность совершенно заслуженно – это был первый распространенный кодек подобного рода, который достиг столь высокого уровня компрессии при отличном качестве звучания. Сегодня этому кодеку имеется множество альтернатив, выбор остается за пользователем. К сожалению, рамки статьи не позволяют привести здесь тестирования и сравнения существующих кодеков, однако авторы статьи позволят себе привести некоторую информацию, полезную при выборе кодека.

Итак, преимущества MP3 – широкая распространенность и достаточно высокое качество кодирования, которое объективно улучшается благодаря разработкам различных кодеров MP3 энтузиастами (например, кодер Lame). Мощная альтернатива MP3 – кодек Microsoft Windows Media Audio (Файлы .WMA и .ASF). По различным тестам этот кодек показывает себя от «как MP3» до «заметно хуже MP3» на средних битрейтах, и, чаще, «лучше MP3» на низких битрейтах. Ogg Vorbis (файлы .OGG) – совершенно свободный от лицензирования кодек, создаваемый независимыми разработчиками. Чаще всего ведет себя лучше MP3, недостатком является лишь малая распространенность, что может стать критическим аргументом при выборе кодека для длительного хранения аудио. Вспомним и еще молодой кодек MP3 Pro, анонсированный в июле 2001 года компанией Coding Technologies совместно с Thomson Multimedia. Кодек является продолжением, или, точнее, развитием старого MP3 – он совместим с MP3 назад (полностью) и вперед (частично). За счет использования новой технологии SBR (Spectral Band Replication), кодек ведет себя заметно лучше других форматов на низких битрейтах, однако качество кодирования на средних и высоких битрейтах чаще уступает качеству почти всех описанных кодеков. Таким образом, MP3 Pro пригоден больше для ведения аудио трансляций в Internet, а также для создания превью песен и музыки.

Говоря о способах хранения звука в цифровом виде нельзя не вспомнить и о носителях данных. Всем привычный аудио компакт-диск, появившийся в начале 80-х годов, широкое РАСПРОСТРАНЕНИЕ получил именно в последние годы (что связано с сильным удешевлением носителя и приводов). А до этого носителями цифровых данных являлись кассеты с магнитной лентой, но не обычные, а специально предназначенные для так называемых DAT-магнитофонов. Ничего примечательного – магнитофоны как магнитофоны, однако цена на них всегда была высокой, и такое удовольствие было не всем «по зубам». Эти магнитофоны использовались, в основном, в студиях звукозаписи. Преимущество таких магнитофонов было в том, что, не смотря на использование привычных носителей, данные на них хранились в цифровом виде и практически никаких потерь при чтении/записи на них не было (что очень важно при студийной обработке и хранении звука). Сегодня появилось большое количество различных носителей данных, кроме привычных всем компакт дисков. Носители совершенствуются и с каждым годом становятся более доступными и компактными. Это открывает большие возможности в области создания мобильных аудио проигрывателей. Уже сегодня продается огромное количество различных моделей переносных цифровых плееров. И, можно предположить, что это еще далеко не пик развития такого рода техники.