ГлавнаяСтатьиАудио → Мастеринг фонограмм на примере программ Wavelab и Adobe Audition (часть 9)
Источник: http://pz-rec.ru/

Мастеринг фонограмм на примере программ Wavelab и Adobe Audition (часть 9)

Автор: Илья Бузовир

Продолжение статей:

Мастеринг фонограмм на примере программ WaveLab и Adobe Audition (часть 1)

Мастеринг фонограмм на примере программ WaveLab и Adobe Audition (часть 2)

Мастеринг фонограмм на примере программ WaveLab и Adobe Audition (часть 3)

Мастеринг фонограмм на примере программ WaveLab и Adobe Audition (часть 4)

Мастеринг фонограмм на примере программ WaveLab и Adobe Audition (часть 5)

Мастеринг фонограмм на примере программ WaveLab и Adobe Audition (часть 6)

Мастеринг фонограмм на примере программ WaveLab и Adobe Audition (часть 7)

Мастеринг фонограмм на примере программ WaveLab и Adobe Audition (часть 8)

Понижение разрядности и дизеринг

Как Вы наверное уже знаете, аналоговый сигнал, проходя через аналого-цифровой преобразователь, преобразуется в некий цифровой код, который описывает вашу звуковую волну двумя параметрами. Это значения частоты звуковой волны (частота дискретизации) и значение амплитуды (разрядность). Для формата CD-DA (Compact Disk Digital Audio) стандартом являются значения частоты дискретизации 44100 Гц, и разрядности 16 Bit. Большинство слушателей абсолютно устраивает этот формат, и он остается неизменным стандартом уже на протяжении многих лет. Почему же выбраны именно эти значения? По теореме Найкваста-Котельникова, звуковая волна самой высокой частоты в фонограмме для представления в цифровом виде должна быть описана более, чем тремя точками. Человеческое ухо воспринимает звуковые волны в частотном диапазоне от 20 до 20000 Гц. У некоторых людей этот диапазон меньше, а есть индивидуумы, у которых и больше на 1 – 2 кГц. Поэтому, если рассмотреть формулу, выходящую из теоремы Найквиста-Котельникова, то

fД>2fmax

Где fmax -значение максимальной частоты в фонограмме, а fД - необходимая частота дискретизации, для передачи частотного диапазона вашей фонограммы в цифровом виде.

Теперь если мы подставим значения в эту формулу, получим fmax = 22000 Гц. Умножаем на 2, получаем 44000 Гц, а так как частота дискретизации должна быть больше этого значения, то получаем приблизительно 44100 Гц. На самом деле, частоты дискретизации для разных нужд уже четко определены и у вас не получится выбрать их произвольное значение. Звуковой редактор предложит выбрать дискретизацию из определенных значений: 22050, 44100, 48000, 88200, 96000 и т.д. Стандартом частоты дискретизации формата DVD-Video, например, является значение 48000 Гц, для более точной передачи высоких частот, что для звуковой дорожки кино немаловажно.

Что касается разрядности, то не буду углубляться в математику, скажу только что каждый бит передает значение амплитуды, приблизительно равное шести децибелам. Соответственно, если в фонограмме значение разрядности 16 bit, то ее динамический диапазон равен 16*6=96 дБ. Для танцевальной музыки или хард-рока это нормально. А вот для классической музыки или, скажем, для джаза совершенно неприемлемо!

Некоторые любительские студии звукозаписи используют эти значения формата CD-DA и при записи. Это не есть хорошо! Но почему, спросите Вы? Ведь на выходе нам все равно придется конвертировать уже готовую фонограмму в этот формат, иначе она просто не запишется на компакт диск? Совершенно верно! Но не забывайте, что перед конвертированием проходит очень длительный процесс монтажа, сведения, в течение которого фонограмма проходит не одну стадию обработки. И чем выше будут параметры цифрового сигнала, тем меньше слышимых артефактов возникнет в итоговом звучании фонограммы. Практически все звуковые редакторы сейчас работают в 32-битном режиме. То есть хотите Вы этого или нет, но вся обработка внутри программного комплекса будет проходить с разрядностью в 32 бита. Но перед тем, как звук попадет к в программу, он должен быть оцифрован. И параметры разрядности здесь следует устанавливать максимально возможные. На сегодняшний день - это 24 бита. То есть динамический диапазон записанного материала будет уже не 96 дБ, а 144 дБ, а этого более чем достаточно!

Что касается устанавливаемой частоты дискретизации при записи, то тут надо учитывать, насколько производительно Ваше оборудование. Исходя из этого, так же устанавливать максимально возможные значения. В большинстве студий это 48000 Гц., а в некоторых и 88200 Гц. Записывая звук с частотой дискретизации 88200 Гц, Вы получаете более точную передачу высоких частот, большую насыщенность в этой области. К тому же, в конечной стадии мастеринга, во время конвертирования частоты дискретизации в значение 44100 Гц, математический процесс получается намного проще, чем во время конвертирования из 48000 Гц, так как в этом случае надо всего лишь убрать каждое второе значение. Соответственно чем проще процесс пересчета, тем меньше ошибок накапливается в цифровом коде.

Теперь, разобрав основы, мы вплотную подошли к главной теме этой статьи, понижение разрядности! Казалось бы, что проще, конвертируем 24 бита в 16 и ставим болванку на запись. Но на самом деле не все так просто. Давайте разберем основные методы понижения разрядности с 24 бит в 16, и что при этом происходит со звуком фонограммы.

Относительная величина искажений в цифровом формате зависит от уровня сигнала. Это напрямую зависит от того, сколько бит приходится на тот или иной уровень. Если максимальный уровень фонограммы равен 0 дБ, то на квантование по амплитуде используются все 16 бит. А если минимальный уровень равен -50 дБ, то проведя не сложные вычисления, мы получим 50 / 6 ~ 8.33, то есть около восьми бит приходится на этот уровень громкости. Соответственно, чем ниже уровень сигнала в фонограмме, тем больше искажений. Эту проблему можно решить максимизацией громкости, но этот способ приемлем только для некоторых стилей музыки. Для классической музыки или джаза такой способ не подходит. Поэтому для записи музыки с широким динамическим диапазоном желательно применять наиболее качественные методы снижения разрядности.

Метод простого округления

Округление – это самый простой способ понижения разрядности аудиосигнала. Во время этого процесса каждое значение 24-битного аудиосигнала  сдвигается к ближайшему значению амплитуды будущего 16-битного сигнала.

Метод простого округления аудиосигнала

24-битный сигнал (сверху) и 16-битный сигнал, полученный из 24-битного методом простого округления (снизу)

Разница между 24-битным и 16 битным сигналами называется шумом квантования. Метод простого округления дает минимально возможный шум квантования, но этот шум все равно слышен, неприятен на слух и существенно коррелирован (связан) с полезным сигналом. Поэтому 16-битный аудиосигнал, полученный методом простого округления, имеет «грязное» звучание, с примесью искажений, уровень которых напрямую зависит от уровня полезного сигнала.

Еще лет 8 – 10 назад звуковые редакторы использовали метод округления для пересчета 24-битных файлов в 16-битные. Этот метод, как уже было сказано ранее, не самый лучший и неизбежно приводит к появлению в звуке артефактов. Основная проблема этого метода состоит в корреляции шумов квантования с полезным сигналом. Если попробовать устранить корреляцию, то наше ухо сможет абстрагироваться от вносимых изменений в аудиосигнал. И такой метод был найден. Называется он дизеринг (dithering).

Dithering

Метод дизеринга заключается в добавлении к исходному сигналу перед округлением специально сгенерированного шума небольшой амплитуды. В зависимости от свойств этого шума, слышимые гармонические искажения могут быть либо совершенно устранены, либо значительно подавлены. В результате, в фонограмме появляется шум, но этот шум не коррелирован с полезным сигналом и он практически не заметен на слух.

Метод дизеринга

24-битный сигнал (сверху) и 16-битный сигнал, полученный из 24-битного методом дизеринга (снизу)

Существуют разные виды шума дизеринга. Они различаются по амплитуде, по спектру и по функции распределения вероятности значений шума по амплитуде (PDF - probability distribution function). Для белого шума PDF показывает, как часто встречаются в шуме значения различных амплитуд. Стандартные виды волны шума PDF - треугольная, прямоугольная, гауссова. Например, треугольная PDF означает, что в шуме чаще будут встречаться значения с амплитудой вблизи нуля, чем с большими амплитудами. А при прямоугольной PDF все значения амплитуд шума  в определенных пределах равновероятны.

Чаще всего для дизеринга используется белый шум с небольшой амплитудой. Существуют два стандартных вида dithering-шума. Первый вид шума - белый шум с прямоугольной PDF и амплитудой 1 LSB (наименее значащий бит) от пика до пика. Этот шум практически полностью устраняет гармонические искажения в 16-битном аудиосигнале. Но такой шум имеет один недостаток: громкость шума квантования меняется со временем, и зависит от полезного сигнала.

Второй распространенный вид шума дизеринга - тоже белый шум, но с амплитудой 2 LSB от пика до пика и треугольной PDF. Такой шум наиболее часто используется при снижении разрядности и называется standard TPDF dither. Этот вид дизеринга вносит больше шума в фонограмму,  но зато практически полностью устраняет гармонические искажения в фонограмме.

В некоторых системах понижения разрядности есть возможность самому выбирать амплитуду шума дизеринга и регулировать отношение количества искажений к количеству шума. Выбирая небольшой уровень шума дизеринга, Вы добавляете меньше шума в фонограмму, но некоторые искажения могут остаться и будут заметны на слух, особенно при прослушивании фонограммы на высокой громкости. И наоборот, добавляя уровень шума, Вы избавляетесь от искажений, но вносите больше шума в фонограмму. Какой путь выбрать, решать Вам, но начинающим я бы советовал пользоваться стандартными настройками дизеринга «standard TPDF dither». Со временем, набравшись опыта и перепробовав множество способов понижения разрядности с помощью дизеринга, Вы выберете свой способ и будете применять определенный вид шума дизеринга, который подходит именно Вам.

В 16-битном аудиосигнале можно отчетливо различить звуки, уровни которых и -100 и -110 дБ. Почему же так происходит, если минимальный уровень фонограммы для 16-разрядной фонограммы, как мы уже выяснили, -96 дБ? Это происходит из-за модуляции шума фонограммой. Шум дизеринга имеет уровень -96 дБ, но модулируется полезным сигналом фонограммы, который имеет значительно меньший уровень. Так как шум дизеринга не коррелирован с полезным сигналом фонограммы, то наше ухо способно слышать сквозь этот шум более тихие звуки. Следовательно, используя дизеринг при понижении разрядности аудиосигнала, мы не только избавляемся от шумов квантования и гармонических искажений, но и существенно расширяем динамический диапазон 16-битной фонограммы. То есть метод дизеринга при понижении разрядности аудиосигнала, является на сегодняшний день самым удачным решением. Единственный его минус – это добавление в фонограмму шума, уровень которого, впрочем, довольно низок и может быть услышан только при очень высоких уровнях воспроизведения.

Noise shaping

Пользуясь белым шумом в качестве шума дизеринга, со временем стали понимать, что спектр этого шума не обязательно должен быть равномерным. Если спектрально вытеснить шум дизеринга за область восприятия человеческого уха, то можно будет избавится от единственного недостатка дизеринга, наличия слышимого шума в фонограмме. Как известно, человеческое ухо неодинаково чувствительно к звукам различных частот. Средние частоты оно слышит лучше всего, а вот низкие, и особенно высокие частоты находятся на много более низком уровне чувствительности человеческого уха. Более подробно узнать о разной чувствительности человеческого уха к звукам разной частоты можно посмотрев графики кривых равной громкости в интернете или любом учебнике акустики.

Опираясь на это свойство человеческого слуха, можно попытаться переместить шум дизеринга в те частотные области, где наше ухо наименее чувствительно. Тогда воспринимаемая громкость шума понизится. С помощью методов дизеринга этого удавалось достичь лишь отчасти. Метод формирования шума дизеринга в частотной области (noise shaping) позволяет придать спектру шума квантования практически любую форму. Первое, что приходит на ум – это использование розового шума вместо белого. Как известно, все частоты розового шума, воспринимаются человеком, как звуки одной громкости, в отличие от белого шума, где среднечастотная область воспринимается громче, чем остальные. Но шум дизеринга может из себя представлять не только розовый шум, но и шумы с различными частотными характеристиками.

Можно отметить несколько положительных качеств, которые дает нам использование noise shaping в момент понижения разрядности аудиосигнала. Главное качество – это высокий уровень шума дизеринга по сравнению с использованием стандартного белого шума, но воспринимаемая громкость его намного ниже. Следовательно, мы можем смело добавлять уровень шума, тем самым уменьшая гармонические искажения без опасения, что этот шум будет услышан. Обычно фильтры шума выбираются так, чтобы большая часть шума квантования смещалась в область высоких частот (выше 15 кГц), где чувствительность уха наименьшая. Чтобы обеспечить такую же степень подавления гармонических искажений, как и соответствующий стандартный дизеринг, нужно выполнить следующее условие: чтобы вытеснить шум квантования из одной частотной области, нужно такое же значение шума квантования прибавить в другой частотной области.

Следует помнить, что система noise shaping работает по той же схеме, что и дизеринг. Разница лишь в том, что при дизеринге в полезный сигнал добавляется просто белый шум, а noise shaping пропускает этот белый шум через определенный фильтр, который неравномерно воздействует на полезный сигнал, и образующиеся в результате понижения разрядности шумы квантования смещаются в частотную область, наименьшей чувствительности человеческого уха.

Итак, финальным этапом вашего мастеринга должно стать понижение разрядности цифровой фонограммы до 16 bit. Чтобы сохранить чистоту и качество исходного звука на протяжении всего процесса, следите за тем, чтобы работать в аудиоредакторе, который работает в 32-битном режиме. Прежде чем обработать фонограмму каким-либо плагином обязательно убедитесь, что он так же работает в 32-битном режиме (некоторые старые плагины работают в 16-битном режиме, например, Waves L1 Ultramaximizer). Сейчас мы стоим на пороге использования 64-битных систем цифровой обработки звука, и наши фонограммы в скором времени станут звучать намного лучше.

Продолжение

Комментарии
Азат (2013-05-12 13:12:57)

«Как известно, все частоты розового шума, воспринимаются человеком, как звуки одной громкости, в отличие от белого шума, где среднечастотная область воспринимается громче, чем остальные.» Скорее всего, имелся в виду серый шум, а не розовый.

Отправить комментарий

защитный код