Форматы сжатия звуковой информации на примере mp3 и FLAC. Аудио компрессия для меломанов

3.2. Mp3 - технология сжатия звуковой информации

Само название МрЗ появилось в результате сокращения аббревиатуры MPEG-1 Layer3.

MPEG (Motion Pictures Expert Group) - это группа при Международной организации по стандартизации и Международном электрическом комитете, которая занимается разработкой стандартов для цифрового сжатия видео и аудио информации. А зачем сжимать эту информацию? Во-первых, для экономии экономических и материальных ресурсов при передаче информации на расстояние по каналам связи (в том числе и спутниковым), а во-вторых, для ее хранения.

Официальное одобрение стандарт MPEG-1 получил в 1992 году, однако до недавнего времени открытие не было востребовано в полной мере. Лишь с появлением достаточно мощных процессоров Pentium (с тактовыми частотами от 300 МГц и выше, позволяющих резко снизить время на кодирование/декодирование сигнала) и высокоскоростных модемов стандарт получил широкое признание.

Стандарт MPEG-1 является потоковым форматом и состоит из аудио, видео и системной частей. Последняя часть содержит информацию об объединении и синхронизации двух первых.

Передача данных происходит потоком независимых отдельных блоков данных - фреймов, получаемых при "нарезке" на равные по продолжительности участки, которые кодируются независимо друг от друга.

Всего в настоящее время существует пять видов (номеров) стандартов MPEG:

1) MPEG1 - сжатие аудио и видео с общей скоростью до 150 Кбайт/сек (аудио 38, 44.1, 48 килогерц);

2) MPEG2 - сжатие аудио и видео с общей скоростью до 300 Кбайт/сек (аудио 38, 44.1, 48 килогерц), сжатие аудио ИДЕНТИЧНО MPEG1;

3) MPEG2.5 - сжатие аудио с пониженным разрешением (аудио 16,22.05,24 килогерц). Интересно заметить, что стандарт MPEG2.5 (еще известный как MPEG2 LSF - LOW SAMPLE FREQUENCY - низкая частота сканирования аудио) введен фирмой IIS Fraunhofer (институт информационных технологий имени Фраунхофера из Германии). Этот стандарт является расширением "чистого" аудио MPEG2 (то есть MPEG1!) для частоты сканирования аудио в два раза меньшей, чем обычно;

4) MPEG3 - многоканальный MPEG1+MPEG2. Этот стандарт практически не используется;

5) MPEG4 - новомодный за рубежом стандарт. Его особенность: может держать до 8-и каналов аудио (то есть AC-3 - цифровое расширение системы Surround.

Чем выше индекс уровня тем выше сложность и производительность алгоритма кодирования, соответственно и увеличиваются требования к системным ресурсам.

Здесь под термином "кодирование" понимается процесс, позволяющий получать файл в сжатом виде, который занимает меньше места на диске и соответственно быстрее передается по каналам связи. В сжатой форме файл использоваться не может, соответственно, перед использованием его необходимо декодировать. Сжатие файла происходит не всегда с положительным результатом. Результат напрямую зависит от метода компрессии и от содержимого самого файла.

Принцип кодирования сигнала в MPEG Audio основан на использовании психоакустической модели (Psycho-acoustics), суть которой в следующем.

Существует ряд звуковых частот, которые человеческое ухо не воспринимает. Происходит маскирование одних звуков другими, как с большей амплитудой, так и с близкой частотой. Так, например, если излучается сильный звук частотой 1000 Гц (маскирующий), то более слабый звук частотой 1100 Гц (маскируемый) человеческое ухо не зафиксирует из-за особенностей порога слышимости человеческого уха. Порог слышимости на краях частотного диапазона (16-20 Гц и 16-20 кГц) значительно повышается, т.к. на этих частотах слух имеет значительно меньшую чувствительность по сравнению с областью наибольшей чувствительности слуха (диапазон 1-5 кГц). Также известно, что время восстановления чувствительности слуха после громкого сигнала составляет порядка 100 мс, а время задержки восприятия этого же сигнала составляет порядка 5 мс.

Таким образом, происходит передача только той звуковой информации, которая может быть адекватно воспринята подавляющим большинством слушателей, а вся остальная, увы, безвозвратно теряется.

Как уже упоминалось, все уровни имеют одинаковую базовую структуру, при которой кодер анализирует исходный сигнал, вычисляет для него гребенку фильтров (32 полосы) и применяет психоакустическую модель. С заранее выбранной частотой квантования, величиной потока и маскирования кодер производит квантование и кодирование сигнала.

Сравнительные характеристики способов кодирования для одного канала при частоте квантования в 32 кГц представлены в таблице 2.

Таблица 2.

Способ кодирования	Скорость передачи (кбит/с)	Коэффициент сжатия
Layer 1	192	1:4
Layer 2	128-96	1:6...8
Layer 3	64-56	1:10...12

Перед кодированием исходный сигнал разбивается на фреймы, каждый из которых кодируется отдельно с разными параметрами и помещается в конечном файле независимо от других. Последовательность воспроизведения определяется порядком расположения фреймов. Вся информация о фрейме содержится в его заголовке, а информация о фреймах содержится в заголовке файла. Для информации об артисте, альбоме, названии композиции, жанре и пр. предусмотрен ID3/ID2 tag - заголовок. Подавляющее большинство существующих проигрывателей используют данный заголовок для прокрутки этой информации во время проигрывания музыкального фрагмента.

Между фреймами может содержаться произвольная информация, допустим, авторские права, расположенные ровным слоем по всему файлу. Основное требование к последовательно расположенным фреймам заключается в том, чтобы отсутствовали совпадения с сигнатурой начала фрейма.

Частота следования фреймов называется битрейтом (BIT RATE - битовая скорость, чем она выше, тем ближе будет конечный результат к оригиналу).

Каждый битрейт имеет свою область применения. Для создания качественной копии, соответствующей качеству оригиналу применяются только высокие битрейты порядка 256 кбит/с. При битрейте 128 кбит/с качество конечного продукта кажется вполне нормальным, но заметить разницу между копией и оригиналом способны уже многие. В Интернете чаще всего содержатся как раз МРЗ файлы, закодированные битрейтом 128 кбит/с. Но для создания действительно качественной копии необходимо использовать скорость кодирования в 320 кбит/с, хотя конечный файл получается меньше лишь в 4,3 раза по сравнению с 10,8 раз на 128 кбит/с и 5,4 раза на 256 кбит/с. Поэтому выбирать битрейт необходимо самому, исходя из потребностей.

После фреймовой разметки исходный сигнал с помощью гребенчатых фильтров разделяется на составляющие, представляющие отдельные частотные диапазоны, в сумме дающие обрабатываемый сигнал. Для каждого такого диапазона определяется своя психоакустическая модель и участки фрейма, которые "выпадают" из процесса кодирования. Для оставшихся данных определяется максимально допустимая частота квантования, которая должна обеспечивать потери ниже величины маскирующего эффекта.

После обработки всех фреймов формируется итоговый поток, который дополнительно кодируется по методу Хаффмана. Этот алгоритм также используется в архиваторе ARJ, только с динамической, постоянно изменяющейся таблицей Хаффмана, что требует двух проходов по данным; при фиксированной же таблице Layer 3, сжатие происходит за один проход. Указанный метод позволяет "сжать" до 20 процентов от общего объема. В результате получаем конечный поток кодированных аудиоданных.

При мне" с простым безыскусным напевом Глинки, услышанным от Грибоедова, и более сложное драматическое решение в романсе - восточной поэме Рахманинова, полной элегической тоски и одиночества. Музыкальная пушкиниана ХХ века также весьма обширна и интересна. В числе наиболее значительных произведений - балеты "Медный всадник" Глиэра, одна из главных тем которого поистине стала "гимном великому...

Песен, прибауток, считалок для исполнения на музыкальных инструментах; для нориолизации просодической стороны речи при импровизации мелодичных и ритмических подпевок. В работе с учащимися начальных классов в коррекционно-развивающем обучении могут быть использованы лишь самые простые инструменты. Это музыкальные инструменты ударной группы как чисто ритмические, не обладающие определенной высотой...

Нравственных качеств личности ребенка, закладывает первоначальные основы общей культуры будущего человека. II. Педагогические условия реализации видов деятельности детей в детском саду 2.1 Методы музыкального обучения в детском саду Основной вид музыкальной деятельности, которому принадлежит ведущая роль в реализации познавательной и коммуникативной функции музыки – ее восприятие...

Работы над музыкальным произведением, уровнем эмоционально-поведенческих расстройств. 2. Специфика музыкальной работы в детском доме для умственно отсталых детей-сирот и детей, лишенных попечения родителей Решению задач музыкального образования помогает использование разнообразных форм организации музыкальной деятельности, каждая из которых обладает определенными возможностями (см. схему). ...

Аудио компрессия для меломанов

правда о высоком битрейте при сжатии с потерями

Предисловие

В понимании большинства людей слово меломан чаще всего ассоциируется с человеком, не просто любящим и коллекционирующим музыку, а еще и ценящим качественную музыку, причем не только в художественно-эстетическом плане, но еще и качество записи самой фонограммы. Подумать только, еще несколько лет назад эталоном качества музыки считался аудио компакт диск, компьютер же даже в мечтах не мог конкурировать с качеством CD. Однако, время — большой шутник, и часто любит переворачивать все с ног на голову. Прошло, казалось бы, совсем немного времени, какой-то год или два и… всё, компакт диск на PC отступил на второй план. Не спрашивайте "почему?", Вы ведь сами знаете ответ на этот вопрос. Всему виною революция в мире звука на компьютере — аудио компрессия (здесь и далее под аудио компрессией подразумевается сжатие с потерями, для уменьшения размера аудио файла), которая позволила хранить музыку на жестком диске, много музыки! Более того, появилась возможность обмениваться ею через Интернет. Вышли новые звуковые карты, способные "выжать" чуть ли не студийное качество из, казалось бы, бесполезной в плане музыки "железки". Сегодня, имея даже не очень шустрый по производительности компьютер, купив звуковую карту Creative SoundBlaster Live! и вспомнив, что еще с советских времен имеется хороший усилитель и добротная акустика, Вы получите ни что иное, как музыкальный центр высокого качества, звучание которого уступает разве что очень дорогой аудио аппаратуре (средней или даже высшей Hi-Fi категории). Прибавьте к этому общедоступность музыкальных файлов, и Вы поймете, что у Вас в руках — сила. И тогда происходит переворот, и Вы понимаете, что компакт диск — это уже и не так удобно, завораживает Вас совсем другое — магические знаки "MP3". Вы не можете ни есть, ни спать — перед Вами неразрешимый на первый взгляд вопрос "курицы и яйца": чем "сжимать" и, самое главное, — как "сжимать"…

Из существующих на сегодня форматов компрессии аудио заслуживающими внимания, на мой взгляд, являются три: MP3 (или MPEG-1 Audio Layer III), LQT (как представитель семейства MPEG-2 AAC / MPEG-4) и совершенно новый формат OGG (Ogg Vorbis), разрабатываемый группой энтузиастов:

На сегодняшний день MP3 — самый распространенный из них (в первую очередь потому, что он бесплатный). Напомню, что именно благодаря формату МР3 и произошло победоносное шествие сжатого аудио. Однако, как часто бывает с пионерами, он постепенно сдает позиции и уступает место более новым и качественным форматам.
Второй формат, LQT, является представителем нового направления алгоритмов аудио кодирования, представителем семейства AAC. Это достаточно качественный, но коммерческий и строго засекреченный формат.
OGG стал широко известен общественности этим летом и на данный момент бурно развивается, в скором времени (с релизом кодера и декодера) должен побить MP3 лучшим качеством звучания при меньшем объеме файлов.

Я не буду приводить здесь подробного описания технологий и форматов, Вы легко можете найти их самостоятельно. Будут только факты, выводы и рекомендации. Свои исследования отдельно по каждому формату я планирую изложить в отдельных статьях.

Условие задачи

Я решил "столкнуть лбами" три указанных формата на предмет получения максимально качественного звука при минимальном размере файла. Для теста были выбраны несколько семплов (здесь семпл — вырезанный из PCM файла небольшой фрагмент) из композиций двух типов. Первый — очень плотного и громкого звучания с нормализацией по амплитуде (уплотнение звука "по вертикали", чтобы он с 24 битного мастера уместился в 16 битах) и компрессией динамического диапазона (чтобы при этом звучание всех инструментов было всегда громким). В качестве первого типа (как и в моих прошлых тестах) была выбрана композиция Crush On You из альбома Have A Nice Day группы Roxette, исследовалось три семпла по 15-20 секунд с разных участков композиции. Второй семпл — чистый и прозрачный (легкая оркестровая или акустическая аранжировка). В качестве второго типа была взята композиция Mano a Mano с альбома Tango известного пианиста Richard Clayderman.

Почему именно эти записи? В семплах Roxette имеет место очень сильная динамическая компрессия (значение амплитуды очень часто равно максимуму (что плохо) и приводит к перегрузке воспроизводящей аппаратуры и сильным искажениям).

На подобных семплах кодерам приходится работать в экстремальном режиме, из-за чего становятся легко слышны любые искажения, т.к. к уже имеющимся собственным искажениям оригинала добавляются еще и искажения кодирования. Вы спросите "а зачем тогда брать в качестве теста такой семпл?". Нужно и еще как. Подавляющее большинство выпускаемых в настоящее время альбомов именно таким образом и записано. Поэтому кодер должен приемлемо относиться к перегруженному звуку.

С семплами Клайдермана ситуация диаметрально противоположная. Исходно аналоговая запись после очень качественного цифрового ремастеринга записана на компакт диске, причем без динамической компрессии.

Великолепное звучание, очень приятные и мягкие "верха". На них мы и обратим особое внимание при проведении анализа, попытаемся их сохранить. А ведь именно эти частоты кодерам будет сложнее всего передать.

Чем "жмем"

Мои исследования эталонного качества для разных битрейтов и кодеров формата MP3 выражены в программе OrlSoft MPeg eXtension . Параметры кодирования подобраны по результатам тестов.

Безусловный лидер качества на высоком битрейте — кодер LAME. Кодеры от Fraunhofer IIS по-прежнему хороши только для низких битрейтов — для 128 и 160 кбит/с. Про другие я даже говорить не буду. Только НИ В КОЕМ СЛУЧАЕ не связывайтесь с кодерами, основанными на коде XING (самый известный представитель — Audio Catalyst) — эти самые плохие, звук — просто ужас.

Для большинства пользователей формата MP3 проблема качественного звука обычно ставится следующим образом: "256 или 320? а может попробовать VBR?". И этот вопрос мучает их изо дня в день. Не все записи хорошо звучат в 256 — имеют место сильно слышимые и видимые (по измерениям) потери в области верхних частот. При использовании режима VBR (так называемый поток с переменным битрейтом) часто бывает, что музыка звучит на слух лучше, чем 256, но это нельзя брать за общее правило. Кодируйте мало ценные записи, либо не очень качественные — не ошибетесь. Параметры VBR у меня подобраны для получения максимального для VBR качества.

Для коммерческого формата LQT существует только фирменный кодер от авторов — Liquifier Pro. Им и жмем. Отмечу, что формат LQT изначально основан на VBR кодировании, поэтому для него существует просто несколько режимов типа "плохо", "хорошо" и "отлично". Естественно, для наших тестов берем режим "отлично" (Audiophile), в результате чего получается поток от 192 до 256, чаще всего 200-220 кбит/с. Напомню, что формат LQT основан на семействе алгоритмов MPEG-2 AAC. Более того, это наиболее качественная на сегодня реализация AAC (проверено на аналогах).

Формат OGG родственник формата MP3, однако содержит в себе иную психоакустическую модель и некоторые отсутствующие у MP3 технические новинки. Начать хотя бы с того, что OGG изначально поддерживает только режим VBR. Пользователь задает ориентировочную скорость потока, а кодер пытается сжать максимально ближе к нему. Диапазон изменения чрезвычайно широк: от 8 до 512 кбит/с, причем он значительно более дискретный, чем у MP3. Верхняя планка составляет целых 512 кбит/с, в то время как MP3 кодеры на сегодня реально "тянут" только до 320. Вы спросите "а разве бывает что и 320 мало?". Да, бывает, но редко.

Семплы Roxette

Ну вот, мы и подошли к самому интересному. Начнём с моих слуховых ощущений.

Для МР3 на потоке 256 кбит/с явно слышны нарушения звучания верхних частот. Мало того, что в звуке отсутствует немалая их часть, так еще и примешивается сильное искажение, хрип, металлический лязг и прочие "прелести". Это знак к тому, что 256 явно не хватает, следовательно, надо попробовать повыше. Берем сжатый в 320 семпл. Звук значительно изменился — это совсем другое дело: верха на месте, на слух никакой разницы не обнаружено. Для чистоты эксперимента посмотрим, что же получится в режиме плавающей скорости потока. Получаем средний битрейт в 290 кбит/с, из чего напрашивается вывод, что 256 для исследуемого семпла маловато будет. Действительно, на слух семпл, закодированный в режиме VBR, звучит чуть-чуть лучше, чем 256, однако явно не дотягивает до звучания 320. В случае применения МР3, для качественного сжатия подходит только кодирование в режиме 320 кбит/с, т.е. на максимуме возможностей.

Берем OGG как "модифицированный MP3". Для кодера существует пять ориентировочных битрейтов: 128, 160, 192, 256 и 350. Что ж, попробуем 192 и 256. Битрейт 350 брать не будем, т.к. нам уже известно, что MP3 при 320 кбит/с передает явно прекрасное качество, лучше вроде бы и не надо. Для режима 192 получаем средний поток в 226, а для режима 256 — целых 315 кбит/с. Вот вам и точность. Столь большое отклонение от ориентира — это сигнал к очень сложно кодируемому звуковому материалу, при более простом по плотности семпле точность будет выше. Честно говоря, я долго пытался оценить 320 MP3 и 315 OGG и пришел к выводу, что оба они звучат практически аналогично исходному звучанию. Но они основаны на разных психоакустических моделях и окраска звучания у них разная. Лично мне чуть больше понравился все-таки MP3. Однако, это действительно спорный вопрос — ведь кодер OGG пока только бета версия. Когда будет релиз, думаю, он должен обогнать MP3 в качестве. Сравнивая их по отдельности с оригиналом, я склонился к тому, что OGG все-таки ближе по звучанию к оригиналу, но вот с верхними частотами у этого кодера что-то не так. Из-за этого MP3 и звучит немного лучше. Думаю, не надо говорить, что в режиме 350 (средний битрейт получился в 365) OGG "идеально" повторяет оригинал.

Теперь про малоизвестный, но широко рекламируемый как "самый качественный" формат — формат LQT. И, что самое главное, он действительно звучит очень круто в целом, однако, прислушавшись, я понял, что мне не понравилось в его звучании. Он не искажает верхние частоты, как MP3 на 256 кбит/с, но размазывает звук, причем сильно размазывает. Резкие звуки размываются во времени. Да, это плохо. Но дело в том, что сравнивать LQT на битрейте всего в 230кбит/с с MP3 на таком же битрейте бесполезно, МР3 проигрывает по общему звучанию. Придраться, конечно, есть к чему. МР3 теряет и искажает верхние частоты, LQT же в свою очередь несколько "проваливает" средние частоты и размазывает верхние. В общем, тут кому что больше понравится. Но это — тема уже для другой статьи. Сегодня у нас разговор только про высшие битрейты. Да, LQT дает хорошее качество, но отнюдь не супер. По всей видимости, здесь сказывается недостаток скорости потока, то есть, если в LQT появится режим большего битрейта, он побьет даже 320 кбит/с MP3 на записях типа исследуемой.

Это были мои чисто субъективные впечатления. Давайте теперь перейдем к более объективным тестам. Исследуем АЧХ (то есть амплитудно-частотную характеристику ) семплов, признанных лучшими (320 для MP3, 315 для OGG и 230 для LQT). Представленная диаграмма — так называемый "сонарм" — частотно-временное представление звука. По горизонтали располагается шкала времени, по вертикали — линейная шкала частот.

Внимательно присмотрелись? Вот вам и ясное подтверждение моих слов: новейший формат Ogg Vorbis в режиме 256 явно недотягивает "по верхам" — урезание частот видно невооруженным взглядом. "Супер коммерческий" формат LQT передает диапазон частот по верхам вроде как даже лучше, чем LAME, но общее качество хуже. Дело в том, что в LQT нет режима чистого стерео — там, по сути, всегда Joint-Stereo (кодер сначала сжимает левый канал, а потом кодирует только разницу между левым и правым). Из-за этого и происходит размазка верхов при недостатке битрейта, что прекрасно видно на иллюстрациях, плюс сие заключение легко подтверждается исследованием сигнала в MS-матрице, т.е. при переводе его в режим центральный канал + стерео. Что можно сказать про семпл LAME… все просто замечательно — чуть-чуть урезаются верхние частоты, но это терпимо; видимых провалов также не отмечено.

Подытожим. На финишной прямой для семпла Roxette форматы OGG на 256 кбит/с и LQT сошли с дистанции, семпл OGG на 350 кбит/с не уступает лидеру. Однако не будем хоронить новый формат раньше времени — подождем релиза. Вот тогда уже и проведем тесты еще раз: OGG 256 против LAME 320.

Семплы Richard Clayderman

C семплами Roxette вроде все понятно — плотный звук пока лучше сжимать кодером LAME в режиме 320 кбит/с. А как насчет более прозрачного звука? Попробуем сначала сжать в режиме 256 кбит/с и все, по идее, должны бы быть довольны. Результат: низкие частоты вроде на месте, да и средние тоже, а вот верхние частоты… не стало верхних частот! Они есть, но в них не осталось того красивого звучания, не обратить внимание на которое в данной записи очень сложно. Высокие частоты в целом на месте и сильных потерь нет, однако звук "тарелок" стал какой-то синтетический, резкий и весьма неприятный. Такой звук не имеет права претендовать на звание качественного. Что ж, придется снова использовать 320, а ведь как хотелось сжать в 256… Если сравнивать 320 со звучанием 256, передача верхних частот стала значительно лучше. Однако, при сравнении с оригиналом, слышно, что запись по-прежнему не является удовлетворительной в плане качества. После сравнения еще нескольких семплов, становится очевидно, что это погрешности психоакустической модели. Даже в 320 кбит/с MP3 не передает нормально верхние частоты на исследуемом типе записей. Верхние частоты становятся более резкими, металлическими, от них так и веет синтетикой и, как ни странно, они кажутся более громкими (измерения АЧХ этого не демонстрируют — чисто слуховой эффект).

Исследуем теперь Ogg Vorbis. Как и в предыдущем тесте, берем семплы, сжатые в режиме 256 кбит/с. После неудачи с MP3 сложно поверить в полученный результат — звучание Ogg Vorbis лучше по всем параметрам и не идет ни в какое сравнение с тем, что выдает LAME на 320 кбит/с! Сравнивая с оригиналом, также очень сложно найти разницу. Ogg Vorbis на битрейте 287 побил LAME на битрейте 320. Именно об этом я и говорил в начале статьи: формат OGG вполне может победить MP3.

Хорошо, а что нам может сказать титулованный формат LQT на битрейте всего в 252? Но и здесь получается шокирующий результат — чрезвычайно близкое соответствие оригиналу! По-крайней мере, разница настолько мала, что можно считать ее несущественной. Еще, обратите внимание на интересный факт: при кодировании семплов Roxette средний битрейт получался порядка 230 кбит/с, а на, казалось бы, более простых семплах Clayderman — 250 кбит/с. Это говорит о том, что LQT значительно лучше адаптирован под реальное звучание музыки, в нем более точно учитываются все нюансы. Великолепный формат. Вот ему бы нормальный кодер без выкрутасов и битрейт чуть-чуть повыше, чтобы смог кодировать более сложные семплы.

Это были мои субъективные "слуховые" исследования. Теперь посмотрим на АЧХ.

И снова анализ АЧХ сигналов только подтверждает мои выводы по результатам прослушивания: LQT выдает просто выдающийся результат, на сей раз лучше LAME. Прекрасная передача частотного диапазона, а потери на уровне 21 кГц это удаленный высокочастотный шум, что даже приветствуется. LAME отстает, но не сильно. Как и ожидалось, с передачей частотного диапазона у MP3 все нормально. А вот АЧХ семпла Ogg Vorbis принесло разочарование: посмотрите, какое урезание частот. Но звучит он лучше, чем можно было бы подумать, взглянув на его АЧХ. По всей видимости, за счет урезания некоторых частот получается возможным более точно передать общую звуковую картину.

И что же мы получаем в итоге? Два лидера: LAME и LQT на максимальном битрейте. OGG очень сильно наступает на пятки MP3 и победит в дальнейшем, если его разработчики доведут свою идею до финального воплощения: меньший размер и лучшее качество.

Исследование дельта-сигналов

Формат MP3 за счет высокого битрейта лучше на большинстве записей. Однако он сдает позиции, когда мы имеем дело с очень качественным звуком. Здесь LQT — абсолютный фаворит. Но разница между 256 и 320 не такая уж и большая, поэтому ею чаще всего можно поступиться ради более удобного и распространенного формата. Многие, да и я в том числе, так и делают в своей фонотеке, а особо качественные записи просто покупают на дисках.

Все это конечно хорошо, но два формата звучат по-разному, и это не дает многим покоя. Есть еще одно интересное исследование. Можно вычислить разностный сигнал (далее он будет упоминаться как дельта-сигнал ) двух семплов и тем самым узнать, а в чем же они различаются. Это, конечно же, сугубо цифровое исследование, т.к. разница может быть не настолько значительной, чтобы ее можно было услышать. В нашем случае все оказалось совсем не так.

Громкость разностного сигнала доходит до -25дБ, а его АЧХ внешне сильно напоминает широкополосный шум. Если прослушать дельта-сигнал, он звучит как широкополосный набор искажений, т.е. в нем явно слышна разница психоакустических моделей MP3 и LQT.

Сравнив по той же схеме MP3 с форматом OGG, ничего нового не получили (разница, конечно, меньше, но она все же значительная):

Аналогичные результаты получаются и для пары LQT и OGG.

Результаты исследования дельта сигналов говорят о том, что психоакустические модели трех рассмотренных форматов очень сильно отличаются друг от друга и их бессмысленно сравнивать между собой по разнице АЧХ.

Заключение

Что ж, попытаемся сделать некоторые окончательные выводы, представив их в виде практических рекомендаций:

LAME — лучший представитель кодеров формата MP3, выдает практически максимум того, что можно получить из MP3. Для всех очень громких и "плотных" записей я бы рекомендовал использовать LAME на 320.
OGG — некоторая структурная модификация формата MP3 с новой психоакустической моделью, математическая обработка и практическая реализация которой в корне отличается от MP3. Для малоценных и низкокачественных записей пойдет OGG в режиме 192 кбит/с (либо LQT в режиме 128 Transparent, в среднем получается 160-180 кбит/с).
В отличие от MP3 и OGG, которые являются представителями кодеров формата MPEG-1, формат LQT базируется на спецификации MPEG-2 AAC. Формат AAC передает значительно лучшее качество на более низких битрейтах за счет принципиально другой обработки звука. Для записей средней ценности рекомендую LQT (на максимуме), либо на выбор (разница между ними невелика): OGG в режиме 256 кбит/с, LAME на 256. VBR режим кодера LAME лучше не использовать, он заметно хуже.
Для очень качественных записей, на которых даже при кодировании в 320 кбит/с ясно слышно отсутствие чего-либо значительного в звучании семпла, попробовать закодировать семпл кодером Ogg Vorbis на 350 кбит/с.
Если сжатый с потерями звук Вас всё-таки не устроит, придется покупать понравившиеся композиции на CD-DA диске.

Возможно, какая-то часть статьи Вас заинтересовала в большей степени. Пишите мне — буду очень рад отзывам.

Итак, как мы уже знаем, для передачи звука с качеством аудио-компакт-дисков требуется пропускная способность, равная 1,411 Мбит/с. Понятно, что для практической передачи подобных данных через Интернет требуется значительное сжатие. Для этого были разработаны различные алгоритмы сжатия оцифрованного звука. Одним из самых популярных форматов является аудио-MPEG, имеющий три уровня (разновидности). Самым известным и качественным является MP3 (MPEG layer 3 - MPEG 3-го уровня). В Интернете можно найти огромное количество записей в MP3, не все из которых на самом деле являются легальными. Это привело к множеству судебных разбирательств, инициированных ущемленными в своих законных правах артистами и обладателями авторских прав. MP3 - это часть стандарта MPEG, предназначенного для сжатия видеосигнала. Методы сжатия движущихся изображений мы рассмотрим позднее в этой главе, а сейчас обратимся к сжатию звука.

Существуют две концепции сжатия звука. При кодировании формы сигналов сигнал раскладывается на компоненты при помощи преобразования Фурье. На рис. 2.1, а показан пример в виде временной функции и амплитуд, получающихся в результате ее разложения в ряд Фурье. Амплитуда каждого компонента кодируется с минимальными искажениями. Задачей является максимально аккуратная передача формы сигнала с минимально возможной затратой битов.

Другая концепция называется перцепционным кодированием. Она основана на некоторых недостатках слухового аппарата человека, позволяющих шифровать сигнал таким образом, что слушатель не ощутит никакой разницы по сравнению с настоящим сигналом, хотя на осциллографе эта разница будет весьма заметна. Наука, на которой базируется перцепционное кодирование, называется психоакустикой. Она изучает восприятие звука человеком. Формат MP3 использует перцепционное кодирование.

Ключевым свойством перцепционного кодирования является то, что одни звуки могут маскировать другие. Представьте себе, что теплым летним вечером вы медитируете на лужайке, слушая живой концерт для флейты с оркестром. Затем, откуда ни возьмись, появляется бригада рабочих с отбойными молотками в руках, которая начинает вскрывать асфальт на близлежащей улице. Расслышать флейту, к сожалению, уже никто не в состоянии. Нежные звуки, издаваемые ею, подверглись маскированию звуками отбойных молотков. Если рассматривать ситуацию с точки зрения передачи данных, то в этот момент достаточно кодировать лишь диапазон частот, в котором работают отбойные молотки, - все равно флейту за этим грохотом не слышно. Способность громких звуков определенного диапазона частот «прятать» более тихие звуки других диапазонов (которые были бы слышны при отсутствии громких звуков) называется частотным маскированием. На самом деле, даже после того как рабочие выключат отбойные молотки, слушатели не будут слышать флейту в течение некоторого небольшого периода времени. Это связано с тем, что при появлении очень громкого звука коэффициент усиления человеческого уха резко снизился, и после прекращения работы отбойных молотков требуется время для его возвращения в нормальное состояние. Этот эффект называется временным маскированием.

Чтобы перейти от качественного описания этих эффектов к количественным, представим себе проведение некого эксперимента 1. Человек, находящийся в тихом помещении, надевает наушники, соединенные со звуковой картой компьютера. Компьютер генерирует звук (чистую синусоидальную звуковую волну) с частотой 100 Гц, сила которого постепенно возрастает. Испытуемый должен нажать клавишу на клавиатуре, как только он услышит звук. Компьютер запоминает силу звука, при которой была нажата клавиша, и повторяет эксперимент на частотах 200 Гц, 300 Гц и т. д., доходя до верхнего предела слышимых частот. Эксперимент необходимо провести над большим количеством испытуемых. На рис. 7.27, а показан график с логарифмическим масштабом на обеих осях, показывающий усредненную зависимость порога слышимости от частоты звука. Наиболее очевидный вывод, который можно сделать при взгляде на эту кривую, состоит в том, что нет никакой необходимости когда бы то ни было кодировать частоты, амплитуда которых ниже порога слышимости.

Например, если сила звука на частоте 100 Гц равна 20 дБ, этот звук можно не кодировать, и качество звучания при этом не ухудшится, так как уровень 20 дБ при 100 Гц находится ниже порога слышимости (рис. 7.27, а).

Теперь рассмотрим эксперимент 2. Пусть компьютер повторяет действия эксперимента 1, но на этот раз на каждую тестовую частоту будет накладываться синусоидальная звуковая волна постоянной амплитуды с частотой, скажем, 150 Гц. Мы обнаружим, что порог слышимости для частот, расположенных вблизи 150 Гц, резко возрастает. Это отражено на графике на рис. 7.27, б.

Рис. 7.27. Порог слышимости как функция частоты (а); эффект маскирования (б)

Из последнего наблюдения можно сделать следующий вывод: зная, какие сигналы маскируются более мощными сигналами на близлежащих частотах, мы можем пренебречь соответствующими частотами и не кодировать их, экономя тем самым биты. Из рис. 7.27, б очевидно, что сигналом с частотой 125 Гц мо^ п ° полностью пренебречь, и никто не заметит разницы. Знание свойств времени° г ° маскирования позволяет даже после прекращения звучания громкого сип* 2 ^ в каком бы то ни было частотном диапазоне в течение некоторого времени (пока ухо настраивается на меньшую мощность звука) продолжать пренебрегать кодированием этой частоты. Суть алгоритма MP3 состоит в разложении сигнала в ряд Фурье для получения силы звука на каждой из частот с последующей передачей исключительно немаскированных частот, кодируемых минимально возможным числом бит.

Теперь, зная основной принцип, мы можем рассмотреть, как производится само кодирование. Сжатие звука выполняется путем замеров формы сигналов, производимых с частотой 32 000, 44 100 или 48 000 раз в секунду. Замеры могут сниматься по одному или двум каналам в одной из четырех комбинаций:

1. Монофонический звук (один входной поток).

2. Двойной монофонический звук (например, звуковая дорожка на английском

и японском).

3. Разъединенное стерео (каждый канал сжимается отдельно).

4. Объединенное стерео (учитывается межканальная избыточность сигнала).

Для начала выбирается желаемая выходная битовая скорость. С помощью алгоритма MP3 можно сжать записанную на компакт-диск стереофоническую запись рок-н-ролла до 96 Кбит/с с потерей качества, едва заметной даже для фанатов рок-н-ролла, не лишенных слуха. Если мы хотим «перегнать в MP3» фортепианный концерт, нам понадобится битовая скорость по крайней мере 128 Кбит/с. Чем обусловлена такая разница? Дело в том, что соотношение сигнал/шум в рок-н- ролле гораздо выше, чем в фортепианном концерте (только в техническом смысле, разумеется). Можно, впрочем, выбрать меньшую битовую скорость и получить более низкое качество воспроизведения.

После этого отсчеты обрабатываются группами по 1152 (что занимает около 26 мс). Каждая группа предварительно проходит через 32 цифровых фильтра, выделяющих 32 частотных диапазона. Одновременно входной сигнал заводится в психоакустическую модель для определения маскирующих частот. Затем каждый из 32 частотных диапазонов преобразуется с целью получения более точного спектрального разрешения.

Следующим шагом является распределение имеющегося запаса бит между частотными диапазонами. При этом большее число бит отводится под диапазон с наибольшей немаскированной спектральной мощностью, меньшее - под немаскируемые диапазоны с меньшей спектральной мощностью, и совсем не отводятся биты под маскируемые диапазоны. Наконец, битовые последовательности шифруются с помощью кода Хаффмана (Huffman), который присваивает короткие коды числам, появляющимся наиболее часто, и длинные - появляющимся редко.

На самом деле, эта тема далеко не исчерпана. Существуют методы шумоподавления, сглаживания сигналов, использования межканальной избыточности (при наличии такой возможности), однако все это, к сожалению, невозможно охватить в рамках нашей книги. Более формально изложенные математические основы этих процессов даются в книге (Pan, 1995).

Общепризнанные методы сжатия данных, такие, как RLE, статистические и словарные методы, могут быть использованы для компрессии звуковых файлов без потерь, но результат существенно зависит от конкретных аудиоданных. Некоторые звуки будут хорошо сжиматься с помощью RLE, но плохо - статистическими алгоритмами. Другим звукам больше подходит статистическое сжатие, а при словарном подходе, наоборот, может произойти расширение. Приведем краткую характеристику эффективности этих трех методов при сжатии звуковых файлов.

RLE хорошо работает со звуками, которые содержат длинные серии повторяющихся звуковых фрагментов - сэмплов. При 8-битном сэмплировании это может происходить довольно часто. Напомним, что разность электрического напряжения между двумя 8-битовыми сэмплами и составляет около 4 мВ. Несколько секунд однородной музыки, в которой звуковая волна будет меняться менее чем на 4 мВ, породят последовательность из тысяч тождественных сэмплов. При 16-битном сэмплировании, очевидно, длинные повторы встречаются реже, и, следовательно, алгоритм RLE будет менее эффективен.

Статистические методы присваивают коды переменной длины звуковым сэмплам в соответствии с их частотностью. При 8-битном сэмплировании имеется всего 256 различных сэмплов, поэтому в большом звуковом файле сэмплу могут быть распределены равномерно. Такой файл не удастся хорошо сжать методом Хаффмана. При 16-битном сэмплировании допускается более 65000 звуковых фрагментов. В этом случае, возможно, что некоторые сэмплы будут встречаться чаще, а другие - реже. При сильной асимметрии вероятностей хороших результатов можно добиться с помощью арифметического кодирования.

Методы, основанные на словарном подходе, предполагают, что некоторые фразы будут встречаться часто на протяжении всего файла. Это происходит в текстовом файле, в котором отдельные слова или их последовательности повторяются многократно. Звук, однако, является аналоговым сигналом и значения конкретных сгенерированных сэмплов в большой степени зависит от работа АЦП. Например, при 8-битном сэмплировании, волна в 8 мВ становится числовым сэмплом, равным 2, но близкая ей волна, скажем, в 7.6 мВ или 8.5 мВ может стать другим числом. По этой причине, речевые фрагменты, содержащие совпадающие фразы и звучащие для нас одинаково, могут слегка отличаться при их оцифровывании. Тогда они попадут в словарь в виде разных фраз, что не даст ожидаемого сжатия. Таким образом, словарные методы не очень подходят для сжатия звука.

Можно добиться лучших результатов при сжатии звука с потерей части аудиоинформации, развивая методы компрессии, которые учитывают особенности восприятия звука. Они удаляют ту часть данных, которая остается неслышимой для органов слуха. Это похоже на сжатие изображений с отбрасыванием информации, незаметной для глаза. В обоих случаях мы исходим из того факта, что исходная информация (изображение или звук) является аналоговым, то есть, часть информации уже потеряно при квантовании и оцифровывании. Если допустить еще некоторую потерю, сделав это аккуратно, то это не повлияет на качество воспроизведения разжатого звука, который не будет сильно отличаться от оригинала. Мы кратко опишем два подхода, которые называются подавлением пауз и уплотнением.

Идея подавления пауз заключается в рассмотрении малых сэмплов, как если бы их не было (то есть, они равны нулю). Такое обнуление будет порождать серии нулей, поэтому метод подавления пауз, на самом деле, является вариантом RLE, приспособленным к сжатию звука. Этот метод основан на особенности звукового восприятия, которое состоит в терпимости уха человека к отбрасыванию еле слышных звуков. Аудиофайлы, содержащие длинные участки тихого звука будут лучше сжиматься методом подавления пауз, чем файлы, наполненные громкими звуками. Этот метод требует участие пользователя, который будет контролировать параметры, задающие порог громкости для сэмплов. При этом необходимы еще два параметра, они не обязательно контролируются пользователем. Один параметр служит для определения самых коротких последовательностей тихих сэмплов, обычно, это 2 или 3. А второй задает наименьшее число последовательных громких сэмплов, при появлении которых прекращается тишина или пауза. Например, после 15 тихих сэмплов может последовать 2 громких, а затем 13 тихих, что будет определено как одна большая пауза длины 30, а аналогичная последовательность из 15, 3 и 12 сэмплов, станет двумя паузами с коротким звуком между ними.

Уплотнение основано на том свойстве, что ухо лучше различает изменения амплитуды тихих звуков, чем громких. Типичное АЦП звуковых карт компьютеров использует линейное преобразование при переводе напряжения в числовую форму. Если амплитуда была конвертирована в число , то амплитуда будет переведена в число . Метод сжатия на основе уплотнения сначала анализирует каждый сэмпл звукового файла и применяет к нему нелинейную функцию для сокращения числа бит, назначенных этому сэмплу. Например, при 16-битных сэмплах, кодер с уплотнением может применять следующую простую формулу

(6.1)

для сокращения каждого сэмпла. Эта формула нелинейно отображает 16-битные сэмплы в 15-битные числа интервала , причем маленькие (тихие) сэмплы меньше подвергаются искажению, чем большие (громкие). Табл. 6.7 иллюстрирует нелинейность этой функции. На ней показано 8 пар сэмплов, причем в каждой паре разность между сэмплами равна 100. Для первой пары разность между их образами равна 34, а разность между образами последней (громкой) пары равна 65. Преобразованные 15-битные числа могут быть приведены к исходным 16-битным сэмплам с помощью обратной формулы

. (6.2)

		Разность			Разность

Табл. 6.7. Отображение 16-битных сэмплов в 15-битные числа.

Сокращение 16-битных сэмплов до 15-битных чисел не дает существенного сжатия. Лучшее сжатие получается, если в формулах (6.1) и (6.2) заменить число 32767 меньшим. Например, если взять число 127, то 16-битные сэмплы будут представлены 8-битными числами, то есть, коэффициент сжатия буде равен 0.5. Однако, декодирование будет менее аккуратным. Сэмпл 60100 будет отображен в число 113, а при декодировании по формуле (6.2) получится сэмпл 60172. А маленький 16-битный сэмпл 1000 будет отображен в 1.35, что после округления даст 1. При декодировании числа 1 получится 742, что сильно отличается от исходного сэмпла. Здесь коэффициент сжатия может быть параметром, непосредственно задаваемым пользователем. Это интересный пример метода сжатия, при котором коэффициент сжатия известен заранее.

На практике нет необходимости обращаться к уравнениям (6.1) и (6.2), поскольку результат отображения можно заранее приготовить в виде таблицы. Тогда и кодирование, и декодирование будут делаться быстро.

Уплотнение не ограничивается уравнениями (6.1) и (6.2). Более изощренные методы, такие как -правило и -правило, широко применяются на практике и входят во многие международные стандарты сжатия.

Основы принципа аналого-цифрового преобразования, метод конверсии и сжатия звука, существующие форматы хранения звука. Программы для конвертации и обработки звука и аудио-файлов. Применение этих программ в лингвистических исследованиях.

Битрейт - это объем информации в единицу времени. Вообще битрейт - это сколько битов мы тратим на кодирование звука длительностью 1 сек.

Аналого-цифровой преобразователь (АЦП, англ. Analog-to-digital converter, ADC) - устройство, преобразующее входной аналоговый сигнал в дискретный код (цифровой сигнал). Обратное преобразование осуществляется при помощи ЦАП (цифро-аналогового преобразователя, DAC). Как правило, АЦП - электронное устройство, преобразующее напряжение в двоичный цифровой код. Тем не менее, некоторые неэлектронные устройства с цифровым выходом, следует также относить к АЦП, например, некоторые типы преобразователей угол-код. Простейшим одноразрядным двоичным АЦП является компаратор.

Схема преобразования звукового сигнала из аналогового в цифровой:

Дискретизация - это преобразование непрерывных изображений и звука в набор дискретных значений в форме кодов.

Квантование - это процесс выравнивания набора музыкальных нот под сетку.

Сжатие (компрессия ) аудиоданных представляет собой процесс уменьшения скорости цифрового потока за счет сокращения статистической и психоакустической избыточности цифрового звукового сигнала

Основанная идея, на которой основаны все методики сжатия аудио сигнала с потерями, – пренебрежение тонкими деталями звучания оригинала, лежащие вне пределов которые воспринимает человеческое ухо.

Кодек (CoDec) - это сокращение слов «компрессор и декомпрессор». По сути, кодек - это набор файлов, драйверов и библиотек, необходимых для упаковки видео или звукового файла в сжатый формат и воспроизведения сжатого файла.

Форматы:

AAC (англ. Advanced Audio Coding) - формат аудио-файла с меньшей потерей качества при кодировании, чем MP3 при одинаковых размерах. Формат также позволяет сжимать без потери качества исходника (профиль ALAC AAC).

AAC (Advanced Audio Coding) изначально создавался как преемник MP3 с улучшенным качеством кодирования. Формат AAC, официально известный как ISO/IEC 13818-7, вышел в свет в 1997 как новая, седьмая, часть семьи MPEG-2. Существует также формат AAC, известный как MPEG-4 Часть 3.

Apple AIFF - Этот тип файлов является стандартным для систем Apple Macintosh и систем обработки звука, построенных на его основе. Apple AIFF расшифровывается как Audio Interchange File Format - формат файла обмена звуком, он в чем-то схож с WAV. Его особенностью является то, что он позволяет размещать вместе со звуковой волной дополнительную информацию, в частности, самплы WaveTable (примеры звучания инструментов вместе с параметрами синтезатора), что улучшает качество итогового результата. Хотя в настоящее время компьютеры Apple способны воспроизводить файлы практически любых форматов, в том числе и МР3.

FLAC (англ. Free Lossless Audio Codec - свободный аудиокодек без потерь) - популярный свободный кодек для сжатия аудио. В отличие от кодеков с потерями Ogg Vorbis, MP3 и AAC, не удаляет никакой информации из аудиопотока и подходит как для ежедневного прослушивания, так и для архивирования аудиоколлекции. На сегодня формат FLAC поддерживается многими аудиоприложениями.

FLAC является членом семейства кодеков, разрабатываемых Xiph.Org. К слову, в него же входит известный ogg vorbis – один из лучших lossy-алгоритмов сжатия музыки. В качестве контейнера для аудиоданных используется, разумеется, OGG (файлы с расширением.ogg) и ещё один open-source контейнер – Matroska (файлы с расширением.mka).

Сразу стоит отметить полную открытость как формата, так и алгоритма FLAC. Они не патентованы, поэтому могут совершенно безвозмездно использоваться в любых программах. Именно этим обусловлена широкая поддержка FLAC в проигрывателях – любой серьёзный плеер имеет плагин для FLAC. Кроме этого существуют аппаратные mp3-плееры с поддержкой кодека FLAC.

Программа-кодировщик FLAC скомпилирована для большинства используемых платформ, так что проблем с совместимостью на альтернативных Windows операционных системах возникнуть не должно.

FLAC поддерживает теги собственного формата “FlacTags”. Есть возможность кодирования многоканального звука – серьёзное преимущество по сравнению с Monkey’s Audio. Формат поддерживает любые частоты семплирования в диапазоне от 1 Гц (!) до 65,535 Гц. Разрядность аудио от 4-х (!) до 32-х бит.

Считается, что в сравнении с остальными lossless-кодеками FLAC наиболее эффективно расходует ресурсы системы при раскодировании (воспроизведении) аудио. К сожалению, это достигается за счёт значительного повышения времени кодирования (сжатия).

Сайт FLAC регулярно обновляется, выходят новые версии кодека. Вообще, по активности развития FLAC безусловно лидирует. Вполне возможно, что в будущем это сделает его основным форматом. Что ж, посмотрим…

FLAC является оптимальным выбором для хранения музыки в высоком качестве.

MIDI (англ. Musical Instrument Digital Interface - цифровой интерфейс музыкальных инструментов) - стандарт на аппаратуру и программное обеспечение, позволяющее воспроизводить (и записывать) музыку путем выполнения/записи специальных команд, а также формат файлов, содержащих такие команды. Воспроизводящее устройство или программа называется синтезатором (секвенсором) MIDI и фактически является автоматическим музыкальным инструментом.

В отличие от других форматов, хранит не оцифрованный звук, а наборы команд (проигрываемые ноты, ссылки на проигрываемые инструменты, значения изменяемых параметров звука), которые могут воспроизводиться по-разному в зависимости от устройства воспроизведения. Удобство формата MIDI как формата представления данных позволяет реализовывать устройства, производящие автоматическую аранжировку по заданным аккордам, а также приложения 3D-визуализации звука. Кроме того, такие файлы, как правило, имеют на несколько порядков меньший размер, чем оцифрованный звук сравнимого качества.

Monkey’s Audio - популярный формат кодирования цифрового звука без потерь. Распространяется бесплатно вместе с открытым исходным кодом и набором программного обеспечения для кодирования и воспроизведения, а также плагинами к популярным плеерам. Файлы Monkey’s Audio используют следующие расширения: .ape для хранения аудио и.apl для хранения метаданных. Несмотря на открытый исходный код, Monkey"s Audio не является свободным, так как его лицензия накладывает значительные ограничения на использование.

Аудиофайлы, сжатые кодеком Monkey’s Audio, имеют расширение ‘APE’ – как видите, обезьяны присутствуют не только в логотипе или названии (от английского ape - обезьяна, примат).

Средний битрейт в аудиофайле составляет 600-700 кбит/с; сравните с 128 кбит/с в Mp3. Среднее сжатие составляет 40-50 % в зависимости от жанра музыки: если классические или джазовые произведения сжимаются самым лучшим образом, то композиции в стиле trash-metal или что-то подобное «электронно шумовое» покажет наихудший результат. Для кодеков с потерями при приемлемом качестве сжатие составляет около 80 %.

Существуют четыре степени сжатия. Максимальная компрессия может показаться единственно верным решением, даже несмотря на довольно большое время сжатия. Однако нужно учитывать ещё и расход ресурсов системы, воспроизводящей файл, – для максимально сжатого файла он относительно высок.

Формат.APE обеспечивает поддержку тегов для поиска композиций в музыкальной коллекции. Ещё одним плюсом является проверка целостности файла при раскодировании. Поддерживается восстановление оригинального wav-файла из сжатого.APE.

Monkey’s Audio имеет графический фронтэнд под Windows, иначе говоря удобную оконную программу для управления процессом кодирования. Остальные кодеки требуют использования командной строки или фронтэндов сторонних разработчиков. Самое приятное, что фронтэнд Monkey’s Audio можно использовать и с другими кодеками – Rkau, Wavpack, Shorten и даже lossy-кодеками mp3 и ogg vorbis.

Немного о недостатках. Кодек Monkey’s Audio существует только под Windows. Однако на сайте написано, что «версии под Mac и Linux уже разрабатываются». К слову сказать, сам сайт не обновлялся достаточно давно, что не является хорошим признаком. Также отсутствует какая-либо поддержка среди производителей аппаратных плееров.

Отсутствие кросплатформенности кодека для многих является самым серьёзным минусом Monkey’s Audio. Но шаги по исправлению этого недостатка уже делаются. Стоит упомянуть проект JMAC (http://sourceforge.net/projects/jmac/) по переработке исходных кодов Monkey’s Audio под язык Java. Это позволит использовать кодек на любой ОС без необходимости внесения изменений в исходники и перекомпиляции.

MP3 - (формат кодирования звуковой дорожки MPEG) - лицензируемый формат файла для хранения аудио-информации.

Самый популярный формат сжатия на сегодняшний день – это МР3. Формат МР3 (MPEG Layer 3) был разработан, после ряда промежуточных форматов, институтом Фраунхофера в Германии. Вообще то, формат.МР3 основан на обмане человеческого уха. После некоторых исследований выяснилось, что человеческому слуху свойственно адаптироваться к появлению новых звуков, что выражается в повышении порога слышимости. Поэтому одни звуки способны маскировать (то есть, делать субъективно неслышимыми) другие. Вот и в этом формате часть звуков, которые, как считает соответствующая теория, делаются неслышимыми, просто убираются из общего звучания. После чего получившийся «полуфабрикат» кодируется по методу Хоффмана. Обязательно следует учитывать то, что в формате МР3 программы, сжимающие звук из оригинального, не являются стандартизированными, то есть каждый грамотный программист может реализовать свою схему сжатия. А стандартам подчиняются только декодеры, что приводит к тому, что качество воспроизведения формата МР3 далеко не всегда зависит от плеера, проигрывающего этот файл. В связи с разными способностями и пристрастиями реализаторов различных кодеров, одни из них лучше справляются с симфонической музыкой, другие - с роком и металлом, третьи - с рэпом и рэйвом и так далее.

JointStereo, являющийся одной из особенностей МР3, означает, что вместо кодирования стерео как двух независимых каналов производится кодирование т.н. центрального канала и разницы, отличающей его от исходных стереоканалов. Довольно много составляющих звука в стереоканалах одинаковы, и их кодирование в общем канале позволяет высвободить дополнительную полосу для более подробного кодирования разницы, что приводит к некоторому улучшению качества.

Обязательно следует упомянуть и о Variable Bit Rate, или VBR. Это означает, что кодер изменяет степень сжатия «на лету», в зависимости от характера звука. Такой подход приводит к уменьшению итогового размера файла или, при увеличении требований к качеству, при том же размере файла позволяет добиться лучшего звучания.

MP3 Pro - Появившийся в 2001 году кодек MP3 Pro был создан компанией Coding Technologies совместно с Thomson Multimedia. В его основе лежит МР3, и в результате он получился полностью совместимым с MP3 назад и лишь частично вперед. В нем используется технология SBR (Spectral Band Replication), за счет чего кодек обеспечивает хорошее качество на низких битрейтах. Однако качество кодирования на средних и высоких скоростях передачи данных уступает качеству почти всех других кодеков. В итоге MP3 Pro применяется больше для трансляций в интернете и демонстраций фрагментов новых музыкальных композиций.

Аудио стандарт MPEG-4 не требует единственного или малого набора высокоэффективных схем компрессии, а скорее сложный набор для выполнения широкого круга операций от кодирования низкокачественной речи до высококачественного аудио и синтезирования музыки.

Семейство алгоритмов аудио кодирования MPEG-4 охватывает диапазон от кодирования низкокачественной речи (до 2 кБит/с) до высококачественного аудио (от 64 кБит/с на канал и выше).

RAW - Да, это не только формат изображения, в котором пишут фотографии некоторые цифровые камеры. На самом деле, RAW является т.н. «чистой оцифровкой», в которой не содержится заголовка и находится лишь последовательность отсчетов звуковой волны. Обычно оцифровка хранится в 16-разрядном формате.

Shorten – один из первых появившихся lossless-кодеков. Долгое время проект "спал сладким сном". Однако, в 2007 году, он снова начал развиваться.

TTA (True Audio) - Напоследок о самом интересном. TTA разрабатывается командой наших соотечественников. И, надо сказать, результат их работы впечатляет. Обо всём по порядку.

Кодек является ещё довольно молодым, но несмотря на это содержит все необходимые возможности. Не будем в очередной раз перечислять их, отметим лишь, что формату не хватает лишь поддержки трансляции аудио через сеть.

Формат открыт, равно как и исходные коды программы-кодировщика. Существуют скомпилированные версии под Mac и Linux. Проблем с совместимостью при воспроизведении также возникнуть не должно, ибо уже существуют плагины для всех популярных проигрывателей, а также DirectShow фильтры для Windows Media Player. Есть плагин для Adobe Audition, что немаловажно для музыкантов. За последние 4 года даже появилась аппаратная поддержка в плеерах!

WAV - Он является основным аудио форматом для многих и многих систем воспроизведения цифрового звука и используется как стандартный формат звуковых файлов в персональных компьютерах. К тому же, он имеет солидный набор спецификаций, изрядно пополнившийся за последнее время. Его полное название - Microsoft RIFF/WAVE - Resource Interchange File Format/Wave - формат файлов передачи ресурсов/волновая форма, и создан он был инженерами Microsoft и Intel. В свою очередь, WAV расшифровывается как Waveform Audio File Format.

Windows Media Audio (WMA) - лицензируемый формат файла, разработанный компанией Microsoft для хранения и трансляции аудио-информации.

Номинально формат WMA характеризуется хорошей способностью сжатия, что позволяет ему «обходить» формат MP3 и конкурировать по параметрам с форматами Ogg Vorbis и AAC. Но как было показано независимыми тестами, а также при субъективной оценке качество форматов все таки не является однозначно эквивалетным, а преимущество даже перед MP3 однозначным, как это утверждается компанией Microsoft.

Программы:

DVDVideoSoft Free Studio 6.1.1.426

Пакет бесплатных программ обработки мультимедиа. Конвертирование видео, аудио. Поддержка многих медиаформатов, включая форматы мобильных устройств. Возможность записи CD/DVD/BlueRay-дисков. Работы с медиафайлами сервиса YouTube, других сервисов....

Format Factory 3.0.1.1

Универсальный конвертер видео, аудио, графических файлов. Поддержка большого количества мультимедиа форматов, возможность создания DVDRip....

Русский, Украинский

Free MP3 Cutter and Editor 2.6.0.1654

Очень простая, маленькая, удобная программа редактирования звуковых файлов формата mp3, wav. Free MP3 Cutter and Editor удобен как простой редактор звуковых MP3, WAV-файлов. Может использоваться любым, даже неопытным пользователем....

MediaCoder 0.8.20.5380 Full

Программа обработки медиафайлов: сжатие, конвертер видео-, аудио-, извлечение аудио из видео, создание CD/DVDRip. Непростой, но довольно мощный медиаконвертер. Предоставляет полный спектр настроек при обработке, сжатии, конвертации форматов....

MP3 Quality Modifier 2.51

Основная задача программы - пакетное уменьшение размера MP3 файлов путем изменения его битрейта простым и интуитивно понятным способом, так чтобы размер файла значительно уменьшился, а качество звука осталось прежним. Изменять характеристики MP3 файлов можно при помощи предлагаемых настроек или выставить свои собственные расширенные настройки. Доступны настройки частот и звуковых каналов....

Power Sound Editor Free 7.8.1

Бесплатная версия звукового редактора и средства записи. Богатые возможности обработки звука. Простое понятное управление операциями и различными эффектами над аудио данными....

Nero - многофункциональный мультимедийный пакет для работы с CD и DVD дисками, звуком и видео, включающий в себя также утилиту резервного копирования, вёрстки обложек дисков, поддержку виртуальных дисков. Начиная с версии 6.6.0.13, Nero может также записывать диски форматов HD DVD и Blu-ray. Поддерживает технологии нанесения изображений LabelFlash, DiscT@2, LightScribe. Существуют версии для операционных систем Microsoft Windows и Linux (только программа для записи дисков, без дополнительных утилит).

[править]Состав пакета

Nero Burning ROM - мощная программа для высококачественного копирования и прожига дисков CD, DVD и Blu-ray. Кроме этого в Nero Burning ROM содержатся множество полезных инструментов, которые значительно превосходят функции простого копирования. Это единственная программа, которая необходима пользователю для сохранения данных и предоставления к ним доступа.

Среди основных возможностей Nero Burning ROM можно выделить следующие: высококачественный прожиг и копирование дисков; компоновка дисков CD, DVD и Blu-ray простым перетягиванием файлов; разделение больших файлов для их записи на нескольких физических дисках; надежность чтения данных, несмотря на царапины, возраст и изношенность дисков; улучшенный уровень безопасности с использованием паролей и шифрования...

Nero StartSmart - программа-меню для запуска нижеперечисленных приложений.

Nero Express - Nero Burning Rom с упрощённым пользовательским интерфейсом.

Nero BackItUp - утилита для резервного копирования данных.

Nero Cover Designer - редактор обложек для CD и DVD и их прожиг на диски LightScribe / Label Flash.

Nero Wave Editor - редактор звуковых файлов.

Nero SoundTrax - программа для создания собственных аудиодисков.

Nero ImageDrive - приложение для работы с виртуальными компакт-дисками. Отсутствует в версии 9 и выше. Разработка приложения прекращена.

Nero Vision - программа для записи видеодисков CD/DVD и видеозахвата. Начиная с 5-й версии (Nero 8) может записывать HDTV на HD-DVD/Blu-Ray.

[править]Варианты поставки

Nero поставляется во множестве разных вариантов. Самые частые поставки осуществляются в виде OEM пакетов, которые, обычно, прилагают к большинству CD и DVD рекордеров. Так же Nero продаётся в полном варианте, называемом Premium для европейских продавцов и Ultra Edition для американских. По непонятным причинам для Северной Америки в полный пакет Nero 7 (Ultra Edition) не были включены две технологии: LabelFlash и DiscT@2. В Европейской же версии Nero 7 Premium обе они присутствуют в полном объёме. В остальных функциях они полностью идентичны.

[править]Варианты поставки 10-й версии пакета

Начиная с 10-й версии пакета, некоторые компоненты пакета можно покупать отдельно. Варианты сборок:

Nero Multimedia Suite 10 - самый полный пакет, содержащий все компоненты Nero;

Nero Vision Xtra - содержит только программы: Nero Vision Xtra, Nero MediaHub и Nero Control Center;

Nero Burning ROM - содержит только программы: Nero BackItUp и Nero Express.

[править]Дополнительные утилиты

Nero CD-DVD Speed - тестирование CD или DVD привода.

Nero DriveSpeed - утилита для регулирования скорости вращения CD или DVD привода Отсутствует в версии 10 и выше. Разработка приложения прекращена.

Nero InfoTool - приложение для выдачи подробной информации о возможностях CD или DVD привода, также выдает информацию о системе.

[править]Старые версии программы

На официальном сайте можно приобрести диски с обновлением для предыдущих версий Nero по цене в $10.

[править]Название программы

Программа получила своё название в честь императора Нерона (англ. Nero), предавшего Рим огню (по одной из версий). Благодаря игре слов, название программы Nero Burning ROM(E) может переводиться как «Нерон, сжигающий Рим» или как «Nero, прожигающий (CD-)ROM» . В отличие от Нерона, Nero ничего не уничтожает, а «прожиг», или «выжигание» означает процесс записи оптического носителя.

Значок программы содержит исторический казус: на нём изображён горящий Колизей, который Нерон не мог сжечь - он был построен через несколько лет после смерти Нерона при Веспасиане.