Дещо з того, що потрібно знати про формати об'ємного звучання. Принципи імітації об'ємного звучання

Термін "3D-звук" використовувався настільки часто в різній техніці, що зараз вже складно зрозуміти, що саме він означає. Це може бути простий алгоритм розширення стереобази, і, наприклад, бинауральная запис для навушників. Тому компанія Auro особливо підкреслює, що в її розумінні 3D-звук - це звук у трьох вимірах, коли схема розміщення колонок ведеться за трьома перпендикулярними осями (x, y, z), а запис і зведення робляться виходячи з такого розташування системи. Про те, що відбувається всередині Auro-доріжок і чому бельгійська компанія вирішила відвоювати собі ринок у Dolby Atmos і DTS:X, і йтиметься.

Історія

Все почалося з телефонного дзвінкау березні 2005 року. Німецький продюсер Том Хапке спалахнув ідеєю зробити мікс в аудіоформаті 2+2+2 і запропонував зайнятися цим Вільфріду ван Балену (Wilfried Van Baelen), голові бельгійської студії Galaxy. Вільфрід спочатку поставився до ідеї скептично: ця конфігурація передбачала квадрофонічну схему з двома додатковими каналами, встановленими вище за фронтальні, і здавалася виправданою в озвученні фільмів, але в чому ж виграє музика від двох додаткових фронтальних каналів, він не розумів. Поки що не послухав класику в такому форматі.

Звук виявився глибшим, прозорішим, об'ємнішим, ніж у «площинній» конфігурації 5.1, і спонукав Вільфріда на експерименти. Оскільки альбом необхідно було записати у форматах 2+2+2, 5.1 та 2.0, він взяв за відправну точку схему 5.1 і додав до неї пару фронтальних каналів, проте згодом відчув дисбаланс: за фронтальну півсферу відповідали 6 каналів, тоді як за тилову – всього 2. Його рішення було простим – додати ще більше каналів, і так тили теж обзавелися додатковою парою спікерів, розташованих трохи вище. Конфігурація зросла до формату 9.1, але при цьому не втратила зворотної сумісності з форматом 5.1.

За словами Вільфріда, те, що він випробував, було порівняно з його першим знайомством із квадрофонічним звуком. Колонки справді зникли, з'явилося відчуття присутності на місці, де проводився запис.

Цей експеримент і започаткував п'ятирічну історію розробки формату Auro 3D.

Від вуха до мозку

Вільфрід став вивчати принципи роботи слухового апарату, щоб зрозуміти, чому від додавання додаткового звукового виміру в нього настільки сильно змінилося сприйняття звуку і звідки виникло це відчуття занурення. У результаті він дізнався, що таке всеосяжне враження створює дифузне поле за спиною.

Як відомо, при зведенні в стерео часто використовується прийом переходу звуку з одного каналу в інший, що створює ілюзію переміщення джерела в горизонтальній площині. Вільфрід, продовжуючи експерименти, захотів досягти схожого ефекту у вертикальній площині, але не досяг успіху. Спочатку він вважав, що проблема в обладнанні, але все виявилося цікавішим: він почув бажаний ефект, схиливши голову набік і підійшовши ближче до колонок.

Суть у тому, що діаграма спрямованості людського слуху більше тяжіє до горизонтальної площини, і оскільки люди не мають вуха на потилиці, вертикальну складову ми відповідним чином обробити не можемо. У локалізації звуку людині допомагає різниця в рівні сигналів, різниця в часі сприйняття сигналу лівим та правим вухом та відбиті сигнали. Насправді 90% звуків, які сприймає людське вухо – тривимірні відображення вихідного сигналу. І колонки, що знаходяться на рівні голови, відтворюють саме ті сигнали, які згодом відбиваються від підлоги.

Каналами, об'єктами

Формат Auro-3D, на відміну від конкуруючих Dolby Atmos та DTS:X, не об'єктно-орієнтований, а поканальний. Для досягнення «обволікаючого звуку» до двох шарів колонок – класичного та другого, розташованого під кутом 30 градусів до горизонту – Вільфрід додав третій, встановлений прямо над слухачем. Цей третій шар акустики отримав назву «голос Бога» і додав третій вимір у звук – висоту. Якщо стандартних кінотеатральних конфігураціях, навіть у Dolby Atmos і DTS:X, слухач оточений сферичним шаром звуку, то Auro-3D його ніби обволікає повноцінна півсфера.

В об'єктній технології звукозапису кожне джерело звуку прописується окремо, а в поканальному звук розподіляється між різними каналами, а потім уже підсумовується разом у колонках. Наприклад, при записі звуку жвавої проїзної частини в об'єктно-орієнтованому форматі не вдасться виділити об'єкти, що рухаються самі - машини, велосипеди, людей - для подальшого використання, не можна буде отримати відбитий від цих об'єктів тривимірний звук, так само як і прямий. У поканальній системі цю проблему вирішено шляхом спрощення, і саме тут на сцену виходить вертикальна складова.

Третій шар колонок в Auro 3D створює навколо слухача «вертикальне стереополь», причому за будь-якої схеми розташування акустики в Auro 3D. Сам по собі третій шар не допомагає в локалізації - він допомагає у відтворенні вертольотів, зорельотів і погодних ефектів, що пролітають над головою, але людський слух мало сприйнятливий до звуків, що надходять безпосередньо зверху, та і в цілому звідти, зі стелі, приходить мало звукової інформації. У цьому винна еволюція: так склалося, що найчастіше на зорі людства небезпека виходила приблизно з того ж рівня, на якому знаходилася людина, а не зверху, і саме тому мозок посилено обробляв відбиті від землі звуки.

Формат Auro 3D навіть у скороченій конфігурації, з меншою кількістю аудіошарів, здатний відтворити вертикальне позиціонування джерел звуку, і тому чудово адаптується до різних приміщень і систем. Крім того, Auro 3D є єдиним форматом 3D-звуку на ринку, що підтримує процес мастерингу, заснований на змішуванні всіх каналів, чого не вміють формати об'єктного запису. Фактично Auro 3D – єдиний формат на ринку для музики у 3D. При цьому у століття стислих фоматів – MP3, AAC та інших – Auro 3D має якість 24 біт/96 кГц.

На кожному пристрої

Технологія Auro-3D Engine включає декодер Auro-Codec і апміксер Auro-Matic. За допомогою цих двох алгоритмів досягається універсальність системи. Декодер розпізнає та декодує нативний звук у форматі Auro-3D, в той час як апміксер використовує алгоритм підвищує розподіл звуку з моно, стерео, 5.1 та 7.1 в Auro-3D, за наявності, звичайно, необхідної кількості каналів. Тобто фільми, що вже записані на Blu-ray або навіть DVD, і музику, змонтовану в стерео, можна буде оцінити в новому, максимально тривимірному форматі.

Традиційно технологія апміксу використовує зміни в еквалізації спектру та додає алгоритми відбиття. При розробці Auro-Matic інженери не хотіли чути зайвих реверберацій чи фазових неточностей, але хотіли передати звук максимально близько до того, як його чув та задумував автор. І розробили алгоритми, пов'язані з HRTF (Head Related Transfer Function) – технологією, яка враховує, як людське вухо сприймає звуки у природних умовах. Власники iPhone та iPad можуть оцінити роботу алгоритму, ознайомившись із додатком Beautifyer (на жаль, не доступний у Росії).

Свого часу Auro-Technologies зіткнулася з цікавою проблемою: розробники обладнання не прагнули впроваджувати технологію Auro-3D через те, що не було відповідного контенту, а творці контенту не використовували формат Auro-3D через те, що його ні на чому було відтворювати. Тому компанія вирішила самостійно випустити ресивер, який підтримує Auro-3D, і згодом за нею підтягнулися інші. Зараз окрім лінійки продуктів від компанії StormAudio все більше і більше виробників впровадили Auro-3D у своє AV обладнання: серед них Denon, Marantz, Steinway Lyngdorf, Macintosh, Trinnov, Theta Digital, StormAudio, ATI та Datasat.

Інтерфейс налаштувань інсталяції Auro-3D у процесорі Trinnov Altitude 32

Крім домашніх та недомашніх кінотеатрів та аудіосистем Auro-3D зайняв місце і в автомобільній промисловості. Спільно з компанією Continental розробники створили в автомобілі унікальну вбудовану систему тривимірного звуку, і перші автомобілі, обладнані системою Auro-3D, побачать світ у 2017 році. Звукове поле такого плану змінює атмосферу для водія, дозволяє йому розслабитися та відчути себе комфортніше, і навіть, на думку деяких, начебто розширюють простір салону. Як вважає Вільфрід, при прослуховуванні музики в 3D наш мозок менше напружується, ніж при обробці стереофонограми – звідси й додатковий комфорт.

Автомобіль Porsche Panamera з встановленою системоювід Burmester, яка вміє працювати з Auro-3D-звуком

Наразі вже є близько 200 альбомів, записаних у форматі Auro 9.1, а зовсім небагато – у форматі 10.1, з використанням найвищого каналу. Область використання цього каналу досить специфічна - він необхідний відтворення саме тих звуків, які долинають безпосередньо зверху, а музиці розташованих над слухачем об'єктів зазвичай немає. Навіть записи живих концертів не потребують «голосу Бога», бо концертних залів, як правило, менше відображень. Серед двох сотень альбомів у форматі 9.1 зустрічаються не лише класичні композиції, а й джаз, і рок, і популярні виконавці, і навіть танцювальна музика.

Також формат захопить мобільні пристрої. У поєднанні з бінауральною технологією Auro-3D для мобільних пристроїв зможе створювати тривимірний імерсивний звук відразу в смартфоні і передавати його в навушники: система здатна декодувати як оригінальний Auro-3D контент, так і відтворити всю стереофонтеку, фільми та інші медіафайли в звуковому форматі 3D за допомогою апміксу.

Інтерфейс програми Wwise із опціями для роботи з Auro-3D-звуком

Особняком стоять відеоігри. Технологія Auro-3D дозволить створювати звукові ландшафти, які подарують гравцям інші відчуття. Компанія уклала партнерство з Audio-Kinetics та впровадила формат у програму Wwise для створення звуку для комп'ютерних ігор. Версія AuroWwise підтримує 3D-звук для інтерактивних засобів масової інформації та ігор, зберігаючи при цьому всі функціональні можливості. Першою грою у форматі Auro-3D стане Get Even, яка вийде навесні 2017 року. З колонками, щоправда, на думку Вільфріда, таке звучання все одно не зрівняється.

Скільки потрібно колонок?

Для домашніх кінотеатрів мінімальна рекомендована конфігурація - 9.1, оптимальне рішення - 11.1, а особливо великих залах слід скористатися Auro 13.1. Місця необхідно стільки ж, скільки для оптимального розміщення систем 5.1 і 7.1. Розробники протестували роботу Auro-3D в різних приміщеннях - з високою стелею, низькою стелею, в сухому і вологому середовищі, і зрозуміли, що система виявилася дійсно гнучкою.

Зараз вже з'явився новий формат AuroMax – це гібридний, канальний та об'єктно-орієнтований формат, який використовує конфігурацію від 20.1 до 26.1. Формат AuroMax - спільна розробка компаній Auro-Technologies, Barco та Iosono, та використовується у повноцінних кінотеатрах. У домашніх кінотеатрах, на думку розробників, потреби у такій максимальній конфігурації немає, але слово замовника – закон. Щоправда, місця потрібно ще більше, ніж на 13.1-канальну версію.

На думку Вільфріда, навіть мільйон колонок не зможе відтворити навколишній світ натурально - наші вуха надто розумні для того, щоб їх можна було так обдурити. Тому мета Auro-3D - не задіяти якомога більше каналів, а навпаки, досягти максимально звучання з найменшим числом динаміків. Тому й не варто намагатися вмістити в невеликому кінотеатрі 26.1-канальну конфігурацію – в ній просто не буде сенсу, ефект від додаткових каналів не перекриє витрачених на встановлення сил, нервів та грошей. Найкраще обійтися 11.1-канальною версією.

Для широкоформатних кінотеатрів та кіностудій

У 2011 році Вільфрід розпочав партнерство з бельгійським виробником відеообладнання Barco. Ця фірма стала використовувати системи Auro-3D у своєму устаткуванні для кінотеатрів, і того ж року вперше встановила систему Auro 11.1. Першим фільмом у такому форматі стала стрічка Red Tails, знята Джорджем Лукасом. Зараз у всьому світі системами Auro 11.1 by Barco та AuroMax обладнано понад 550 кінотеатрів.

У Росії на сьогоднішній день таким звуком оснащено головну прем'єрну кінозалу «Жовтень» та 27 кінотеатрів у Москві та інших містах. Обладнання Auro-3D вже встановлено у двох студіях – «Піфагор» та «Нева-Фільм». Всього понад 100 студій у всьому світі створюють та дублюють фільми у форматі Auro-11.1 by Barco.

Насамперед формат хороший тим, що для студій і кінотеатрів обходиться дешевше. Офіційний сайт Auro-3D вказує такі плюси:

Відсутність плати за ліцензію

Мінімальний обсяг зусиль для розповсюдження

Можливість використовувати створений контент у цьому форматі на системах Auro-11.1 by Barco

Зручний перехід від DCP до еквівалентної якості на Blu-ray

Простота подальшого перетворення

Можливість запису у форматі Auro-11.1 by Barco безпосередньо на знімальному майданчику

Відсутність потреби у додатковому мастерингу DCP та ключах

Додаткові канали кодуються безпосередньо у майстер 5.1 (7.1)

Повна сумісність з міксом 5.1 (7.1)

Не потрібно витрачати час на додатковий перезапис в іншому форматі

Можливість використовувати функцію «up mix» для готових фільмів у форматі стерео, 5.1, 7.1 для відтворення Auro-11.1 by Barco

Де контент?

Спочатку коли формат тільки зароджувався, контенту було мало. Але зараз ситуація змінилася: у форматі Auro-3D є музика і фільми. Списки фільмів та музики, а також майбутніх кінотеатральних релізів опубліковані на сайті Auro-3D.

Що таке об'ємний звук (surround sound) і як він влаштований

Більшість сучасних дешевих і не дуже звуковідтворювальних пристроїв, включаючи звукові карти для персональних мультимедіа комп'ютерів, дозволяють відтворювати звук у режимі "3D Sound" або "Suround", що можна перекласти як "об'ємний звук". Що ж це таке і навіщо це потрібно?

Системи об'ємного відтворення звуку були розроблені тому, що якість звучання, що реалізується звичайною стереофонічною системою або головними телефонами, перестала задовольняти вимогливих слухачів. Хоча стерео системиі створюють ефект просторового звучання за рахунок синтезу панорами уявних джерел звуку (МІЗ) між двома гучномовцями (рис. 1), все ж таки стереозвучання має істотний недолік. Стереопанорама виходить плоскою та обмежена кутом між напрямками на гучномовці.

Малюнок 1. Стереопанорама

Таке звучання значною мірою позбавлене природності, властивої тому, що досягається в реальному звуковому полі, коли людина здатна сприймати реальні джерела практично з усіх напрямків як у горизонтальній, так і у вертикальній площинах і оцінювати, хоча часом і з помилками, відстань до джерел звуку. Вважається, що сприйняття звуків з різних напрямків та відстаней має важливе значенняне лише як факт їхнього просторового розташування. Воно створює у слухача відчуття об'єму (тривимірного звукового поля), що звучить, істотно збагачує тембри музичних інструментів і голосів, відновлюючи ревербераційний процес, властивий первинному приміщенню (концерному залу). Звичайна стереофонія створює ефект просторового звучання в дуже обмеженій області перед слухачем, дозволяє повною мірою виявити названі особливості сприйняття звуків у реальному звуковому полі і, отже, знижує якість звучання.

Квадрофонічні системи також забезпечують повну імітацію реального звукового поля. По-перше, при квадрофонії не виходить кругова стереопанорама – слухач відчуває звичайну стереопанораму перед собою та задню стереопанораму позаду себе. По-друге, всі уявні джерела звуку розташовуються у одній площині і лінії між динаміками, тобто. немає глибини і немає, власне, 3-го виміру та тривимірного об'ємного звучання (рис. 2).

Малюнок 2. Квадропанорама

Головні стерео телефони також не дозволяють отримати природне звучання фонограми, що відтворюється. Справа в тому, що враження нескінченної ширини стереобази, що виникає при цьому, і чітка локалізація звукового зображення всередині голови слухача не можуть задовольнити вимогливих меломанів. Для усунення ефекту локалізації звуку всередині голови застосовуються схеми подібні до наведеної на рис. 3.

Малюнок 3. Блок схема створення об'ємного звуку для стереотелефонів

Тут сигнали лівого та правого каналів через вхідні пристрої А1 та А2 надходять відповідно на дільники напруги А3 та А6 та на входи перехресних каналів, що складаються з ліній затримки (ЛЗ) А4, А5, узгоджувальних пристроїв А8, А9 та фільтрів нижніх частот (ФНЧ) Z1 , Z2. З дільників А3, А6 сигнали подаються на коректори АЧХ А7 та А10 і далі – на один із входів суматорів, а з них – на входи підсилювачів потужності для стереотелефонів. Таким чином, на виході кожного каналу формується сигнал, що складається з ослабленого та скоригованого сигналу свого каналу і затриманого відповідним чином скоригованого сигналу іншого каналу.

Подібними пристроями, виконаними у вигляді приставок або вбудованих пристроїв, в даний час оснащено багато музичні центри. Цікаво, що такі пристрої можуть бути реалізовані і програмними методами з використанням цифрової обробкисигналів у реальному часі. Читачі мають персональний комп'ютерз фулдуплексною звуковою картою (на жаль, програма погано працює з картами виробництва сінгапурської фірми Creative Labs.), можуть завантажити одну з подібних програмтут. Програма, крім того, дозволяє додати ефекти реверберації для маленького, середнього та великого приміщення, луна, хорус, фленжер та має досить непоганий еквалайзер, що значно покращує відтворення низьких (20...60 Гц) частот через стереотелефони середнього класу якості. Всі ефекти працюють у реальному часі навіть на дуже дешевих звукових картах без процесорів DSP, наприклад на OPTi-931 або Acer S23.

Найбільш досконалий метод імітації реального тривимірного звукового поля – це бінауральна передача звуку. Бінауральний метод полягає в тому, що звукова інформація сприймається мікрофонами, розміщеними у вушних раковинах людини або штучної голови? - моделі, що симулює слухове сприйняття людини. Сигнали, що надходять з кожного мікрофона, посилюються роздільними підсилювачами низької частоти та відтворюються стереотелефонами. В ідеалі така система дає змогу створити повну ілюзію природного звучання.

Вона переносить слухача з приміщення прослуховування до приміщення, звідки ведеться передача. Однак повноцінно прослуховувати її можна тільки за допомогою стереотелефонів і за умови, що як зразок для створення штучної голови використовувалася саме ваша голова. Читачі можуть прослухати бінауральні демонстраційні звукові WAV файли, завантаживши їх через Інтернет із серверів

www.geocities.com/SiliconValley/Pines/7899

При відтворенні бінаурального сигналу через звукові колонкичерез попадання сигналу правого каналу в ліве вухо слухача і навпаки виникають перехресні спотворення, які зрештою зводять нанівець усі переваги бинаурального звуковоспроизведения. Зазначені недоліки значною мірою вдається усунути за допомогою спеціального пристрою обробки звукових сигналів, що дозволяє отримати бінауральний ефект під час прослуховування бінаурального запису через колонки. Такі пристрої одержали назву біфонічних процесорів. Запис проводиться з мікрофонів, розташованих у штучній голові, а відтворюється після обробки біфонічним процесором, в якому точно розрахована величина сфазованого, затриманого та скоригованого частотою сигналу лівого каналу віднімається з сигналу правого каналу і навпаки. Структурну схему біфонічного процесора, вперше розробленого фірмою JVC, показано на рис. 4.

Малюнок 4. Блок-схема бінаурального процесора

Він складається з підсилювачів сигналів лівого та правого каналів А1, А2, що посилюють сигнали з мікрофонів, встановлених у штучній голові А0, ліній затримки D1, D2, фазообертальних пристроїв U1, U2 та суматорів Е1, Е2. Після обробки біфонічним процесором сигнали, що надходять з колонок у вуха слухача підсумовуються отже ліве вухо чує лише сигнали лівого каналу, а праве - правого каналу. Таким чином, можна сказати, що біфонічний ефект подібний до бинаурального і відрізняється від нього тільки способом відтворення бинаурального запису.

І хоча площа, де він виразно проявляється, невелика, зате, перебуваючи в її межах, слухач може мати уявлення про відстань до джерел звуку та їх взаємне розташування в просторі в момент запису, чого не вдається досягти при стереофонічному звуковідтворенні, що дає уявлення тільки про розташування джерел звуку лінії між звуковими колонками. Інша цікава властивість біфонічного процесора – це можливість розширення за його допомогою стереобази звичайних стереофонічних записів. Саме це зазвичай і мається на увазі під "3DSound". А якщо система дозволяє збільшити уявний кут між напрямками на звукові колонки (Рис.1) до 180 градусів, то таку систему називають "Suround" і створювана звукова панорама для неї буде такою самою як при прослуховуванні на стереотелефони, але без концентрації уявних джерел звуку всередині голови слухача. Звісно, біфонічний процесор можна реалізувати суто програмними методами з допомогою методів цифрової обробки сигналів у часі.

Нещодавно можна було спостерігати, як у світ комерційних і домашніх кінотеатрів прийшло стереокіно, а зараз на черзі вже стоїть відео надвисокого дозволу 4K. Від зображення не відстає й звук: у домашній кінотеатр надійшло 3D Audio, повне звукове оточення глядача — не лише у горизонтальній площині, а й у третьому вимірі. У англійськоюдля цього застосовується термін immersive, що «занурює».

Голос Божий та інші аудіоканали

Формат Auro-3D був представлений у травні 2006 року бельгійською компанією Galaxy Studios. Першим масовим фільмом, записаним у даному форматі, Стала стрічка Red Tails («Червоні хвости»), знята в 2012 році Джорджем Лукасом. Принципова відмінність Auro-3D від форматів Dolby Surround EX і DTS, що переважали на той момент, полягала в тому, що крім традиційних каналів 7.1, розташованих в одній площині, розробники запропонували використовувати третій вимір — тобто розмістити акустичні системи (АС) не просто навколо слухача. але й зверху, другим «шаром», під кутом у 30 градусів до фронтальних акустичних систем та каналів навколишнього звучання.

Подальше удосконалення формату призвело до появи ще одного шару — над головами слухачів, який символічно назвали voice of god (голос божий). Максимальна кількість каналів (не варто плутати з кількістю акустичних систем) при цьому досягла 13.1, тобто фактично стало вдвічі більше, ніж у форматах 7.1 і 6.1. Впровадження верхніх каналів дозволило точніше передати ряд подій у звуковій доріжці фільму, таких як прольоти об'єктів над глядачами (шум вертольота або реактивного винищувача), атмосферні ефекти (завивання вітру, гуркіт грому).

Якщо стеля розташована надто низько, акустика буде надто близько до глядача. У цьому випадку Dolby рекомендує використовувати спеціальні акустичні системи, що працюють «на відображення» від стелі – за твердженням компанії, результат буде якіснішим.

Об'єктний підхід

Найстаріший гравець на ринку кінотеатрального звуку, компанія Dolby Laboratories, використовує у своєму новому форматі Dolby Atmos два «шари» акустичних систем. Перший розташовується навколо слухача за класичною схемою, а другий на стелі - попарно ліворуч і праворуч. Але найголовніше - принципово новий підхіддо мікшування саундтреків. Замість звичного поканального відомості у студії використовується метод «об'єктного» запису. Режисер працює зі звуковими файлами, вказуючи місце у тривимірному просторі, звідки ці звуки повинні відтворюватися, коли і з якою гучністю. Наприклад, якщо необхідно відтворити шум машини, що рухається, то режисер вказує час появи, рівень гучності, траєкторію руху, місце і час припинення звучання «об'єкта».

Більше того, зі студії в кінотеатр звук потрапляє не у вигляді записаних доріжок, а як набір звукових файлів. Ця інформація обробляється процесором, який у реальному часі щоразу прораховує саундтрек фільму з урахуванням кількості АС у залі, їх типу та розташування. Завдяки точному калібруванні немає прив'язки до якоїсь «типової» кількості каналів, і можна використовувати в різних залах різну кількість АС (кожен зал калібрується та налаштовується індивідуально) — процесор сам прорахує, як і куди потрібно відправити звук для отримання оптимальної панорами. Максимальна кількість звукових «об'єктів», що одночасно оброблюються, становить 128, а кількість одночасно підтримуваних незалежних АС — до 64.

Формат Dolby Atmos не прив'язаний до певної кількості аудіоканалів. Звукова картина формується процесором у реальному часі з «об'єктів» та за «програмою», складеною звукорежисером фільму. При цьому процесор враховує точне розташування акустичних систем, їх тип і кількість - все це заздалегідь прописується в налаштуваннях при калібруванні кожного залу. Щоправда, як такий підхід реалізувати у домашньому кінотеатрі, поки що не зовсім зрозуміло.

Професіонали та любителі

Слідом за появою в комерційних кінозалах обидва формати тривимірного звуку розпочали завоювання домашнього ринку. Auro-3D стартував трохи раніше, кілька виробників домашньої електроніки представили перші процесори та ресивер із підтримкою формату ще на початку 2014 року. Dolby Laboratories не забарилася, і в середині вересня минулого року представила досить доступні рішення на базі недорогих ресиверів. Крім того, на початку 2015 року ще один великий гравець, американська компанія DTS, анонсувала свій формат тривимірного звучання - DTS: X (про яке відомо поки тільки те, що він, як і Dolby Atmos, є об'єктно-орієнтованим і буде підтриманий багатьма виробниками побутової електроніки).

Тим часом, комерційне та домашнє кіно у деяких аспектах мають серйозні відмінності. Бобіни з кіноплівкою пішли в далеке минуле, і в кінопрокаті нині практично повсюдно використовуються цифрові копії фільмів. Саундтрек до фільму "виходить" із сервера у вигляді потоку цифрового аудіо з високим бітрейтом і практично без стиснення. Сервери, на яких зберігаються фільми, можуть передавати до 16 цифрових каналів даних паралельно.

Найпопулярніший носій для домашнього кіно – Blu-ray диск. Як правило, він містить саундтрек, записаний в одному з двох найпопулярніших форматів – DTS HD Master Audio або Dolby True HD. Зустрічаються і диски, записані з використанням старих кодеків DTS та Dolby Digital зі звуком 2.1 (ліво-право та LFE). Якщо доріжку до фільму спочатку було записано у студії у форматі 5.1 або 7.1, перенести її на диск досить просто, відмінність лише у додатковій компресії даних, пов'язаної з обмеженою ємністю цифрового носія. А як же адаптуватимуться нові формати Auro-3D та Dolby Atmos при перенесенні їх із професійного кіно до домашнього кінотеатру?

Шлях додому

Для Auro-3D перенесення буде практично безшовним. Якщо фільм спочатку записаний у студії у форматі 13.1 або 11.1, рівно з такою ж кількістю каналів він і переноситиметься на диски Blu-ray. Для зворотної сумісності в Auro-3D використовується спеціальний алгоритм, який вміє «дописувати» верхні канали в кодек DTS HD MA, що офіційно підтримує максимум 7.1 каналів - наприклад, в лівий канал інкапсулюється інформація для верхнього лівого каналу, центральний - для верхнього центрального і т.д. д. Якщо в ресивері чи процесорі є підтримка декодування кодека Auro-3D, то він «витягне» вкладену інформацію і подасть її на відповідні канали. Якщо ні, просто декодує дані як звичайну доріжку 7.1, пропустивши «зайву» інформацію. Таким чином, диск із фільмом у форматі Auro-3D у будь-якому випадку буде коректно прочитаний будь-яким сучасним плеєром і розпізнаний будь-яким із процесорів чи ресіверів, які підтримують DTS HD MA. А якщо процесор або ресивер має вбудований декодер Auro-3D, то на виході можна отримати саундтрек з 9.1, 11.1 або навіть 13.1 каналів. Існує й можливість «апміксингу» (upmixing) — процесор, який вміє працювати з Auro-3D, може перерахувати навіть звичайний двоканальний стереозапис, скажімо, 13.1.

В Auro-3D використовується тришарове розташування акустичних систем і традиційніший підхід з багатоканальним записом звуку. Це забезпечує відмінну зворотну сумісність стандарту з поточними форматами та переносимість на домашні системи.

Ситуація з Dolby Atmos у домашньому кінотеатрі набагато складніша: процесор у реальному часі обраховує досить великий потік даних та видає звук на відповідні акустичні канали (з урахуванням того, скільки їх у конкретній інсталяції). На даний момент специфікаціями Dolby Atmos для домашнього застосування пропонується використовувати конфігурації АС від 5.1.2 до 7.1.4, де перша цифра — це кількість «звичайних» каналів: лівий-центр-правий-бічні-тили, друга — це канал низькочастотних ефектів, а третя — звані «верхні» канали (overhead). При цьому єдиний процесор для комерційного застосування (Dolby CP850) коштує понад мільйон рублів, а вартість домашніх ресиверів з підтримкою Atmos починається лише від 30-40 тисяч. Проте навіть для найдоступніших за ціною домашніх ресиверів заявлені і декодування, і підтримка «апміксингу», хоча як це зроблено, не зовсім зрозуміло.

Ще один не дуже зрозумілий момент полягає в тому, що для правильного розрахунку звукового поля необхідно знати точне розташування всіх акустичних систем. У комерційному кінотеатрі це питання вирішується калібруванням апаратури, а от у домашніх ресиверах, наскільки відомо, такої можливості не передбачено. Як у такому разі вирішується питання про отримання будинку повноцінного звучання Atmos «як у кіно», поки що неясно. Щоправда, формат поки що не набув остаточних рис. Декілька виробників процесорів преміум-класу навіть відклали випуск оновлень з підтримкою Dolby Atmos через зміни в алгоритмі обробки сигналу, які вносять, за їхніми словами, розробники Dolby. Отже, можна припустити, що в наступних оновленнях Dolby може внести корективи в процес обробки звуку та/або калібрування системи під конкретне розташування акустичних систем.

Питання сумісності

Оскільки Auro-3D використовує традиційний метод поканального відомості, а Dolby та DTS – об'єктно-орієнтований монтаж звуку, переконвертувати один формат на інший неможливо. Крім того, побудувати домашній кінотеатр, який вміє правильно працювати з усіма форматами, також непросто. Проблема сумісності полягає у різних вимогах до встановлення акустичних систем. У Dolby Atmos використовується два шари акустики, а в Auro-3D - три. Можна припустити, що саундтрек Dolby Atmos може бути відтворений через частину АС для програвання Auro-3D, але навряд чи це буде коректно. Вимоги для розташування АС дуже жорсткі в обох форматів, а враховуючи чутливість до точного позиціонування для отримання плавних переходів, це може стати проблемою для проектувальників та інсталяторів домашніх кінозалів (інформації щодо розташування акустики DTS: X поки немає).

Перспективи

Незважаючи на всі неясності опису Dolby Atmos, слід визнати, що цей формат має більший потенціал, ніж Auro-3D. По-перше, об'єктно-орієнтований підхід до запису однозначно перспективніший, ніж традиційний поканальний. По-друге, підтримка Dolby Atmos у масових моделях AV-ресиверів таких фірм, як Yamaha, Pioneer, Onkyo, Integra, Denon, доступна "в базі", тоді як ліцензію на Auro3D доведеться купувати як опціональне програмне оновлення за $199, що відчутно для бюджетних моделей

У дорожчому сегменті процесорів для побудови домашніх кінозалів про підтримку всіх форматів 3D Audio заявили і такі виробники, як Trinnov Audio та Datasat Digital, що працюють у тому числі і на комерційному кіноринку. Їх досвід може дуже благотворно позначитися на реалізації Dolby Atmos для домашнього кінотеатру: наприклад, Trinnov для калібрування своїх процесорів використовує унікальний тривимірний мікрофон, що дозволяє точно визначити місце кожної АС у просторі та застосовувати ці дані для додаткової корекції звукового поля.

Редакція дякує журналу avreport.ru за допомогу в підготовці статті.

Surround – об'ємний звук

З тих пір, як існує звукозапис, і слухачі, і конструктори апаратури відчувають незнищенне бажання зробити звук, записаний і відтворений, максимально схожим на оригінал. Чого тільки не роблять розробники аудіотехніки для того, щоб наблизитись до ідеалу: борються з шумом, мінімізують спотворення, розширюють частотний і динамічний діапазониелементів тракту запису-передачі-відтворення звукового сигналу. Крім того, вони прагнуть змусити звукове поле, створюване акустичними системами, передавати слухачеві інформацію про направлення на джерела звуків і про акустичні властивості того приміщення, в якому проводився запис.

На першому етапі свого розвитку звукозапис та радіомовлення були монофонічними. Звук, що лунає з динаміка, до невпізнання відрізнявся від живого звуку концертного залу: спотворений баланс між різними музичними інструментами, спотворений тембр і, головне, повністю втрачена просторовість. Це дуже серйозна вада. Адже слуховий аналізатор людини має здатність до пеленгації джерел звуку, що допомагає нам орієнтуватися у просторі. Якщо всі звуки виходять із однієї точки - це здається протиприродним.

Трохи історії

Перші експерименти щодо отримання об'ємного звучання (за допомогою трьох – семи каналів) проводилися ще у 30-ті роки минулого століття. Порівняльні випробування багатоканальних та монофонічних систем дали дивовижні результати. Було встановлено, що при відтворенні 2-х роздільних каналів суб'єктивна якість звуку різко покращується. А найдивовижніше полягає в тому, що експерти віддавали перевагу стереозвуку навіть у тих випадках, коли їм пред'являли об'єктивно якісніші, але монофонічні фонограми. Вирішальною перевагою стала можливість просторової локалізації здається джерел звуку (рис. 1.33).

Мал. 1.33. Розподіл джерел звуку, що здаються, на стереопанорамі:

На початковому етапі розробники вирішили обмежитись двома каналами. Це, звісно, насамперед було зумовлено небагатими можливостями апаратури тих часів: грамплатівки реально дозволяли розмістити лише два повноцінні канали.

Стереозвук дає деяку прозорість звучання: партії окремих інструментів стають більш помітними і натомість оркестру. Крім того, стереосистема здатна відтворити подібність до звукової атмосфери приміщення, в якому виконувався запис. Почалася епоха 2-канальних стереофонічних систем. Поступово з'явилися стереофонічні грамплатівки та стереопрогравачі, стереомагнітофони, стереофонічне радіомовлення.

У свою чергу стереозвучання має значний недолік. Стереопанорама обмежена кутом між напрямками на гучномовці і виходить плоскою. Таке звучання позбавлене природності реального звукового поля, коли людина здатна сприймати реальні джерела практично з усіх напрямків та оцінювати відстань до джерел звуку. Відчуття об'ємного звучання, що створюється у слухача, могло б істотно збагатити тембри музичних інструментів і голосів співаків. При цьому можна було б імітувати ревербераційний процес, властивий приміщенню, в якому зроблено запис.

Однією з перших спроб подолання недоліків, властивих стереофонічних систем, стала квадрофонія. Для відтворення квадрофонічних фонограм використовуються 4 акустичні системи (рис. 1.34).

Перші побутові квадросистеми з'явилися на початку 70-х років минулого століття. Здавалося, що на них чекає славне майбутнє. Однак цього не сталося. Причин є кілька. Одна з них традиційна для багатьох новинок техніки і полягає в тому, що виробники квадрофонічної апаратури так і не змогли дійти єдиного стандарту запису та відтворення 4-канального звуку. Свою роль відіграли недосконалість та велика вартість приладів чотириканального запису-відтворення. Але головне полягає в іншому: з переходом від "стерео" до "квадро" на той час нова якість звуку не виникла. Квадрофонічні системи, як і стереофонічні, не забезпечували повної передачі властивостей реального звукового поля. Недоліків було лише два, але вони суттєві:

при квадрофонії 70-х років минулого століття не виходила кругова стереопанорама - слухач відчував звичайну стереопанораму перед собою та ще одну стереопанораму позаду себе;
всі уявні джерела звуку розташовувалися в одній площині на лініях між динаміками, тому об'ємного тривимірного звучання, як і раніше, не було.

Слід зазначити, що ці недоліки обумовлені не так. обмеженими можливостямичотириканального відтворення звуку, як труднощами реалізації панорамування уявних джерел звуку під час запису. Під час підготовки фонограм для сучасних багатоканальних систем цей чинник враховується. Важливу роль при цьому відіграє комп'ютер, здатний впоратися з моделюванням об'ємних ревербераційних процесів і надає звукорежисеру зручні регулятори для переміщення джерел звуку по круговій панорамі.

Мал. 1.34. Розподіл джерел звуку, що здаються, на квадропанорамі:

Але в ті далекі часи квадрофонія відступила, а стереофонія перемогла і почала розвиватися по лінії мініатюризації апаратури, покращення її технічних та споживчих якостей, переходу до нових носіїв – компакт-касет та компакт-дисків. Перед звукозаписними компаніями та виробниками аудіоапаратури все ще існував найширший фронт робіт та ємний ринок збуту. Вкотре вони пропонували слухачам зміну фонотек. Нагромаджений на грамплатівках за попередні десятиліття музичний матеріал, оновлений і адаптований спочатку під монофонічні котушкові магнітофони, потім реалізований на компакт-касетах у стереоформаті, вкотре пропонувався меломанам, але тепер уже на лазерних дисках.

Однак наприкінці XX століття стереофонія, здається, таки почала здавати свої позиції. Цифрові технологіїзаписи звуку, а також ємні, зручні та дешеві носії зняли проблему зберігання багатоканальних фонограм великої тривалості, що існувала раніше. Крім того, в звуку, що передає акустичні властивості навколишнього простору, виникла гостра потреба. Віртуальні графічні світи комп'ютерних ігор стають дедалі складнішими і схожими реальність, отже, вимагають і адекватного звукового оформлення. Кінематограф, що пережив кризу у змаганні з телебаченням, відродився у вигляді домашніх кінотеатрів і кінозалів нового формату, основна відмінність яких від попередників криється не в зображенні, а в принципово новому звуку (хоча і якість зображення теж покращилася завдяки DVD і сучасним проекційним засобам).

Нова ера у звукозаписі розпочалася в результаті досліджень, виконаних інженерами Dolby Laboratories (http://dolby.com). Це був новий підхід до передачі багатоканального звуку. Відмінність від традиційного способуполягало, перш за все, у тому, що для зберігання аудіосигналів двох додаткових каналів використовувалося матричне кодування, тобто їх підмішування до двох основних каналів. Змінився і спосіб розміщення акустичних систем - додатково до традиційного для квадрофонії розташування акустичних систем по кутах приміщення додано центральний канал, розміщений між правим та лівим фронтальними каналами, щоб зберегти широку стереобазу для глядачів, що сидять на бічних місцях, а за спинами розміщено канал ефектів (Surround) ). Так з'явилася система нового кінотеатрального звучання Dolby® Stereo.

Як ви вже знаєте, цей чотириканальний формат є матричним форматом, при якому звук, призначений для кожного з чотирьох каналів, кодується та записується на два канали, а при відтворенні декодується знову в чотири канали: лівий, центральний, правий та задній. Сигнал заднього каналу, як правило, спрямовується на дві тилові акустичні системи одночасно. Вперше формат Dolby® Stereo був застосований у фільмі Star Warsв 1975 році.

Технологія кодування, що використовується, не дозволяла забезпечити поділ між каналами більше 8 дБ. Пізніше її було змінено, і поділ між каналами досяг 15 дБ, але частотний діапазон заднього каналу залишився обмеженим у діапазоні 100 Гц - 7 кГц.

Мал. 1.35. Розміщення випромінювачів звуку в системі Dolby® Stereo:

Системою відтворення абсолютно нової якості, сумісної зі старим стандартом звукозапису, стала система Dolby Pro Logic. У ній був застосований декодер, що реалізує просторове фокусування звукових образів - технологію, що використовується для зниження взаємного проникнення сигналів одного каналу в інший. У Dolby ® Pro Logic ® також з'явилася можливість затримувати звуковий сигнал у тиловому каналі. Тим самим було забезпечено узгодження геометричних та акустичних характеристик конкретного приміщення з характеристиками "еталонного кінозалу", під який під час виробництва зводився мультитрековий звук. Дуже важливо, що наразі накопичено величезну кількість музики, фільмів, телепрограм, записаних на різних сучасних носіях зі звуком у форматі Dolby ® Pro Logic ®. А потім настала епоха цифрового кодування та цифрового запису багатоканального об'ємного звуку, і з'явилася система Dolby® Digital. Для кодування цифрового звукуу ній використовується алгоритм, званий АС-3 (Dolby's third generation audio coding algorithm - алгоритм кодування звуку Dolby третього покоління).АС-3 являє собою алгоритм компресії багатоканального звуку (кількість незалежних каналів від 1 до 6) з втратами. області психоакустики, що враховують особливості людського слухового апарату, використовуються в ньому для прийняття рішення про те, яку частину інформації в аудіосигналу можна відкинути, щоб це було не дуже помітно для людського вуха. (Для одного монофонічного каналу з мінімальною якістю) до 640 Кбіт/с (для каналів 5.1 з мінімальними втратами якості) Типовий бітрейт для 5.1 записів становить 385 Кбіт/с.

Кодер Dolby® Digital підтримує частоти дискретизації цифрових даних 32 кГц, 44,1 кГц та 48 кГц при розрядності 16, 18 або 20 біт. Передбачено можливість збільшення розрядності до 24 біт. Використовується стиснення даних із втратами, проте якість звуку все одно виходить вищою, ніж у попередніх аналогових систем. Dolby® Digital може забезпечити кодування до 6 каналів у форматі 5.1, де 5 – це канали з повним частотним діапазоном (2020 000 Гц) та 1 – канал низькочастотних (менше 120 Гц) ефектів (LFE).

Об'ємність акустичних сцен, чіткіша деталізація, природність переміщень джерел звуку з фронтальної області в тилову, стереофонічне звучання в тиловій області - все це забезпечило успіх системи.

Наступний крок еволюції систем об'ємного звучання – система Dolby® Digital EX, яку можна вважати надбудовою над Dolby® Digital. У Dolby ® Digital EX, як і в Dolby ® Digital фізично може кодуватися до 6 незалежних каналів (5.1), однак, за рахунок використання матричного кодування, в лівий та правий тилові канали підмішується інформація ще одного або двох surround-каналів. Завдяки такому рішенню збережена сумісність із обладнанням Dolby ® Digital, і в той же час, за рахунок введення додаткових surround-каналів (6.1, 7.1) на обладнанні Dolby ® Digital EX досягається ще більше висока точністьлокалізації звукових джерел у просторі.

Звичайно, багатоканальним звуком займається не лише Dolby Lab. Наприклад, фірма RSP Technologies створила матричну систему Circle Surround, яка має тиловий канал з повним діапазоном частот і тим самим виявляється найкращим чиномпристосованою для відтворення музики. Нова версія Circle Surround може також працювати у шести-канальному режимі з роздільними тиловими каналами та каналом сабвуфера (наднизькочастотної акустичної системи).

В даний час можна говорити про поширення нового споживчого формату DVD-audio. Звукові дані на цьому носії можуть зберігатися за допомогою різних алгоритмів кодування, включаючи Dolby ® Digital. Однак у зв'язку з великою ємністю носія DVD(4,7 Гб на одношаровому диску) необхідність стиснення звукової інформації із втратами відпадає. На DVD-audio можна зберігати багатоканальні записи у форматі до 24 біт/96 кГц без будь-якого стиснення і, відповідно, без будь-яких втрат.

Формат 5.1

Позначення "5.1" вказує на кількість каналів, але не несе в собі інформації про певний спосіб кодування багатоканального звуку. Використовується п'ять каналів з повним частотним діапазоном (лівий передній, центральний, правий передній, лівий задній та правий задній), а також один низькочастотний канал (з діапазоном від 3 до 120 Гц), що підключається до сабвуфера (рис. 1.36).

У системі 5.1 формується кругова стереопанорама. Оскільки на наднизьких частотах наш слух практично позбавлений здатності визначати напрямок на джерело звуку, розташування сабвуфера не має істотного значення.

Сабвуфер застосовується у звичайних стереосистемах. У його канал подається низькочастотна частина спектра сумарного сигналу стереоканалів, у результаті забезпечується гарантоване відтворення басових звуків. Однак у системі 5.1 канал низькочастотних ефектів відіграє особливу роль. Його варто розглядати не як низькочастотний компонент багатосмугової акустичної системи, а саме як незалежний канал низькочастотних ефектів.

При записі на магнітофон для більшості систем 5.1 прийнято наступний порядок каналів (починаючи з першої доріжки): лівий передній, центральний, правий передній, лівий задній, задній правий і низькочастотний канали. У ряді випадків (наприклад, у багатоканальних звукових картах) передбачений інший порядок: лівий передній, правий передній, лівий задній, правий задній, центральний, низькочастотний.

На думку фахівців, формат 5.1 є найперспективнішим, оскільки підтримується основними розробниками. Важливо, що є відповідні носії (DVD).

Мал. 1.36. Розміщення випромінювачів звуку у системі 5.1:

І хоча поки що не прийнято єдиний стандарт і одночасно існує кілька систем кодування для 5.1, проте фіаско "первісної" квадрофонії навряд чи повториться, навіть якщо "виживе" не одна, а кілька різних систем кодування. Принципова відмінність формату 5.1 від квадрофонії тридцятирічної давності полягає в тому, що в даному випадку аудіосигнал має цифрову форму, тому створення універсального декодера, здатного працювати зі звуком, закодованим різними системами, не викличе особливих труднощів і призведе до помітного подорожчання апаратури.

У успіху формату 5.1 зацікавлені виробники аудіо-, відеоапаратури, комп'ютерів, комп'ютерних комплектуючих та програм. До нього цікаво ставляться споживачі: глядачі, слухачі, геймери. Звукорежисери та музиканти знаходять у цьому форматі нові виразні засоби для реалізації творчих задумів та посилення впливу на наші емоції. Формат справді надає відтворюваному звуку нову якість: слухач оточений ним. Щоправда, віртуальний звуковий світ у цьому випадку не дотягує до реального. У синтезованому звуковому просторі джерело звуку може бути праворуч, ліворуч, спереду, ззаду, переміщаючись у цих " координатах " . А справжній звуковий простір, крім того, має ще "верх" і "низ".

Особливості обладнання студії формату 5.1

Зараз ми поговоримо лише про основні елементи звукової студії, до яких насамперед слід зарахувати:

мікшер;
будову багатоканального запису;
прилади обробки та ефектів;
монітори для слухання фонограм.

Основним інструментом зведення багатоканального звуку є мікшер, з засобами панорамування.

У стереоформаті для розміщення джерела звуку в певному місці призначений регулятор панорами. Їм ви встановлюєте відносні рівні звукових сигналів, які подаються в кожен із двох каналів, і тим самим визначаєте положення джерела звуку між двома акустичними системами. При роботі з багатоканальним звуком вам треба керувати аналогічним процесом у 5 каналах, крім того, звичайно, потрібно також регулювати канал сабвуфера. Тому при використанні традиційного мікшера для позиціонування джерела звуку необхідно маніпулювати кількома регуляторами. Зауважимо, що стан фейдерів, що управляють рівнем сигналу, і регуляторів панорами в кожному каналі важко зіставити з положенням джерела звуку, що здається, на круговій панорамі. Ще складніше змусити звук переміщатися заданою траєкторією. Це можливо лише у мікшерах з автоматизацією. Як регулятор кругової панорами в мікшері, призначеному для роботи з багатоканальним звуком, дуже підійшов би джойстик.

До того ж, мікшер, здатний працювати з об'ємним звуком, повинен мати не один, а кілька виходів (за кількістю каналів). Наприклад, у системі 5.1 у мікшера має бути не менше 6 виходів. Обладнання стереофонічної студії звукозапису коштує недешево, а про ціну студії формату 5.1 і подумати страшно!

Дорогі також і пристрої запису багатоканального звуку. Вони повинні мати шість і більше каналів. Причому вкрай бажано, щоб звук у них представлявся не менш як 24 розрядами.

Мікшери та цифрові магнітофони - пристрої, багатоканальні за своєю суттю. Тому деякі з моделей, призначених для роботи зі стереозвуком, можна з більшою чи меншою зручністю застосовувати і у студії формату 5.1. А ось з еквалайзерами, приладами динамічної обробки і особливо ефектами справа складніша. Звичайно, можна забезпечити 6 каналів, зібравши "батарею" із 3-х двоканальних приладів. Однак про осмислене регулювання параметрів у цьому випадку говорити не доводиться. Уявіть собі, наприклад, труднощі створення багатоканальної системі реалістичної реверберації.

Гідною заміною цифровим магнітофонамта апаратним мікшерам можуть служити програмні мультитрекові студії та наявні у складі деяких з них віртуальні мікшери, що дозволяють керувати панорамуванням за допомогою звичайної миші. Зручний у роботі та наочно відображає положення джерела звуку на круговій панорамі surround-мікшер є у програмі Cubase SX (див. розділ 5).

Не всякий власник домашньої студіїстереофонічний формат може дозволити собі мати моніторну акустичну стереосистему. Однак у випадку зведення у стерео прийнятним виходом із положення є відносно дешеві навушники. А у форматі 5.1 стереонавушники вас не врятують. Без п'яти широкосмугових акустичних систем (а також сабвуфера) не обійтись.

При роботі зі стереозвуком основними вимогами до моніторів є рівномірність їх частотної характеристики, низький рівень спотворень і повна ідентичність двох акустичних систем.

Аналогічні вимоги можна було б пред'явити до п'яти широкосмугових моніторів формату 5.1. Вони начебто теж мають бути абсолютно однаковими. Але в такому випадку зведення в кругову панораму ви здійснюватимете в умовах, що відрізняються від тих, в яких перебуватиме багато слухачів вашої композиції. Справа в тому, що у більшості власників домашніх театрів тилові акустичні системи не тільки за потужністю слабші за фронтальні, але, крім того, вони можуть мати конструктивне виконанняіншого типу. У свою чергу центральна акустична система часто відрізняється від крайніх передніх. Виходить, що враження слухача може не збігатися з тим, що ви думали.

Зауважимо, що подібна проблема існує і при роботі зі стереозвуком: зведення здійснюється на студійних моніторах, а відтворення - на різній акустиці, починаючи від високоякісних колонокі закінчуючи динаміками переносного касетного магнітофона. Щоправда, у процесі мастерингу фонограми повинні проходити тест на сумісність із обладнанням низької якості, та й однією з основних завдань цього етапу є адаптація запису до конкретного типу носія.

Щодо каналу низькочастотних ефектів системи 5.1, то при зведенні музичної композиціїсабвуфер взагалі не повинен використовуватися, якщо за художнім задумом у музичній композиції немає ефекту типу вибуху, пострілу з гармати тощо.

Але досвід минулих років, коли панував формат CD-audio, показує, що будь-які офіційні рекомендації щодо використання формату виконуються лише спочатку. Поступово звукорежисери та продюсери у своїх творчих задумах стають сміливішими і перетинають ту межу, яка називається "офіційними рекомендаціями". Як нам підказує інтуїція, зрештою низькочастотний канал системи 5.1 використовуватиметься "на повну котушку": там де це потрібно і де не потрібно. Наприклад, сама напрошується ідея задіяти низькочастотний канал для посилення ударів басового барабана в танцювальній музиці.

Як організувати моніторинг під час зведення багатоканального звуку? Про це точаться суперечки. Однак більшість фахівців рекомендують використовувати однакову акустику, не вносячи виправлення на недосконалість домашніх систем. Монітори слід розташовувати на рівній відстані від слухача, зокрема, три фронтальні монітори повинні утворити дугу, а не пряму лінію. Якщо це неможливо, слід відповідно знизити гучність центрального монітора.

А як в ідеалі мають бути монітори системи 5.1? Уявіть собі, що у центрі системи 5.1. Центральний монітор повинен розташовуватись перед вами. Уявна лінія між вами та центральним монітором є віссю, щодо якої визначатиметься розташування інших моніторів. Лівий і правий фронтальні канали розташовуються під кутами -30 і 30 щодо цієї осі. Таким чином, кут "лівий монітор-ви-правий монітор" становить 60 °. У разі потреби цей кут може бути зменшений до 50° - 45°. Сабвуфер теж повинен розташовуватися десь перед вами. Тилові монітори повинні розташовуватися під кутами -110 ° (лівий тиловий) і 110 ° (правий тиловий). В ідеалі всі монітори повинні бути віддалені від вас і відкалібровані таким чином, щоб при подачі сигналів однакового рівня на різні моніториви чули їх з однаковою гучністю. Висота розміщення моніторів – на рівні вашої голови або трохи вище.

Особливості зведення в кругову панораму

Серйозно займаючись проблемою обробки звуку, ми протягом багатьох років уважно стежимо за публікаціями, що стосуються цієї теми. Тому можемо впевнено констатувати, що робіт, присвячених питанням технології зведення в стерео, не так вже й багато. А ось статей, що містять конкретні рекомендації щодо створення багатоканальних записів, практично немає зовсім. Мабуть, це можна пояснити тим, що проблема нова, відсутній необхідний досвід, немає традицій, що склалися. Принаймні самостійні музичні твори, зведені в кругову панораму, ще не стали масовим явищем. Багатоканальний звук в основному існує як доповнення до відеозображення. Зрозуміло, що підходи до панорамування звуку для саундтреку кінофільму та звуку музичної композиції мають відрізнятися. Під час супроводу відео потрібно розміщувати основний звук спереду, оскільки саме на екрані перед глядачем відбувається дія. Задні канали використовуються для надання звуку обсягу та реалізації спеціальних ефектів. Звичайно, при роботі з surround-музикою можна орієнтуватися на напрацювання, що є в галузі створення звуку для сучасної кінопродукції. Тобто можна помістити основний звук спереду, злегка оточуючи слухача, а тилові канали використовуватиме відтворення акустики довкіллята переміщення другорядних джерел звуку. І все ж таки, якщо йдеться про музичний твор, який створюється без розрахунку на ув'язування з відеосюжетом, то автор може користуватися повною свободою у застосуванні нових виразних засобів, закладених у власне круговій панорамі. Наприклад, ви можете "посадити" слухача серед виконавців, пересувати навколо нього все звукове поле чи окремі джерела звуку, переміщувати їх у "глибину" панорами.

Щоправда, спецефекти панорамування краще використовувати в міру. Наприклад, навряд чи є сенс конструювати віртуальний рояль, клавіатура якого, судячи з звучання, виглядає коло, яке охоплює слухача. Звуки ударних, поміщених у тилові канали, і особливо раптові гучні звуки, що лунають ззаду, можуть стати причиною, через яку ваша пісня не стане хітом. Мало кому може сподобатися, якщо доведеться раз у раз рефлекторно обертатися або підскакувати від переляку.

При підготовці стереофонічних записів ми змушені свідомо обмежувати себе у використанні можливостей стереопанорами стосовно деяких музичних інструментів. Причому обмеження продиктовані як художніми, а й технічними міркуваннями. Наприклад, немає сенсу зміщувати бас із центру стереопанорами. По-перше, тому, що все одно в області низьких частот стереоефект проявляється дуже слабко. По-друге, якщо бас панорамувати ліворуч або праворуч, то потужність однієї з акустичних систем не використовуватиметься повною мірою. А це вже серйозна вада, тому що на низькочастотну область діапазону завжди припадає помітна частка загальної потужності звукового сигналу.

Аналогічні проблеми є й у системах 5.1, хоча завдання формування низькочастотних звуків вирішує сабвуфер. Одна з таких проблем – використання центрального каналу. У кіно він призначений для прив'язки домінуючих звуків до зображення, щоб глядачі, що сидять не в центрі, сприймали ці звуки, що виходять з екрана. У музиці ті звуки, які у стерео зазвичай прямують у лівий і правий канали рівномірно (основний вокал, бас, частина барабанів), краще розподіляти між центральним та фронтальними каналами. Це дозволить уникнути перевантаження центрального каналу. Крім того, розбіжність звуків збільшується, якщо одні з них більше спрямовувати в центральний канал, інші - одночасно в лівий і правий передні канали.

Формат 5.1 надає масу нових можливостей у застосуванні ефектів, подібних до дилею та реверберації. Ревербераційний сигнал може розташовуватися у тому напрямі, як і прямий сигнал. Разом з тим, подібно до того, як у стереозаписах перехресний напрямок реверберації призводить до розширення стереобази, що здається, враження збільшення обсягу віртуального приміщення можна отримати, якщо реверберацію фронтальних звуків зробити трохи ззаду, а тилових - трохи спереду. Не тільки самі джерела звуку, що здаються, але і луна-сигнали, породжені ними, можна динамічно переміщати в межах кругової панорами.

При зведенні в кругову панораму з'являються додаткові ознаки, якими слух може виділяти окремі партії: направлення джерело звуку не більше 360° і, певною мірою, відстань до нього (глибина панорами). Тому немає особливої необхідності проводити частотну фільтрацію з метою виділення одних звуків на тлі інших, а також змінювати гучність інструментів під час пісні або компресувати окремі аудіосигнали.

Що стосується додаткової обробкикомпресором вже зведеної композиції, то така операція є неприпустимою. Вона може призвести до виникнення зміщення положень здається джерел звуку, попередньо позиціонованих у певних точках. А ті з джерел, поточні значення рівня сигналів яких у якийсь момент перевищать поріг спрацьовування компресора, будуть до того ж хаотично "переміщатися" по випадкових траєкторіях. Здається, що ситуація зміниться лише з появою широкодоступних багатоканальних віртуальних ефектів та обробок, що реалізують алгоритми обробки, в яких враховується специфіка панорамування об'ємного звуку та психоакустичний фактор. В даний час зачатки подібних алгоритмів можна знайти в програмних кодеках, які перетворюють, наприклад, WAV-файли, що розташовуються на 6 окремих треках в єдиний цифровий потік АС-3. На жаль, суть таких алгоритмів прихована від користувача, а кількість параметрів, доступних для регулювання, є надзвичайно малою.

Звісно ж, забезпечення моносумісності записів, зведених у форматі 5.1, неможливо. Забезпечення стереосумісності готової фонограми також проблематично. Мабуть, єдино правильним рішенням буде цілеспрямоване та роздільне зведення композиції в моно, стерео та формат 5.1.

Сутність, завдання та етапи мастерингу стосовно стереофонічних фонограм - прямо скажемо, проблема ця вельми непроста. А з мастерингом у багатоканальних форматах справа ще складніша. Багато чого ще не зрозуміло. Не фільтрувати, не компресувати, не контролювати моносумісність, не здійснювати підготовку до виведення альбому різні носії. А що тоді слід робити із записами 5.1 на етапі мастерингу?

І ще про одну річ хочеться сказати. Ви можете слухати FM-радіо або CD і займатися своїми справами, наприклад, читати цю книгу. При цьому важливо, щоб звук був комфортним: не повинно бути перепадів гучності та тембру, які відволікають від основного заняття. А ось слухати композицію у форматі 5.1 "краєм вуха" практично неможливо. Сам по собі формат 5.1 має на увазі занурення слухача у музику. Тому ще один підхід може полягати в тому, щоб на етапі мастерингу у форматі 5.1 не робити нічого, крім нормалізації. Тобто вся відповідальність за суб'єктивну якість кінцевої фонограми переноситься на етап відомості, а майстеринг здійснюється за принципом "що є, тобто". А якщо все-таки слухачеві потрібно більш комфортне звучання без перепадів гучності, то він може включити на своїй системі відповідну опцію (типу Enable Dynamic Range Compression - компресія динамічного діапазону).

Ця стаття заснована на моїй дипломної роботина тему «Розробка принципів імітації об'ємного звучання у розважальній сфері», кафедра інформаційних технологій, МАІ 2011 рік. Для адаптації тексту вирізані сухі статистичні дані, мова зроблена більш живою, вставлені посилання до книг та статей, які я можу порекомендувати. Порушені питання будуть цікаві тим, хто ще вивчає механізми локалізації звуку. Програмна частинау статті не торкається. Для додаткового інтересу зі статті не вирізано практичної частини створення бінаурального манекена-мікрофона.

Хочу висловити подяку Борису Климову за створення ексклюзивних ілюстрацій, а також Надії Гурській за аналіз та виправлення тексту.

Вступ

основна ціль віртуальної реальності«занурити» людину в простір гри, дії на екрані (фільм, мультфільм, 5D кінотеатр) настільки, щоб на якийсь час він забув про реальність світу навколишнього.

Про поняття "Immersion", а також "Suspension of Disbelief" по відношенню до звуку та музики можна прочитати в книзі Winifred Phillips - A Composer's Guide to Game Music.

Об'ємне звучання – запорука того, що людина зможе відчути ефект присутності. Сприйняття звукового простору, очевидно, було затребуване ще задовго до появи запису звуку: протягом століть створювалися приміщення, такі як храми, театри, концертні зали, де забезпечувалося «занурення» слухача в звуковий простір шляхом створення природного акустичного ефекту - реверберації. Наукові дослідженняПоводження акустики в концертних залах фірмою «Bose» показали, що приблизно 11% доходить до слухача безпосередньо, решта відсотка звуку приходить у відбитому вигляді від стін, підлоги та стелі та інших об'єктів навколо слухача, тим самим створюючи об'єм звуку. З інформативної точки зору 25% інформації про навколишній світ, яку отримує людина, припадає на звук.

Підхід до звуку в сучасних кінотеатрах привчає слухача до того, що звук може і має бути якісним та реалістичним. Професійними розробникамисучасних ігрових додатківроботі зі звуком відводиться до 40 відсотків бюджету та тимчасово-людських ресурсів. З іншого боку деяких розробників ігор та додатків ще треба переконати витратити час та кошти на реалізацію якісного звуку.

На тему різних підходів цікаво почитати статті «Озвучення комп'ютерних ігор» 1 та 2 частини від Крістофера (вільно шукається в Інтернеті).

Сприйняття звуку людиною

Людський слух здатний сприймати звук у діапазоні від 16-20 Гц до 15-20 кГц. Звуки з частотою нижче 20-30 Гц (інфразвук) сприймається не органом слуху, а дотиком, наприклад, через вібрацію поверхонь. Частоти граничних нижніх значень чутного діапазону можуть сприйматися через резонанси внутрішніх органів людини. При невеликій інтенсивності звук низької частоти має додатковий емоційний вплив (наприклад, популярний ефект sub drop).

Зменшення діапазону чутних частот пов'язане із змінами у внутрішньому вусі та з розвитком вікової нейросенсорної приглухуватості. До 60 років чутний діапазон на верхньому кордоні стає не вище 10-12 кГц. Так як основний контингент розважальної сфери люди молоді, то діапазон, що сприймається слухом, повинен враховуватися повною мірою. Але й фахівець зі звуку повинен мати повноцінний слух, чути неприродність і неповноту тембру, виявити резонанси. І що не маловажно - берегти слух від перевантажень. Багато людей у музично-звуковій сфері зазнають постійних навантажень від звукопідсилювальної техніки та гучних акустичних інструментів (як і я сам, за більш ніж 12 років гри на ударних інструментах). Сучасна людинасхильний до негативного впливу навколишніх шумів, що знижує його чутливість, притуплює верхні межі частот раніше природної приглухуватості. Не треба нехтувати такими засобами захисту слуху, як беруші. Також негативний вплив можуть мати звуки низьких частот.

Детально з негативним впливом звуку (у тому числі технічного) можна ознайомитись у книзі Чедд Г. – Звук.

Сприйняття звуку індивідуально, воно залежить від конфігурації (форми) вушної раковини, фізіологічних особливостей, віку та від психологічного настрою в конкретний момент. У сфері сприйняття звуку також залежить від:
- засобів відтворення (динаміки відтворювального пристрою, навушники, колонки, багатоканальні системи),
- приміщення в якому здійснюється прослуховування,
- якості засобів перетворення (наприклад, реалізація звукового процесора, движка),
- дотримання принципів створення правильної звукової картини, якщо йдеться про саунд-дизайн.

Механізми локалізації джерела звуку людським слухом

Здатність людини локалізувати джерело звуку у просторі будується з принципу бинаурального слуху. Бінауральна (від лат. bini – «два» і auricula – «вухо») будова слухової системи полягає в різному сприйнятті звукових сигналів, що прийшли на праве та ліве вухо. Алгоритм локалізації джерела звуку:
- звуковий сигнал, що виходить від джерела звуку та перевідбиття приміщення, потрапляє у зовнішню частину слухової системи, де конфігурація вушної раковини дозволяє передати у зовнішній слуховий канал вже частотно оброблений сигнал,
- сигнал проходить у барабанну перетинку людини, в силу набувають механізми внутрішнього вуха,
- з внутрішнього вуха інформація надходить у відділи головного мозку, де на основі аналізу порівняння сигналів, що надійшли з кожного із слухових каналів, робляться висновки про розташування звукового джерела.

Людський мозок порівнює інформацію, що надійшла з барабанних перетинок, із тією інформацією, яка вже зберігається в пам'яті.

Мал. 1. Будова зовнішньої частини слухової системи людини

Докладно про влаштування зовнішнього та внутрішнього слуху та про багато іншого можна прочитати у книзі Ірини Алдошиної та Роя Пріттса – Музична Акустика, розділ «Сприйняття звуку. Основи психоакустики»

Для визначення розташування звукового джерела у просторі слухова система використовує основні механізми локалізації: по різниці у часі, по різниці інтенсивності, по різниці амплітудно-частотного спектра. До допоміжних механізмів відносяться відображення звуку від тулуба і плечей людини, реверберація, оклюзії (звук, що пройшов через перешкоду), обструкції (відфільтрований перешкодою звук), ефект Доплера, ефект Хааса (ефект попередження). Не слід забувати про ефект психологічного сприйняття: при невідповідності джерела у видимому просторі зі звуком чи порушенні синхронності якість локалізації різко падає.

Визначати просторове положення джерела звуку доводиться за наявності звукових перешкод. Існують природні механізми завадостійкості слухової системи. Один із них проявляється у бінауральному звільненні від маскування. Феномен у тому, що локалізувати звуковий сигнал і натомість статичних перешкод (наприклад, шумів оточення) легше.

Кілька слів про прозорість звучання. Наведу відомий приклад. Представимо кілька контурних малюнків тварин, накладених один на одного. Упізнання поєднаних у просторі малюнків тим складніше, що ближче форми зображених тварин (термін форма має той самий сенс, що у звуковому сигналі). Якщо ж ці малюнки рознести у просторі, то завдання визначення тварини формою стає значно простіше.

Локалізація за часовою різницею (фазова локалізація)

Цей механізмпрацює на частотах від 300 Гц до 15 кГц. За рахунок різниці між положенням лівого та правого вуха звук, що надходить від джерела, розташованого під кутом до фронтального напрямку, витрачає різний час для досягнення барабанних перетинок.

Мал. 2. Схематичний приклад фазової локалізації

При однаковому часі, що витрачається для досягнення сигналу лівого та правого вуха, даний механізм локалізуватиме джерело в азимуті 0 та 180 градусів. Різний час досягнення барабанних перетинок призводить до фазового зсуву. Слухова система розрізняє фазове зрушення до 10-15 градусів. З підвищенням частоти, відповідно, із зменшенням довжини звукової хвилі, фазовий зсув сигналів, що прийшли від одного й того джерела до різних вух, збільшується. Як тільки зсув досягає значення, близького до половини довжини звукової хвилі механізм перестає працювати. Людський мозок неспроможна однозначно визначити, чи відстає звуковий сигнал одному з слухових каналів від іншого чи, навпаки, випереджає його.

Максимальна різниця в часі, що відповідає повному зміщенню джерела звуку вправо або вліво, не може перевищувати 630 мкс.

Відстань між правим та лівим вухом дорослої людини становить 0,15 м-0,20 м, якщо брати середнє значення по підлозі. При джерелі, що випромінює звукову хвилю з частотою 20 Гц і швидкості звуку в 340 м/с, довжина хвилі становитиме 17 м. Відповідно, якщо людина повернеться до джерела однією стороною, то фазовий зсув сигналів, що прийшли в одне вухо, а потім в інше , складатиме приблизно 1,1 % від усього періоду 20 Гц хвилі (локалізація на таких низьких частотах неможлива). Фізіологічно точність локалізації залежить від розміру голови, тобто відстані між вухами. Чим більша ця відстань, тим із більшою різницею приходять звукові сигнали у кожне вухо.

При випромінюванні звуку джерелом, розташованим під певним кутом до фронтального напрямку, рівень звукового тиску барабанні перетинки в різних вухах буде різним. Це з тим, що одне вухо перебуватиме хіба що «в тіні», яку створює голова, і навіть із тим, що звукові хвилі вище 1000 Гц порівняно швидко загасають у просторі.

Мал. 3. Схематичний приклад локалізація за рівнем інтенсивності

Цей механізм є досить ефективним, але в діапазоні звукових частотахвід 1600 Гц. При довжині звукової хвилі, порівнянної з діаметром людської голови, від джерела вухо перестає перебувати в «акустичної тіні», що з явищем дифракції звукової хвилі лежить на поверхні голови. При цьому дослідним шляхом було виявлено, що здатність людським слухом визначення кута між двома джерелами горизонтальної площини в області частот 1500-2000 Гц різко знижується.

Такий механізм сприяє визначенню відстані до джерела звуку. Однак рівень звуку від слабкого, але близько розташованого джерела може бути таким, як від потужного, але віддаленого на значну відстань. За таких умов локалізації сприяє наступний механізм.

Локалізація за різницею амплітудно-частотного спектру

Механізм ґрунтується на можливості аналізу мозком АЧ провалів та підйомів певних частот у складному сигналі. Звук, що приходить під кутом 90°, містить як низькочастотні, так і високочастотні складові, а в спектрі звуку, що діє на дальнє вухо, високочастотних складових буде менше - дію голови, що екранує. Крім того, звуковий сигнал по-різному відбивається від ділянок вушної раковини, відбувається посилення та ослаблення різних ділянок звукового спектру.

Даний механізм відповідає за локалізацію фронт-тил та вертикальну площину. Вивчення фільтруючої дії голови та вушних раковин слухача дозволило запровадити поняття пеленгових смуг. При локалізації людина аналізує не весь спектр звуку, що приходить, а лише зміни деяких частот. Такі смуги сформувалися еволюційно, слух виробив власну систему відстеження та попередження небезпеки, досить точно локалізуючи, звідки виходить загроза.

Зміни у смугах від 16 до 500 Гц та від 2 до 6 кГц відповідають за локалізацію передніх джерел звуку. Смуга від 0,7 до 2 кГц - зміна тембру джерел, які можуть бути позаду.

Сигнал зі складним спектральним складом локалізується краще, а відчуття напряму «фронт-тил» формується переважно тими смугами напрямку, в яких зосереджена більшість потужності сигналу. Чисті тони, які практично не зустрічаються в природі, локалізуються гірше за складні сигнали. Так, чисті тони понад 8000 Гц піддаються локалізації насилу. Неможливо визначити місце розташування джерел звуку низької частоти - менше 150 Гц.

Локалізація у вертикальній площині набагато гірша, ніж у горизонтальній. Без психологічного, зорового впливу практично неможливо створити імітацію об'єкта, який має розташовуватися, наприклад, зверху. Цей звук має бути як мінімум звичний та очікуваний.

Гібсон Д. у своїх книгах і відео висуває концепцію про вертикальне розташування інструментів в музичному міксі за їхньою звуковисотністю (теситурою) або формантою (область посилених часткових тонів), так як у вертикальній площині звуковитворююча техніка побудована за таким же принципом. За рахунок акустичного кросовера з певними межами складний сигнал поділяється на смуги частот. У трисмуговій системі знизу розташований woffer зрадник НЧ, в середній частині mid-driver для СЧ і tweeter у верхній частині системи для передачі ВЧ. А sub-woffer передає частину інформації через підлогу. Такий підхід цікавий, але не підходить для багатьох систем, наприклад, під час використання навушників або будь-якої іншої системи без поділу на смуги.

Докладніше з описаними принципами можна ознайомитись у книзі Гібсон Д. - Візуальний посібник зі звукозапису та продюсування.

Проте зменшення інтенсивності низьких частот психоакустично допомагає підняти об'єкт, зробити його легшим.

Переміщення джерела звуку

До 1960-х років вивчення здатності людини локалізувати джерело звуку у просторі переважно стосувалося нерухомих джерел звуку. Після ж почалося дослідження сприйняття людиною і джерел звуку, що рухаються: визначалися основні характеристики сприйняття.

У ході досліджень виявилося, що для того, щоб у людини виникло відчуття руху звуку, потрібен певний час – тимчасове вікно. Воно коливається від 0,08 до 0,12 с. Локалізувати короткий нерухомий звук (наприклад, клацання тривалістю близько 0,001 с.) досить легко.

Так само людина може розрізняти швидкість руху джерела звуку: що вона вища (у певних межах), то тонша ця здатність. Якщо джерело звуку рухається зі швидкістю 90°/с (рух по напівпериметру перед випробуваним), людина розрізняє зміна швидкості на 15%; а при швидкості руху 360 ° / с - на 5,5%.

Якщо джерело є нерухомим, то для його локалізації людина підсвідомо здійснює мікропереміщення голови, що на порядок підвищують точність визначення положення джерела в просторі.

Ефекти

Для того щоб правдоподібно передати звук від джерела, що рухається, необхідно враховувати (ефект зміни частоти звуку від джерела при нерадіальному переміщенні його щодо слухача). За суб'єктивним відчуттям ефекту звук різко змінює тон - стає вищим при наближенні об'єкта і нижчим при його видаленні. В ігровій сфері ефект Доплера відіграє значну роль. Особливо, якщо йдеться про автомобільні симулятори та інші додатки пов'язані зі швидким переміщенням об'єктів. Ефект Доплера поширеним плагіном для секвенсорів, а також, як мені відомо, існує в багатьох звукових двигунах.

Одним із основних ефектів створення простору є ефект реверберації (процес багаторазового перевідображення звукового сигналу від різних поверхонь із поступовим зменшенням його інтенсивності). У реверберації, що моделюється, існує ряд параметрів - час раннього відображення, час пізнього відображення, швидкість загасання, відсоткове співвідношення «сухого» сигналу з обробленим. Ці параметри вказують на розмір приміщення та місце джерела звуку щодо слухача. У роботі я використовую виключно конволюційні (згорткові) ревербератори, застосовуючи до них імпульси реальних приміщень. Не вдаючись у подробиці технології сам імпульс являє собою шумовий «зліпок» приміщення ( wav файл), який модулює вихідний звуковий файл, тим самим поміщаючи його в простір, що імітується. У музичній сфері конволюційні технології давно використовуються, тому в оболонці Kontakt (4,5) від NI конволюційний ревербератор з набором імпульсів є у списку стандартних ефектів.

Звукові системи. Бінауральна система

Існує два основних підходи щодо організації сучасних звукових систем у приміщенні: багатоканальні системи та двоканальні системи (у тому числі і навушники). У багатоканальних системах звук передається з моніторів, розміщених спереду та ззаду від слухача (або навколо нього).

Детально з монофонічними, бінауральними, стереофонічними та багатоканальними системами та їх тонкощами можна ознайомитись у книзі Ю. Ковалгіна – Стереофонічне радіомовлення та звукозапис.

Для посилення просторового ефекту виробники намагаються просувати концепції систем не п'яти-, а шести-, семи- і навіть дев'ятиканальні. Збільшення кількості каналів вимагає ускладнення роботи звукорежисера, збільшення кількості акустичних систем, комутаційних проводів, застосування складніших підсилювачів, а отже, дозволяє збільшувати доходи з продажу.
Не всім споживачам потрібні багатоканальні аудіосистеми. Для когось це неприйнятно з економічних міркувань, хтось не може виділити під систему домашніх розваг у житловому приміщенні. Хтось з очевидних причин вважає за краще користуватися навушниками (у нічний час доби, при переміщенні в транспорті тощо).

Всього два вуха забезпечують людину всією необхідною інформацією про об'єкт, це означає, що для її передачі достатньо лише двох гучномовців. При використанні бінаурального запису джерела звуку, що здаються, у разі застосування навушників виявляються винесеними за межі голови слухача в те місце, де розташовані дійсні джерела звуку. На відміну від цього, при прослуховуванні через навушники сигналів звичайної стереофонії джерела звуку, що здаються, відчуваються як розташовані всередині голови слухача.

Поява реверберації ускладнює оцінку азимуту здається джерел звуку в тиловій області, де слухачі замість справжнього напряму часто вказують відповідний йому дзеркальний фронтальний напрям. Це явище виникає особливо часто, коли час стандартної реверберації в приміщенні прослуховування перевищує 0,3 с.

Правильна передачапросторової інформації при відтворенні за допомогою двох моніторів можливе, але навіть незначне (близько 9-15 см.) усунення центру голови слухача вліво або вправо від цієї точки призводить до того, що локалізація здаваних джерел звуку виявляється неможливою поза фокусом осей моніторів.

В оптимальній точці прослуховування бінауральна система забезпечує звучання, що впевнено віддається перевагу звичайному стереофонічному. Однак її застосування дуже обмежене: відтворення за допомогою навушників, переносна апаратура радіомовлення та звуковідтворення, комп'ютерне моделювання. Бінауральна звукова системамало придатна умов колективного прослуховування.

При відтворенні бінаурального сигналу через акустичну систему через попадання сигналу правого каналу в ліве вухо слухача і навпаки, виникають перехресні спотворення.

У реаліях ігрового саунд дизайну записані бінауральні аудіо файли не застосовуються, тому що неможливо змінювати їхнє положення в просторі, немає віртуального джерела та віртуального слухача, це не моделювання.

Алгоритми

Основний алгоритм, що використовує основні механізми локалізації звуку людиною, реалізований в HRTF (Head Related Transfer Functions - функції переміщення звуку щодо слухача. Кількісно HRTF визначаються зворотним інтегральним Фур'є перетворенням коефіцієнтів під назвою HRIR (Head Related Impulse Response), які в першому наближ. на барабанну перетинку вуха звукової хвилі у вільному просторі (free field) та в реальному просторі з урахуванням голови людини, вушних раковин, її корпусу та інших перешкод.

HRTF є складну функціюз чотирма змінними: три просторові координати та частота. При використанні сферичних координат визначення відстані до джерел звуку більших, ніж один метр, приймається, що джерела звуку перебувають у далекому полі (far field), значення HRTF зменшується назад пропорційно відстані. Більшість вимірів HRTF проводиться саме у далекому полі, у своїй кількість змінних зменшується до трьох: азимут (azimuth), висота (elevation) і частота (frequency). Дія HRTF залежить від частотного діапазону сигналу, що обробляється: тільки звуки зі значеннями частотних компонентів в межах від 3000 Гц до 10000 Гц можуть успішно інтерпретуватися за допомогою функцій HRTF. Якщо сигнал від джерела звуку не містить особливу частоту, що впливає на різницю між фронтальними і тиловими HRTF функціями, такий сигнал ніколи буде локалізований у напрямку фронт-тил.

HRTF моделювався за допомогою манекена KEMAR (Knowless Electronics Manikin for Auditory Research) та спеціального «цифрового вуха» (digital ear), розробленого компанією Sensaura. У вухах манекена розміщуються мікрофони, а навколо манекена – акустичні колонки, в результаті відбувається запис того, що чує кожне вухо. Результати, що отримуються при такому моделюванні, використовуються для поповнення бази даних по HRTF, які потім можуть бути використані для інтерактивного вибору параметрів при відтворенні позиціонованого 3D звуку (у базі даних компанії Sensaura накопичено більше 1100 HRTF). Необхідність у такій базі даних пояснюється, по-перше, різницею розмірів і форми голови та вушних раковин манекена та потенційного слухача і, по-друге, визначених цими параметрами так званої зони sweet spot, у якій коректно відтворюється ефект звучання у вертикальній площині та гарантується правильне визначеннярозташування джерел звуку у просторі. Чим більша область sweet spot, тим більшу свободу дій має слухач. Тому розробники постійно шукають способи збільшити дію sweet spot.

Компанія QSound під час реалізації технологій з HRTF спирається як на математичні методи, а й у апробацію слухачами (таких прослуховувань було проведено близько 550 тис.). Фахівці компанії Sensaura після серії дослідів визначили, що HRTF в чистому виглядіпрацює тільки при відтворенні через навушники. Моделювання звуку у разі тривіальна завдання: кожен динамік контролює відповідне йому вухо. Однак при відтворенні того ж звуку через колонки праве вухо чує також звук, покликаний «обманювати» з точки зору тривимірності ліве, і навпаки. Для виключення цього явища потрібно додати до звуку додаткові компенсаційні обчислення. Вдалі алгоритми компенсації були розроблені, вони отримали назву Transaural Cross-Talk Cancellation (TCC). Вирішено завдання було за допомогою іншої ідеї інженерів Sensaura. Вона полягає в тому, що функції HRTF діють лише для середньостатистичного вуха, тому що виведені за допомогою одного манекена або усіреднених показань великої групи людей. Sensaura розробила цифрову модель вуха, в якій можна встановити параметри вушної раковини. За допомогою цієї цифрової моделі поєднанням різних параметрівможна відтворити форму практично будь-якого вуха. Драйвер цифрового вуха, що вийшов, працює так: при його установці людина слухає ряд тестових звуків і налаштовує параметри драйвера, щоб найкращим чином відчувати тривимірність звуку. Індивідуальні параметри слухача записуються в спеціальний "профіль", він згодом і використовується програмами.