บางสิ่งที่คุณต้องรู้เกี่ยวกับรูปแบบเสียงเซอร์ราวด์ หลักการจำลองเสียงเซอร์ราวด์

คำว่า "เสียง 3 มิติ" ถูกนำมาใช้บ่อยครั้งในเทคโนโลยีต่างๆ ซึ่งปัจจุบันเป็นเรื่องยากที่จะเข้าใจว่ามันหมายถึงอะไร นี่อาจเป็นอัลกอริธึมง่ายๆ สำหรับการขยายฐานสเตอริโอ หรือ ตัวอย่างเช่น การบันทึกแบบสองหูสำหรับหูฟัง ดังนั้น Auro เน้นย้ำว่าตามความเข้าใจแล้ว เสียง 3D จะเป็นเสียงในสามมิติ เมื่อการจัดลำโพงดำเนินการไปตามแกนตั้งฉากสามแกน (x, y, z) และการบันทึกและมิกซ์จะดำเนินการตามการจัดระบบนี้ เราจะพูดถึงสิ่งที่เกิดขึ้นในเส้นทาง Auro และเหตุใดบริษัทเบลเยียมจึงตัดสินใจเข้ายึดตลาดจาก Dolby Atmos และ DTS:X

เรื่องราว

ทุกอย่างเริ่มต้นด้วย โทรศัพท์ในเดือนมีนาคม พ.ศ. 2548 Tom Hapke โปรดิวเซอร์ชาวเยอรมันได้รับแรงบันดาลใจจากแนวคิดในการสร้างมิกซ์ในรูปแบบเสียง 2+2+2 และแนะนำให้ Wilfried Van Baelen หัวหน้าสตูดิโอ Galaxy ของเบลเยียมทำแบบนั้น ในตอนแรกวิลฟรีดไม่เชื่อเกี่ยวกับแนวคิดนี้: การกำหนดค่านี้สันนิษฐานว่าเป็นวงจรควอราโฟนิกที่มีช่องเพิ่มเติมอีกสองช่องติดตั้งอยู่เหนือช่องด้านหน้า และดูเหมือนจะสมเหตุสมผลในการพากย์ภาพยนตร์ แต่เขาไม่เข้าใจว่าดนตรีจะได้รับประโยชน์จากช่องด้านหน้าเพิ่มเติมอีกสองช่องอย่างไร ฉันยังไม่ได้ฟังคลาสสิกในรูปแบบนี้เลย

เสียงที่ได้มีความลึกกว่า โปร่งใสกว่า และมีมิติมากกว่าในการกำหนดค่าแบบ "ระนาบ" 5.1 และกระตุ้นให้วิลฟรีดทำการทดลอง เนื่องจากอัลบั้มจำเป็นต้องบันทึกในรูปแบบ 2+2+2, 5.1 และ 2.0 เขาจึงใช้รูปแบบ 5.1 เป็นจุดเริ่มต้นและเพิ่มช่องด้านหน้าคู่หนึ่งเข้าไป แต่แล้วเขาก็รู้สึกถึงความไม่สมดุล: มี 6 ช่องที่รับผิดชอบ ซีกโลกหน้าในขณะที่ด้านหลัง - เพียง 2 เท่านั้น วิธีแก้ปัญหาของเขานั้นง่าย - เพิ่มช่องสัญญาณให้มากขึ้นดังนั้นด้านหลังจึงได้รับลำโพงคู่เพิ่มเติมซึ่งอยู่สูงขึ้นเล็กน้อย การกำหนดค่าได้ขยายเป็นรูปแบบ 9.1 แต่ไม่ได้สูญเสียความเข้ากันได้แบบย้อนหลังกับรูปแบบ 5.1

ตามที่วิลฟรีดกล่าวไว้ สิ่งที่เขาประสบนั้นเทียบได้กับการเผชิญหน้าครั้งแรกกับเสียงควอดราโฟนิก ลำโพงหายไปจริงๆ และมีความรู้สึกเหมือนอยู่ในสถานที่ถ่ายทำ

การทดลองนี้เป็นจุดเริ่มต้นของประวัติศาสตร์ห้าปีของการพัฒนารูปแบบ Auro 3D

จากหูสู่สมอง

วิลฟรีดเริ่มศึกษาหลักการของเครื่องช่วยฟังเพื่อทำความเข้าใจว่าเหตุใดการเพิ่มมิติเสียงเพิ่มเติมจึงเปลี่ยนการรับรู้เสียงของเขาไปมาก และความรู้สึกดื่มด่ำนี้มาจากไหน เป็นผลให้เขาได้เรียนรู้ว่าความประทับใจที่ครอบคลุมดังกล่าวถูกสร้างขึ้นโดยสนามที่กระจายอยู่ด้านหลังเขา

ดังที่คุณทราบเมื่อผสมในระบบสเตอริโอมักใช้เทคนิคการเปลี่ยนเสียงจากช่องหนึ่งไปอีกช่องหนึ่งซึ่งสร้างภาพลวงตาของแหล่งกำเนิดที่เคลื่อนที่ในระนาบแนวนอน วิลฟรีดทำการทดลองต่อไป โดยต้องการบรรลุผลที่คล้ายกันในระนาบแนวตั้ง แต่ไม่ประสบผลสำเร็จ ตอนแรกเขาเชื่อว่าปัญหาอยู่ที่อุปกรณ์ แต่ทุกอย่างดูน่าสนใจยิ่งขึ้น: เขาได้ยินเอฟเฟกต์ที่ต้องการโดยเอียงศีรษะไปด้านข้างแล้วขยับเข้าไปใกล้ลำโพงมากขึ้น

ประเด็นสำคัญก็คือ รูปแบบทิศทางของการได้ยินของมนุษย์จะโน้มไปทางระนาบแนวนอนมากกว่า และเนื่องจากผู้คนไม่มีหูที่ด้านหลังศีรษะ เราจึงไม่สามารถประมวลผลองค์ประกอบในแนวตั้งตามนั้นได้ ในการแปลเสียง บุคคลจะได้รับความช่วยเหลือจากความแตกต่างในระดับของสัญญาณ ความแตกต่างในเวลาที่รับรู้สัญญาณจากหูซ้ายและขวา และสัญญาณที่สะท้อน ในความเป็นจริง 90% ของเสียงที่หูของมนุษย์รับรู้นั้นเป็นเสียงสะท้อนสามมิติของสัญญาณดั้งเดิม และลำโพงที่อยู่ในระดับศีรษะจะสร้างสัญญาณที่สะท้อนจากพื้นในเวลาต่อมาได้อย่างแม่นยำ

ตามช่องทางตามวัตถุ

รูปแบบ Auro-3D ไม่เหมือน Dolby Atmos และ DTS:X ที่แข่งขันกัน ไม่ใช่เชิงวัตถุ แต่เป็นแบบต่อช่องสัญญาณ เพื่อให้ได้ "เสียงที่ห่อหุ้ม" ไปยังลำโพงสองชั้น - แบบคลาสสิกและอันที่สองซึ่งอยู่ที่มุม 30 องศาจากขอบฟ้า - Wilfried ได้เพิ่มลำโพงตัวที่สามที่ติดตั้งไว้เหนือผู้ฟังโดยตรง อะคูสติกชั้นที่สามนี้เรียกว่า "เสียงของพระเจ้า" และเพิ่มมิติที่สามให้กับเสียง - ระดับเสียง หากในการกำหนดค่าโรงภาพยนตร์มาตรฐาน แม้แต่ใน Dolby Atmos และ DTS:X ผู้ฟังจะถูกล้อมรอบด้วยชั้นเสียงทรงกลม ดังนั้นใน Auro-3D จะเหมือนกับว่าเขาถูกห่อหุ้มด้วยซีกโลกที่เต็มเปี่ยม

ในเทคโนโลยีการบันทึกเสียงแบบ Object-based แหล่งกำเนิดเสียงแต่ละแหล่งจะถูกบันทึกแยกกัน แต่ในเทคโนโลยีช่องต่อช่อง เสียงจะถูกกระจายระหว่างช่องสัญญาณต่างๆ จากนั้นจึงรวมเข้าด้วยกันในลำโพง ตัวอย่างเช่น เมื่อบันทึกเสียงของถนนที่พลุกพล่านในรูปแบบเชิงวัตถุ จะไม่สามารถแยกวัตถุที่เคลื่อนไหวได้ด้วยตนเอง เช่น รถยนต์ จักรยาน ผู้คน เพื่อการใช้งานต่อไป จะไม่สามารถรับภาพสามมิติได้ เสียงที่สะท้อนจากวัตถุเหล่านี้รวมทั้งเสียงโดยตรงด้วย ในระบบต่อช่องสัญญาณ ปัญหานี้ได้รับการแก้ไขโดยทำให้ง่ายขึ้น และนี่คือจุดที่องค์ประกอบแนวตั้งเข้ามามีบทบาท

ลำโพงชั้นที่สามใน Auro 3D สร้าง "สนามสเตอริโอแนวตั้ง" รอบๆ ผู้ฟัง โดยไม่คำนึงถึงเค้าโครงของเสียงใน Auro 3D ชั้นที่สามนั้นไม่ได้ช่วยในการระบุตำแหน่ง - ช่วยในการสร้างเฮลิคอปเตอร์ ยานอวกาศ และเอฟเฟกต์สภาพอากาศที่บินอยู่เหนือศีรษะ แต่การได้ยินของมนุษย์นั้นไม่ค่อยไวต่อเสียงที่มาจากด้านบนโดยตรง และโดยทั่วไปแล้ว ข้อมูลเสียงเพียงเล็กน้อยจะมาจากที่นั่นจากเพดาน . วิวัฒนาการเป็นสิ่งที่ต้องตำหนิสำหรับสิ่งนี้ มันเกิดขึ้นที่บ่อยครั้งในช่วงรุ่งอรุณของมนุษยชาติ อันตรายมาจากระดับเดียวกับที่บุคคลตั้งอยู่โดยประมาณ ไม่ใช่จากด้านบน และนั่นคือสาเหตุที่สมองประมวลผลเสียงอย่างเข้มข้นที่สะท้อนจาก พื้น.

รูปแบบ Auro 3D แม้จะอยู่ในการกำหนดค่าที่ลดลงและมีเลเยอร์เสียงน้อยลง แต่ก็สามารถสร้างตำแหน่งแหล่งกำเนิดเสียงในแนวตั้งได้ และปรับให้เข้ากับห้องและระบบที่หลากหลายได้อย่างสมบูรณ์แบบ นอกจากนี้ Auro 3D เป็นรูปแบบเสียง 3 มิติรูปแบบเดียวในตลาดที่รองรับกระบวนการมาสเตอร์โดยอิงจากการผสมทุกช่องสัญญาณ ซึ่งเป็นสิ่งที่รูปแบบการบันทึกตามวัตถุไม่สามารถทำได้ อันที่จริง Auro 3D เป็นรูปแบบเดียวในตลาดสำหรับเพลง 3D ยิ่งไปกว่านั้น ในยุคของรูปแบบการบีบอัด - MP3, AAC และอื่น ๆ - Auro 3D มีคุณภาพ 24 บิต/96 kHz

ในทุกอุปกรณ์

เทคโนโลยี Auro-3D Engine ประกอบด้วยตัวถอดรหัส Auro-Codec และ Auro-Matic upmixer ด้วยความช่วยเหลือของอัลกอริธึมทั้งสองนี้ ทำให้ระบบมีความเป็นสากล ตัวถอดรหัสจะจดจำและถอดรหัสเสียงเนทีฟในรูปแบบ Auro-3D ในขณะที่อัปมิกซ์เซอร์ใช้อัลกอริธึมในการกระจายเสียงจากโมโน สเตอริโอ 5.1 และ 7.1 ไปยัง Auro-3D โดยแน่นอนว่ามีจำนวนช่องสัญญาณที่ต้องการ นั่นคือภาพยนตร์ที่บันทึกไว้ใน Blu-ray หรือแม้แต่ DVD และเพลงที่ติดตั้งในระบบสเตอริโอสามารถชื่นชมได้ในรูปแบบสามมิติใหม่สูงสุด

ตามเนื้อผ้า เทคโนโลยี upmix จะใช้การเปลี่ยนแปลงในการปรับสเปกตรัมและเพิ่มอัลกอริธึมการสะท้อน เมื่อพัฒนา Auro-Matic วิศวกรไม่ต้องการได้ยินเสียงก้องที่ไม่จำเป็นหรือเฟสที่ไม่ถูกต้อง แต่ต้องการถ่ายทอดเสียงให้ใกล้เคียงกับที่ผู้เขียนได้ยินและตั้งใจมากที่สุด และพวกเขาได้พัฒนาอัลกอริธึมที่เกี่ยวข้องกับ HRTF (ฟังก์ชันการถ่ายโอนที่เกี่ยวข้องกับศีรษะ) ซึ่งเป็นเทคโนโลยีที่คำนึงถึงวิธีที่หูของมนุษย์รับรู้เสียงในสภาพธรรมชาติ เจ้าของ iPhone และ iPad สามารถประเมินประสิทธิภาพของอัลกอริทึมได้โดยตรวจสอบแอปพลิเคชัน Beautifyer (อนิจจาไม่มีให้บริการในรัสเซีย)

ครั้งหนึ่ง Auro-Technologies ประสบปัญหาที่น่าสนใจ: นักพัฒนาอุปกรณ์ไม่กระตือรือร้นที่จะใช้เทคโนโลยี Auro-3D เนื่องจากไม่มีเนื้อหาที่เกี่ยวข้อง และผู้สร้างเนื้อหาไม่ได้ใช้รูปแบบ Auro-3D เนื่องจากข้อเท็จจริงที่ว่า ไม่มีอะไรจะสนับสนุนมันคือการสืบพันธุ์ ดังนั้น บริษัท จึงตัดสินใจเปิดตัวเครื่องรับที่รองรับ Auro-3D อย่างอิสระ และเมื่อเวลาผ่านไป ก็มีเครื่องรับอื่นๆ ตามมาด้วย ปัจจุบัน นอกเหนือจากกลุ่มผลิตภัณฑ์ของ StormAudio แล้ว ผู้ผลิตจำนวนมากขึ้นได้รวม Auro-3D เข้ากับอุปกรณ์ AV ของตน เช่น Denon, Marantz, Steinway Lyngdorf, Macintosh, Trinnov, Theta Digital, StormAudio, ATI และ Datasat

อินเทอร์เฟซการตั้งค่าการติดตั้ง Auro-3D ในโปรเซสเซอร์ Trinnov Altitude 32

นอกเหนือจากโฮมเธียเตอร์และระบบเสียงที่ใช้ในบ้านและที่ไม่ใช่โฮมเธียเตอร์แล้ว Auro-3D ยังพบจุดยืนในอุตสาหกรรมยานยนต์อีกด้วย นักพัฒนาร่วมกับ Continental ได้สร้างระบบเสียง 3 มิติในตัวที่มีเอกลักษณ์เฉพาะตัวในรถยนต์ และรถยนต์คันแรกที่ติดตั้งระบบ Auro-3D จะเปิดตัวในปี 2560 สนามเสียงประเภทนี้จะเปลี่ยนบรรยากาศของผู้ขับขี่ ทำให้เขาผ่อนคลายและรู้สึกสบายขึ้น และแม้แต่บางคนก็ดูเหมือนจะขยายพื้นที่ภายในด้วย ตามที่ Wilfried กล่าว เมื่อฟังเพลงในรูปแบบ 3 มิติ สมองของเราจะเครียดน้อยกว่าการประมวลผลเพลงประกอบสเตอริโอ ดังนั้นจึงมีความสะดวกสบายเพิ่มเติม

รถยนต์ปอร์เช่ พานาเมร่า พร้อมด้วย ระบบที่ติดตั้งจาก Burmester ซึ่งสามารถทำงานร่วมกับเสียง Auro-3D ได้

ขณะนี้มีอัลบั้มประมาณ 200 อัลบั้มที่บันทึกในรูปแบบ Auro 9.1 และมีน้อยมากในรูปแบบ 10.1 โดยใช้ช่องทางสูงสุด พื้นที่การใช้งานของช่องนี้ค่อนข้างเฉพาะเจาะจง - จำเป็นต้องสร้างเสียงที่มาจากด้านบนโดยตรงและในเพลงมักจะไม่มีวัตถุใดอยู่เหนือผู้ฟัง แม้แต่การบันทึกการแสดงคอนเสิร์ตก็ไม่จำเป็นต้องมี "เสียงของพระเจ้า" เพราะโดยทั่วไปแล้วจะมีการสะท้อนในคอนเสิร์ตฮอลล์น้อยกว่า ในบรรดาอัลบั้มสองร้อยอัลบั้มในรูปแบบ 9.1 ไม่เพียงแต่มีเพลงคลาสสิคเท่านั้น แต่ยังมีดนตรีแจ๊ส ร็อค นักแสดงยอดนิยม และแม้แต่ เพลงเต้นรำ.

รูปแบบนี้จะครอบคลุมถึงอุปกรณ์เคลื่อนที่ด้วย เมื่อรวมกับเทคโนโลยี binaural แล้ว Auro-3D สำหรับอุปกรณ์มือถือจะสามารถสร้างเสียงสามมิติที่ดื่มด่ำได้โดยตรงในสมาร์ทโฟนและส่งไปยังหูฟัง: ระบบสามารถถอดรหัสเนื้อหา Auro-3D ดั้งเดิมและเล่นเสียงสเตอริโอทั้งหมดได้ ไลบรารี ภาพยนตร์ และไฟล์สื่ออื่น ๆ ในรูปแบบเสียง Auro-3D โดยใช้ upmix

อินเทอร์เฟซโปรแกรม Wwise พร้อมตัวเลือกสำหรับการทำงานกับเสียง Auro-3D

วิดีโอเกมมีความโดดเด่น เทคโนโลยี Auro-3D จะช่วยให้คุณสร้างภาพเสียงที่จะทำให้ผู้เล่นได้รับประสบการณ์ที่แตกต่างไปจากเดิมอย่างสิ้นเชิง บริษัทร่วมมือกับ Audio-Kinetics และรวมรูปแบบดังกล่าวไว้ใน Wwise ซึ่งเป็นโปรแกรมซอฟต์แวร์สำหรับสร้างเสียงสำหรับเกมคอมพิวเตอร์ เวอร์ชัน AuroWwise รองรับเสียง 3 มิติสำหรับสื่อและเกมเชิงโต้ตอบโดยยังคงฟังก์ชันการทำงานทั้งหมดไว้ เกมแรกในรูปแบบ Auro-3D จะเป็น Get Even ซึ่งจะวางจำหน่ายในฤดูใบไม้ผลิปี 2560 อย่างไรก็ตาม ตามคำบอกเล่าของวิลฟรีด เสียงดังกล่าวยังเทียบไม่ได้กับลำโพง

คุณต้องการกี่คอลัมน์?

สำหรับโฮมเธียเตอร์ การกำหนดค่าขั้นต่ำที่แนะนำคือ 9.1 วิธีแก้ปัญหาที่ดีที่สุดคือ 11.1 และในห้องโถงขนาดใหญ่โดยเฉพาะ คุณควรใช้ Auro 13.1 พื้นที่ที่ต้องการจะเหมือนกับการจัดวางระบบ 5.1 และ 7.1 อย่างเหมาะสมที่สุด นักพัฒนาได้ทดสอบ Auro-3D ในสภาพแวดล้อมที่หลากหลาย เช่น เพดานสูง เพดานต่ำ สภาพแวดล้อมที่แห้งและเปียก และพบว่าระบบมีความยืดหยุ่นอย่างแท้จริง

ขณะนี้มีรูปแบบ AuroMax ใหม่ ซึ่งเป็นรูปแบบไฮบริด ช่องสัญญาณ และรูปแบบเชิงวัตถุที่ใช้การกำหนดค่าตั้งแต่ 20.1 ถึง 26.1 รูปแบบ AuroMax เป็นการพัฒนาร่วมกันระหว่าง Auro-Technologies, Barco และ Iosono และใช้ในโรงภาพยนตร์เต็มรูปแบบ ตามที่นักพัฒนาระบุว่าในโฮมเธียเตอร์ไม่จำเป็นต้องมีการกำหนดค่าสูงสุดเช่นนี้ แต่คำพูดของลูกค้าคือกฎหมาย จริงอยู่ที่คุณจะต้องมีพื้นที่มากกว่าเวอร์ชัน 13.1 แชนเนลด้วยซ้ำ

ตามที่วิลฟรีดกล่าวไว้ แม้แต่ผู้พูดนับล้านคนก็ไม่สามารถสร้างโลกรอบตัวเราได้อย่างเป็นธรรมชาติ หูของเราฉลาดเกินกว่าที่จะถูกหลอก ดังนั้นเป้าหมายของ Auro-3D ไม่ใช่การใช้ช่องสัญญาณให้ได้มากที่สุด แต่เพื่อให้ได้เสียงที่ห่อหุ้มมากที่สุดโดยมีจำนวนลำโพงน้อยที่สุด นั่นเป็นเหตุผลที่คุณไม่ควรพยายามติดตั้งการกำหนดค่า 26.1 แชนเนลในโรงภาพยนตร์ขนาดเล็ก - มันไม่สมเหตุสมผลเลย ผลกระทบของแชนเนลเพิ่มเติมจะไม่ครอบคลุมถึงความพยายาม ความยุ่งยาก และเงินที่ใช้ในการติดตั้ง ควรใช้เวอร์ชัน 11.1 แชนเนลจะดีกว่า

สำหรับโรงภาพยนตร์ขนาดใหญ่และสตูดิโอภาพยนตร์

ในปี 2011 Wilfried เริ่มเป็นหุ้นส่วนกับ Barco ผู้ผลิตอุปกรณ์วิดีโอของเบลเยียม บริษัทนี้เริ่มใช้ระบบ Auro-3D ในอุปกรณ์สำหรับโรงภาพยนตร์ และในปีเดียวกันนั้นก็ได้ติดตั้งระบบ Auro 11.1 เป็นครั้งแรก ภาพยนตร์เรื่องแรกในรูปแบบนี้คือ Red Tails กำกับโดย George Lucas ปัจจุบัน โรงภาพยนตร์มากกว่า 550 แห่งได้รับการติดตั้งระบบ Auro 11.1 โดย Barco และ AuroMax ทั่วโลก

ในรัสเซียทุกวันนี้โรงภาพยนตร์รอบปฐมทัศน์หลัก "ตุลาคม" และโรงภาพยนตร์ 27 แห่งในมอสโกและเมืองอื่น ๆ ได้รับการติดตั้งเสียงดังกล่าว อุปกรณ์ Auro-3D ได้รับการติดตั้งแล้วในสตูดิโอสองแห่ง ได้แก่ Pythagoras และ Neva-Film โดยรวมแล้ว สตูดิโอมากกว่า 100 แห่งทั่วโลกสร้างและพากย์ภาพยนตร์ในรูปแบบ Auro-11.1 by Barco

ก่อนอื่น สิ่งที่ดีเกี่ยวกับรูปแบบนี้คือราคาถูกกว่าสำหรับสตูดิโอและโรงภาพยนตร์ เว็บไซต์อย่างเป็นทางการของ Auro-3D ระบุข้อดีดังต่อไปนี้:

ไม่มีค่าธรรมเนียมใบอนุญาต

ความพยายามในการกระจายน้อยที่สุด

ความสามารถในการใช้เนื้อหาที่สร้างขึ้นในรูปแบบนี้บน Auro-11.1 โดยระบบ Barco

เปลี่ยนจาก DCP ไปเป็นคุณภาพเทียบเท่าบน Blu-ray ได้อย่างง่ายดาย

ง่ายต่อการแปลงในภายหลัง

ความสามารถในการบันทึกในรูปแบบ Auro-11.1 โดย Barco บนฉากโดยตรง

ไม่จำเป็นต้องมาสเตอร์และคีย์ DCP เพิ่มเติม

ช่องเพิ่มเติมจะถูกเข้ารหัสโดยตรงในมาสเตอร์ 5.1 (7.1)

เข้ากันได้อย่างสมบูรณ์กับมิกซ์ 5.1 (7.1)

ไม่ต้องเสียเวลาเขียนใหม่เพิ่มเติมในรูปแบบอื่น

ความสามารถในการใช้ฟังก์ชัน "up mix" สำหรับภาพยนตร์ที่เสร็จแล้วในรูปแบบสเตอริโอ 5.1, 7.1 สำหรับการเล่นใน Auro-11.1 โดย Barco

เนื้อหาอยู่ที่ไหน?

ในตอนแรกเมื่อรูปแบบเพิ่งเกิดขึ้นก็มีเนื้อหาน้อย แต่ตอนนี้สถานการณ์เปลี่ยนไปแล้ว ทั้งเพลงและภาพยนตร์มีให้ใช้งานในรูปแบบ Auro-3D รายชื่อภาพยนตร์และเพลง รวมถึงการเข้าฉายในโรงภาพยนตร์ในอนาคต ได้รับการเผยแพร่บนเว็บไซต์ Auro-3D

เสียงเซอร์ราวด์คืออะไรและทำงานอย่างไร?

อุปกรณ์ราคาถูกและทันสมัยส่วนใหญ่ที่สร้างเสียงได้ไม่มากรวมถึงการ์ดเสียงสำหรับคอมพิวเตอร์มัลติมีเดียส่วนบุคคลช่วยให้คุณสามารถสร้างเสียงในโหมด "เสียง 3 มิติ" หรือ "เซอร์ราวด์" ซึ่งสามารถแปลเป็น "เสียงเซอร์ราวด์" ได้ มันคืออะไรและมีไว้เพื่ออะไร?

ระบบสร้างเสียงเซอร์ราวด์ได้รับการพัฒนาเนื่องจากคุณภาพเสียงที่ได้จากระบบสเตอริโอหรือหูฟังแบบเดิมๆ ไม่เป็นที่น่าพอใจสำหรับผู้ฟังที่มีวิจารณญาณอีกต่อไป แม้ว่า ระบบสเตอริโอและสร้างเอฟเฟกต์เสียงเชิงพื้นที่โดยการสังเคราะห์ภาพพาโนรามาของแหล่งกำเนิดเสียงในจินตนาการ (ISS) ระหว่างลำโพงสองตัว (รูปที่ 1) แต่เสียงสเตอริโอก็มี ข้อเสียเปรียบที่สำคัญ- ภาพพาโนรามาแบบสเตอริโอจะแบนและถูกจำกัดด้วยมุมระหว่างทิศทางไปยังลำโพง

รูปที่ 1. พาโนรามาสเตอริโอ

เสียงดังกล่าวส่วนใหญ่ปราศจากความเป็นธรรมชาติที่มีอยู่ในสนามเสียงจริง เมื่อบุคคลสามารถรับรู้แหล่งที่มาที่แท้จริงจากเกือบทุกทิศทาง ทั้งแนวนอนและแนวตั้ง และประมาณระยะห่างจากเสียง แม้ว่าบางครั้งจะมีข้อผิดพลาดก็ตาม แหล่งที่มา เชื่อกันว่าการรับรู้เสียงจากทิศทางและระยะทางที่ต่างกันได้ สำคัญไม่เพียงแต่เป็นข้อเท็จจริงเกี่ยวกับตำแหน่งเชิงพื้นที่เท่านั้น มันสร้างความรู้สึกของระดับเสียงในตัวผู้ฟัง (สนามเสียงสามมิติ) เพิ่มคุณค่าให้กับเสียงของเครื่องดนตรีและเสียงอย่างมีนัยสำคัญฟื้นฟูกระบวนการสะท้อนกลับของห้องหลัก (ห้องคอนเสิร์ต) สเตอริโอโฟนีแบบทั่วไปจะสร้างเอฟเฟกต์เสียงเชิงพื้นที่ในบริเวณที่จำกัดมากด้านหน้าผู้ฟัง ไม่อนุญาตให้เปิดเผยคุณลักษณะที่กล่าวมาข้างต้นของการรับรู้เสียงได้อย่างเต็มที่ในสนามเสียงจริง ดังนั้นจึงลดคุณภาพเสียงลง

ระบบ Quadraphonic ยังไม่สามารถจำลองสนามเสียงจริงได้อย่างสมบูรณ์ ประการแรก เมื่อใช้ quadraphony จะไม่ได้รับพาโนรามาสเตอริโอแบบวงกลม - ผู้ฟังจะรู้สึกถึงพาโนรามาสเตอริโอปกติที่อยู่ข้างหน้าเขาและพาโนรามาสเตอริโอด้านหลังที่อยู่ด้านหลังเขา ประการที่สอง แหล่งกำเนิดเสียงในจินตนาการทั้งหมดอยู่ในระนาบเดียวกันและอยู่บนเส้นระหว่างลำโพง กล่าวคือ ไม่มีความลึก และในความเป็นจริง ไม่มีมิติที่ 3 และเสียงเซอร์ราวด์สามมิติ (รูปที่ 2)

รูปที่ 2 พาโนรามารูปสี่เหลี่ยม

หูฟังสเตอริโอยังไม่อนุญาตให้คุณรับเสียงที่เป็นธรรมชาติจากแผ่นเสียงที่ทำซ้ำ ความจริงก็คือความประทับใจที่เกิดจากความกว้างสเตอริโอที่ไม่มีที่สิ้นสุดและการแปลภาพเสียงในหัวของผู้ฟังอย่างชัดเจนไม่สามารถตอบสนองความต้องการของผู้รักเสียงเพลงได้ เพื่อลดผลกระทบของการแปลเสียงภายในศีรษะจึงใช้วงจรที่คล้ายกับที่แสดงในรูปที่ 3.

รูปที่ 3 บล็อกไดอะแกรมของอุปกรณ์สำหรับสร้างเสียงเซอร์ราวด์สำหรับโทรศัพท์สเตอริโอ

ที่นี่สัญญาณของช่องซ้ายและขวาผ่านอุปกรณ์อินพุต A1 และ A2 จะถูกส่งไปยังตัวแบ่งแรงดันไฟฟ้า A3 และ A6 ตามลำดับและไปยังอินพุตของช่องสัญญาณข้ามซึ่งประกอบด้วยเส้นหน่วงเวลา (LZ) A4, A5, อุปกรณ์จับคู่ A8, A9 และต่ำ -ผ่านตัวกรอง (LPF) Z1 , Z2. จากตัวแบ่ง A3, A6 สัญญาณจะถูกป้อนไปยังตัวแก้ไขการตอบสนองความถี่ A7 และ A10 จากนั้นไปยังหนึ่งในอินพุตของตัวบวกและจากนั้นไปยังอินพุตของเพาเวอร์แอมป์สำหรับโทรศัพท์สเตอริโอ ดังนั้นที่เอาต์พุตของแต่ละช่อง สัญญาณจะถูกสร้างขึ้นประกอบด้วยสัญญาณที่อ่อนลงและแก้ไขแล้วของช่องสัญญาณนั้น และสัญญาณที่ล่าช้าและแก้ไขอย่างเหมาะสมของอีกช่องหนึ่ง

อุปกรณ์ที่คล้ายกันซึ่งผลิตในรูปแบบของกล่องรับสัญญาณหรืออุปกรณ์ในตัวปัจจุบันมีการติดตั้งอยู่ในหลายเครื่อง ศูนย์ดนตรี- ที่น่าสนใจคืออุปกรณ์ดังกล่าวสามารถนำไปใช้งานโดยใช้วิธีซอฟต์แวร์ล้วนๆ ได้ การประมวลผลแบบดิจิตอลสัญญาณแบบเรียลไทม์ ผู้อ่านที่ได้ คอมพิวเตอร์ส่วนบุคคลด้วยการ์ดเสียงฟูลดูเพล็กซ์ (น่าเสียดายที่โปรแกรมทำงานได้ไม่ดีกับการ์ดที่ผลิตโดย Creative Labs บริษัท สิงคโปร์) พวกเขาสามารถดาวน์โหลดหนึ่งในนั้น โปรแกรมที่คล้ายกันที่นี่. นอกจากนี้ โปรแกรมนี้ยังให้คุณเพิ่มเอฟเฟ็กต์เสียงก้องสำหรับห้องขนาดเล็ก กลาง และใหญ่ เสียงสะท้อน คอรัส ฟลาเจอร์ และมีอีควอไลเซอร์ที่ค่อนข้างดีซึ่งช่วยปรับปรุงการสร้างความถี่ต่ำ (20...60 Hz) ไปจนถึงเสียงกลาง โทรศัพท์สเตอริโอคุณภาพ เอฟเฟ็กต์ทั้งหมดทำงานแบบเรียลไทม์แม้บนการ์ดเสียงราคาถูกมากที่ไม่มีโปรเซสเซอร์ DSP เช่น OPTi-931 หรือ Acer S23

วิธีการที่ทันสมัยที่สุดในการจำลองสนามเสียงสามมิติที่แท้จริงคือการส่งผ่านเสียงแบบสองหู วิธี binaural ประกอบด้วยข้อเท็จจริงที่ว่าข้อมูลเสียงถูกรับรู้โดยไมโครโฟนที่วางอยู่ในหูของบุคคลหรือศีรษะเทียม - แบบจำลองจำลองการรับรู้การได้ยินของมนุษย์ สัญญาณที่มาจากไมโครโฟนแต่ละตัวจะถูกขยายโดยเครื่องขยายสัญญาณความถี่ต่ำที่แยกจากกัน และสร้างซ้ำโดยโทรศัพท์สเตอริโอ ตามหลักการแล้ว ระบบดังกล่าวช่วยให้คุณสร้างภาพลวงตาของเสียงที่เป็นธรรมชาติได้อย่างสมบูรณ์

ดูเหมือนว่าจะเคลื่อนย้ายผู้ฟังจากห้องฟังไปยังห้องที่มีการส่งผ่านข้อมูล อย่างไรก็ตาม คุณสามารถฟังได้อย่างเต็มที่โดยใช้โทรศัพท์สเตอริโอเท่านั้น และต้องใช้ศีรษะของคุณเป็นตัวอย่างในการสร้างศีรษะเทียม ผู้อ่านสามารถฟังไฟล์ WAV เสียงสาธิตแบบ binaural ได้โดยการดาวน์โหลดผ่านอินเทอร์เน็ตจากเซิร์ฟเวอร์

www.geocities.com/SiliconValley/Pines/7899

เมื่อเล่นสัญญาณแบบสองหูผ่าน ลำโพงเสียงเนื่องจากสัญญาณช่องสัญญาณขวาเข้าสู่หูซ้ายของผู้ฟังและในทางกลับกัน การบิดเบือนข้ามจึงเกิดขึ้น และทำลายคุณประโยชน์ทั้งหมดของการสร้างเสียงแบบสองหูในท้ายที่สุด ข้อเสียเหล่านี้สามารถกำจัดได้ส่วนใหญ่ด้วยความช่วยเหลือของอุปกรณ์ประมวลผลสัญญาณเสียงพิเศษซึ่งทำให้สามารถรับเอฟเฟกต์แบบ binaural เมื่อฟังการบันทึกแบบ binaural ผ่านลำโพง อุปกรณ์ดังกล่าวเรียกว่าโปรเซสเซอร์แบบไบโฟนิก การบันทึกทำจากไมโครโฟนที่อยู่ในศีรษะเทียม และเล่นหลังจากประมวลผลโดยโปรเซสเซอร์แบบไบโฟนิค ซึ่งจำนวนสัญญาณช่องซ้ายที่แบ่งตามเฟส ดีเลย์ และแก้ไขความถี่ที่คำนวณอย่างแม่นยำจะถูกหักออกจากสัญญาณช่องสัญญาณขวาและในทางกลับกัน . แผนภาพบล็อกของโปรเซสเซอร์แบบ Biphonic ซึ่งพัฒนาขึ้นครั้งแรกโดย JVC แสดงไว้ในรูปที่ 1 4.

รูปที่ 4 แผนภาพบล็อกของโปรเซสเซอร์แบบ binaural

ประกอบด้วยเครื่องขยายสัญญาณของช่องซ้ายและขวา A1, A2, ขยายสัญญาณจากไมโครโฟนที่ติดตั้งในหัวเทียม A0, เส้นหน่วงเวลา D1, D2, ตัวเปลี่ยนเฟส U1, U2 และตัวเสริม E1, E2 หลังจากประมวลผลโดยโปรเซสเซอร์แบบไบโฟนิก สัญญาณที่มาจากลำโพงไปยังหูของผู้ฟังจะถูกรวมเข้าด้วยกัน เพื่อให้หูซ้ายได้ยินเฉพาะสัญญาณจากช่องสัญญาณด้านซ้าย และหูขวาจะได้ยินเฉพาะสัญญาณจากช่องสัญญาณด้านขวาเท่านั้น ดังนั้น เราสามารถพูดได้ว่าเอฟเฟกต์แบบไบโฟนิกนั้นคล้ายคลึงกับแบบสองเสียงและแตกต่างเฉพาะในรูปแบบการบันทึกแบบสองเสียงเท่านั้น

และถึงแม้ว่าพื้นที่ที่ปรากฏอย่างชัดเจนจะมีขนาดเล็กแต่อยู่ภายในขอบเขตของผู้ฟังก็สามารถทราบถึงระยะห่างจากแหล่งกำเนิดเสียงและตำแหน่งสัมพัทธ์ในอวกาศในขณะที่บันทึกซึ่งไม่สามารถทำได้ด้วยเสียงสเตอริโอโฟนิก การสร้างภาพ ซึ่งให้แนวคิดเฉพาะแหล่งกำเนิดเสียงของตำแหน่งบนเส้นระหว่างลำโพงเท่านั้น คุณสมบัติที่น่าสนใจอีกประการหนึ่งของโปรเซสเซอร์แบบไบโฟนิกคือความสามารถในการขยายฐานสเตอริโอของการบันทึกเสียงสเตอริโอทั่วไปด้วยความช่วยเหลือ นี่คือสิ่งที่มักจะหมายถึงโดย "3DSound" และหากระบบอนุญาตให้คุณเพิ่มมุมจินตภาพระหว่างทิศทางของลำโพงเสียง (รูปที่ 1) เป็น 180 องศาระบบดังกล่าวจะเรียกว่า "เซอร์ราวด์" และภาพพาโนรามาของเสียงที่สร้างขึ้นสำหรับมันจะเหมือนกับเมื่อฟัง ไปยังโทรศัพท์สเตอริโอ แต่ไม่มีแหล่งกำเนิดเสียงในจินตนาการอยู่ในหัวของผู้ฟัง แน่นอนว่าโปรเซสเซอร์แบบไบโฟนิกสามารถนำไปใช้ในซอฟต์แวร์ได้โดยใช้เทคนิคการประมวลผลสัญญาณดิจิทัลแบบเรียลไทม์

เมื่อไม่นานมานี้ เราได้เห็นแล้วว่าโรงภาพยนตร์สเตอริโอเข้ามาสู่โลกของโรงภาพยนตร์เชิงพาณิชย์และในบ้านได้อย่างไร และตอนนี้วิดีโอก็อยู่ในลำดับถัดไป ความละเอียดสูงเป็นพิเศษ 4เค เสียงไม่ล้าหลังภาพ: เสียง 3D มาถึงโฮมเธียเตอร์แล้ว ซึ่งเป็นสภาพแวดล้อมเสียงที่สมบูรณ์แบบสำหรับผู้ชม ไม่เพียงแต่ในระนาบแนวนอนเท่านั้น แต่ยังรวมถึงมิติที่สามด้วย ใน ภาษาอังกฤษคำว่าดื่มด่ำใช้สำหรับสิ่งนี้

เสียงของพระเจ้าและช่องเสียงอื่นๆ

รูปแบบ Auro-3D เปิดตัวในเดือนพฤษภาคม พ.ศ. 2549 โดย Galaxy Studios บริษัท เบลเยียม ภาพยนตร์กระแสหลักเรื่องแรกที่บันทึกไว้ใน รูปแบบนี้กลายเป็นภาพยนตร์เรื่อง Red Tails ซึ่งถ่ายทำในปี 2012 โดย George Lucas ความแตกต่างพื้นฐานระหว่างรูปแบบ Auro-3D และ Dolby Surround EX และ DTS ที่แพร่หลายในขณะนั้นคือ นอกเหนือจากช่อง 7.1 แบบดั้งเดิมที่อยู่ในระนาบเดียวกันแล้ว นักพัฒนายังเสนอให้ใช้มิติที่สาม - นั่นคือการวางระบบลำโพง (AS) ไม่ใช่แค่รอบๆ ผู้ฟังเท่านั้น แต่ยังอยู่ด้านบนเป็น "เลเยอร์" ที่สองด้วย โดยทำมุม 30 องศากับระบบลำโพงด้านหน้าและช่องเสียงเซอร์ราวด์

การปรับปรุงรูปแบบเพิ่มเติมนำไปสู่การปรากฏตัวของ "เลเยอร์" อีกอันหนึ่ง - เหนือศีรษะของผู้ฟังซึ่งเรียกในเชิงสัญลักษณ์ว่าเสียงของพระเจ้า จำนวนช่องสัญญาณสูงสุด (เพื่อไม่ให้สับสนกับจำนวนระบบลำโพง) ถึง 13.1 นั่นคือจริง ๆ แล้วเพิ่มขึ้นเป็นสองเท่าของรูปแบบ 7.1 และ 6.1 ที่ใช้ในขณะนั้น การนำช่องสัญญาณเหนือศีรษะมาใช้ทำให้สามารถถ่ายทอดเหตุการณ์ต่างๆ ในเพลงประกอบภาพยนตร์ได้แม่นยำมากขึ้น เช่น วัตถุที่บินเหนือผู้ชม (เสียงเฮลิคอปเตอร์หรือเครื่องบินขับไล่) เอฟเฟ็กต์บรรยากาศ (ลมแรง เสียงฟ้าร้อง)

หากเพดานต่ำเกินไป เสียงก็จะอยู่ใกล้ผู้ชมมากเกินไป ในกรณีนี้ Dolby ขอแนะนำให้ใช้ระบบลำโพงพิเศษที่ทำงาน "โดยการสะท้อน" จากเพดาน - ตามที่บริษัทระบุ ผลลัพธ์จะมีคุณภาพสูงขึ้น

วิธีการวัตถุ

Dolby Laboratories ซึ่งเป็นผู้เล่นที่เก่าแก่ที่สุดในตลาดเครื่องเสียงโรงภาพยนตร์ ใช้ระบบลำโพง "เลเยอร์" สองชั้นในรูปแบบ Dolby Atmos ใหม่ อันแรกตั้งอยู่รอบผู้ฟังตามรูปแบบคลาสสิกและอันที่สองบนเพดาน - เป็นคู่ทางซ้ายและขวา แต่สิ่งที่สำคัญที่สุดคือพื้นฐาน แนวทางใหม่เพื่อมิกซ์เพลงประกอบ แทนที่จะใช้การมิกซ์ช่องต่อช่องตามปกติ สตูดิโอใช้วิธีการบันทึกแบบ "วัตถุ" ผู้กำกับทำงานกับไฟล์เสียง โดยระบุตำแหน่งในพื้นที่สามมิติที่ควรเล่นเสียงเหล่านี้ เวลา และระดับเสียงใด ตัวอย่างเช่น หากจำเป็นต้องสร้างเสียงของรถที่กำลังเคลื่อนที่อีกครั้ง ผู้กำกับจะระบุเวลาที่ปรากฏ ระดับเสียง วิถีการเคลื่อนที่ สถานที่และเวลาที่ยุติเสียงของ "วัตถุ"

นอกจากนี้ เสียงยังมาจากสตูดิโอไปยังโรงภาพยนตร์ซึ่งไม่ใช่ในรูปแบบของแทร็กที่บันทึกไว้ แต่เป็นชุดของไฟล์เสียง ข้อมูลนี้ได้รับการประมวลผลโดยโปรเซสเซอร์ ซึ่งจะคำนวณเพลงประกอบภาพยนตร์ในแต่ละครั้งแบบเรียลไทม์ โดยพิจารณาจากจำนวนวิทยากรในห้องโถง ประเภท และสถานที่ตั้ง ด้วยการสอบเทียบที่แม่นยำ ทำให้ไม่มีการอ้างอิงถึงจำนวนช่อง "ปกติ" ใดๆ และคุณสามารถใช้จำนวนลำโพงที่แตกต่างกันในแต่ละห้องได้ (แต่ละห้องได้รับการปรับเทียบและกำหนดค่าแยกกัน) - ตัวประมวลผลจะคำนวณเองว่าจะส่งอย่างไรและที่ไหน เสียงเพื่อให้ได้เสียงพาโนรามาที่เหมาะสมที่สุด จำนวนสูงสุดของ "วัตถุ" เสียงที่ประมวลผลพร้อมกันคือ 128 และจำนวนลำโพงอิสระที่รองรับพร้อมกันสูงสุด 64 ตัว

Dolby Atmos ไม่ได้เชื่อมโยงกับช่องเสียงจำนวนหนึ่งโดยเฉพาะ ภาพเสียงถูกสร้างขึ้นโดยโปรเซสเซอร์แบบเรียลไทม์จาก "วัตถุ" และเป็นไปตาม "โปรแกรม" ที่รวบรวมโดยวิศวกรเสียงของภาพยนตร์ ในกรณีนี้ โปรเซสเซอร์จะพิจารณาตำแหน่งที่แน่นอนของระบบลำโพง ประเภทและปริมาณ - ทั้งหมดนี้ถูกกำหนดไว้ล่วงหน้าในการตั้งค่าเมื่อทำการปรับเทียบห้องโถงแต่ละห้อง จริงอยู่ที่วิธีการใช้แนวทางดังกล่าวในโฮมเธียเตอร์ยังไม่ชัดเจนทั้งหมด

มืออาชีพและมือสมัครเล่น

หลังจากเปิดตัวในโรงภาพยนตร์เชิงพาณิชย์ รูปแบบเสียง 3D ทั้งสองรูปแบบก็เริ่มครองตลาดในประเทศ Auro-3D เริ่มต้นขึ้นเล็กน้อย ผู้ผลิตอุปกรณ์อิเล็กทรอนิกส์ภายในบ้านหลายรายได้เปิดตัวโปรเซสเซอร์และตัวรับสัญญาณตัวแรกที่รองรับรูปแบบนี้ในต้นปี 2014 Dolby Laboratories ใช้เวลาในการรอไม่นาน และในช่วงกลางเดือนกันยายนปีที่แล้วก็ได้นำเสนอโซลูชันที่ราคาไม่แพงมากโดยใช้เครื่องรับราคาไม่แพง นอกจากนี้เมื่อต้นปี 2558 อีกด้วย ผู้เล่นรายใหญ่บริษัท DTS ในอเมริกาได้ประกาศรูปแบบเสียงสามมิติ - DTS: X (ซึ่งทราบเพียงว่าเช่นเดียวกับ Dolby Atmos เป็นแบบเชิงวัตถุและจะได้รับการสนับสนุนจากผู้ผลิตอุปกรณ์อิเล็กทรอนิกส์สำหรับผู้บริโภคหลายราย)

ในขณะเดียวกัน โรงภาพยนตร์เชิงพาณิชย์และโฮมเธียเตอร์มีความแตกต่างอย่างมีนัยสำคัญในบางแง่มุม ม้วนฟิล์มกลายเป็นเรื่องในอดีตไปแล้ว และปัจจุบันสำเนาดิจิทัลของภาพยนตร์แทบจะถูกนำมาใช้อย่างแพร่หลายในการจัดจำหน่ายภาพยนตร์ เพลงประกอบภาพยนตร์ “ปรากฏ” จากเซิร์ฟเวอร์ในรูปแบบสตรีมเสียงดิจิทัลบิตเรตสูงโดยแทบไม่มีการบีบอัด เซิร์ฟเวอร์ที่จัดเก็บภาพยนตร์สามารถส่งข้อมูลดังกล่าวได้สูงสุด 16 ช่องสัญญาณแบบขนาน

สื่อภาพยนตร์สำหรับใช้ในบ้านที่ได้รับความนิยมมากที่สุดคือแผ่นดิสก์ Blu-ray โดยทั่วไปแล้ว จะมีเพลงประกอบที่บันทึกในรูปแบบใดรูปแบบหนึ่งที่ได้รับความนิยมมากที่สุด ได้แก่ DTS HD Master Audio หรือ Dolby True HD นอกจากนี้ยังมีแผ่นดิสก์ที่บันทึกโดยใช้ตัวแปลงสัญญาณ DTS และ Dolby Digital แบบเก่าพร้อมเสียง 2.1 (ซ้าย-ขวาและ LFE) หากเดิมทีแทร็กสำหรับภาพยนตร์เรื่องนี้บันทึกในสตูดิโอในรูปแบบ 5.1 หรือ 7.1 การถ่ายโอนลงดิสก์นั้นค่อนข้างง่าย ข้อแตกต่างเพียงอย่างเดียวคือการบีบอัดข้อมูลเพิ่มเติมที่เกี่ยวข้องกับความจุที่จำกัดของสื่อดิจิทัล รูปแบบ Auro-3D และ Dolby Atmos ใหม่จะปรับตัวอย่างไรเมื่อถ่ายโอนจากโรงภาพยนตร์มืออาชีพไปยังโฮมเธียเตอร์

ทางบ้าน

สำหรับ Auro-3D การถ่ายโอนจะเป็นไปอย่างราบรื่น หากภาพยนตร์ถูกบันทึกครั้งแรกในสตูดิโอในรูปแบบ 13.1 หรือ 11.1 ภาพยนตร์นั้นจะถูกถ่ายโอนไปยังแผ่นดิสก์ Blu-ray ที่มีจำนวนช่องเท่ากันทุกประการ สำหรับความเข้ากันได้แบบย้อนหลัง Auro-3D ใช้อัลกอริธึมพิเศษที่สามารถ "เพิ่ม" ช่องด้านบนให้กับตัวแปลงสัญญาณ DTS HD MA ซึ่งรองรับช่องสัญญาณสูงสุด 7.1 อย่างเป็นทางการ - ตัวอย่างเช่น ข้อมูลสำหรับช่องด้านซ้ายบนจะถูกห่อหุ้มในช่องด้านซ้าย ข้อมูลสำหรับช่องกลางด้านบนถูกห่อหุ้มไว้ในช่องกลาง ฯลฯ d. หากเครื่องรับหรือโปรเซสเซอร์รองรับการถอดรหัสตัวแปลงสัญญาณ Auro-3D ก็จะ "นำ" ข้อมูลที่ฝังอยู่ออกและป้อนไปยังช่องสัญญาณที่เหมาะสม . ถ้าไม่เช่นนั้น ก็เพียงถอดรหัสข้อมูลเป็นแทร็ก 7.1 ปกติ โดยข้ามข้อมูล "พิเศษ" ดังนั้นแผ่นดิสก์ที่มีภาพยนตร์ในรูปแบบ Auro-3D ไม่ว่าในกรณีใด ๆ ก็ตามจะถูกอ่านอย่างถูกต้องโดยเครื่องเล่นสมัยใหม่และได้รับการยอมรับจากโปรเซสเซอร์หรือเครื่องรับที่รองรับ DTS HD MA และหากโปรเซสเซอร์หรือเครื่องรับมีตัวถอดรหัส Auro-3D ในตัวเอาต์พุตอาจเป็นซาวด์แทร็ก 9.1, 11.1 หรือแม้แต่ 13.1 แชนเนล นอกจากนี้ยังมีความเป็นไปได้ในการ "อัปมิกซ์" - โปรเซสเซอร์ที่สามารถทำงานร่วมกับ Auro-3D สามารถแปลงแม้แต่การบันทึกเสียงสเตอริโอสองช่องสัญญาณปกติเป็น 13.1

Auro-3D ใช้รูปแบบลำโพงสามชั้นและวิธีการบันทึกเสียงแบบหลายช่องสัญญาณแบบดั้งเดิม ช่วยให้มั่นใจได้ถึงความเข้ากันได้แบบย้อนหลังที่ยอดเยี่ยมของมาตรฐานด้วยรูปแบบปัจจุบันและความสะดวกในการพกพาไปยังระบบภายในบ้าน

สถานการณ์ของ Dolby Atmos ในโฮมเธียเตอร์นั้นซับซ้อนกว่ามาก: โปรเซสเซอร์จะคำนวณสตรีมข้อมูลขนาดใหญ่พอสมควรแบบเรียลไทม์และส่งเสียงไปยังช่องสัญญาณอะคูสติกที่เหมาะสม (โดยคำนึงถึงจำนวนการติดตั้งเฉพาะ) ปัจจุบันข้อกำหนด Dolby Atmos สำหรับการใช้งานในบ้านแนะนำให้ใช้การกำหนดค่าลำโพงตั้งแต่ 5.1.2 ถึง 7.1.4 โดยตัวเลขแรกคือจำนวนช่องสัญญาณ "ปกติ": ซ้าย-กลาง-ขวา-ด้านหลัง ที่สองคือต่ำ -ช่องเอฟเฟกต์ความถี่และช่องที่สาม - ช่องที่เรียกว่า "บน" (เหนือศีรษะ) ในเวลาเดียวกันโปรเซสเซอร์เพียงตัวเดียวสำหรับการใช้งานเชิงพาณิชย์ (Dolby CP850) มีราคามากกว่าหนึ่งล้านรูเบิลและค่าใช้จ่ายของเครื่องรับที่บ้านที่รองรับ Atmos เริ่มต้นเพียง 30-40,000 อย่างไรก็ตาม แม้แต่เครื่องรับตามบ้านที่มีราคาไม่แพงที่สุด ก็มีการประกาศทั้งการถอดรหัสและการรองรับ "upmixing" แม้ว่าวิธีการดำเนินการนี้ยังไม่ชัดเจนนักก็ตาม

อีกประเด็นที่ไม่ชัดเจนคือเพื่อที่จะคำนวณสนามเสียงได้อย่างถูกต้อง จำเป็นต้องทราบตำแหน่งที่แน่นอนของระบบลำโพงทั้งหมด ในโรงภาพยนตร์เชิงพาณิชย์ ปัญหานี้ได้รับการแก้ไขโดยการปรับเทียบอุปกรณ์ แต่สำหรับเครื่องรับที่บ้าน เท่าที่เราทราบ ไม่มีความเป็นไปได้นี้ ในกรณีนี้ปัญหาการรับเสียง Atmos ที่เต็มเปี่ยม "เหมือนในภาพยนตร์" ที่บ้านได้รับการแก้ไขอย่างไรยังไม่ชัดเจน จริงอยู่ที่รูปแบบนี้ยังไม่ได้รับคุณสมบัติขั้นสุดท้าย ผู้ผลิตโปรเซสเซอร์ระดับพรีเมียมหลายรายถึงกับเลื่อนการเปิดตัวการอัปเดตด้วยการสนับสนุน Dolby Atmos เนื่องจากการเปลี่ยนแปลงในอัลกอริธึมการประมวลผลสัญญาณซึ่งพวกเขากล่าวว่ากำลังทำโดยนักพัฒนา Dolby ดังนั้นจึงสันนิษฐานได้ว่าในการอัพเดตครั้งต่อไป Dolby อาจทำการปรับเปลี่ยนกระบวนการประมวลผลเสียงและ/หรือการปรับเทียบระบบสำหรับตำแหน่งเฉพาะของระบบลำโพง

ปัญหาความเข้ากันได้

เนื่องจาก Auro-3D ใช้วิธีการดั้งเดิมในการมิกซ์ช่องต่อช่องสัญญาณ และ Dolby และ DTS ใช้การแก้ไขเสียงเชิงวัตถุ จึงไม่สามารถแปลงรูปแบบหนึ่งไปเป็นอีกรูปแบบหนึ่งได้ นอกจากนี้การสร้างโฮมเธียเตอร์ที่สามารถทำงานได้อย่างถูกต้องกับทุกรูปแบบก็ไม่ใช่เรื่องง่ายเช่นกัน ปัญหาความเข้ากันได้นั้นขึ้นอยู่กับข้อกำหนดในการติดตั้งที่แตกต่างกันสำหรับระบบลำโพง Dolby Atmos ใช้อะคูสติก 2 “เลเยอร์” ในขณะที่ Auro-3D ใช้ 3 เลเยอร์ บางคนอาจจินตนาการว่าซาวด์แทร็ก Dolby Atmos สามารถเล่นผ่านส่วน Auro-3D ของลำโพงได้ แต่ก็ไม่น่าจะถูกต้อง ข้อกำหนดในการวางตำแหน่งลำโพงค่อนข้างเข้มงวดสำหรับทั้งสองรูปแบบ และเนื่องจากความไวต่อการวางตำแหน่งที่แม่นยำเพื่อให้การเปลี่ยนผ่านเป็นไปอย่างราบรื่น นี่อาจเป็นความท้าทายสำหรับนักออกแบบและผู้ติดตั้งโฮมเธียเตอร์ (ยังไม่มีข้อมูลเกี่ยวกับการวางตำแหน่งลำโพงสำหรับ DTS:X)

อนาคต

แม้จะมีความคลุมเครือในคำอธิบายของ Dolby Atmos แต่เราต้องยอมรับว่ารูปแบบนี้มีศักยภาพมากกว่า Auro-3D ประการแรก วิธีการบันทึกแบบเน้นวัตถุมีแนวโน้มที่ดีกว่าวิธีบันทึกแบบทีละช่องสัญญาณแบบเดิมอย่างชัดเจน ประการที่สอง การรองรับ Dolby Atmos ในเครื่องรับ AV รุ่นจำนวนมากจากบริษัทต่างๆ เช่น Yamaha, Pioneer, Onkyo, Integra, Denon มีให้ใช้งาน "ในฐาน" ในขณะที่จะต้องซื้อใบอนุญาตสำหรับ Auro3D เป็นการอัปเดตซอฟต์แวร์เสริมในราคา 199 ดอลลาร์ ซึ่งสังเกตได้ชัดเจนสำหรับรุ่นราคาประหยัด

ในส่วนของโปรเซสเซอร์ที่มีราคาแพงกว่าสำหรับการสร้างโรงภาพยนตร์ในบ้าน ผู้ผลิตเช่น Trinnov Audio และ Datasat Digital ซึ่งดำเนินงานในตลาดภาพยนตร์เชิงพาณิชย์ได้ประกาศรองรับรูปแบบเสียง 3D ทั้งหมด ประสบการณ์ของพวกเขาอาจส่งผลดีอย่างมากต่อการใช้งาน Dolby Atmos โฮมเธียเตอร์: ตัวอย่างเช่น Trinnov ใช้ไมโครโฟนสามมิติที่เป็นเอกลักษณ์ในการปรับเทียบโปรเซสเซอร์ ทำให้สามารถระบุตำแหน่งของลำโพงแต่ละตัวในพื้นที่ได้อย่างแม่นยำ และใช้ข้อมูลนี้เพื่อแก้ไขสนามเสียงเพิ่มเติม

บรรณาธิการขอขอบคุณนิตยสาร avreport.ru สำหรับความช่วยเหลือในการจัดทำบทความ

เซอร์ราวด์ - เสียงเซอร์ราวด์

ตราบเท่าที่ยังมีการบันทึกเสียง ทั้งผู้ฟังและนักออกแบบอุปกรณ์ต่างมีความปรารถนาอย่างไม่สิ้นสุดที่จะสร้างเสียงที่บันทึกแล้วทำซ้ำให้คล้ายกับต้นฉบับมากที่สุด สิ่งที่นักพัฒนาอุปกรณ์เครื่องเสียงไม่ทำเพื่อที่จะเข้าใกล้อุดมคติ: ต่อสู้กับเสียงรบกวน ลดการบิดเบือน ขยายความถี่ และ ช่วงไดนามิกองค์ประกอบของเส้นทางการบันทึก-การส่ง-การเล่นสัญญาณเสียง เหนือสิ่งอื่นใด พวกเขามุ่งมั่นที่จะบังคับให้สนามเสียงที่สร้างโดยระบบเสียงส่งข้อมูลไปยังผู้ฟังเกี่ยวกับทิศทางของแหล่งกำเนิดเสียงและเกี่ยวกับคุณสมบัติทางเสียงของห้องที่ทำการบันทึก

ในขั้นตอนแรกของการพัฒนา การบันทึกเสียงและวิทยุกระจายเสียงเป็นแบบโมโนโฟนิก เสียงที่มาจากลำโพงแตกต่างอย่างไม่อาจจดจำได้จากเสียงแสดงสดในคอนเสิร์ตฮอลล์: ความสมดุลที่บิดเบี้ยวระหว่างเครื่องดนตรีต่างๆ เสียงร้องที่บิดเบี้ยว และที่สำคัญที่สุดคือสูญเสียมิติพื้นที่ไปโดยสิ้นเชิง นี่เป็นข้อบกพร่องที่ร้ายแรงมาก ท้ายที่สุดแล้ว เครื่องวิเคราะห์การได้ยินของมนุษย์มีความสามารถในการค้นหาแหล่งกำเนิดเสียง ซึ่งช่วยให้เรานำทางไปในอวกาศได้ หากเสียงทั้งหมดมาจากจุดเดียวก็ดูไม่เป็นธรรมชาติ

ประวัติเล็กน้อย

การทดลองครั้งแรกเพื่อให้ได้เสียงเซอร์ราวด์ (โดยใช้ช่องสัญญาณสามถึงเจ็ดช่อง) ดำเนินการในช่วงทศวรรษที่ 30 ของศตวรรษที่ผ่านมา การทดสอบเปรียบเทียบระบบหลายช่องสัญญาณและโมโนให้ผลลัพธ์ที่น่าประหลาดใจ พบว่าเมื่อเล่นแม้แต่ 2 ช่องแยกกัน คุณภาพเสียงเชิงอัตนัยจะดีขึ้นอย่างมาก และสิ่งที่โดดเด่นที่สุดคือผู้เชี่ยวชาญชอบเสียงสเตอริโอแม้ว่าพวกเขาจะนำเสนอด้วยเสียงที่ดีกว่าแบบเป็นกลาง แต่เป็นโมโนโฟนิกก็ตาม ข้อได้เปรียบที่ชัดเจนคือความเป็นไปได้ของการแปลเชิงพื้นที่ของแหล่งกำเนิดเสียงที่ชัดเจน (รูปที่ 1.33)

ข้าว. 1.33. การกระจายแหล่งกำเนิดเสียงที่ชัดเจนในแบบพาโนรามาสเตอริโอ:

ในระยะเริ่มแรก นักพัฒนาได้ตัดสินใจที่จะจำกัดตัวเองไว้ที่สองช่องทาง แน่นอนว่าสาเหตุหลักมาจากความสามารถที่จำกัดของอุปกรณ์ในสมัยนั้น: แผ่นเสียงแผ่นเสียงทำให้สามารถวางช่องสัญญาณเต็มเพียงสองช่องเท่านั้น

เสียงสเตอริโอช่วยให้เสียงมีความชัดเจน: บางส่วนของเครื่องดนตรีแต่ละชิ้นจะแยกแยะความแตกต่างได้มากขึ้นกับพื้นหลังของวงออเคสตรา นอกจากนี้ ระบบสเตอริโอสามารถสร้างบรรยากาศเสียงของห้องที่ทำการบันทึกได้ ยุคของระบบสเตอริโอโฟนิก 2 แชนเนลได้เริ่มต้นขึ้นแล้ว แผ่นเสียงสเตอริโอและเครื่องเล่นสเตอริโอ เครื่องบันทึกเทปสเตอริโอ และวิทยุกระจายเสียงสเตอริโอค่อยๆ ปรากฏขึ้น

ในทางกลับกัน เสียงสเตอริโอก็มีข้อเสียเปรียบอย่างมาก ภาพพาโนรามาแบบสเตอริโอจะถูกจำกัดด้วยมุมระหว่างทิศทางไปยังลำโพงและกลายเป็นภาพแบน เสียงดังกล่าวขาดความเป็นธรรมชาติของสนามเสียงจริง เมื่อบุคคลสามารถรับรู้แหล่งที่มาที่แท้จริงจากเกือบทุกทิศทาง และประมาณระยะห่างจากแหล่งกำเนิดเสียงได้ ความรู้สึกของเสียงเซอร์ราวด์ที่สร้างขึ้นในตัวผู้ฟังสามารถเสริมเสียงของเครื่องดนตรีและเสียงของนักร้องได้อย่างมาก ในกรณีนี้ สามารถจำลองลักษณะกระบวนการเสียงสะท้อนของห้องที่ทำการบันทึกได้

หนึ่งในความพยายามแรกๆ ที่จะเอาชนะข้อเสียที่มีอยู่ในระบบสเตริโอโฟนิกก็คือ quadraphony ในการสร้างโฟโนแกรมแบบควอดราโฟนิกขึ้นมาใหม่ จะใช้ระบบเสียง 4 ระบบ (รูปที่ 1.34)

ระบบควอดในครัวเรือนระบบแรกปรากฏในช่วงต้นทศวรรษที่ 70 ของศตวรรษที่ผ่านมา ดูเหมือนว่าอนาคตอันรุ่งโรจน์กำลังรอพวกเขาอยู่ อย่างไรก็ตามสิ่งนี้ไม่ได้เกิดขึ้น มีสาเหตุหลายประการสำหรับเรื่องนี้ หนึ่งในนั้นถือเป็นแบบดั้งเดิมสำหรับเทคโนโลยีใหม่ ๆ มากมาย และก็คือผู้ผลิตอุปกรณ์ควอดราโฟนิกไม่สามารถสร้างมาตรฐานแบบครบวงจรสำหรับการบันทึกและเล่นเสียง 4 แชนเนลได้ ความไม่สมบูรณ์และค่าใช้จ่ายสูงของอุปกรณ์บันทึกและเล่นสี่ช่องสัญญาณมีบทบาท แต่สิ่งสำคัญแตกต่างออกไป: ในสมัยนั้นการเปลี่ยนจาก "สเตอริโอ" เป็น "ควอด" คุณภาพเสียงใหม่จึงไม่เกิดขึ้น ระบบควอโดรโฟนิก เช่นเดียวกับระบบสเตอริโอโฟนิก ไม่ได้ให้การถ่ายโอนคุณสมบัติของสนามเสียงจริงได้เต็มรูปแบบ มีข้อบกพร่องเพียงสองประการ แต่มีนัยสำคัญ:

ด้วย quadraphony ในทศวรรษที่ 70 ของศตวรรษที่ผ่านมา ไม่ได้รับพาโนรามาสเตอริโอแบบวงกลม - ผู้ฟังรู้สึกถึงพาโนรามาสเตอริโอตามปกติที่อยู่ตรงหน้าเขาและพาโนรามาสเตอริโออีกอันที่อยู่ข้างหลังเขา
แหล่งกำเนิดเสียงในจินตนาการทั้งหมดอยู่ในระนาบเดียวกันบนเส้นระหว่างลำโพง ดังนั้นจึงยังไม่มีเสียงเซอร์ราวด์สามมิติ

ควรสังเกตว่าข้อบกพร่องเหล่านี้มีสาเหตุไม่มาก ความพิการการสร้างเสียงสี่แชนเนล มีปัญหามากมายในการใช้การแพนแหล่งกำเนิดเสียงที่ชัดเจนระหว่างการบันทึก เมื่อเตรียมโฟโนแกรมสำหรับระบบหลายช่องสัญญาณสมัยใหม่ ปัจจัยนี้จะถูกนำมาพิจารณาด้วย คอมพิวเตอร์มีบทบาทสำคัญในในกรณีนี้ซึ่งสามารถรับมือกับการสร้างแบบจำลองของกระบวนการสะท้อนกลับเชิงปริมาตรและให้วิศวกรเสียงควบคุมความสะดวกสบายสำหรับการเคลื่อนย้ายแหล่งกำเนิดเสียงในพาโนรามาแบบวงกลม

ข้าว. 1.34. การกระจายแหล่งกำเนิดเสียงที่ชัดเจนบนสี่พาโนรามา:

แต่ในช่วงเวลาอันห่างไกลนั้น quadraphony ถอยกลับและ stereophony ได้รับชัยชนะและเริ่มพัฒนาตามแนวการย่อขนาดอุปกรณ์การปรับปรุงคุณภาพทางเทคนิคและผู้บริโภคและการเปลี่ยนไปใช้สื่อใหม่ - เทปคาสเซ็ตและซีดีขนาดกะทัดรัด บริษัทบันทึกเสียงและผู้ผลิตอุปกรณ์เครื่องเสียงยังคงมีงานที่ต้องทำมากมายและมีตลาดการขายที่กว้างขวาง พวกเขาเสนอให้ผู้ฟังเปลี่ยนไลบรารีเพลงอีกครั้ง เนื้อหาทางดนตรีที่สะสมอยู่ในแผ่นเสียงแผ่นเสียงในช่วงหลายทศวรรษที่ผ่านมา ได้รับการอัปเดตและดัดแปลงเป็นครั้งแรกสำหรับเครื่องบันทึกเทปแบบโมโนโฟนิกแบบม้วนต่อม้วน จากนั้นจึงนำไปใช้กับเทปคาสเซ็ตขนาดกะทัดรัดในรูปแบบสเตอริโอ ได้ถูกนำเสนออีกครั้งสำหรับผู้รักเสียงดนตรี แต่ขณะนี้อยู่ในแผ่นดิสก์แบบเลเซอร์

อย่างไรก็ตาม ในตอนท้ายของศตวรรษที่ 20 ดูเหมือนว่า Stereophony จะเริ่มสูญเสียความสำคัญไป เทคโนโลยีดิจิทัลการบันทึกเสียงตลอดจนสื่อที่มีความจุ สะดวก และราคาถูก ช่วยขจัดปัญหาที่มีอยู่เดิมในการจัดเก็บโฟโนแกรมหลายช่องสัญญาณในระยะเวลาอันยาวนาน นอกจากนี้ยังมีความจำเป็นเร่งด่วนสำหรับเสียงที่สื่อถึงคุณสมบัติทางเสียงของพื้นที่โดยรอบ โลกกราฟิกเสมือนจริงของเกมคอมพิวเตอร์มีความซับซ้อนและคล้ายกับความเป็นจริงมากขึ้นเรื่อยๆ และดังนั้นจึงจำเป็นต้องมีการออกแบบเสียงที่เพียงพอ โรงภาพยนตร์ซึ่งประสบกับวิกฤติในการแข่งขันกับโทรทัศน์ได้รับการฟื้นฟูในรูปแบบของโฮมเธียเตอร์และโรงภาพยนตร์ในรูปแบบใหม่ ความแตกต่างหลักจากรุ่นก่อนไม่ได้อยู่ในภาพ แต่เป็นเสียงใหม่โดยพื้นฐาน (แม้ว่าคุณภาพของภาพจะเป็นอย่างไร ได้รับการปรับปรุงให้ดีขึ้นด้วย DVD และวิธีการฉายภาพที่ทันสมัย)

ยุคใหม่ของการบันทึกเสียงเริ่มต้นขึ้นจากการวิจัยโดยวิศวกรที่ Dolby Laboratories (http://dolby.com) นี่เป็นแนวทางใหม่โดยพื้นฐานในการส่งสัญญาณเสียงแบบหลายช่องสัญญาณ ความแตกต่างจาก วิธีดั้งเดิมประการแรกประกอบด้วยความจริงที่ว่าการเข้ารหัสเมทริกซ์ถูกใช้เพื่อจัดเก็บสัญญาณเสียงของสองช่องเพิ่มเติมนั่นคือ ผสมกับสองช่องหลัก วิธีการวางระบบลำโพงก็เปลี่ยนไปเช่นกัน - นอกเหนือจากการจัดวางระบบลำโพงแบบ quadraphonic แบบดั้งเดิมที่มุมห้องแล้ว ยังมีการเพิ่มช่องกลางซึ่งอยู่ระหว่างช่องด้านหน้าขวาและซ้ายเพื่อรักษาฐานสเตอริโอที่กว้าง สำหรับผู้ชมที่นั่งเบาะข้าง และมีช่องเอฟเฟกต์ (เซอร์ราวด์) อยู่ด้านหลัง) นี่คือที่มาของระบบเสียงโรงภาพยนตร์ใหม่ Dolby ® Stereo

ดังที่คุณทราบอยู่แล้ว รูปแบบสี่ช่องสัญญาณนี้คือรูปแบบเมทริกซ์ซึ่งเสียงที่กำหนดให้กับแต่ละช่องสัญญาณทั้งสี่ช่องจะถูกเข้ารหัสและบันทึกเป็นสองช่องสัญญาณ และเมื่อเล่นกลับ จะถอดรหัสกลับเป็นสี่ช่องสัญญาณ: ซ้าย กลาง ขวา และ หลัง. โดยทั่วไปสัญญาณช่องด้านหลังจะถูกส่งไปยังลำโพงด้านหลังสองตัวพร้อมกัน เป็นครั้งแรกที่ใช้รูปแบบ Dolby ® Stereo ในภาพยนตร์เรื่องนี้ " สตาร์วอร์ส" ในปี 1975

เทคโนโลยีการเข้ารหัสที่ใช้ไม่อนุญาตให้มีการแยกระหว่างช่องสัญญาณที่เกิน 8 เดซิเบล ภายหลังมีการเปลี่ยนแปลงเพื่อให้ระยะห่างระหว่างช่องสัญญาณอยู่ที่ 15 dB แต่การตอบสนองความถี่ของช่องด้านหลังยังคงจำกัดอยู่ที่ 100 Hz - 7 kHz

ข้าว. 1.35. การวางตำแหน่งตัวส่งสัญญาณเสียงในระบบสเตอริโอ Dolby ®:

ระบบการสร้างคุณภาพใหม่ที่สมบูรณ์แบบซึ่งเข้ากันได้กับมาตรฐานการบันทึกเสียงแบบเก่าคือระบบ Dolby® Pro Logic® ใช้ตัวถอดรหัสที่ใช้การโฟกัสเชิงพื้นที่ของภาพเสียงซึ่งเป็นเทคโนโลยีที่ใช้ในการลดการแทรกซึมของสัญญาณจากช่องหนึ่งไปยังอีกช่องหนึ่ง Dolby ® Pro Logic ® ยังแนะนำความสามารถในการหน่วงสัญญาณเสียงในช่องด้านหลัง สิ่งนี้ทำให้มั่นใจได้ถึงการประสานงานระหว่างลักษณะทางเรขาคณิตและเสียงของห้องใดห้องหนึ่งกับลักษณะของ "โรงภาพยนตร์อ้างอิง" ซึ่งมีการผสมเสียงหลายแทร็กระหว่างการผลิต เป็นสิ่งสำคัญมากที่จนถึงปัจจุบันมีการรวบรวมเพลง ภาพยนตร์ และรายการโทรทัศน์จำนวนมาก บันทึกลงในสื่อสมัยใหม่ต่างๆ พร้อมเสียงในรูปแบบ Dolby ® Pro Logic ® ต่อมาเป็นยุคของการเข้ารหัสดิจิทัลและการบันทึกเสียงเซอร์ราวด์แบบหลายช่องสัญญาณแบบดิจิทัล และ Dolby ® Digital ก็ถือกำเนิดขึ้น สำหรับการเข้ารหัส เสียงดิจิตอลใช้อัลกอริธึมที่เรียกว่า AC-3 (อัลกอริธึมการเข้ารหัสเสียงรุ่นที่สามของ Dolby) AC-3 เป็นอัลกอริธึมการบีบอัดเสียงแบบหลายช่องสัญญาณที่สูญเสียไป (จำนวนช่องสัญญาณอิสระตั้งแต่ 1 ถึง 6) ความสำเร็จในด้านจิตอะคูสติกที่คำนึงถึง คุณลักษณะของเครื่องช่วยฟังของมนุษย์ใช้ในการตัดสินใจว่าส่วนใดของข้อมูลในสัญญาณเสียงที่สามารถละทิ้งได้เพื่อไม่ให้หูของมนุษย์มองเห็นได้ชัดเจน เมื่อเข้ารหัสด้วยอัลกอริธึม AC-3 อัตราบิตที่ 32 Kbps สามารถทำได้ (สำหรับหนึ่งช่องสัญญาณโมโนที่มีคุณภาพน้อยที่สุด) สูงสุด 640 Kbps (สำหรับช่องสัญญาณ 5.1 ที่สูญเสียคุณภาพน้อยที่สุด) บิตเรตทั่วไปสำหรับการบันทึก 5.1 คือ 385 Kbps

ตัวเข้ารหัส Dolby® Digital รองรับอัตราการสุ่มตัวอย่างข้อมูลดิจิทัล 32 kHz, 44.1 kHz และ 48 kHz ที่ 16, 18 หรือ 20 บิต สามารถเพิ่มความลึกของบิตเป็น 24 บิตได้ ใช้การบีบอัดข้อมูลที่สูญเสียไป แต่คุณภาพเสียงยังคงสูงกว่าระบบอะนาล็อกรุ่นก่อนๆ Dolby® Digital สามารถเข้ารหัสได้สูงสุด 6 ช่องในรูปแบบ 5.1 โดย 5 ช่องเป็นช่องสัญญาณเต็มช่วง (2020,000 Hz) และ 1 ช่องเป็นช่องเอฟเฟกต์ความถี่ต่ำ (น้อยกว่า 120 Hz)

ปริมาณของฉากอะคูสติก รายละเอียดที่ชัดเจนยิ่งขึ้น การเคลื่อนไหวที่เป็นธรรมชาติของแหล่งกำเนิดเสียงจากด้านหน้าไปด้านหลัง เสียงสเตอริโอที่ด้านหลัง ทั้งหมดนี้รับประกันความสำเร็จของระบบ

ก้าวต่อไปในวิวัฒนาการของระบบเสียงเซอร์ราวด์คือระบบ Dolby ® Digital EX ซึ่งถือได้ว่าเป็นอุปกรณ์เสริมของ Dolby ® Digital ใน Dolby ® Digital EX เช่นเดียวกับใน Dolby ® Digital สามารถเข้ารหัสช่องสัญญาณอิสระได้สูงสุด 6 ช่อง (5.1) อย่างไรก็ตาม เนื่องจากการใช้การเข้ารหัสเมทริกซ์ ข้อมูลจากช่องเซอร์ราวด์อีกหนึ่งหรือสองช่องสัญญาณจะถูกผสมไปทางซ้ายและขวา ช่องด้านหลัง ต้องขอบคุณโซลูชันนี้ จึงรักษาความเข้ากันได้กับอุปกรณ์ Dolby ® Digital และในเวลาเดียวกัน เนื่องจากมีการเปิดตัวช่องเซอร์ราวด์เพิ่มเติม (6.1, 7.1) บนอุปกรณ์ Dolby ® Digital EX มากยิ่งขึ้น ความแม่นยำสูงการแปลแหล่งกำเนิดเสียงในอวกาศ

แน่นอนว่าไม่ใช่แค่ Dolby Lab เท่านั้นที่เกี่ยวข้องกับเสียงหลายช่องสัญญาณ ตัวอย่างเช่น RSP Technologies ได้สร้างระบบเมทริกซ์ Circle Surround ซึ่งมีช่องสัญญาณด้านหลังที่มีช่วงความถี่เต็มและด้วยเหตุนี้จึงกลายเป็น ในวิธีที่ดีที่สุดเท่าที่จะเป็นไปได้ปรับให้เหมาะกับการเล่นเพลง Circle Surround เวอร์ชันใหม่ยังสามารถทำงานในโหมดหกแชนเนลพร้อมช่องด้านหลังและซับวูฟเฟอร์แยกกัน

ปัจจุบันเราสามารถพูดคุยเกี่ยวกับการแพร่กระจายของรูปแบบใหม่สำหรับผู้บริโภค: เสียงดีวีดี ข้อมูลเสียงในสื่อนี้อาจจัดเก็บโดยใช้อัลกอริธึมการเข้ารหัสที่หลากหลาย รวมถึง Dolby ® Digital แต่เนื่องจากมีความจุมาก สื่อดีวีดี(4.7 GB บนดิสก์ชั้นเดียว) ไม่จำเป็นต้องบีบอัดข้อมูลเสียงแบบสูญเสีย เสียง DVD สามารถจัดเก็บการบันทึกแบบหลายช่องสัญญาณในรูปแบบสูงสุด 24 บิต/96 kHz โดยไม่มีการบีบอัดใดๆ จึงไม่สูญเสียใดๆ

รูปแบบ 5.1

การกำหนด "5.1" ระบุจำนวนช่องสัญญาณ แต่ไม่ได้ถ่ายทอดข้อมูลเกี่ยวกับวิธีการเข้ารหัสเสียงแบบหลายช่องสัญญาณโดยเฉพาะ มีการใช้ช่องสัญญาณห้าช่องที่มีช่วงความถี่เต็ม (หน้าซ้าย, กลาง, หน้าขวา, ด้านหลังซ้ายและด้านหลังขวา) รวมถึงช่องความถี่ต่ำหนึ่งช่อง (ที่มีช่วงตั้งแต่ 3 ถึง 120 Hz) เชื่อมต่อกับซับวูฟเฟอร์ (รูปที่ .1.36).

ในระบบ 5.1 นี้ จะเกิดภาพพาโนรามาสเตอริโอแบบวงกลม เนื่องจากที่ความถี่ต่ำมาก การได้ยินของเราไม่สามารถกำหนดทิศทางของแหล่งกำเนิดเสียงได้ ตำแหน่งของซับวูฟเฟอร์จึงไม่มีนัยสำคัญ

ซับวูฟเฟอร์ยังใช้ในระบบสเตอริโอทั่วไปอีกด้วย ส่วนความถี่ต่ำของสเปกตรัมของสัญญาณรวมของช่องสเตอริโอจะถูกส่งไปยังช่องของมัน ส่งผลให้ได้เสียงเบสที่รับประกัน อย่างไรก็ตาม ในระบบ 5.1 ช่องเอฟเฟกต์ความถี่ต่ำมีบทบาทพิเศษ ไม่ควรพิจารณาว่าเป็นส่วนประกอบความถี่ต่ำของระบบลำโพงแบบหลายแบนด์ แต่เป็นช่องทางอิสระของเอฟเฟกต์ความถี่ต่ำ

เมื่อบันทึกลงในเครื่องบันทึกเทป ระบบ 5.1 ส่วนใหญ่จะมีลำดับช่องดังต่อไปนี้ (เริ่มจากแทร็กแรก): ช่องหน้าซ้าย, กลาง, หน้าขวา, หลังซ้าย, หลังขวา และช่องความถี่ต่ำ ในบางกรณี (เช่น ในการ์ดเสียงแบบหลายช่องสัญญาณ) จะมีการจัดลำดับที่แตกต่างกัน: ด้านหน้าซ้าย, ด้านหน้าขวา, ด้านหลังซ้าย, ด้านหลังขวา, ตรงกลาง, ความถี่ต่ำ

ตามที่ผู้เชี่ยวชาญระบุว่ารูปแบบ 5.1 มีแนวโน้มมากที่สุดเนื่องจากได้รับการสนับสนุนจากนักพัฒนาหลัก สิ่งสำคัญคือต้องมีสื่อ (DVD) ที่เหมาะสม

ข้าว. 1.36. การวางตำแหน่งตัวส่งเสียงในระบบ 5.1:

และถึงแม้ว่ายังไม่มีการนำมาตรฐานเดียวมาใช้และระบบการเข้ารหัสหลายระบบสำหรับ 5.1 มีอยู่ในเวลาเดียวกัน แต่ความล้มเหลวของ quadraphony "ดั้งเดิม" ก็ไม่น่าจะเกิดขึ้นซ้ำอีก แม้ว่าจะไม่ใช่ระบบเดียว แต่มีระบบการเข้ารหัสที่แตกต่างกันหลายระบบ "รอด" ความแตกต่างพื้นฐานระหว่างรูปแบบ 5.1 และ quadraphony เมื่อสามสิบปีก่อนคือในกรณีนี้สัญญาณเสียงจะอยู่ในรูปแบบดิจิทัล ดังนั้นการสร้างตัวถอดรหัสสากลที่สามารถทำงานกับเสียงที่เข้ารหัสได้ ระบบต่างๆจะไม่ทำให้เกิดปัญหาใด ๆ เป็นพิเศษและจะไม่ทำให้ต้นทุนอุปกรณ์เพิ่มขึ้นอย่างเห็นได้ชัด

ผู้ผลิตอุปกรณ์เสียงและวิดีโอ คอมพิวเตอร์ ส่วนประกอบคอมพิวเตอร์ และโปรแกรมต่างสนใจความสำเร็จของรูปแบบ 5.1 ผู้บริโภคสนใจสิ่งนี้: ผู้ชม ผู้ฟัง และนักเล่นเกม วิศวกรเสียงและนักดนตรีค้นหาวิธีการแสดงออกใหม่ๆ ในรูปแบบนี้เพื่อตระหนักถึงความคิดสร้างสรรค์และเพิ่มผลกระทบต่ออารมณ์ของเรา รูปแบบนี้ทำให้เสียงที่ทำซ้ำมีคุณภาพใหม่อย่างแท้จริง ผู้ฟังจะถูกล้อมรอบไปด้วยมัน จริงอยู่ที่โลกเสียงเสมือนจริงในกรณีนี้ไม่สอดคล้องกับโลกเสียงจริง ในพื้นที่เสียงสังเคราะห์ แหล่งกำเนิดเสียงสามารถอยู่ทางด้านขวา ซ้าย ด้านหน้า ด้านหลัง โดยเคลื่อนที่ใน "พิกัด" เหล่านี้ และในพื้นที่เสียงจริง ยังมี "บน" และ "ล่าง" ด้วย

คุณสมบัติของอุปกรณ์สตูดิโอ 5.1

ตอนนี้เราจะพูดถึงเฉพาะองค์ประกอบพื้นฐานของสตูดิโอเสียง ซึ่งอย่างแรกเลยได้แก่:

มิกเซอร์;
อุปกรณ์บันทึกหลายช่องสัญญาณ
อุปกรณ์ประมวลผลและเอฟเฟกต์
จอภาพสำหรับการฟังเพลงประกอบ

เครื่องมือหลักในการมิกซ์เสียงหลายช่องสัญญาณคือมิกเซอร์ที่ติดตั้งเครื่องมือแพน

ในระบบสเตอริโอ การควบคุมการแพนจะใช้เพื่อวางตำแหน่งแหล่งกำเนิดเสียงที่ชัดเจนในตำแหน่งเฉพาะ คุณสามารถตั้งค่าระดับสัมพัทธ์ของสัญญาณเสียงที่ป้อนเข้าไปในแต่ละช่องสัญญาณของทั้งสองช่อง และด้วยเหตุนี้จึงกำหนดตำแหน่งของแหล่งกำเนิดเสียงระหว่างระบบลำโพงทั้งสองตัว เมื่อทำงานกับเสียงหลายช่องสัญญาณคุณจะต้องควบคุมกระบวนการเดียวกันใน 5 ช่องสัญญาณ นอกจากนี้แน่นอนว่าคุณต้องปรับช่องซับวูฟเฟอร์ด้วย ดังนั้น เมื่อใช้มิกเซอร์แบบเดิม จะต้องปรับเปลี่ยนการควบคุมหลายตัวเพื่อวางตำแหน่งแหล่งกำเนิดเสียงเดียว โปรดทราบว่าสถานะของเฟดเดอร์ที่ควบคุมระดับสัญญาณและตัวควบคุมพาโนรามาในแต่ละช่องสัญญาณนั้นยากต่อการเปรียบเทียบกับตำแหน่งของแหล่งกำเนิดเสียงที่ปรากฏในภาพพาโนรามาแบบวงกลม การทำให้เสียงเคลื่อนที่ไปตามเส้นทางที่กำหนดนั้นยากยิ่งขึ้นไปอีก สิ่งนี้เป็นไปได้ในมิกเซอร์ที่มีระบบอัตโนมัติเท่านั้น จอยสติ๊กเหมาะมากที่จะใช้เป็นตัวควบคุมการแพนแบบวงกลมในมิกเซอร์ที่ออกแบบมาเพื่อทำงานกับเสียงหลายช่องสัญญาณ

นอกจากนี้มิกเซอร์ที่สามารถทำงานกับเสียงเซอร์ราวด์จะต้องไม่มีเอาต์พุตเดียว แต่มีเอาต์พุตหลายตัว (ตามจำนวนช่องสัญญาณ) ตัวอย่างเช่น ในระบบ 5.1 มิกเซอร์จะต้องมีเอาต์พุตอย่างน้อย 6 ตัว อุปกรณ์สำหรับสตูดิโอบันทึกเสียงสเตอริโอนั้นไม่ถูก และคุณไม่สามารถนึกถึงราคาของสตูดิโอ 5.1 ได้ด้วยซ้ำ!

อุปกรณ์บันทึกเสียงแบบหลายช่องสัญญาณก็มีราคาแพงเช่นกัน จะต้องมีตั้งแต่ 6 ช่องขึ้นไป ยิ่งไปกว่านั้น เป็นที่พึงปรารถนาอย่างยิ่งว่าเสียงในนั้นจะแสดงอย่างน้อย 24 บิต

มิกเซอร์และเครื่องบันทึกเทปดิจิทัลเป็นอุปกรณ์ที่มีลักษณะหลายช่องสัญญาณ ดังนั้นบางรุ่นที่ออกแบบมาเพื่อการทำงานกับเสียงสเตอริโอจึงสามารถใช้งานได้อย่างสะดวกไม่มากก็น้อยในสตูดิโอรูปแบบ 5.1 แต่ด้วยอีควอไลเซอร์ อุปกรณ์ประมวลผลไดนามิก และโดยเฉพาะอย่างยิ่งเอฟเฟกต์ สถานการณ์จึงซับซ้อนยิ่งขึ้น แน่นอนคุณสามารถจัดเตรียม 6 ช่องสัญญาณได้โดยการประกอบ "แบตเตอรี่" ของอุปกรณ์สองช่องสัญญาณ 3 เครื่อง อย่างไรก็ตาม ในกรณีนี้ไม่จำเป็นต้องพูดถึงการปรับพารามิเตอร์อย่างมีความหมาย ลองจินตนาการถึงความยากในการสร้างเสียงสะท้อนที่สมจริงในระบบหลายช่องสัญญาณ

การทดแทนที่คุ้มค่า เครื่องบันทึกเทปดิจิตอลและมิกเซอร์ฮาร์ดแวร์สามารถให้บริการโดยสตูดิโอมัลติแทร็กซอฟต์แวร์และมิกเซอร์เสมือนที่รวมอยู่ในบางตัว ซึ่งช่วยให้คุณควบคุมการแพนโดยใช้เมาส์ปกติ มิกเซอร์เซอร์ราวด์ที่ใช้งานง่ายซึ่งแสดงตำแหน่งของแหล่งกำเนิดเสียงอย่างชัดเจนในรูปแบบพาโนรามาแบบวงกลมมีอยู่ใน Cubase SX (ดูบทที่ 5)

ไม่ใช่เจ้าของทุกคน สตูดิโอที่บ้านรูปแบบสเตอริโอโฟนิกสามารถให้ระบบสเตอริโออะคูสติกของจอภาพได้ อย่างไรก็ตาม ในกรณีของการผสมเสียงสเตอริโอ หูฟังมอนิเตอร์ที่มีราคาค่อนข้างถูกถือเป็นวิธีแก้ปัญหาที่ยอมรับได้ และในรูปแบบ 5.1 หูฟังสเตอริโอจะไม่ช่วยคุณ คุณไม่สามารถทำได้หากไม่มีระบบลำโพงฟูลเรนจ์ 5 ระบบ (เช่นเดียวกับซับวูฟเฟอร์)

เมื่อทำงานกับเสียงสเตอริโอ ข้อกำหนดหลักสำหรับจอภาพคือ: ความสม่ำเสมอของการตอบสนองความถี่ ความบิดเบือนในระดับต่ำ และเอกลักษณ์ที่สมบูรณ์ของระบบลำโพงทั้งสอง

ข้อกำหนดที่คล้ายกันนี้สามารถสร้างขึ้นสำหรับจอภาพ wideband 5.1 จำนวนห้าจอ ดูเหมือนว่าพวกเขาควรจะเหมือนกันทุกประการ แต่ในกรณีนี้ คุณจะผสมภาพพาโนรามาแบบวงกลมในสภาวะที่แตกต่างจากเงื่อนไขที่ผู้ฟังการเรียบเรียงของคุณหลายคน ความจริงก็คือเจ้าของโฮมเธียเตอร์ส่วนใหญ่มีระบบลำโพงด้านหลังที่ไม่เพียงแต่มีกำลังอ่อนกว่าลำโพงด้านหน้าเท่านั้น แต่ยังอาจมี ออกแบบอีกประเภทหนึ่ง ในทางกลับกัน ระบบลำโพงกลางมักจะแตกต่างจากระบบลำโพงด้านนอกสุด ปรากฎว่าความประทับใจของผู้ฟังอาจไม่ตรงกับสิ่งที่คุณต้องการ

โปรดทราบว่ามีปัญหาที่คล้ายกันเมื่อทำงานกับเสียงสเตอริโอ: การมิกซ์จะดำเนินการบนจอภาพสตูดิโอ และการเล่นจะดำเนินการโดยใช้อะคูสติกที่หลากหลาย ตั้งแต่ ลำโพงคุณภาพสูงและปิดท้ายด้วยลำโพงแบบพกพา เครื่องบันทึกเทปคาสเซ็ท- จริงอยู่ที่ในระหว่างกระบวนการมาสเตอร์ โฟโนแกรมจะต้องผ่านการทดสอบความเข้ากันได้กับอุปกรณ์คุณภาพต่ำ และงานหลักอย่างหนึ่งของขั้นตอนนี้คือการปรับการบันทึกให้เข้ากับสื่อประเภทเฉพาะ

ส่วนช่องเอฟเฟกต์ความถี่ต่ำของระบบ 5.1 เมื่อทำการมิกซ์ การประพันธ์ดนตรีไม่ควรใช้ซับวูฟเฟอร์เลย หากตามการออกแบบทางศิลปะ การแต่งเพลงไม่มีผลกระทบ เช่น การระเบิด กระสุนปืน ฯลฯ

แต่ประสบการณ์ในปีที่ผ่านมาเมื่อรูปแบบเสียงซีดีครอบงำแสดงให้เห็นว่าคำแนะนำอย่างเป็นทางการสำหรับการใช้รูปแบบนั้นได้รับการปฏิบัติตามในตอนแรกเท่านั้น วิศวกรเสียงและโปรดิวเซอร์มีความโดดเด่นมากขึ้นเรื่อยๆ ในแผนการสร้างสรรค์และก้าวข้ามเส้นที่เรียกว่า "คำแนะนำอย่างเป็นทางการ" ตามที่สัญชาตญาณของเราบอกเรา ในที่สุดช่องสัญญาณความถี่ต่ำของระบบ 5.1 จะถูกใช้งาน "อย่างเต็มที่": ตำแหน่งที่ต้องการและตำแหน่งที่ไม่ต้องการ ตัวอย่างเช่น แนวคิดที่ชัดเจนคือการใช้ช่องสัญญาณความถี่ต่ำเพื่อเพิ่มจังหวะของกลองเบสในเพลงแดนซ์

จะจัดระเบียบการตรวจสอบเมื่อมิกซ์เสียงหลายช่องสัญญาณได้อย่างไร? มีการถกเถียงเกี่ยวกับเรื่องนี้ อย่างไรก็ตาม ผู้เชี่ยวชาญส่วนใหญ่แนะนำให้ใช้อะคูสติกแบบเดียวกัน โดยไม่เผื่อข้อบกพร่องของระบบภายในบ้าน ควรวางจอภาพไว้ในระยะห่างที่เท่ากันจากผู้ฟัง โดยเฉพาะจอภาพด้านหน้าทั้งสามจอควรมีลักษณะโค้งแทนที่จะเป็นเส้นตรง หากไม่สามารถทำได้ ให้ลดระดับเสียงของจอภาพส่วนกลางลงตามนั้น

การมอนิเตอร์สำหรับระบบ 5.1 ควรอยู่ในตำแหน่งที่เหมาะสมที่สุดอย่างไร? ลองนึกภาพการอยู่ท่ามกลางระบบ 5.1 จอภาพกลางควรตั้งอยู่ด้านหน้าคุณ เส้นจินตภาพระหว่างคุณกับจอภาพส่วนกลางคือแกนที่สัมพันธ์กับตำแหน่งของจอภาพที่เหลือที่จะถูกกำหนด ช่องด้านหน้าซ้ายและขวาตั้งอยู่ที่มุม -30° และ 30° สัมพันธ์กับแกนนี้ ดังนั้นมุมจอภาพด้านซ้าย-ขวาคือ 60° หากจำเป็น สามารถลดมุมนี้ได้เป็น 50° - 45° ซับวูฟเฟอร์ควรอยู่ที่ไหนสักแห่งตรงหน้าคุณด้วย จอภาพด้านหลังควรอยู่ในตำแหน่งมุม -110° (ด้านหลังซ้าย) และ 110° (ด้านหลังขวา) ตามหลักการแล้ว จอภาพทั้งหมดควรมีระยะห่างจากคุณเท่ากันและปรับเทียบเพื่อที่ว่าเมื่อใช้สัญญาณระดับเดียวกันในแต่ละจอภาพ จอภาพที่แตกต่างกันคุณได้ยินพวกเขาในระดับเสียงเดียวกัน ความสูงของจอภาพอยู่ที่ระดับศีรษะของคุณหรือสูงกว่าเล็กน้อย

คุณสมบัติของการผสมเป็นภาพพาโนรามาแบบวงกลม

เนื่องจากมีส่วนร่วมอย่างจริงจังกับปัญหาการประมวลผลเสียง เราติดตามสิ่งพิมพ์ที่เกี่ยวข้องกับหัวข้อนี้อย่างใกล้ชิดมาหลายปีแล้ว ดังนั้นเราจึงสามารถระบุได้อย่างมั่นใจว่ามีผลงานเกี่ยวกับเทคโนโลยีการผสมสเตอริโอไม่มากนัก แต่ไม่มีบทความใดที่มีคำแนะนำเฉพาะสำหรับการสร้างการบันทึกแบบหลายช่องสัญญาณ เห็นได้ชัดว่าสิ่งนี้สามารถอธิบายได้ด้วยข้อเท็จจริงที่ว่าปัญหาเป็นเรื่องใหม่ ไม่มีประสบการณ์ที่จำเป็น และไม่มีประเพณีที่เป็นที่ยอมรับ ไม่ว่าในกรณีใดผลงานดนตรีอิสระที่รวมกันเป็นภาพพาโนรามาแบบวงกลมยังไม่กลายเป็นปรากฏการณ์ครั้งใหญ่ เสียงหลายช่องสัญญาณมีอยู่เป็นส่วนเสริมของภาพวิดีโอเป็นหลัก เห็นได้ชัดเจนว่าแนวทางการแพนเสียงสำหรับเพลงประกอบภาพยนตร์และเสียงประกอบดนตรีจะต้องแตกต่างกัน เมื่อประกอบวิดีโอ จำเป็นต้องวางเสียงหลักไว้ข้างหน้า เนื่องจากการกระทำนั้นจะเกิดขึ้นบนหน้าจอต่อหน้าผู้ชม ช่องด้านหลังใช้เพื่อเพิ่มระดับเสียงและใช้เอฟเฟกต์พิเศษ แน่นอนว่าเมื่อทำงานกับเสียงเซอร์ราวด์ คุณสามารถมุ่งเน้นไปที่การพัฒนาในด้านการสร้างเสียงสำหรับการผลิตภาพยนตร์สมัยใหม่ได้ นั่นคือคุณสามารถวางเสียงหลักไว้ด้านหน้า โดยล้อมรอบผู้ฟังเล็กน้อย และใช้ช่องด้านหลังเพื่อสร้างเสียงขึ้นมาใหม่ สิ่งแวดล้อมและการเคลื่อนที่ของแหล่งกำเนิดเสียงทุติยภูมิ ถึงกระนั้น หากเรากำลังพูดถึงเพลงชิ้นหนึ่งที่สร้างขึ้นโดยไม่ต้องคาดหวังว่าจะเชื่อมโยงกับเนื้อเรื่องของวิดีโอ ผู้เขียนก็สามารถเพลิดเพลินกับอิสระอย่างสมบูรณ์ในการใช้วิธีแสดงออกแบบใหม่ที่มีอยู่ในภาพพาโนรามาแบบวงกลม ตัวอย่างเช่น คุณสามารถ "นั่ง" ผู้ฟังท่ามกลางนักแสดง ย้ายสนามเสียงทั้งหมดหรือแหล่งกำเนิดเสียงแต่ละรายการรอบๆ ตัวเขา และย้ายผู้ฟังไปยัง "ความลึก" ของพาโนรามา

จริงอยู่ การใช้เอฟเฟ็กต์พิเศษในการแพนกล้องนั้นเหมาะที่สุดในการกลั่นกรอง ตัวอย่างเช่น แทบจะไม่สมเหตุสมผลเลยที่จะออกแบบเปียโนเสมือนจริงซึ่งเมื่อพิจารณาจากเสียงแล้ว คีย์บอร์ดจะดูเหมือนวงกลมที่ห่อหุ้มผู้ฟังไว้ เสียงกลองที่วางไว้ในช่องด้านหลัง และโดยเฉพาะอย่างยิ่งเสียงดังกะทันหันที่มาจากด้านหลัง อาจเป็นสาเหตุที่ทำให้เพลงของคุณไม่ได้รับความนิยมได้เป็นอย่างดี น้อยคนนักที่จะชอบถ้าต้องหันหลังกลับเป็นระยะๆ หรือกระโดดขึ้นมาด้วยความตกใจ

เมื่อเตรียมการบันทึกเสียงสเตอริโอ เราถูกบังคับให้จงใจจำกัดตัวเองในการใช้ความสามารถของพาโนรามาแบบสเตอริโอที่เกี่ยวข้องกับเครื่องดนตรีบางชนิด ยิ่งไปกว่านั้น ข้อจำกัดไม่เพียงแต่ถูกกำหนดโดยศิลปะเท่านั้น แต่ยังรวมถึงการพิจารณาทางเทคนิคด้วย ตัวอย่างเช่น การเปลี่ยนเสียงเบสจากศูนย์กลางของพาโนรามาสเตอริโอไม่มีประโยชน์เลย ประการแรก เนื่องจากเอฟเฟกต์สเตอริโอยังคงอ่อนแอมากในย่านความถี่ต่ำ ประการที่สอง หากแพนเสียงเบสไปทางซ้ายหรือขวา พลังของลำโพงตัวใดตัวหนึ่งจะไม่ถูกใช้จนเต็มประสิทธิภาพ และนี่เป็นข้อเสียเปรียบที่ร้ายแรงอยู่แล้วเนื่องจากบริเวณความถี่ต่ำของสเปกตรัมมักจะคำนึงถึงส่วนแบ่งพลังทั้งหมดของสัญญาณเสียงอย่างเห็นได้ชัด

ปัญหาที่คล้ายกันนี้มีอยู่ในระบบ 5.1 แม้ว่าซับวูฟเฟอร์จะแก้ปัญหาการสร้างเสียงความถี่ต่ำได้ที่นี่ ปัญหาอย่างหนึ่งคือการใช้ช่องกลาง ในภาพยนตร์ ได้รับการออกแบบมาเพื่อยึดเสียงที่โดดเด่นในภาพเพื่อให้ผู้ชมที่อยู่ตรงกลางรับรู้ว่าเสียงเหล่านั้นมาจากหน้าจอ ในดนตรี เสียงในระบบสเตอริโอมักจะส่งไปยังช่องสัญญาณซ้ายและขวาเท่าๆ กัน (เสียงร้องหลัก เบส ส่วนของกลอง) จะถูกกระจายระหว่างช่องกลางและช่องด้านหน้าได้ดีกว่า วิธีนี้จะหลีกเลี่ยงการบรรทุกช่องกลางมากเกินไป นอกจากนี้ความสามารถในการได้ยินของเสียงจะเพิ่มขึ้นหากบางเสียงมุ่งตรงไปที่ช่องกลางมากขึ้นและเสียงอื่น ๆ - พร้อมกันไปยังช่องด้านหน้าซ้ายและขวา

รูปแบบ 5.1 มอบความเป็นไปได้ใหม่ๆ มากมายในการใช้เอฟเฟกต์ เช่น ดีเลย์และเสียงสะท้อน สัญญาณรีเวิร์บสามารถอยู่ในทิศทางเดียวกับสัญญาณโดยตรง ในเวลาเดียวกัน เช่นเดียวกับในการบันทึกเสียงสเตอริโอ ทิศทางที่ตัดกันของเสียงก้องนำไปสู่การขยายตัวของฐานสเตอริโอที่ชัดเจน ความรู้สึกของการเพิ่มระดับเสียงของห้องเสมือนสามารถเกิดขึ้นได้หากเสียงก้องของเสียงด้านหน้าดังไปด้านหลังเล็กน้อย และด้านหลัง - อยู่ข้างหน้าเล็กน้อย ไม่เพียงแต่แหล่งกำเนิดเสียงที่ชัดเจนเท่านั้น แต่ยังรวมถึงเสียงสะท้อนที่เกิดจากแหล่งกำเนิดเสียงเหล่านั้นด้วย ที่สามารถเคลื่อนย้ายแบบไดนามิกภายในพาโนรามา 360 องศา

เมื่อผสมเป็นภาพพาโนรามาแบบวงกลม สัญญาณเพิ่มเติมจะปรากฏขึ้นเพื่อให้หูสามารถแยกแยะแต่ละส่วนได้: ทิศทางไปยังแหล่งกำเนิดเสียงภายใน 360° และระยะห่างถึงเสียงนั้น (ความลึกของพาโนรามา) ในระดับหนึ่ง ดังนั้นจึงไม่จำเป็นต้องกรองความถี่เป็นพิเศษเพื่อแยกเสียงบางเสียงออกจากเสียงอื่น หรือเพื่อเปลี่ยนระดับเสียงของเครื่องดนตรีระหว่างเล่นเพลง หรือเพื่อบีบอัดสัญญาณเสียงแต่ละรายการ

เกี่ยวกับ การประมวลผลเพิ่มเติมคอมเพรสเซอร์ที่มีองค์ประกอบผสมอยู่แล้ว การดำเนินการดังกล่าวดูเหมือนจะไม่สามารถยอมรับได้ มันสามารถนำไปสู่การแทนที่ตำแหน่งของแหล่งกำเนิดเสียงที่ชัดเจนซึ่งก่อนหน้านี้อยู่ที่จุดใดจุดหนึ่ง และแหล่งที่มาเหล่านั้นซึ่งมีระดับสัญญาณปัจจุบัน ณ จุดใดจุดหนึ่งเกินเกณฑ์การตอบสนองของคอมเพรสเซอร์ก็จะ "เคลื่อนที่" อย่างวุ่นวายไปตามวิถีสุ่มเช่นกัน ดูเหมือนว่าสถานการณ์จะเปลี่ยนไปเมื่อมีการถือกำเนิดของเอฟเฟกต์เสมือนหลายช่องสัญญาณและการประมวลผลที่ใช้อัลกอริธึมการประมวลผลที่คำนึงถึงลักษณะเฉพาะของการแพนเสียงเซอร์ราวด์และปัจจัยทางจิต ในปัจจุบัน จุดเริ่มต้นของอัลกอริธึมดังกล่าวสามารถพบได้ในตัวแปลงสัญญาณซอฟต์แวร์ที่แปลง เช่น ไฟล์ WAV ที่อยู่ใน 6 แทร็กแยกกันเป็นสตรีมดิจิทัล AC-3 เดียว น่าเสียดายที่สาระสำคัญของอัลกอริธึมดังกล่าวถูกซ่อนไม่ให้ผู้ใช้เห็น และจำนวนพารามิเตอร์ที่สามารถปรับเปลี่ยนได้นั้นมีน้อยมาก

ดูเหมือนว่าการรับรองความเข้ากันได้แบบโมโนของการบันทึกที่ผสมในรูปแบบ 5.1 นั้นไม่สมจริง การรับรองความเข้ากันได้แบบสเตอริโอของเพลงประกอบที่เสร็จแล้วก็เป็นปัญหาเช่นกัน เห็นได้ชัดว่าทางออกเดียวที่ถูกต้องคือจงผสมองค์ประกอบเป็นรูปแบบโมโน สเตอริโอ และ 5.1 โดยตั้งใจและแยกกัน

สาระสำคัญงานและขั้นตอนของการเรียนรู้ที่เกี่ยวข้องกับสเตอริโอโฟนิกโฟโนแกรม - พูดตรงไปตรงมาปัญหานี้ยากมาก และด้วยการเรียนรู้ในรูปแบบหลายช่องทาง สถานการณ์ก็ยิ่งซับซ้อนยิ่งขึ้น ยังไม่ชัดเจนมากนัก ห้ามกรอง ห้ามบีบอัด ห้ามควบคุมความเข้ากันได้ของโมโน ห้ามเตรียมออกอัลบั้ม สื่อต่างๆ- ถ้าอย่างนั้นควรทำอย่างไรกับการบันทึก 5.1 ในขั้นตอนการมาสเตอร์?

และฉันอยากจะพูดอีกอย่างหนึ่ง คุณสามารถฟังวิทยุ FM หรือซีดีขณะทำสิ่งของคุณเอง เช่น อ่านหนังสือเล่มนี้ ในขณะเดียวกัน สิ่งสำคัญคือต้องทำให้เสียงสบาย: ไม่ควรมีการเปลี่ยนแปลงระดับเสียงและเสียงต่ำที่เบี่ยงเบนความสนใจไปจากกิจกรรมหลัก แต่การฟังเพลงในรูปแบบ 5.1 “ไม่ได้ยิน” แทบจะเป็นไปไม่ได้เลย รูปแบบ 5.1 นั้นสื่อถึงการดื่มด่ำไปกับเสียงเพลงของผู้ฟัง ดังนั้นอีกวิธีหนึ่งอาจเป็นการไม่ทำอะไรเลยในขั้นตอนการเรียนรู้ 5.1 ยกเว้นอาจทำให้เป็นมาตรฐาน นั่นคือความรับผิดชอบทั้งหมดต่อคุณภาพอัตนัยของโฟโนแกรมสุดท้ายจะถูกถ่ายโอนไปยังขั้นตอนการผสม และการเรียนรู้จะดำเนินการตามหลักการของ "สิ่งที่เป็นอยู่เป็นอยู่" แต่หากผู้ฟังยังต้องการเสียงที่สบายยิ่งขึ้นโดยไม่ต้องเปลี่ยนระดับเสียง เขาสามารถเปิดใช้งานตัวเลือกที่เกี่ยวข้องบนระบบของเขาได้ (เช่น เปิดใช้งานการบีบอัดช่วงไดนามิก)

บทความนี้มีพื้นฐานมาจากของฉัน งานประกาศนียบัตรในหัวข้อ “การพัฒนาหลักการจำลองเสียงเซอร์ราวด์ในภาคบันเทิง”, ภาควิชาเทคโนโลยีสารสนเทศ, เอ็ม เอ ไอ 2011. ในการปรับข้อความ เราได้ตัดสถิติแบบแห้งๆ ออก ภาษาก็ดูมีชีวิตชีวามากขึ้น และมีการแทรกการอ้างอิงถึงหนังสือและบทความที่ฉันแนะนำได้ ประเด็นที่ถูกหยิบยกขึ้นมาจะเป็นที่สนใจสำหรับผู้ที่ยังคงศึกษากลไกของการแปลเป็นภาษาท้องถิ่น ส่วนซอฟต์แวร์ไม่ครอบคลุมอยู่ในบทความ เพื่อความสนใจเพิ่มเติม ส่วนที่เป็นประโยชน์ในการสร้างไมโครโฟนจำลองแบบสองหูไม่ได้ถูกตัดออกจากบทความ

ฉันอยากจะแสดงความขอบคุณต่อ Boris Klimov ที่สร้างภาพประกอบสุดพิเศษตลอดจน Nadezhda Gurskaya สำหรับการวิเคราะห์และแก้ไขข้อความ

การแนะนำ

เป้าหมายหลัก ความเป็นจริงเสมือน"ดื่มด่ำ" บุคคลในพื้นที่ของเกมแอ็คชั่นบนหน้าจอ (ภาพยนตร์ การ์ตูน ภาพยนตร์ 5D) มากจนลืมไปชั่วขณะหนึ่งเกี่ยวกับความเป็นจริงของโลกรอบตัวเขา

คุณสามารถอ่านเกี่ยวกับแนวคิดของ "การดื่มด่ำ" รวมถึง "การระงับความไม่เชื่อ" ที่เกี่ยวข้องกับเสียงและดนตรีได้ในหนังสือ Winifred Phillips – A Composer’s Guide to Game Music

เสียงเซอร์ราวด์เป็นกุญแจสำคัญที่ทำให้บุคคลสามารถสัมผัสถึงผลกระทบของ "การปรากฏ" เห็นได้ชัดว่าการรับรู้เกี่ยวกับพื้นที่เสียงเป็นที่ต้องการมานานก่อนการบันทึกเสียงเกิดขึ้น ตลอดหลายศตวรรษที่ผ่านมา สถานที่ต่างๆ เช่น โบสถ์ โรงละคร และคอนเสิร์ตฮอลล์ได้ถูกสร้างขึ้น ซึ่งผู้ฟังได้ "ดื่มด่ำ" ในพื้นที่เสียงโดยการสร้าง เอฟเฟกต์เสียงธรรมชาติ - เสียงก้องกังวาน การวิจัยทางวิทยาศาสตร์พฤติกรรมของเสียงในคอนเสิร์ตฮอลล์ของ Bose แสดงให้เห็นว่า ประมาณ 11% เข้าถึงผู้ฟังโดยตรง เปอร์เซ็นต์ที่เหลือของเสียงมาในรูปแบบที่สะท้อนจากผนัง พื้น เพดาน และวัตถุอื่นๆ รอบตัวผู้ฟัง จึงสร้างระดับเสียง จากมุมมองของข้อมูล 25% ของข้อมูลที่บุคคลได้รับเกี่ยวกับโลกรอบตัวเขามาจากเสียง

วิธีการใช้เสียงในโรงภาพยนตร์สมัยใหม่ทำให้ผู้ฟังคุ้นเคยกับความจริงที่ว่าเสียงสามารถและควรมีคุณภาพสูงและสมจริง นักพัฒนามืออาชีพทันสมัย แอพพลิเคชั่นเกมงบประมาณและทรัพยากรบุคคลชั่วคราวมากถึง 40 เปอร์เซ็นต์ได้รับการจัดสรรเพื่อทำงานด้วยเสียง ในทางกลับกัน นักพัฒนาเกมและแอปพลิเคชันบางรายยังคงต้องเชื่อมั่นว่าจะใช้เวลาและเงินไปกับการนำเสียงคุณภาพสูงไปใช้

ในหัวข้อแนวทางต่างๆ เป็นเรื่องน่าสนใจที่จะอ่านบทความ "การให้คะแนนเกมคอมพิวเตอร์" ส่วนที่ 1 และ 2 จาก Christopher (ค้นหาอย่างอิสระบนอินเทอร์เน็ต)

การรับรู้ของมนุษย์เกี่ยวกับเสียง

การได้ยินของมนุษย์สามารถรับรู้เสียงในช่วงตั้งแต่ 16-20 Hz ถึง 15-20 kHz เสียงที่มีความถี่ต่ำกว่า 20-30 เฮิรตซ์ (อินฟาเรด) จะไม่ถูกรับรู้โดยอวัยวะของการได้ยิน แต่โดยการสัมผัส เช่น ผ่านการสั่นสะเทือนของพื้นผิว ความถี่ของค่าขีดจำกัดล่างของสเปกตรัมเสียงสามารถรับรู้ได้ผ่านการสั่นพ้องของอวัยวะภายในของมนุษย์ ที่ความเข้มต่ำ เสียงความถี่ต่ำจะมีผลกระทบทางอารมณ์เพิ่มเติม (เช่น เอฟเฟกต์ย่อยย่อยยอดนิยม)

การลดช่วงความถี่เสียงจะสัมพันธ์กับการเปลี่ยนแปลงในหูชั้นในและการพัฒนาของการสูญเสียการได้ยินจากประสาทหูเสื่อมตามอายุ เมื่ออายุ 60 ปี ช่วงเสียงที่ขีดจำกัดบนจะไม่เกิน 10-12 kHz เนื่องจากสิ่งที่อาจเกิดขึ้นหลักของภาคบันเทิงคือคนหนุ่มสาว จึงต้องคำนึงถึงช่วงการรับรู้จากการได้ยินอย่างเต็มที่ แต่ผู้เชี่ยวชาญด้านเสียงจะต้องมีการได้ยินที่สมบูรณ์ ได้ยินเสียงที่ไม่เป็นธรรมชาติและไม่สมบูรณ์ และสามารถระบุเสียงสะท้อนได้ และสิ่งที่ไม่สำคัญก็คือการปกป้องการได้ยินของคุณจากการโอเวอร์โหลด ผู้คนจำนวนมากในอุตสาหกรรมดนตรีและเสียงต้องเผชิญกับความเครียดอย่างต่อเนื่องจากอุปกรณ์เสริมเสียงและเครื่องดนตรีอคูสติกที่มีเสียงดัง (เช่นตัวฉันเอง หลังจากเล่นเครื่องเพอร์คัชชันมานานกว่า 12 ปี) คนทันสมัยไวต่อผลกระทบด้านลบของเสียงรบกวนรอบข้าง ซึ่งจะลดความไวและลดความถี่บนสุดของความถี่ก่อนที่จะสูญเสียการได้ยินตามธรรมชาติ ไม่จำเป็นต้องละเลยอุปกรณ์ป้องกันการได้ยิน เช่น ที่อุดหู เสียงความถี่ต่ำก็สามารถส่งผลเสียได้เช่นกัน

รายละเอียดเพิ่มเติมเกี่ยวกับผลกระทบด้านลบของเสียง (รวมถึงด้านเทคนิค) มีอยู่ในหนังสือของ Chadd G. - Sound

การรับรู้เสียงเป็นรายบุคคล ขึ้นอยู่กับโครงร่าง (รูปร่าง) ของใบหู ลักษณะทางสรีรวิทยา อายุ และอารมณ์ทางจิตวิทยาในขณะนั้น ในพื้นที่ที่พิจารณา การรับรู้เสียงยังขึ้นอยู่กับ:
- อุปกรณ์สร้างเสียง (ลำโพงอุปกรณ์เล่น หูฟัง ลำโพง ระบบหลายช่องสัญญาณ)
- ห้องที่ใช้ฟัง
- คุณภาพของเครื่องมือการเปลี่ยนแปลง (เช่น การนำไปใช้งาน) โปรเซสเซอร์เสียง, เครื่องยนต์),
- การยึดมั่นในหลักการสร้างภาพเสียงที่ถูกต้องในการออกแบบเสียง

กลไกของการแปลแหล่งกำเนิดเสียงโดยการได้ยินของมนุษย์

ความสามารถของบุคคลในการแปลแหล่งกำเนิดเสียงในอวกาศนั้นขึ้นอยู่กับหลักการของการได้ยินแบบสองหู โครงสร้างของระบบการได้ยิน binaural (จากภาษาละติน bini - "สอง" และ auricula - "หู") อยู่ในการรับรู้ที่แตกต่างกันของสัญญาณเสียงที่มาถึงหูซ้ายและขวา อัลกอริธึมการแปลแหล่งกำเนิดเสียง:
- สัญญาณเสียงที่เล็ดลอดออกมาจากแหล่งกำเนิดเสียงและการสะท้อนของห้องจะเข้าสู่ส่วนภายนอกของระบบการได้ยินซึ่งการกำหนดค่าของใบหูทำให้สามารถส่งสัญญาณที่ประมวลผลความถี่ไปยังช่องหูภายนอกได้
- สัญญาณผ่านเข้าไปในแก้วหูของมนุษย์ กลไกของหูชั้นในมีผลบังคับใช้
- จากหูชั้นในข้อมูลจะเข้าสู่ส่วนต่าง ๆ ของสมองโดยที่การวิเคราะห์การเปรียบเทียบสัญญาณที่ได้รับจากช่องหูแต่ละช่องจะสรุปเกี่ยวกับตำแหน่งของแหล่งกำเนิดเสียงตามการวิเคราะห์

สมองของมนุษย์เปรียบเทียบข้อมูลที่มาจากแก้วหูกับข้อมูลที่เก็บไว้ในหน่วยความจำแล้ว

ข้าว. 1. โครงสร้างของส่วนภายนอกของระบบการได้ยินของมนุษย์

คุณสามารถอ่านรายละเอียดเกี่ยวกับโครงสร้างของการได้ยินภายนอกและภายในและอื่น ๆ อีกมากมายได้ในหนังสือของ Irina Aldoshina และ Roy Pritts - Musical Acoustics บทที่ "การรับรู้ของเสียง" พื้นฐานของจิตอะคูสติก"

ในการระบุตำแหน่งของแหล่งกำเนิดเสียงในอวกาศ ระบบการได้ยินจะใช้กลไกการระบุตำแหน่งขั้นพื้นฐาน: ตามเวลา, ความแตกต่างของความเข้ม, ความแตกต่างของสเปกตรัมแอมพลิจูด-ความถี่ กลไกเสริม ได้แก่ การสะท้อนเสียงจากลำตัวและไหล่ของมนุษย์ เสียงก้อง การบดบัง (เสียงที่ผ่านสิ่งกีดขวาง) การกีดขวาง (เสียงกรองโดยสิ่งกีดขวาง) เอฟเฟกต์ดอปเปลอร์ เอฟเฟกต์ฮาส (เอฟเฟกต์ที่มาก่อน) อย่าลืมเกี่ยวกับผลกระทบของการรับรู้ทางจิตวิทยา: หากแหล่งกำเนิดในพื้นที่ที่มองเห็นไม่ตรงกับเสียงหรือมีการละเมิดความบังเอิญคุณภาพของการแปลจะลดลงอย่างรวดเร็ว

จำเป็นต้องกำหนดตำแหน่งเชิงพื้นที่ของแหล่งกำเนิดเสียงเมื่อมีสัญญาณรบกวนทางเสียง มีกลไกตามธรรมชาติของภูมิคุ้มกันทางเสียงของระบบการได้ยิน หนึ่งในนั้นปรากฏอยู่ในการปลดปล่อย binaural จากการกำบัง ปรากฏการณ์นี้คือ ง่ายกว่าในการแปลสัญญาณเสียงโดยมีพื้นหลังที่มีเสียงรบกวนคงที่ (เช่น เสียงรบกวนจากสิ่งแวดล้อม)

คำไม่กี่คำเกี่ยวกับความโปร่งใสของเสียง ฉันจะพาคุณไป ตัวอย่างที่มีชื่อเสียง- ลองจินตนาการถึงภาพวาดสัตว์ต่างๆ ที่ซ้อนทับกัน การจดจำรูปแบบที่รวมกันในอวกาศนั้นทำได้ยาก ยิ่งรูปร่างของสัตว์ที่ปรากฎอยู่ใกล้กันมากขึ้นเท่านั้น (คำว่า รูปร่าง มีความหมายเหมือนกับในสัญญาณเสียง) หากภาพวาดเหล่านี้กระจายออกไปในอวกาศ งานระบุสัตว์ด้วยรูปร่างจะง่ายขึ้นมาก

การแปลตามความแตกต่างของเวลา (การแปลเฟส)

กลไกนี้ทำงานที่ความถี่ตั้งแต่ 300 Hz ถึง 1.5 kHz เนื่องจากความแตกต่างระหว่างตำแหน่งของหูซ้ายและขวา เสียงที่มาจากแหล่งกำเนิดที่อยู่ในมุมหนึ่งไปยังทิศทางด้านหน้าจะใช้เวลาต่างกันในการไปถึงแก้วหู

ข้าว. 2. ตัวอย่างแผนผังของการแปลเฟส

เมื่อพิจารณาเวลาเท่ากันในการเข้าถึงสัญญาณจากหูซ้ายและขวา กลไกนี้จะแปลแหล่งกำเนิดที่ 0 และ 180 องศาอะซิมัท เวลาที่ต่างกันในการเข้าถึงแก้วหูส่งผลให้เกิดการเปลี่ยนเฟส ระบบการได้ยินแยกแยะการเปลี่ยนเฟสได้มากถึง 10-15 องศา ด้วยความถี่ที่เพิ่มขึ้นและตามด้วยความยาวที่ลดลง คลื่นเสียงการเปลี่ยนเฟสของสัญญาณที่มาจากแหล่งเดียวกันไปยังหูต่างๆ จะเพิ่มขึ้น ทันทีที่การเปลี่ยนแปลงถึงค่าที่เกือบครึ่งหนึ่งของความยาวคลื่นเสียง กลไกจะหยุดทำงาน สมองของมนุษย์ไม่สามารถระบุได้อย่างชัดเจนว่าสัญญาณเสียงในช่องหูช่องใดช่องหนึ่งช้ากว่าอีกช่องหนึ่งหรือในทางกลับกัน ส่งสัญญาณไปไกลกว่าช่องอื่น

ความแตกต่างของเวลาสูงสุดที่สัมพันธ์กับการเปลี่ยนแหล่งกำเนิดเสียงไปทางขวาหรือซ้ายโดยสมบูรณ์จะต้องไม่เกิน 630 μs

ระยะห่างระหว่างหูขวาและซ้ายของผู้ใหญ่คือ 0.15 ม. - 0.20 ม. หากเราคิดค่าเฉลี่ยตามเพศ เมื่อแหล่งกำเนิดปล่อยคลื่นเสียงด้วยความถี่ 20 เฮิรตซ์ และความเร็วเสียง 340 เมตร/วินาที ความยาวคลื่นจะเท่ากับ 17 เมตร ดังนั้น หากบุคคลหันด้านหนึ่งไปยังแหล่งกำเนิด สัญญาณจะเปลี่ยนเฟสของสัญญาณที่มาถึง ในหูข้างหนึ่งและอีกข้างหนึ่ง จะอยู่ที่ประมาณ 1.1% ของระยะเวลาทั้งหมดของคลื่น 20 Hz (ไม่สามารถระบุตำแหน่งที่ความถี่ต่ำเช่นนี้ได้) ในทางสรีรวิทยาความแม่นยำของการแปลขึ้นอยู่กับขนาดของศีรษะนั่นคือระยะห่างระหว่างหู ยิ่งระยะห่างนี้มากเท่าไร ความแตกต่างของสัญญาณเสียงที่มาถึงหูแต่ละข้างก็จะยิ่งมากขึ้นเท่านั้น

เมื่อเสียงถูกปล่อยออกมาจากแหล่งกำเนิดที่อยู่ในมุมหนึ่งไปยังทิศทางด้านหน้า ระดับความดันเสียงบนแก้วหูในหูแต่ละข้างจะแตกต่างกัน นี่เป็นเพราะความจริงที่ว่าหูข้างหนึ่งจะ "อยู่ในเงา" ที่สร้างขึ้นโดยศีรษะและเนื่องจากคลื่นเสียงที่สูงกว่า 1,000 เฮิรตซ์จะเบาลงค่อนข้างเร็วในอวกาศ

ข้าว. 3. ตัวอย่างแผนผังของการแปลตามระดับความรุนแรง

กลไกนี้ค่อนข้างได้ผลแต่ก็อยู่ในช่วง ความถี่เสียงตั้งแต่ 1600 เฮิรตซ์ เมื่อความยาวคลื่นเสียงเทียบได้กับเส้นผ่านศูนย์กลางของศีรษะมนุษย์ หูที่อยู่ห่างจากแหล่งกำเนิดมากที่สุดจะหยุดอยู่ใน "เงาอะคูสติก" ซึ่งเกิดจากปรากฏการณ์การเลี้ยวเบนของคลื่นเสียงบนพื้นผิวศีรษะ ในเวลาเดียวกัน มีการเปิดเผยว่าความสามารถของหูมนุษย์ในการกำหนดมุมระหว่างสองแหล่งกำเนิดในระนาบแนวนอนในช่วงความถี่ 1,500-2,000 เฮิรตซ์ลดลงอย่างรวดเร็ว

กลไกนี้ช่วยกำหนดระยะห่างจากแหล่งกำเนิดเสียง อย่างไรก็ตาม ระดับเสียงจากแหล่งกำเนิดที่อ่อนแอแต่อยู่ใกล้สามารถเท่ากับระดับเสียงจากแหล่งกำเนิดที่ทรงพลังแต่อยู่ไกลได้ ภายใต้เงื่อนไขดังกล่าว การแปลเป็นภาษาท้องถิ่นจะอำนวยความสะดวกโดยกลไกต่อไปนี้

การแปลตามความแตกต่างในสเปกตรัมแอมพลิจูด-ความถี่

กลไกนี้ขึ้นอยู่กับความสามารถของสมองในการวิเคราะห์การลดลงและการเพิ่มขึ้นของความถี่บางความถี่ในสัญญาณที่ซับซ้อน เสียงที่มาถึงมุม 90° นั้นมีทั้งส่วนประกอบความถี่ต่ำและความถี่สูง และในสเปกตรัมของเสียงที่ส่งไปยังหูไกลนั้น จะมีส่วนประกอบความถี่สูงน้อยกว่า นั่นคือเอฟเฟกต์การป้องกันศีรษะ นอกจากนี้ สัญญาณเสียงยังสะท้อนแตกต่างจากส่วนต่างๆ ของใบหู และส่วนต่างๆ ของสเปกตรัมเสียงก็มีความเข้มแข็งและอ่อนลง

กลไกนี้มีหน้าที่รับผิดชอบในการแปลจากด้านหน้าไปด้านหลังและระนาบแนวตั้ง การศึกษาผลการกรองของศีรษะและหูของผู้ฟังทำให้สามารถแนะนำแนวคิดเกี่ยวกับแถบแบริ่งได้ เมื่อทำการแปลบุคคลจะไม่วิเคราะห์สเปกตรัมเสียงที่เข้ามาทั้งหมด แต่จะเปลี่ยนแปลงเฉพาะบางความถี่เท่านั้น แถบดังกล่าวก่อตัวขึ้นตามวิวัฒนาการ การได้ยินได้พัฒนาระบบของตัวเองสำหรับการติดตามและเตือนอันตราย โดยระบุตำแหน่งของภัยคุกคามได้อย่างแม่นยำ

การเปลี่ยนแปลงในย่านความถี่ตั้งแต่ 16 ถึง 500 Hz และจาก 2 ถึง 6 kHz มีหน้าที่รับผิดชอบในการแปลแหล่งกำเนิดเสียงด้านหน้า แบนด์จาก 0.7 เป็น 2 kHz - เปลี่ยนเสียงต่ำของแหล่งที่มาที่อาจอยู่ด้านหลัง

สัญญาณที่มีองค์ประกอบสเปกตรัมที่ซับซ้อนจะถูกแปลเป็นภาษาท้องถิ่นได้ดีขึ้น และความรู้สึกของทิศทาง "จากหน้าไปหลัง" นั้นถูกสร้างขึ้นโดยส่วนใหญ่จากแถบทิศทางเหล่านั้นซึ่งพลังงานสัญญาณส่วนใหญ่กระจุกตัวอยู่ โทนเสียงบริสุทธิ์ซึ่งแทบไม่เคยพบเห็นในธรรมชาตินั้นถูกแปลให้แย่กว่าสัญญาณที่ซับซ้อน ดังนั้นโทนเสียงบริสุทธิ์ที่สูงกว่า 8000 เฮิรตซ์จึงยากต่อการแปล นอกจากนี้ยังเป็นไปไม่ได้ที่จะระบุตำแหน่งของแหล่งกำเนิดเสียงความถี่ต่ำ - น้อยกว่า 150 Hz

การแปลในระนาบแนวตั้งนั้นแย่กว่าในแนวนอนมาก หากไม่มีอิทธิพลทางจิตวิทยาและการมองเห็น แทบจะเป็นไปไม่ได้เลยที่จะสร้างการเลียนแบบวัตถุที่ควรอยู่ด้านบน เป็นต้น เสียงนี้ควรจะคุ้นเคยและคาดหวังเป็นอย่างน้อย

Gibson D. ในหนังสือและวิดีโอของเขานำเสนอแนวคิดของการจัดเรียงเครื่องดนตรีในแนวตั้งในการมิกซ์ดนตรีตามระดับเสียง (tessitura) หรือรูปแบบ (พื้นที่ของเสียงบางส่วนที่ขยาย) เนื่องจากในระนาบแนวตั้งเสียง -อุปกรณ์การผลิตซ้ำถูกสร้างขึ้นบนหลักการเดียวกัน เนื่องจากครอสโอเวอร์แบบอะคูสติกที่มีขอบเขตที่กำหนดไว้ สัญญาณที่ซับซ้อนจึงถูกแบ่งออกเป็นย่านความถี่ ในระบบสามทาง มีวูฟเฟอร์ที่ส่งความถี่ต่ำที่ด้านล่าง ตัวขับเสียงกลางสำหรับเสียงกลางในส่วนตรงกลาง และทวีตเตอร์ที่ด้านบนของระบบสำหรับส่งสัญญาณความถี่สูง และซับวูฟเฟอร์จะส่งข้อมูลบางส่วนผ่านพื้น วิธีนี้น่าสนใจ แต่ไม่เหมาะกับหลายๆ ระบบ เช่น เมื่อใช้หูฟังหรือระบบอื่นๆ ที่ไม่มีแถบ

รายละเอียดเพิ่มเติมเกี่ยวกับหลักการที่อธิบายไว้ในหนังสือ Gibson D. - A Visual Guide to Recording and Production

อย่างไรก็ตาม การลดความเข้มของความถี่ต่ำจะช่วย "ยก" วัตถุให้เบาลงได้ในทางจิตวิทยา

การเคลื่อนย้ายแหล่งกำเนิดเสียง

จนถึงคริสต์ทศวรรษ 1960 การศึกษาความสามารถของมนุษย์ในการกำหนดแหล่งกำเนิดเสียงในอวกาศโดยเน้นที่แหล่งกำเนิดเสียงที่อยู่นิ่งเป็นหลัก หลังจากนั้นการศึกษาการรับรู้ของมนุษย์และแหล่งกำเนิดเสียงที่เคลื่อนไหวได้เริ่มขึ้น: กำหนดลักษณะสำคัญของการรับรู้

ในระหว่างการวิจัยปรากฎว่าเพื่อให้บุคคลมีความรู้สึกของการเคลื่อนไหวของเสียงนั้นจำเป็นต้องมีช่วงเวลาหนึ่ง - กรอบเวลา อยู่ระหว่าง 0.08 ถึง 0.12 วินาที การแปลเสียงที่สั้นและนิ่ง (เช่น การคลิกนานประมาณ 0.001 วินาที) เป็นเรื่องง่ายมาก

บุคคลยังสามารถแยกแยะความเร็วของการเคลื่อนไหวของแหล่งกำเนิดเสียงได้: ยิ่งสูง (ภายในขอบเขตที่กำหนด) ความสามารถนี้ก็ก็ยิ่งละเอียดมากขึ้นเท่านั้น หากแหล่งกำเนิดเสียงเคลื่อนที่ด้วยความเร็ว 90°/s (เคลื่อนที่ไปตามกึ่งปริมณฑลด้านหน้าศีรษะของตัวอย่าง) บุคคลจะแยกแยะการเปลี่ยนแปลงความเร็วได้ 15%; และด้วยความเร็วในการเคลื่อนที่ 360°/s - 5.5%

หากแหล่งกำเนิดอยู่นิ่งให้จำกัดขอบเขตบุคคลนั้นโดยไม่ได้ตั้งใจให้เคลื่อนไหวศีรษะเล็กน้อยซึ่งจะเพิ่มความแม่นยำในการกำหนดตำแหน่งของแหล่งกำเนิดในอวกาศตามลำดับความสำคัญ

ผลกระทบ

เพื่อที่จะถ่ายทอดเสียงจากแหล่งกำเนิดที่กำลังเคลื่อนที่ได้อย่างน่าเชื่อถือ จำเป็นต้องคำนึงถึง (ผลกระทบของการเปลี่ยนแปลงความถี่ของเสียงจากแหล่งกำเนิดเมื่อเสียงนั้นเคลื่อนที่แบบไม่สัมพันธ์กับผู้ฟังในแนวรัศมี) ตามความรู้สึกส่วนตัวของเอฟเฟกต์เสียงจะเปลี่ยนโทนเสียงอย่างรวดเร็ว - มันจะสูงขึ้นเมื่อวัตถุเข้าใกล้และลดลงเมื่อมันเคลื่อนที่ออกไป ในแวดวงการเล่นเกม เอฟเฟกต์ Doppler มีบทบาทสำคัญ โดยเฉพาะอย่างยิ่งเมื่อพูดถึงเครื่องจำลองรถและแอปพลิเคชันอื่น ๆ ที่เกี่ยวข้องกับการเคลื่อนที่อย่างรวดเร็วของวัตถุ เอฟเฟกต์ Doppler เป็นปลั๊กอินทั่วไปสำหรับซีเควนเซอร์ และเท่าที่ฉันรู้ มีอยู่ในซาวด์เอ็นจิ้นหลายชนิด

ผลกระทบหลักประการหนึ่งของการสร้างพื้นที่คือเอฟเฟกต์เสียงสะท้อน (กระบวนการสะท้อนซ้ำของสัญญาณเสียงจากพื้นผิวต่าง ๆ โดยมีความเข้มลดลงทีละน้อย) เสียงก้องจำลองมีพารามิเตอร์จำนวนหนึ่ง - เวลาการสะท้อนในช่วงต้น, เวลาการสะท้อนล่าช้า, อัตราการสลายตัว, เปอร์เซ็นต์ของสัญญาณ "แห้ง" พร้อมกับสัญญาณที่ประมวลผล พารามิเตอร์เหล่านี้ระบุขนาดของห้องและตำแหน่งของแหล่งกำเนิดเสียงที่สัมพันธ์กับผู้ฟัง ในงานของฉัน ฉันใช้เฉพาะตัวสะท้อนกลับแบบหมุนวน โดยส่งแรงกระตุ้นจากห้องจริงมาสู่ตัวเหล่านั้น แรงกระตุ้นก็คือเสียง "ส่ง" ของห้องโดยไม่ต้องลงรายละเอียดเกี่ยวกับเทคโนโลยี ( ไฟล์ wav) ซึ่งจะปรับเปลี่ยนไฟล์เสียงต้นฉบับ และวางไว้ในพื้นที่จำลอง ในแวดวงดนตรีมีการใช้เทคโนโลยีการบิดแบบหมุนมานานแล้ว ดังนั้นในเชลล์ Kontakt (4,5) จาก NI เสียงสะท้อนแบบหมุนด้วยชุดพัลส์จึงรวมอยู่ในรายการเอฟเฟกต์มาตรฐาน

ระบบเสียง. ระบบสองหู

มีสองวิธีหลักในการจัดระบบเสียงสมัยใหม่ในห้อง: ระบบหลายช่องสัญญาณและระบบสองช่องสัญญาณ (รวมถึงหูฟัง) ในระบบหลายช่องสัญญาณ เสียงจะถูกส่งจากจอภาพที่วางอยู่ด้านหน้าและด้านหลัง (หรือรอบๆ) ผู้ฟัง

รายละเอียดเพิ่มเติมเกี่ยวกับระบบโมโนโฟนิก binaural สเตริโอโฟนิกและมัลติแชนเนลและความซับซ้อนสามารถพบได้ในหนังสือของ Yu. Kovalgin - การแพร่ภาพสเตอริโอและการบันทึกเสียง

เพื่อเพิ่มผลกระทบเชิงพื้นที่ ผู้ผลิตพยายามที่จะส่งเสริมแนวคิดของระบบที่ไม่ใช่ห้าช่องทาง แต่หก เจ็ด และเก้าช่องอีกต่อไป การเพิ่มจำนวนช่องสัญญาณทำให้งานของวิศวกรเสียงมีความซับซ้อนขึ้น การเพิ่มจำนวนระบบลำโพง สายแพตช์ และการใช้เครื่องขยายเสียงที่ซับซ้อนมากขึ้น ดังนั้นจึงช่วยเพิ่มรายได้จากการขายได้
ผู้บริโภคบางรายไม่จำเป็นต้องใช้ระบบเสียงแบบหลายช่องสัญญาณ สำหรับบางคน สิ่งนี้ยอมรับไม่ได้ด้วยเหตุผลทางเศรษฐกิจ แต่บางคนไม่สามารถจัดสรรพื้นที่ในพื้นที่อยู่อาศัยสำหรับระบบความบันเทิงภายในบ้านได้ ด้วยเหตุผลที่ชัดเจน บางคนชอบใช้หูฟัง (ตอนกลางคืน เมื่อเดินทางด้วยระบบขนส่งสาธารณะ ฯลฯ)

หูเพียงสองข้างให้ข้อมูลที่จำเป็นทั้งหมดแก่บุคคลเกี่ยวกับวัตถุ ซึ่งหมายความว่ามีลำโพงเพียงสองตัวเท่านั้นที่จะส่งสัญญาณได้ เมื่อใช้การบันทึกแบบสองหู แหล่งกำเนิดเสียงที่ชัดเจนเมื่อใช้หูฟัง จะถูกย้ายออกไปนอกศีรษะของผู้ฟังไปยังตำแหน่งที่มีแหล่งกำเนิดเสียงจริงอยู่ ในทางตรงกันข้าม เมื่อฟังสัญญาณสเตอริโอโฟนิกแบบเดิมๆ ผ่านหูฟัง แหล่งกำเนิดเสียงที่ชัดเจนจะรู้สึกว่าอยู่ภายในศีรษะของผู้ฟัง

ลักษณะของเสียงสะท้อนทำให้ยากต่อการประมาณทิศทางของแหล่งกำเนิดเสียงที่ชัดเจนในพื้นที่ด้านหลัง ซึ่งผู้ฟังมักจะระบุทิศทางด้านหน้าของกระจกที่สอดคล้องกัน แทนที่จะเป็นทิศทางที่แท้จริง ปรากฏการณ์นี้เกิดขึ้นบ่อยครั้งโดยเฉพาะอย่างยิ่งเมื่อเวลาเสียงสะท้อนมาตรฐานในห้องฟังเกิน 0.3 วินาที

การส่งผ่านที่ถูกต้องข้อมูลเชิงพื้นที่เมื่อทำซ้ำโดยใช้จอภาพสองจอเป็นไปได้ แต่แม้แต่การเลื่อนศูนย์กลางของศีรษะของผู้ฟังไปทางซ้ายหรือขวาเล็กน้อย (ประมาณ 9-15 ซม.) จากจุดนี้ก็นำไปสู่ความจริงที่ว่าการแปลแหล่งกำเนิดเสียงที่ชัดเจนเป็นไปไม่ได้ภายนอก โฟกัสของแกนของจอภาพ

ที่จุดฟังที่เหมาะสมที่สุด ระบบสองหูจะให้เสียงที่มั่นใจมากกว่าสเตอริโอทั่วไป อย่างไรก็ตาม แอปพลิเคชันมีข้อจำกัดมาก เช่น การเล่นโดยใช้หูฟัง อุปกรณ์กระจายเสียงวิทยุแบบพกพา และอุปกรณ์สร้างเสียง การสร้างแบบจำลองด้วยคอมพิวเตอร์ ชนิดสองหู ระบบเสียงไม่เหมาะกับสภาพการฟังเป็นกลุ่มมากนัก

เมื่อเล่นสัญญาณแบบสองหูผ่านระบบลำโพง อาการผิดเพี้ยนของสัญญาณครอสทอล์คจะเกิดขึ้นเนื่องจากสัญญาณช่องสัญญาณด้านขวาเข้าสู่หูซ้ายของผู้ฟังและในทางกลับกัน

ในความเป็นจริงของการออกแบบเสียงของเกม ไฟล์เสียง binaural ที่บันทึกไว้จะไม่ถูกนำมาใช้ เนื่องจากเป็นไปไม่ได้ที่จะเปลี่ยนตำแหน่งในอวกาศ ไม่มีแหล่งที่มาเสมือนและผู้ฟังเสมือน นี่ไม่ใช่การสร้างแบบจำลอง

อัลกอริทึม

อัลกอริธึมหลักซึ่งใช้กลไกพื้นฐานของการแปลเสียงของมนุษย์ถูกนำมาใช้ใน HRTF (ฟังก์ชันการถ่ายโอนที่เกี่ยวข้องกับส่วนหัว - ฟังก์ชันของการเคลื่อนที่ของเสียงที่สัมพันธ์กับผู้ฟัง HRTF ถูกกำหนดในเชิงปริมาณโดยการแปลงฟูริเยร์อินทิกรัลผกผันของค่าสัมประสิทธิ์ที่เรียกว่า HRIR (ส่วนหัวที่เกี่ยวข้องกับ การตอบสนองแรงกระตุ้น) ซึ่งในการประมาณครั้งแรกจะกำหนดโดยอัตราส่วนความดันบนแก้วหูของหูของคลื่นเสียงในพื้นที่ว่าง (สนามว่าง) และในพื้นที่จริงโดยคำนึงถึงศีรษะ หู ร่างกาย และสิ่งกีดขวางอื่น ๆ ของบุคคล .

สสส. เป็นตัวแทน ฟังก์ชั่นที่ซับซ้อนมีสี่ตัวแปร: สามพิกัดเชิงพื้นที่และความถี่ เมื่อใช้พิกัดทรงกลมเพื่อกำหนดระยะห่างจากแหล่งกำเนิดเสียงที่มากกว่าหนึ่งเมตร แหล่งกำเนิดเสียงจะถือว่าอยู่ในสนามไกล และค่า HRTF จะลดลงผกผันกับระยะทาง การวัด HRTF ส่วนใหญ่ทำในพื้นที่ห่างไกล และจำนวนตัวแปรจะลดลงเหลือ 3 ตัว ได้แก่ แอซิมัท ระดับความสูง และความถี่ ผลกระทบของ HRTF ขึ้นอยู่กับช่วงความถี่ของสัญญาณที่กำลังประมวลผล: เฉพาะเสียงที่มีค่าองค์ประกอบความถี่ระหว่าง 3,000 Hz ถึง 10,000 Hz เท่านั้นที่สามารถตีความได้สำเร็จโดยใช้ฟังก์ชัน HRTF หากสัญญาณจากแหล่งกำเนิดเสียงไม่มีความถี่พิเศษที่ส่งผลต่อความแตกต่างระหว่างฟังก์ชัน HRTF ด้านหน้าและด้านหลัง สัญญาณดังกล่าวจะไม่ถูกแปลในทิศทางจากด้านหน้าไปด้านหลัง

HRTF ถูกจำลองโดยใช้หุ่น KEMAR (หุ่นอิเล็กทรอนิกส์ไร้ความรู้เพื่อการวิจัยทางการได้ยิน) และ "หูดิจิทัล" พิเศษที่พัฒนาโดย Sensaura วางไมโครโฟนไว้ในหูของหุ่นจำลอง และวางลำโพงไว้รอบหุ่น ส่งผลให้มีการบันทึกสิ่งที่หูแต่ละข้างได้ยิน ผลลัพธ์ที่ได้จากการสร้างแบบจำลองดังกล่าวใช้เพื่อขยายฐานข้อมูล HRTF ซึ่งสามารถใช้เพื่อเลือกพารามิเตอร์แบบโต้ตอบเมื่อเล่นเสียง 3 มิติที่มีตำแหน่ง (Sensaura มี HRTF มากกว่า 1,100 รายการในฐานข้อมูล) ความต้องการฐานข้อมูลดังกล่าวได้รับการอธิบาย ประการแรกโดยความแตกต่างในขนาดและรูปร่างของศีรษะและหูของนางแบบและผู้ฟังที่มีศักยภาพ และประการที่สอง โซนที่เรียกว่าจุดหวานที่กำหนดโดยพารามิเตอร์เหล่านี้ ซึ่ง เอฟเฟกต์เสียงในระนาบแนวตั้งถูกสร้างขึ้นใหม่อย่างถูกต้องและรับประกัน คำจำกัดความที่ถูกต้องตำแหน่งของแหล่งกำเนิดเสียงในอวกาศ ยิ่งพื้นที่จุดที่น่าสนใจมีขนาดใหญ่เท่าใด ผู้ฟังก็จะยิ่งมีอิสระในการดำเนินการมากขึ้นเท่านั้น ดังนั้นนักพัฒนาจึงมองหาวิธีเพิ่มพื้นที่เอฟเฟกต์ของจุดที่น่าสนใจอย่างต่อเนื่อง

เมื่อใช้เทคโนโลยีกับ HRTF นั้น QSound ไม่เพียงอาศัยวิธีการทางคณิตศาสตร์เท่านั้น แต่ยังต้องอาศัยการทดสอบโดยผู้ฟังด้วย (มีเซสชันการฟังดังกล่าวประมาณ 550,000 ครั้ง) ผู้เชี่ยวชาญของ Sensaura หลังจากทำการทดลองหลายครั้ง พบว่า HRTF เข้ามา รูปแบบบริสุทธิ์“ใช้งานได้” เมื่อเล่นผ่านหูฟังเท่านั้น การสร้างโมเดลเสียงในกรณีนี้เป็นงานที่ไม่สำคัญ กล่าวคือ ผู้พูดแต่ละคนจะควบคุมหูที่ตรงกัน อย่างไรก็ตาม เมื่อมีการเล่นเสียงเดียวกันผ่านลำโพง หูข้างขวาจะได้ยินเสียงที่ออกแบบมาเพื่อ "หลอกลวง" หูข้างซ้ายจากมุมมองสามมิติด้วย และในทางกลับกัน เพื่อกำจัดปรากฏการณ์นี้ จะต้องเพิ่มการคำนวณการชดเชยเพิ่มเติมให้กับเสียง อัลกอริธึมการชดเชยที่ประสบความสำเร็จได้รับการพัฒนาและเรียกว่า Transaural Cross-talk Cancellation (TCC) ปัญหาได้รับการแก้ไขโดยใช้แนวคิดอื่นจากวิศวกร Sensaura ข้อเท็จจริงที่ว่าฟังก์ชัน HRTF ใช้งานได้กับหูโดยเฉลี่ยเท่านั้น เนื่องจากได้มาจากการใช้หุ่นตัวเดียวหรือการอ่านค่าโดยเฉลี่ยของคนกลุ่มใหญ่ Sensaura ได้พัฒนาโมเดลหูดิจิทัลซึ่งคุณสามารถตั้งค่าพารามิเตอร์ของใบหูได้ ด้วยโมเดลดิจิทัลนี้ผสมผสานกัน พารามิเตอร์ที่แตกต่างกันคุณสามารถสร้างรูปทรงของหูได้เกือบทุกชนิด ไดรเวอร์หูฟังดิจิทัลที่ได้ผลลัพธ์จะทำงานดังนี้: เมื่อติดตั้งแล้ว ผู้ใช้จะฟังชุดเสียงทดสอบและปรับการตั้งค่าไดรเวอร์เพื่อให้ได้ประสบการณ์เสียงสามมิติที่ดีที่สุด พารามิเตอร์แต่ละตัวของผู้ฟังจะถูกบันทึกใน "โปรไฟล์" พิเศษซึ่งแอปพลิเคชันจะใช้ในภายหลัง