วิธีที่ใช้ในการบีบอัดเสียงดิจิทัล: Audio MPEG, PASC, ATRAC วิธีการบีบอัดข้อมูลเมื่อทำงานกับเสียง

ยิ่งหน่วยความจำของการ์ด WT มีขนาดใหญ่ เสียงก็จะยิ่งสมจริงมากขึ้น (เนื่องจากตัวอย่างที่บันทึกด้วยความละเอียดสูงกว่าจะถูกเก็บไว้ในหน่วยความจำมากขึ้น) มาตรฐาน ทั่วไป มิดิอธิบายเครื่องดนตรีมากกว่า 200 รายการ การจัดเก็บตัวอย่างเสียง (ตาราง) ต้องใช้หน่วยความจำอย่างน้อย 8 MB (ขั้นต่ำ 20 KB สำหรับแต่ละตัวอย่าง)

รู้จักวิธี WF ( คลื่น รูปร่าง) การสร้างเสียง โดยอาศัยการแปลงเสียงเป็นสูตรทางคณิตศาสตร์ที่ซับซ้อน จากนั้นใช้สูตรเหล่านี้เพื่อควบคุมโปรเซสเซอร์ที่ทรงพลังเพื่อสร้างเสียง การสังเคราะห์ WF คาดว่าจะให้ความสมจริงของเสียงเครื่องดนตรีที่มีปริมาณไฟล์เสียงที่จำกัดได้ดียิ่งขึ้น (เมื่อเทียบกับเทคโนโลยี FM และ WT)

ไดอะแกรมทั่วไปสำหรับการเชื่อมต่ออุปกรณ์ภายนอกกับการ์ดเสียงที่ใช้ IBM PC ( แผนที่) แสดงในรูปที่ 4.8

เพื่อลดการไหลของข้อมูล อื่นๆ ( ยอดเยี่ยมจาก PCM) วิธีการเข้ารหัสสัญญาณอะนาล็อก ตัวอย่างเช่น เทคนิคการเข้ารหัสตามคุณลักษณะที่ทราบของสัญญาณอะนาล็อกเป็นที่รู้กันว่าช่วยลดปริมาณข้อมูลที่เก็บไว้ได้อย่างมาก กับสิ่งที่เรียกว่า -การเข้ารหัส อนาล็อกสัญญาณจะถูกแปลงเป็น รหัสดิจิทัลกำหนดโดยลอการิทึมของขนาดสัญญาณ (และไม่ใช่ของ การแปลงเชิงเส้น- ข้อเสียของวิธีนี้คือจำเป็นต้องมีข้อมูลเบื้องต้นเกี่ยวกับลักษณะของสัญญาณต้นฉบับ

มีวิธีการแปลงที่ทราบกันดีว่าไม่จำเป็นต้องมีข้อมูลเบื้องต้นเกี่ยวกับสัญญาณต้นทาง ที่ การมอดูเลตรหัสพัลส์ดิฟเฟอเรนเชียล(ปปส ,ส่วนต่าง ชีพจร รหัส การปรับ) จะจัดเก็บเฉพาะความแตกต่างระหว่างระดับสัญญาณปัจจุบันและก่อนหน้าเท่านั้น (ความแตกต่างต้องใช้การแสดงแบบดิจิทัล น้อยจำนวนบิตมากกว่าแอมพลิจูดเต็ม) ที่ การปรับเดลต้า(ดีเอ็ม ,เดลต้า การปรับ) แต่ละ ตัวอย่างประกอบด้วยเพียงบิตเดียวที่กำหนดสัญญาณของการเปลี่ยนแปลงในสัญญาณดั้งเดิม (เพิ่มขึ้นหรือลดลง) การมอดูเลตแบบเดลต้าต้องใช้อัตราการสุ่มตัวอย่างที่สูงขึ้น เทคโนโลยีการปรับรหัสพัลส์ดิฟเฟอเรนเชียลเกี่ยวข้องกับข้อผิดพลาดที่สะสมเมื่อเวลาผ่านไป ดังนั้นจึงมีการใช้มาตรการพิเศษในการสอบเทียบ ADC เป็นระยะ

วิธีการบันทึกเสียงที่ใช้กันอย่างแพร่หลายที่สุดคือ การมอดูเลตรหัสพัลส์แบบปรับตัว (ADPCM ปรับตัวได้ ชีพจร รหัส การปรับ) โดยใช้การเข้ารหัส 8 หรือ 4 บิตสำหรับความแตกต่างของสัญญาณ บริษัทใช้เทคโนโลยีนี้เป็นครั้งแรก ความคิดสร้างสรรค์ ห้องทดลองและให้การบีบอัดข้อมูลสูงสุด 4:1

อย่างไรก็ตาม มักใช้วิธีอื่น (ซอฟต์แวร์) ในการบีบอัด/ขยายข้อมูลเสียง ในบรรดารูปแบบที่ได้รับความนิยมสูงสุดเมื่อเร็ว ๆ นี้ก็คือ เอ็มพี3พัฒนาโดยสถาบัน ฟรอนโฮเฟอร์ ไอไอเอส (ฟรอนโฮเฟอร์ สถาบันบูรณาการ ชาลทังเกน, www.iis.fhg.de) และโดย THOMSON (ข้อกำหนดรูปแบบ MP3 ฉบับเต็มมีการเผยแพร่ที่ www.mp3tech.org) ชื่อเต็มของมาตรฐาน MP3 คือ MPEG-Audio Layer-3 (โดยที่ MPEGสาระสำคัญ กลุ่มผู้เชี่ยวชาญด้านภาพเคลื่อนไหวเพื่อไม่ให้สับสนกับมาตรฐาน MPEG-3 ที่มีไว้สำหรับใช้ในโทรทัศน์ความละเอียดสูง)

การเข้ารหัสข้อมูล MP3 เกิดขึ้นโดยการแยกบล็อกข้อมูล - เฟรมที่แยกจากกัน ในการดำเนินการนี้ สัญญาณดั้งเดิมระหว่างการเข้ารหัสจะถูกแบ่งออกเป็นส่วนที่มีระยะเวลาเท่ากัน เรียกว่าเฟรม และเข้ารหัสแยกกัน (เพื่อลดปริมาณข้อมูลเพิ่มเติม การบีบอัดจะใช้โดยใช้ อัลกอริทึมของเฮฟฟ์แมน- ในระหว่างการถอดรหัส สัญญาณจะถูกสร้างขึ้นจากลำดับของเฟรมที่ถอดรหัส กระบวนการเข้ารหัสต้องใช้เวลาอย่างมาก ในขณะที่การถอดรหัส (ระหว่างการเล่น) จะดำเนินการได้ทันที

รูปแบบ MP3 ให้คุณภาพเสียงที่ดีที่สุดพร้อมด้วยขนาดไฟล์ที่เล็กที่สุด ซึ่งสามารถทำได้โดยคำนึงถึงลักษณะเฉพาะของการได้ยินของมนุษย์รวมถึงผลกระทบด้วย กำบัง สัญญาณอ่อนช่วงความถี่หนึ่งโดยสัญญาณที่ทรงพลังกว่าของช่วงที่อยู่ติดกัน (เมื่อเกิดขึ้น) หรือสัญญาณที่ทรงพลังของเฟรมก่อนหน้า ทำให้ความไวของหูต่อสัญญาณของเฟรมปัจจุบันลดลงชั่วคราว (กล่าวคือ เสียงรอง ที่หูของมนุษย์ไม่ได้ยินเนื่องจากมีอยู่ในเฟรมปัจจุบัน/ก่อนหน้าจะถูกลบช่วงเวลาของอีกเฟรมหนึ่ง - เสียงดังกว่า) นอกจากนี้ยังคำนึงถึงการที่คนส่วนใหญ่ไม่สามารถแยกแยะระหว่างสัญญาณที่ต่ำกว่าระดับพลังงานที่กำหนด ซึ่งจะแตกต่างกันไปตามช่วงความถี่ที่แตกต่างกัน กระบวนการนี้เรียกว่า การเข้ารหัสแบบปรับได้และช่วยให้คุณประหยัดได้น้อยที่สุด สำคัญจากมุมมองของการรับรู้ของมนุษย์ในรายละเอียดเสียง ระดับการบีบอัด (และคุณภาพ) ไม่ได้ถูกกำหนดโดยรูปแบบ MP3 แต่โดย ความกว้างของสตรีมข้อมูลเมื่อเข้ารหัส

ข้อมูลเสียงที่บีบอัดโดยใช้เทคโนโลยีนี้สามารถสตรีมหรือจัดเก็บไว้ในไฟล์ MP3 หรือ WAV-MP3 ความแตกต่างระหว่างอันที่สองและอันแรกคือการมีส่วนหัวเพิ่มเติมของไฟล์ WAV ซึ่งอนุญาตให้หากมีตัวแปลงสัญญาณ MP3 (ตัวแปลงสัญญาณตัวเข้ารหัสและตัวถอดรหัสในเวอร์ชันที่ซับซ้อน) ในระบบเพื่อใช้เครื่องมือ Windows มาตรฐาน ทำงานกับไฟล์ดังกล่าว พารามิเตอร์การบีบอัดเมื่อเข้ารหัสไฟล์สามารถเปลี่ยนแปลงได้ภายในขอบเขตที่กว้าง คุณภาพซึ่งผู้ฟังทั่วไปส่วนใหญ่แยกไม่ออกจากคุณภาพซีดีนั้นทำได้ที่อัตราบิต ( บิตเรต บิตเรต) 112128 KB ต่อวินาที; การบีบอัดจะอยู่ที่ประมาณ 14:1 เมื่อเทียบกับระดับเสียงดั้งเดิม โดยปกติผู้เชี่ยวชาญต้องการความเร็วการถ่ายโอน 256320 KB/วินาที (ซึ่งสอดคล้องกับความเร็วของเครื่องเล่นซีดีเพียงสองเท่าเท่านั้น แต่ไม่มีให้บริการสำหรับสายอินเทอร์เน็ตในประเทศส่วนใหญ่)

คุณสมบัติพื้นฐานของการเข้ารหัส MPEG (ทั้งข้อมูลวิดีโอและเสียง) คือ การบีบอัดที่สูญเสียไป- หลังจากบรรจุและแตกไฟล์เสียงโดยใช้วิธี MP3 ผลลัพธ์ก็คือ ไม่เหมือนกับต้นฉบับ`ทีละน้อย' ในทางตรงกันข้าม บรรจุภัณฑ์จงใจแยกส่วนประกอบที่ไม่สำคัญออกจากสัญญาณที่บรรจุ ซึ่งทำให้อัตราส่วนการบีบอัดเพิ่มขึ้นอย่างมาก (การบีบอัดสูงสุด 96:1 ด้วยคุณภาพของช่องสัญญาณโทรศัพท์)

มีการเขียนสิ่งที่สะดวกสบายมากมายสำหรับ MP3 ซอฟต์แวร์- เปิดตัวการผลิตเครื่องเล่น MP3 แบบฮาร์ดแวร์ (พกพาและในรถยนต์) (MP3 รองรับสูงสุด 5 ช่อง)

เมื่อช่วงเปลี่ยนปี พ.ศ. 2541-2542 บริษัท ซิงเทค(www.xingtech.com) เป็นคนแรกที่ใช้เทคโนโลยีนี้ บิตเรตแปรผัน(วีบีอาร์, ตัวแปร กัด ประเมิน- ในกรณีของ VBR สูงสุด ยอมรับได้ระดับการสูญเสีย และเครื่องเข้ารหัสจะเลือกบิตเรตขั้นต่ำที่เพียงพอในการทำงานให้เสร็จสิ้น เฟรมที่อยู่ติดกันในสตรีมสุดท้ายอาจมีการเข้ารหัสด้วยพารามิเตอร์ที่แตกต่างกัน

ตามที่ผู้เชี่ยวชาญระบุว่า MP3 จะยังคงมีความเกี่ยวข้องในทศวรรษหน้า (แม้ว่าจะมีรูปแบบ AAG และ VQF และรูปแบบ MS ที่ได้รับการส่งเสริมก็ตาม WMA- เกี่ยวกับการดำรงอยู่ของผู้อื่น ผู้เขียนโค้ด(ผู้แปลงข้อมูลจากรูปแบบหนึ่งไปเป็นอีกรูปแบบหนึ่ง) ดูที่ www.sulaco.org/mp3/free.html และ www.xiph.org

คู่แข่งที่เป็นไปได้ของ MP3 ในอนาคต (ไม่ใกล้นี้) อาจเป็นรูปแบบ MPEG-4 (แม่นยำยิ่งขึ้นคือส่วนประกอบเสียง) โดยยึดตามแนวทางวัตถุในฉากเสียง (ภาษา บีฟส์ช่วยให้คุณสามารถค้นหาแหล่งกำเนิดเสียงในพื้นที่สามมิติของฉาก ควบคุมลักษณะเฉพาะของมัน และใช้เอฟเฟกต์กับแหล่งที่มาของเสียงได้อย่างอิสระจากกัน ฯลฯ ในเวอร์ชันต่อๆ ไป คาดว่าจะเพิ่มความสามารถในการตั้งค่าพารามิเตอร์เสียงของสภาพแวดล้อม ).

สำหรับการเข้ารหัสออบเจ็กต์เสียง MPEG-4 มีชุดเครื่องมือสำหรับทั้งเสียงสดและเสียงสังเคราะห์ MPEG-4 ระบุไวยากรณ์บิตสตรีมและกระบวนการถอดรหัสในแง่ของชุดเครื่องมือ ทำให้สามารถใช้อัลกอริธึมการบีบอัดต่างๆ ได้ เสียงสด - ตั้งแต่ 2 ถึง 128 KB/วินาที และสูงกว่า เมื่อเข้ารหัสด้วยบิตเรตที่แปรผัน ความเร็วเฉลี่ยขั้นต่ำอาจต่ำกว่านี้ด้วยซ้ำ (ประมาณ 1.2 KB/วินาที) เพื่อให้ได้เสียงคุณภาพสูงสุด อัลกอริธึม AAC จะถูกใช้ซึ่งให้คุณภาพ ดีกว่านั้น ซีดีที่มีสตรีมน้อยกว่า 10 เท่า อัลกอริธึมที่เป็นไปได้สำหรับการเข้ารหัสเสียงสดก็คือ TwinVQ- มีการเสนออัลกอริทึมสำหรับการเข้ารหัสคำพูด HVXC(การเข้ารหัส eXcitation เวกเตอร์ฮาร์มอนิก) สำหรับอัตราการไหล 24 KB/วินาที และ CELP(รหัสทำนายเชิงเส้นตื่นเต้น) ด้วยความเร็ว 424 KB/วินาที

MPEG-4 ถือว่าความเป็นไปได้ของการสังเคราะห์เสียงพูด อินพุตซินธิไซเซอร์จะรับข้อความเสียงพูดเช่นกัน พารามิเตอร์ต่างๆ"การระบายสี" ของเสียง - ความเครียด การเปลี่ยนระดับเสียง ความเร็วของการออกเสียงหน่วยเสียง ฯลฯ คุณยังสามารถกำหนดเพศ อายุ สำเนียง ฯลฯ ให้กับ "ผู้พูด" ได้อีกด้วย ข้อมูลการควบคุมเมื่อตรวจพบว่าซินธิไซเซอร์ตัวใดจะส่งพารามิเตอร์หรือคำสั่งไปยังส่วนประกอบอื่น ๆ ของระบบพร้อมกันกับการออกเสียงของหน่วยเสียงที่เกี่ยวข้อง (ตัวอย่างเช่น สามารถสร้างสตรีมของพารามิเตอร์สำหรับแอนิเมชั่นใบหน้าได้พร้อมกันกับเสียง) เช่นเคย MPEG-4 จะกำหนดกฎการทำงานและอินเทอร์เฟซของซินธิไซเซอร์ แต่ไม่ใช่โครงสร้างภายใน

ส่วนที่น่าสนใจขององค์ประกอบ "เสียง" คือวิธีการสังเคราะห์เสียงและดนตรีตามอำเภอใจ ข้อเสนอ MPEG-4 เป็นแนวทางมาตรฐานที่พัฒนาขึ้นในแหล่งกำเนิดของเทคโนโลยีขั้นสูงมากมาย - เอ็มไอที มีเดีย แล็บ- และตั้งชื่อว่า SA ( เสียงที่มีโครงสร้าง, โครงสร้างเสียง) นี่ไม่ใช่วิธีการสังเคราะห์ที่เฉพาะเจาะจง แต่เป็นรูปแบบสำหรับการอธิบายวิธีการสังเคราะห์ซึ่งสามารถระบุวิธีการใด ๆ ที่มีอยู่ (และในอนาคตที่ถูกกล่าวหา) ได้ มีสองภาษาสำหรับสิ่งนี้ - สอล (ภาษาออร์เคสตราเสียงที่มีโครงสร้าง) และ SASL (ภาษาคะแนนเสียงที่มีโครงสร้าง- วงแรกระบุวงออเคสตรา และวงที่สองระบุว่าวงออเคสตรานี้ควรเล่นอะไร วงออเคสตราประกอบด้วยเครื่องดนตรี เครื่องดนตรีแต่ละชิ้นจะแสดงโดยเครือข่ายขององค์ประกอบการประมวลผลสัญญาณดิจิทัล - ซินธิไซเซอร์ ฟิลเตอร์ดิจิทัล ซึ่งทั้งหมดนี้รวมกันสังเคราะห์เสียงที่ต้องการ ด้วย SAOL คุณสามารถตั้งโปรแกรมเครื่องดนตรีได้เกือบทุกชนิด ไม่ว่าจะเป็นเสียงธรรมชาติหรือเสียงสังเคราะห์ ขั้นแรก ชุดเครื่องมือจะถูกโหลดลงในตัวถอดรหัส จากนั้นสตรีมข้อมูล SASL จะทำให้วงออร์เคสตรานี้เล่น เพื่อควบคุมกระบวนการสังเคราะห์ ช่วยให้มั่นใจได้ถึงเสียงเดียวกันบนตัวถอดรหัสทั้งหมดโดยมีกระแสอินพุตต่ำมากและความแม่นยำในการควบคุมสูง ด้วยการถือกำเนิดของ MPEG-4 แนวคิดของ ITV จึงมีรูปแบบที่สมจริงและเข้าใจได้มากขึ้น ( แบบโต้ตอบ โทรทัศน์, โทรทัศน์แบบโต้ตอบ ) ซึ่งได้รับการถกเถียงกันมานานหลายปี และโดยที่ทุกคนเข้าใจบางสิ่งที่แตกต่าง (จาก "วิดีโอตามความต้องการ" ธรรมดา ๆ ไปจนถึงเรื่องราวนักสืบที่มีการพัฒนาพล็อตหลายตัวแปรและการมีส่วนร่วมของผู้ชม)

ข้อมูล MPEG-4 มีไว้เพื่อข้อมูลเกี่ยวกับ แนวโน้มสมัยใหม่การบันทึกและสังเคราะห์ข้อมูลสื่อ ผู้สนใจสามารถดูได้ที่ cselt.it/mpeg และ www.mpeg.org ในตอนท้ายของปี 2000 ทีมพัฒนา MPEG วางแผนที่จะประกาศความสำเร็จของการทำงานในมาตรฐาน MPEG-7 (ชื่ออย่างเป็นทางการ - อินเทอร์เฟซคำอธิบายเนื้อหามัลติมีเดีย).

เสียงดิจิตอล เว้นแต่จะเป็นเพลงที่สามารถเข้ารหัสเป็น MIDI ได้ การบีบอัดภาพก็ทำได้ไม่สะดวกพอๆ กัน สัญญาณเสียงไม่ค่อยมีความซ้ำซ้อน เช่น มีส่วนที่ซ้ำกัน (สาเหตุหลักมาจากเสียงรบกวน) ซึ่งหมายความว่ามีการบีบอัดได้ไม่ดีโดยใช้อัลกอริธึมการบีบอัดแบบไม่สูญเสียข้อมูลซึ่งคล้ายกับวิธี LZW หรือ Huffman

ในปี 1940 Harvey Fletcher นักฟิสิกส์ชาวอเมริกันผู้มีชื่อเสียง บิดาแห่งเสียงสเตอริโอ ได้นำเข้ามาเพื่อการวิจัยเกี่ยวกับการได้ยินของมนุษย์ จำนวนมากวิชา เขาวิเคราะห์การพึ่งพาเกณฑ์การได้ยินสัมบูรณ์กับความถี่ของสัญญาณเช่น แอมพลิจูดคือเสียงความถี่หนึ่งที่มนุษย์ไม่ได้ยิน ในเส้นโค้งที่สร้างจากการทดลอง ค่าสูงสุดอยู่ที่ขอบเขตของช่วงการได้ยิน (ประมาณ 20 Hz และใกล้กับ 20 kHz) ตามที่คาดไว้ และค่าต่ำสุดคือประมาณ 5 kHz แต่สิ่งสำคัญที่เขาให้ความสนใจคือความสามารถในการได้ยินเพื่อปรับให้เข้ากับลักษณะของเสียงใหม่ซึ่งแสดงออกมาในเกณฑ์การได้ยินที่เพิ่มขึ้น กล่าวอีกนัยหนึ่ง เสียงบางเสียงอาจทำให้บางเสียงไม่ได้ยิน ซึ่งเรียกว่าการปิดบังเสียงหนึ่งกับอีกเสียงหนึ่ง

คุณสมบัติหลังของการได้ยินระหว่างการบีบอัดช่วยให้หลังจากสัญญาณเสียงที่ดังแล้ว ไม่สามารถทำซ้ำได้เลยในช่วงเวลาสั้นๆ ดังนั้นจึงไม่สามารถเก็บเสียงใดๆ ได้ ตัวอย่างเช่น การคลิกเสียงดังนาน 0.1 วินาทีสามารถปิดบังเสียงที่ตามมาเป็นเวลา 0.5 วินาทีซึ่งไม่จำเป็นต้องจัดเก็บ อัตราส่วนการบีบอัดในตัวอย่างนี้เรียกว่าถึง และโดยปกติจะเรียกว่าขั้นตอนการบีบอัดที่อธิบายไว้ การปกปิดโดเมนเวลา.

ที่ การกำบังโดเมนความถี่สัญญาณไซน์ซอยด์จะปกปิดสัญญาณที่เงียบกว่าซึ่งมีความถี่ใกล้เคียงกัน รวมถึงสัญญาณไซน์ซอยด์ที่มีแอมพลิจูดต่ำกว่ามาก สะดวกในการใช้การแบ่งสเปกตรัมออกเป็นแถบที่มีความกว้างต่างกันตามลักษณะการได้ยินของบุคคล โดยปกติจะมี 27 แถบที่เรียกว่าวิกฤต: 0 จาก 50 ถึง 95 Hz, 1 จาก 95 ถึง 140 Hz, ..., 26 จาก 20250 Hz ขึ้นไป

เพื่อดำเนินการอัลกอริธึมการบีบอัด สัญญาณดั้งเดิมจะถูกแบ่งออกเป็นเฟรม ซึ่งจะต้องได้รับการวิเคราะห์ความถี่ อัลกอริธึมการบีบอัดมีลักษณะดังนี้:

1. การใช้อัลกอริธึมพิเศษ (อาจเป็นการแปลงฟูเรียร์แบบเร็วหรือคล้ายกัน) สัญญาณจะถูกแบ่งออกเป็น 32 ย่านความถี่ที่เท่ากัน และย่านความถี่วิกฤตหลายย่านสามารถตกอยู่ในแถบผลลัพธ์เดียวในคราวเดียว

2. การใช้แบบจำลองทางจิตที่เรียกว่า (ซึ่งตามกฎแล้วรวมถึงการปกปิดความถี่) กำหนดระดับของการกำบังของแถบความถี่ใกล้เคียง

3. ระดับในแบนด์ที่ไม่เกินเกณฑ์ที่คำนวณจะถือว่าเท่ากับศูนย์และจะไม่ถูกบันทึกไว้ ในทางกลับกัน ระดับที่ไม่ปกปิดจะถูกเขียนลงในข้อมูลเอาท์พุต

ต่อจากนั้น จำนวนบิตจำนวนหนึ่งจะถูกจัดสรรให้กับแต่ละระดับที่ไม่ใช่ศูนย์ ซึ่งเพียงพอสำหรับการแสดงโดยประมาณ ดังนั้น ในส่วนของสเปกตรัมที่หูมนุษย์มีเกณฑ์การได้ยินต่ำที่สุด ข้อมูลจะถูกเข้ารหัสด้วยสิบหกบิต และที่ขอบ ซึ่งหูไวต่อการบิดเบือนน้อยกว่าด้วยหกบิตหรือน้อยกว่านั้น ตัวอย่างเช่น สามารถใช้อัลกอริธึมการบีบอัด Huffman กับบิตสตรีมผลลัพธ์ได้

อัลกอริธึมมีสามเวอร์ชันที่อธิบายโดยการบีบอัดเสียง MPEG ในแต่ละเวอร์ชันข้อมูลจะถูกแบ่งออกเป็นเฟรม ได้แก่ เฟรมเดียวประกอบด้วย 32 แถบๆ ละ 12 ค่า

ใน MPEG layer1 (ตัวอักษร "เลเยอร์ 1") ตัวกรองความถี่จะใช้เฟรมเดียวและอัลกอริธึมตามการแปลงโคไซน์แบบไม่ต่อเนื่อง (DCT) แบบจำลองทางจิตอะคูสติกเกี่ยวข้องกับการปิดบังความถี่เท่านั้น อัลกอริธึมอนุญาตให้บรรจุในอัตราส่วน 1:4 โดยมีสตรีม 384 Kbps

MPEG layer2 ใช้สามเฟรมในตัวกรองความถี่ (ก่อนหน้า ปัจจุบัน และต่อมา) รวม 32 แบนด์ 12 ค่าใน 3 เฟรม โมเดลยังใช้การมาสก์ชั่วคราวด้วย แพ็คด้วยอัตราส่วนตั้งแต่ 1:6 ถึง 1:8

ที่รู้จักกันดีที่สุดคือ Audio MPEG, PASC และ ATRAC พวกเขาทั้งหมดใช้สิ่งที่เรียกว่า "การเข้ารหัสการรับรู้" ซึ่งข้อมูลที่หูแทบจะไม่สังเกตเห็นได้จะถูกลบออกจากสัญญาณเสียง เป็นผลให้แม้ว่ารูปร่างและสเปกตรัมของสัญญาณจะเปลี่ยนไป แต่การรับรู้ทางการได้ยินยังคงไม่เปลี่ยนแปลงเลย และระดับการบีบอัดทำให้คุณภาพลดลงเล็กน้อย การเข้ารหัสดังกล่าวหมายถึงวิธีการบีบอัดแบบสูญเสีย เมื่อไม่สามารถกู้คืนรูปคลื่นดั้งเดิมจากสัญญาณที่ถูกบีบอัดได้อย่างแม่นยำอีกต่อไป เทคนิคในการลบข้อมูลบางส่วนนั้นขึ้นอยู่กับคุณลักษณะของการได้ยินของมนุษย์ที่เรียกว่าการปิดบัง: หากมีจุดสูงสุดที่เด่นชัด (ฮาร์โมนิกที่เด่น) ในสเปกตรัมเสียง ส่วนประกอบความถี่ที่อ่อนกว่าในบริเวณใกล้เคียงจะไม่ถูกรับรู้ด้วยหู (สวมหน้ากาก ). เมื่อเข้ารหัสทั้งหมด กระแสเสียงถูกแบ่งออกเป็นเฟรมเล็กๆ ซึ่งแต่ละเฟรมจะถูกแปลงเป็นตัวแทนสเปกตรัมและแบ่งออกเป็นแถบความถี่จำนวนหนึ่ง ภายในวงดนตรีนั้น เสียงที่สวมหน้ากากจะถูกตรวจจับและลบออก หลังจากนั้นแต่ละเฟรมจะถูกเข้ารหัสแบบปรับเปลี่ยนได้โดยตรงในรูปแบบสเปกตรัม การดำเนินการทั้งหมดนี้ทำให้สามารถลดปริมาณข้อมูลได้อย่างมาก (หลายครั้ง) ขณะเดียวกันก็รักษาคุณภาพที่ผู้ฟังส่วนใหญ่ยอมรับได้ วิธีการเข้ารหัสที่อธิบายไว้แต่ละวิธีนั้นมีลักษณะเฉพาะด้วยอัตราบิตที่ข้อมูลที่บีบอัดจะต้องเข้าสู่ตัวถอดรหัสเมื่อกู้คืนสัญญาณเสียง ตัวถอดรหัสจะแปลงชุดสเปกตรัมสัญญาณทันทีที่ถูกบีบอัดให้เป็นรูปแบบคลื่นดิจิทัลทั่วไป

เสียง MPEG- กลุ่มวิธีการบีบอัดเสียงที่ได้มาตรฐานโดย MPEG (Moving Pictures Experts Group - กลุ่มผู้เชี่ยวชาญสำหรับการประมวลผลภาพเคลื่อนไหว) วิธี Audio MPEG มีหลายประเภท - MPEG-1, MPEG-2 ฯลฯ ปัจจุบันประเภทที่พบบ่อยที่สุดคือ MPEG-1 Audio MPEG-1 มีสามระดับ (เลเยอร์) สำหรับการบีบอัดสัญญาณสเตอริโอ: 1 - อัตราการบีบอัด 1:4 พร้อมสตรีมข้อมูล 384 kbit/s; 2 - 1:6..1:8 ที่ 256..192 กิโลบิต/วินาที; 3 - 1:10..1:12 ที่ 128..112 กิโลบิต/วินาที อัตราข้อมูลขั้นต่ำในแต่ละชั้นถูกกำหนดเป็น 32 kbit/s; อัตราบิตที่ระบุช่วยให้คุณรักษาคุณภาพสัญญาณไว้ที่ระดับซีดีโดยประมาณ ทั้งสามระดับใช้การแปลงสเปกตรัมอินพุต โดยแบ่งเฟรมออกเป็น 32 ย่านความถี่ ระดับ 3 ที่มีอัตราการไหล 128 kbit/s และความหนาแน่นของข้อมูลประมาณ 1 MB/นาที ได้รับการยอมรับว่าเป็นระดับที่เหมาะสมที่สุดในแง่ของปริมาณข้อมูลและคุณภาพเสียง เมื่อทำการบีบอัดที่ความเร็วต่ำ การจำกัดคลื่นความถี่บังคับไว้ที่ 15-16 kHz เริ่มต้นขึ้น และการบิดเบือนเฟสของช่องสัญญาณก็เกิดขึ้นเช่นกัน (เอฟเฟกต์เช่นเฟสเซอร์หรือแฟลนเจอร์) Audio MPEG ใช้ในระบบเสียงคอมพิวเตอร์ CD-i/DVD "เสียง" ซีดีรอมวิทยุ/โทรทัศน์แบบดิจิทัล และระบบส่งสัญญาณเสียงมวลชนอื่นๆ ชุด MPEG-1 มีไว้สำหรับการเข้ารหัสสัญญาณดิจิทัลที่อัตราการสุ่มตัวอย่าง 32, 44.1 และ 48 kHz ตามที่ระบุไว้ข้างต้น ชุด MPEG-1 มีสามเลเยอร์ (เลเยอร์ I, II และ III) ระดับเหล่านี้มีความแตกต่างในอัตราส่วนการบีบอัดที่ให้มาและคุณภาพเสียงของสตรีมผลลัพธ์ เลเยอร์ I อนุญาตให้จัดเก็บสัญญาณ 44.1 KHz / 16 บิตโดยไม่สูญเสียคุณภาพอย่างเห็นได้ชัดที่อัตราการไหล 384 Kbps ซึ่งเป็นปริมาณที่เพิ่มขึ้น 4 เท่าในปริมาณที่ถูกครอบครอง Layer II ให้คุณภาพเดียวกันที่ 194 Kbps และ Layer III ที่ 128 (หรือ 112) ประโยชน์ของ Layer III นั้นชัดเจน แต่ความเร็วการบีบอัดเมื่อใช้งานนั้นต่ำที่สุด (ควรสังเกตว่าด้วยความเร็วโปรเซสเซอร์สมัยใหม่ข้อ จำกัด นี้จะไม่สังเกตเห็นได้อีกต่อไป) ในความเป็นจริง Layer III ช่วยให้คุณสามารถบีบอัดข้อมูลได้ 10-12 ครั้งโดยไม่สูญเสียคุณภาพอย่างเห็นได้ชัด- มาตรฐาน MPEG-2 ได้รับการออกแบบมาโดยเฉพาะสำหรับการเข้ารหัสสัญญาณโทรทัศน์ที่ออกอากาศ ในเดือนเมษายน พ.ศ. 2540 ชุดนี้ได้รับ "ความต่อเนื่อง" ในรูปแบบของอัลกอริทึม MPEG-2 AAC (การเข้ารหัสเสียงขั้นสูง MPEG-2)

มาตรฐาน MPEG-4 เป็นบทความพิเศษ MPEG-4 ไม่ได้เป็นเพียงอัลกอริทึมสำหรับการบีบอัด จัดเก็บ และส่งข้อมูลวิดีโอหรือเสียงเท่านั้น MPEG-4 เป็นวิธีใหม่ในการนำเสนอข้อมูล ซึ่งเป็นการแสดงข้อมูลมัลติมีเดียเชิงวัตถุ มาตรฐานทำงานกับออบเจ็กต์ จัดระเบียบลำดับชั้น คลาส ฯลฯ จากวัตถุเหล่านั้น สร้างฉากและควบคุมการส่งสัญญาณ วัตถุสามารถทำหน้าที่เป็นสตรีมเสียงหรือวิดีโอธรรมดาได้ เช่นเดียวกับข้อมูลเสียงและกราฟิกที่สังเคราะห์ขึ้น (คำพูด ข้อความ เอฟเฟกต์ เสียง...) ฉากดังกล่าวอธิบายเป็นภาษาพิเศษ

โดยทั่วไปมาตรฐาน MPEG-7 มีความแตกต่างโดยพื้นฐานจากมาตรฐาน MPEG อื่นๆ ทั้งหมด มาตรฐานนี้ไม่ได้รับการพัฒนาเพื่อสร้างกรอบการทำงานสำหรับการถ่ายโอนข้อมูลหรือเพื่อพิมพ์และอธิบายข้อมูลประเภทใดประเภทหนึ่งโดยเฉพาะ มาตรฐานนี้มีวัตถุประสงค์เพื่อเป็นคำอธิบาย มีจุดประสงค์เพื่อควบคุมลักษณะของข้อมูลทุกประเภท รวมถึงแอนะล็อกด้วย การใช้ MPEG-7 มีวัตถุประสงค์เพื่อให้มีความเกี่ยวข้องอย่างใกล้ชิดกับ MPEG-4

เพื่อความสะดวกในการจัดการสตรีมที่ถูกบีบอัด อัลกอริธึม MPEG ทั้งหมดได้รับการออกแบบในลักษณะที่ช่วยให้สามารถบีบอัด (กู้คืน) และเล่นสตรีมพร้อมกันกับการรับ (ดาวน์โหลด) - การบีบอัดสตรีมแบบ "ทันที" (การเล่นสตรีม) คุณลักษณะนี้ใช้กันอย่างแพร่หลายบนอินเทอร์เน็ต ซึ่งความเร็วของการถ่ายโอนข้อมูลมีจำกัด และด้วยการใช้อัลกอริธึมดังกล่าว ทำให้สามารถประมวลผลข้อมูลได้ทันทีที่ได้รับโดยไม่ต้องรอให้สิ้นสุดการส่งข้อมูล

การเข้ารหัสย่านความถี่ย่อยแบบปรับได้ที่แม่นยำของ PASC- การเข้ารหัสในแถบความถี่ที่ปรับเปลี่ยนได้อย่างแม่นยำ) - กรณีพิเศษของ Audio MPEG-1 Layer 1 ที่มีอัตราบิต 384 kbit/s (การบีบอัด 1:4) ใช้ในระบบ DCC

ATRAC Adaptive TRansform การเข้ารหัสเสียงแบบอะคูสติก- การเข้ารหัสเสียงการแปลงแบบปรับตัว) ขึ้นอยู่กับรูปแบบเสียงสเตอริโอที่มีการหาปริมาณ 16 บิตและความถี่สุ่มตัวอย่าง 44.1 kHz ATRAC (Adaptive TRansform Acoustic Coding) จะแยกสัญญาณเสียงดิจิตอล 16 บิต 44.1 kHz ออกเป็นคลื่นความถี่ 52 คลื่น (หลังจาก การแปลงอย่างรวดเร็วฟูริเยร์) คลื่นความถี่ต่ำจะถูกส่งได้แม่นยำกว่าคลื่นความถี่สูง อัลกอริทึมใช้การเข้ารหัสทางจิต - อะคูสติกซึ่งมีการใช้เอฟเฟกต์การมาสก์และเกณฑ์การได้ยินซึ่งเป็นผลมาจากส่วนหนึ่งของข้อมูลที่สามารถละทิ้งได้และสตรีมข้อมูลเอาต์พุตมีขนาด 1/5 ของสตรีมข้อมูลต้นฉบับ แต่ละช่องสัญญาณได้รับการประมวลผลแยกกัน (ไดรฟ์ MD แบบพกพา Sony MZ-1 ใช้ชิปตัวเข้ารหัส/ตัวถอดรหัส ATRAC หนึ่งตัวต่อช่องสัญญาณ) อัลกอริธึมการเข้ารหัสอื่น PASC (Precision Adaptive Sub-band Coding - ปัจจุบันใช้โดย Philips ใน DCC) สัญญาณดิจิตอลเป็นระยะที่มีขนาดเท่ากันและลบข้อมูลบางส่วนออก (ลดการไหลลงเหลือ 1/4 ของต้นฉบับ) PASC เป็นอัลกอริธึม MPEG Layer 1 (สามารถขยายได้โดยเครื่องเล่น MPEG Layer 1 หลังจากแก้ไขล่วงหน้าเล็กน้อย)
อัลกอริธึมทั้งสองทำการบีบอัดข้อมูล โดยให้การจัดเก็บสตรีมเสียง 16 บิต วัตถุประสงค์ของอัลกอริทึมคือเพื่อบีบอัดสตรีมเพื่อลดพื้นที่ดิสก์ที่ใช้ มีอัลกอริธึมการบีบอัดที่หลากหลาย อัลกอริธึมบางตัวบีบอัดข้อมูลโดยไม่สูญเสีย (ใช้เช่นในผู้จัดเก็บ) และข้อมูลหลังการบีบอัดก็ไม่แตกต่างจากต้นฉบับ PASC และ ATRAC เป็นอัลกอริธึมที่สูญเสียไป พวกเขาไม่ได้พยายามรักษาบิตของข้อมูลที่เข้ามาทั้งหมด แต่เพียงพยายามแยกและรักษาบิต "สำคัญ" ทางเสียง ดังนั้นจึงเป็นสิ่งสำคัญที่จะต้องหาเสียงที่ระบบการได้ยินของมนุษย์ปิดบังไว้ ซึ่งบุคคลจะไม่สามารถได้ยินได้แม้ว่าจะเล่นเสียงก็ตาม อัลกอริธึมการบีบอัดเสียงทั้งสองทำงานได้อย่างยอดเยี่ยมในงานนี้ สตรีมเสียงใดที่ถูกบันทึกลงในมินิดิสก์หลังจากการบีบอัด ATRAC สำหรับสัญญาณสเตอริโอ - 292162.5 bps ATRAC บีบอัดตัวอย่าง 16 บิตขาเข้า 512 ตัวอย่าง (1,024 ไบต์) ลงใน "กลุ่มเสียง" ของ ATRAC (212 ไบต์) ส่งผลให้อัตราส่วนการบีบอัดอยู่ที่ 4.83:1 - 44100 ตัวอย่าง/วินาที (อินพุตสตรีมของหนึ่งช่องสัญญาณ) - 512 ตัวอย่างต่อกลุ่มเสียง (รับ 86,133 กลุ่มเสียง/วินาที/ช่อง) - 2 ช่องสัญญาณ (รับ 172,266 กลุ่มเสียง/วินาที)
- 212 ไบต์/กลุ่มเสียง (รับ 36.5 kbit/s ในระบบสเตอริโอ) - 8 บิต/ไบต์ (รับ kbit/s) - 292162.5 bps ATRAC (ใช้ใน MDLP) ทำงานที่ 132 kbit/s (LP2) และ 66 kbit/s ( LP4)

ข้อมูลทั่วไป

ในระหว่างการเข้ารหัสหลักในเส้นทางสตูดิโอ จะมีการใช้งาน

โดยปกติแล้วปริมาณตัวอย่างสัญญาณเสียง (AS) จะสม่ำเสมอด้วย

ความละเอียด ∆A = 16–24 บิต/ตัวอย่างที่ความถี่สุ่มตัวอย่าง f = 44.1–96

กิโลเฮิร์ตซ์ ในช่องสัญญาณคุณภาพสตูดิโอ โดยปกติ ∆A = 16 บิต/ตัวอย่าง, f = 48 kHz

ย่านความถี่ของสัญญาณเสียงที่เข้ารหัส ∆F = 20–20000 Hz

ช่วงไดนามิกเช่น ช่องดิจิทัลคือประมาณ 54 เดซิเบล

ถ้า f = 48 kHz และ ∆A = 16 บิต/ตัวอย่าง ดังนั้นอัตราบิตดิจิทัลที่

การส่งสัญญาณดังกล่าวจะเท่ากับ V = 48x16 = 768 kbit/s สิ่งนี้ต้องการ

ความจุรวมของช่องสื่อสารเมื่อส่งสัญญาณเสียง

รูปแบบสัญญาณ 5.1 (Dolby Digital) หรือ 3/2 บวกกับช่องสัญญาณต่ำพิเศษ

ความถี่ (Dolby Surround, Dolby-Pro-Logic, Dolby THX) มากกว่า 3.840 Mbit/s

แต่บุคคลนั้นมีความสามารถในการประมวลผลด้วยความรู้สึกของเขาอย่างมีสติ

ข้อมูลประมาณ 100 บิต/วินาทีเท่านั้น ดังนั้นเราจึงสามารถพูดคุยเกี่ยวกับธรรมชาติได้

สัญญาณเสียงดิจิตอลหลักมีความซ้ำซ้อนอย่างมาก

ความซ้ำซ้อนทางสถิติเกิดจากการมีอยู่

การเชื่อมต่อความสัมพันธ์ระหว่างตัวอย่างที่อยู่ติดกันของฟังก์ชันเวลาของสัญญาณเสียงในระหว่างการสุ่มตัวอย่าง เพื่อลดปัญหาดังกล่าว จึงมีการใช้อัลกอริธึมการประมวลผลที่ค่อนข้างซับซ้อน เมื่อใช้งาน ไม่มีการสูญเสียข้อมูล แต่สัญญาณดั้งเดิมจะแสดงในรูปแบบที่กะทัดรัดกว่า ซึ่งต้องใช้บิตน้อยลงในการเข้ารหัส สิ่งสำคัญคืออัลกอริธึมทั้งหมดนี้ทำให้สามารถกู้คืนสัญญาณดั้งเดิมได้โดยไม่ผิดเพี้ยนระหว่างการแปลงแบบย้อนกลับ

อย่างไรก็ตาม แม้ว่าจะใช้ขั้นตอนการประมวลผลที่ค่อนข้างซับซ้อน การกำจัดความซ้ำซ้อนทางสถิติของสัญญาณเสียงในท้ายที่สุดก็ทำให้สามารถลดความจุช่องสัญญาณการสื่อสารที่ต้องการลงได้เพียง 15–25% เมื่อเทียบกับค่าเดิม ซึ่งไม่ถือเป็นความสำเร็จครั้งใหม่

หลังจากกำจัดความซ้ำซ้อนทางสถิติแล้ว ความเร็วของสตรีมดิจิทัลเมื่อส่งสัญญาณคุณภาพสูงและความสามารถของมนุษย์ในการประมวลผลจะแตกต่างกันตาม อย่างน้อย, โดยมีขนาดหลายประการ สิ่งนี้ยังบ่งชี้ถึงความซ้ำซ้อนทางจิตอะคูสติกที่มีนัยสำคัญของ ES ดิจิทัลหลัก ดังนั้นจึงมีความเป็นไปได้ที่จะลดลง สิ่งที่มีแนวโน้มมากที่สุดจากมุมมองนี้กลายเป็นวิธีการที่คำนึงถึงคุณสมบัติของการได้ยิน เช่น การสวมหน้ากาก การสวมหน้ากากล่วงหน้า และหลังการสวมหน้ากาก หากทราบว่าส่วนใดของสัญญาณเสียงที่หูรับรู้ และส่วนใดที่ไม่ได้เกิดจากการปิดบัง ก็เป็นไปได้ที่จะแยกและส่งผ่านช่องทางการสื่อสารเฉพาะส่วนของสัญญาณที่

ซึ่งหูสามารถรับรู้ได้ และส่วนที่ไม่ได้ยิน (ส่วนประกอบของสัญญาณดั้งเดิม) ก็ทิ้งไป (ไม่ส่งผ่านช่องทางสื่อสาร)

นอกจากนี้ สัญญาณสามารถหาปริมาณได้ด้วยความละเอียดระดับต่ำสุดเท่าที่จะเป็นไปได้ เพื่อให้การบิดเบือนของปริมาณที่เปลี่ยนแปลงตามการเปลี่ยนแปลงในระดับของสัญญาณเอง จะยังคงไม่ได้ยิน เช่น จะถูกบดบังด้วยสัญญาณเดิม อย่างไรก็ตาม หลังจากกำจัดความซ้ำซ้อนทางจิตอะคูสติกแล้ว การฟื้นฟูรูปร่างของฟังก์ชันชั่วคราวของ VS ในระหว่างการถอดรหัสจะไม่สามารถทำได้อีกต่อไป

จนถึงปัจจุบัน มาตรฐาน MPEG อื่นๆ อีกหลายมาตรฐานยังได้แพร่หลายในการออกอากาศทางวิทยุ เช่น MPEG-2 ISO/IEC 13818-3, 13818-7 และ MPEG-4 ISO/IEC 14496-3 ในทางตรงกันข้าม มาตรฐาน Dolby AC-3 (A/52) ได้รับการพัฒนาในสหรัฐอเมริกาเพื่อเป็นทางเลือกแทนมาตรฐาน MPEG แม้จะมีอัลกอริธึมการบีบอัดข้อมูลเสียงดิจิทัลที่หลากหลายอย่างมีนัยสำคัญ แต่โครงสร้างของตัวเข้ารหัสที่ใช้อัลกอริธึมการประมวลผลสัญญาณดังกล่าวสามารถแสดงได้ในรูปแบบของแผนภาพทั่วไปที่แสดงในรูปที่ 1 5.1.

กลุ่มมาตรฐาน MPEG

MPEG ย่อมาจาก "Moving Picture Coding Experts Group" ซึ่งเป็นกลุ่มผู้เชี่ยวชาญด้านการเข้ารหัสภาพเคลื่อนไหวอย่างแท้จริง MPEG มีอายุย้อนกลับไปในเดือนมกราคม 1988 จากการประชุมครั้งแรกในเดือนพฤษภาคม พ.ศ. 2531 กลุ่มเริ่มเติบโตและเติบโตขึ้นเป็นกลุ่มผู้เชี่ยวชาญที่ใหญ่มาก โดยทั่วไปแล้วในคอลเลกชัน MPEG

มีผู้เชี่ยวชาญประมาณ 350 คนจากบริษัทมากกว่า 200 แห่งเข้าร่วม

ผู้เข้าร่วม MPEG ส่วนใหญ่เป็นผู้เชี่ยวชาญที่เกี่ยวข้องกับด้านต่างๆ

สถาบันวิทยาศาสตร์และวิชาการอื่นๆ

มาตรฐาน MPEG-1

มาตรฐาน MPEG-1 (ISO/IEC 11172-3) ประกอบด้วยอัลกอริธึมสามอัลกอริธึมที่มีระดับความซับซ้อนต่างกัน: เลเยอร์ I, เลเยอร์ II และเลเยอร์ III โครงสร้างทั่วไปของกระบวนการเข้ารหัสจะเหมือนกันในทุกระดับ อย่างไรก็ตาม แม้ว่าระดับในแนวทางทั่วไปในการเขียนโค้ดจะมีความคล้ายคลึงกัน แต่ระดับก็แตกต่างกัน ตั้งใจใช้และกลไกภายใน แต่ละระดับมีสตรีมดิจิทัลของตัวเอง (ความกว้างของสตรีมทั้งหมด) และอัลกอริธึมการถอดรหัสของตัวเอง

MPEG-1 ได้รับการออกแบบมาเพื่อเข้ารหัสสัญญาณดิจิทัลที่อัตราการสุ่มตัวอย่าง 32, 44.1 และ 48 kHz ตามที่ระบุไว้ข้างต้น MPEG-1 มีสามเลเยอร์ (เลเยอร์ I, II และ III) ระดับเหล่านี้มีความแตกต่างในอัตราส่วนการบีบอัดที่ให้มาและคุณภาพเสียงของสตรีมผลลัพธ์

MPEG-1 ทำให้อัตราการสตรีมดิจิทัลต่อไปนี้เป็นปกติสำหรับทั้งสามระดับ: 32, 48, 56, 64, 96, 112, 192, 256, 384 และ 448 kbit/s จำนวนระดับการวัดปริมาณสัญญาณอินพุตอยู่ระหว่าง 16 ถึง 24 อินพุตมาตรฐาน สัญญาณสำหรับตัวเข้ารหัส MPEG-1 คือสัญญาณดิจิทัล AES/EBU (สัญญาณเสียงดิจิทัลสองช่องสัญญาณที่มีความสามารถในการหาปริมาณ 20–24 บิตต่อตัวอย่าง) มีโหมดการทำงานของตัวเข้ารหัสเสียงดังต่อไปนี้:

- ช่องทางเดียว (โมโน);

− ช่องสัญญาณคู่ (สเตอริโอหรือช่องโมโนสองช่อง)

− สเตอริโอร่วม (สัญญาณที่มีการแยกช่องด้านขวาและซ้ายบางส่วน)

คุณสมบัติที่สำคัญที่สุดของ MPEG-1 คือความเข้ากันได้แบบย้อนหลังเต็มรูปแบบของทั้งสามระดับ ซึ่งหมายความว่าตัวถอดรหัสแต่ละตัวสามารถถอดรหัสสัญญาณได้ไม่เพียงแต่จากตัวมันเองเท่านั้น แต่ยังมาจากชั้นล่างอีกด้วย MPEG-1 เป็นมาตรฐานสากลฉบับแรกสำหรับการบีบอัดเสียงดิจิทัล และนำไปสู่การใช้อย่างแพร่หลายในหลายด้าน: การแพร่ภาพกระจายเสียง การบันทึกเสียง การสื่อสาร และแอปพลิเคชันมัลติมีเดีย ระดับ II มีการใช้กันอย่างแพร่หลาย โดยได้กลายมาเป็นส่วนหนึ่งของมาตรฐานยุโรปสำหรับการแพร่ภาพโทรทัศน์ผ่านดาวเทียม เคเบิล และภาคพื้นดิน มาตรฐานการกระจายเสียง การบันทึกดีวีดี ITU Recommendations BS.1115 และ J.52 ระดับ III (หรือที่เรียกว่า MP3) มีการใช้กันอย่างแพร่หลายในเครือข่ายบริการดิจิทัลแบบครบวงจร (ISDN) และอินเทอร์เน็ต ไฟล์เพลงส่วนใหญ่บนอินเทอร์เน็ตได้รับการบันทึกในมาตรฐานนี้

มาตรฐาน MPEG-2

MPEG-2 เป็นส่วนขยายของ MPEG-1 นอกเหนือจาก เสียงหลายช่องสัญญาณ- ความเข้ากันได้ของ MPEG-2 กับ MPEG-1 ในแง่ของการเข้ารหัสเสียงส่งผลให้มีการใช้ระบบสามระดับที่พัฒนาใน MPEG-1 อย่างเต็มรูปแบบสำหรับการประมวลผลข้อมูลเสียงโดยตัวเข้ารหัส MPEG-2 ความแตกต่างระหว่างมาตรฐานต่างๆ เริ่มต้นด้วยการเปลี่ยนจากเสียงสองแชนเนลซึ่งนำมาใช้เป็นพื้นฐานใน MPEG-1 ไปเป็นเสียงหลายแชนเนลที่รองรับใน MPEG-2

MPEG-2 ระบุความแตกต่างของโหมดการส่งสัญญาณเสียงแบบหลายช่องสัญญาณ รวมถึงรูปแบบห้าช่องสัญญาณ เสียงเจ็ดช่องสัญญาณพร้อมลำโพงเพิ่มเติมสองตัว ที่ใช้ในโรงภาพยนตร์ที่มี หน้าจอกว้างการขยายรูปแบบเหล่านี้ด้วยช่องสัญญาณความถี่ต่ำ การจัดเรียงลำโพงที่สอดคล้องกันจะแสดงในตารางที่ 4 1. ในกรณีนี้ ตัวเศษของเศษส่วนจะระบุจำนวนช่องสัญญาณด้านหน้า และตัวส่วนจะระบุจำนวนช่องสัญญาณที่ปล่อยออกมาจากด้านหลัง

เสียงหลายช่องสัญญาณประเภทหนึ่งคือเสียงหลายภาษา ซึ่งสามารถทำได้โดยการส่งกระแสข้อมูลดิจิทัลแยกกันสำหรับแต่ละภาษา หรือ

เพิ่มช่องภาษาหลายช่อง (สูงสุด 7 ช่อง) ด้วยความเร็ว 64 kbit/s ให้กับสตรีมหลายช่องสัญญาณที่ 384 kbit/s โอนได้

ช่องเสียงเพิ่มเติมสำหรับผู้ที่มีความบกพร่องทางการมองเห็นและการได้ยิน

ระบบเข้ารหัสเสียงขั้นสูง AACหนึ่งในสิ่งที่ดีที่สุด

ระบบบีบอัดเสียงสมัยใหม่รู้จักระบบ AAC (Advanced Audio Coding - ระบบเข้ารหัสเสียงขั้นสูง)

ระบุไว้ในส่วนที่เจ็ดของมาตรฐาน ISO/IEC 13818 ไม่เหมือนกับวิธีการบีบอัดข้อมูลเสียงอื่นๆ ที่ใช้ใน MPEG-2 เนื่องจากไม่สามารถเข้ากันได้แบบย้อนหลัง - ตัวถอดรหัส MPEG-1 ไม่สามารถถอดรหัสสัญญาณ AAC ได้

ปัจจุบันมีรูปแบบ AAC ห้าประเภท:

2. เอทีแอนด์ที a2b AAC;

3. เครื่องทำให้เหลวPROAAC;

4. แอสทริด/ควอเท็กซ์ เอเอเอส;

การแก้ไขทั้งหมดนี้เข้ากันไม่ได้ มีตัวเข้ารหัส/ตัวถอดรหัสของตัวเอง และคุณภาพไม่เหมือนกัน

มาตรฐาน MPEG-4

เป็นวิธีการบีบอัดเสียง MPEG-4 (ISO/IEC 14496-3) ใช้ชุดของมาตรฐานการเข้ารหัสเสียงหลายชุด: อัลกอริทึม MPEG-2 AAC ที่ได้รับการปรับปรุง, อัลกอริทึม TwinVQ รวมถึงอัลกอริทึมการเข้ารหัสคำพูด HVXC และ CELP นอกจากนี้ MPEG-4 ยังมีกลไกการปรับขนาดและการทำนายมากมาย อย่างไรก็ตาม โดยทั่วไปแล้ว มาตรฐาน MPEG-4 AAC ซึ่งกำหนดกฎและอัลกอริธึมสำหรับการเข้ารหัสเสียง โดยทั่วไปแล้วจะเป็นความต่อเนื่องของ MPEG-2 AAC

MPEG-4 Audio มีแอพพลิเคชั่นที่หลากหลาย

ครอบคลุมพื้นที่ตั้งแต่เสียงพูดธรรมดาไปจนถึงเสียงหลายช่องสัญญาณคุณภาพสูง และตั้งแต่เสียงธรรมชาติไปจนถึงเสียงสังเคราะห์

วิธีการเข้ารหัส MPEG-4 CELPวิธีการเข้ารหัส MPEG-4

CELP ได้รับการออกแบบมาเพื่อประมวลผลสัญญาณเสียงพูด ในทางปฏิบัติ

ตัวเข้ารหัสที่ใช้ส่วนใหญ่มีสามคลาสหลัก: ตัวเข้ารหัสรูปร่าง

vocoders และตัวเข้ารหัสแบบไฮบริด

ตัวเข้ารหัสรูปร่างมีลักษณะพิเศษคือความสามารถในการรักษาพื้นฐาน

แบบฟอร์มสัญญาณเสียงพูด ตัวเข้ารหัสรูปร่างประกอบด้วยตัวเข้ารหัสแบบพัลส์

การมอดูเลตโค้ด (PCM), ตัวเข้ารหัส PCM แบบดิฟเฟอเรนเชียล (DICM)

PCM เฟืองท้ายแบบปรับได้ (ADCM) เป็นต้น ระบบส่งกำลังด้วย

มีตัวเข้ารหัสประเภทเดียวกันให้มาด้วย คุณภาพดีการสร้างสัญญาณเสียงพูด (ย่านความถี่มาตรฐานคือ 300–3400 Hz) และสัญญาณเสียงบรอดแบนด์เพิ่มเติม อย่างไรก็ตาม ตัวเข้ารหัสเหล่านี้ไม่ได้ผลในแง่ของการลดอัตราการส่งสัญญาณดิจิทัล

Vocoders (จากคำภาษาอังกฤษ "เสียง" - เสียงและ "coder" - อุปกรณ์เข้ารหัส) ช่วยลดความเร็วในการส่งสัญญาณคำพูดได้มากขึ้นอย่างมาก การบีบอัดที่ด้านส่งสัญญาณจะดำเนินการในเครื่องวิเคราะห์ที่จะแยกส่วนประกอบที่เปลี่ยนแปลงอย่างช้าๆ ออกจากสัญญาณเสียงพูด ซึ่งจะถูกส่งผ่านช่องทางการสื่อสารในรูปแบบของการรวมรหัส ที่ฝั่งรับ สัญญาณเสียงพูดจะถูกสังเคราะห์โดยใช้แหล่งสัญญาณเฉพาะที่ควบคุมโดยใช้ข้อมูลที่ได้รับ

มาตรฐาน MPEG-7

เสียง MPEG-7 FCD มีห้าเทคโนโลยี: เฟรมเวิร์กคำอธิบายเสียง ซึ่งรวมถึงลำดับที่ปรับขนาดได้ คำอธิบายระดับต่ำ และส่วนความเงียบที่สม่ำเสมอ หมายถึงการพรรณนาเสียงของเครื่องดนตรี เครื่องมือการรู้จำเสียง วิธีการอธิบายเนื้อหาเสียงและวิธีการอธิบายทำนอง

คำอธิบายของระบบเสียง MPEG-7โครงสร้างเสียงประกอบด้วย

เครื่องมือระดับล่างที่เป็นพื้นฐานสำหรับการก่อตัว แอปพลิเคชั่นเสียงระดับสูง ด้วยการจัดเตรียมแพลตฟอร์มโครงสร้างคำอธิบายทั่วไป MPEG-7 Audio จึงกำหนดพื้นฐานสำหรับการทำงานร่วมกันระหว่างแอปพลิเคชันทั้งหมดที่สามารถสร้างภายในระบบได้

วิธีการบีบอัดเสียง Ogg Vorbis

ทันทีหลังจากการปรากฏตัว รูปแบบ MP3 ก็ได้รับความนิยมอย่างมาก

ความนิยมในหมู่ผู้ใช้คอมพิวเตอร์ส่วนบุคคลบนแผ่นดิสก์เสียง

ขนาด 650 MB สามารถรองรับได้มากกว่า 10 เท่า ข้อมูลเสียงโดยยังคงรักษาคุณภาพที่ยอมรับได้ ไฟล์ที่สร้างขึ้นในลักษณะนี้สามารถส่งผ่านอินเทอร์เน็ต ใช้ในอุปกรณ์พกพา และรวบรวมไว้ในคอลเลกชันเพลงได้อย่างง่ายดาย

OggVorbis อยู่ในรูปแบบการบีบอัดเสียงประเภทเดียวกันกับ MP3, AAC, VQF, PAC, QDesign AIFF และ WMA เช่น เป็นรูปแบบการบีบอัดที่สูญเสียไป แบบจำลอง Psychoacoustic ที่ใช้ใน OggVorbis โดย

หลักการทำงานใกล้เคียงกับ MP3 และอื่น ๆ ที่คล้ายกัน แต่เฉพาะการประมวลผลทางคณิตศาสตร์และการใช้งานจริงของแบบจำลองนี้เท่านั้นที่เป็นพื้นฐาน

เป็นอิสระจากรุ่นก่อนทั้งหมด

หลัก ข้อได้เปรียบที่ไม่อาจปฏิเสธได้รูปแบบ OggVorbis เป็นของเขา

ความเปิดกว้างที่สมบูรณ์และฟรี WMA และ Astrid/Quartex นั้นให้บริการฟรีเช่นกัน แต่ผู้เขียนรูปแบบเหล่านี้ยังไม่ได้เผยแพร่ซอร์สโค้ดของการพัฒนาของพวกเขา และ Xiphophorus ก็ได้ทำเช่นนั้นแล้ว OggVorbis ถูกสร้างขึ้นภายใต้โครงการ GNU และอยู่ภายใต้ GNU GPL (ใบอนุญาตสาธารณะทั่วไป) ทั้งหมด ซึ่งหมายความว่ารูปแบบนี้เปิดให้ใช้ในเชิงพาณิชย์และไม่ใช่เชิงพาณิชย์โดยสมบูรณ์ รหัสสามารถแก้ไขได้โดยไม่มีข้อจำกัด กลุ่มพัฒนาขอสงวนสิทธิ์ในการอนุมัติข้อกำหนดรูปแบบใหม่เท่านั้น

OggVorbis ใช้แบบจำลองทางจิตทางคณิตศาสตร์ที่แตกต่างจาก MP3 และสิ่งนี้ส่งผลต่อเสียง MP3 และ OggVorbis นั้นเปรียบเทียบได้ยาก แต่ OggVorbis โดยรวมฟังดูดีกว่ามาก

เมื่อเข้ารหัส ตัวแปลงสัญญาณ OggVorbis จะใช้ VBR (บิตเรตแปรผัน) เช่นเดียวกับตัวแปลงสัญญาณ MP3 บางตัว ซึ่งช่วยให้คุณลดขนาดขององค์ประกอบลงอย่างมากโดยสูญเสียคุณภาพเล็กน้อย

สำหรับความเร็วการเข้ารหัสยังไม่มีผลลัพธ์ที่โดดเด่น ความเร็วของตัวแปลงสัญญาณ OggVorbis นั้นไม่เร็วไปกว่าตัวแปลงสัญญาณ MP3 นักพัฒนายอมรับว่าโค้ดตัวแปลงสัญญาณไม่ได้รับการปรับให้เหมาะสมเลยเนื่องจากโปรแกรมนี้เปิดตัวโดยเร็วที่สุดเพื่อแสดงข้อกำหนดเพื่อไม่ให้ไม่มีมูลความจริง นั่นคือในอนาคตเราสามารถคาดหวังการปรับปรุงลักษณะความเร็วได้อย่างมีนัยสำคัญ โดยเฉพาะอย่างยิ่งเมื่อผู้ผลิตบุคคลที่สามเข้าร่วม

OggVorbis เช่นเดียวกับ MP3 ได้รับการพัฒนาให้เป็นเครือข่าย

รูปแบบการสตรีม คุณสมบัตินี้มีความสำคัญมาก โดยเฉพาะอย่างยิ่งเมื่อพิจารณาถึงลักษณะหลายแพลตฟอร์มของรูปแบบ OggVorbis สถานีวิทยุอินเทอร์เน็ตที่ใช้ OggVorbis เวอร์ชันความเร็วต่ำจะสามารถออกอากาศบนทุกแพลตฟอร์มได้ในคราวเดียว ในขณะที่สถานีวิทยุเดียวกันที่ใช้ WMA (เช่น ASF) สำหรับการส่งสัญญาณจะจำกัดเฉพาะผู้ใช้ Windows เท่านั้น

จากบรรณาธิการ

เรากำลังเผยแพร่บทความนี้ฉบับที่สอง ขยายและปรับปรุง ผู้อ่านของเราหลายคนจะพบว่าเนื้อหาที่นำเสนอที่นี่ชัดเจนเกินไป ในขณะที่คนอื่นๆ จะพบว่าเนื้อหาดังกล่าวขัดแย้งกันมาก อย่างไรก็ตามสำหรับคนที่เพิ่งค้นพบความมีอยู่จริง โลกมหัศจรรย์ MP3บทความนี้ควรเป็นประโยชน์อันล้ำค่าและตอบคำถามส่วนใหญ่ที่เกิดขึ้น

จากผู้เขียน

ตามชื่อเรื่อง บทความนี้เน้นไปที่การอธิบายรายละเอียดปลีกย่อยบางประการที่เกิดขึ้นเมื่อใช้มาตรฐานการบีบอัดเสียง MPEG I/II Layer 3 (mp3) งานนี้ไม่ได้อ้างว่าเป็นการศึกษาที่สมบูรณ์ซึ่งรวมถึงการทดสอบโปรแกรมเปลี่ยนไฟล์หรือเครื่องเล่น MP3 นี่เป็นเพียงความพยายามของผู้เขียนในการจัดโครงสร้างความรู้รวมทั้งสะท้อนประสบการณ์ของเขากับมาตรฐานที่กล่าวข้างต้น

วิธีการนำเสนอเนื้อหาถือว่าผู้อ่านมี ความรู้พื้นฐานเป็น mp3 ซึ่งคุณสามารถรับได้ตลอดเวลาจากแหล่งที่มาที่ระบุไว้ในส่วน "รายการลิงก์"

ประเด็นเชิงกลยุทธ์

มันสมเหตุสมผลไหมที่จะใช้การบีบอัดแบบสูญเสีย? เลย?

เรามาลองร่างขอบเขตของแอปพลิเคชั่น mp3 กัน ทุกที่ที่คุณภาพเสียงไม่ควรจะเป็น อย่างแน่นอนสอดคล้องกับต้นฉบับและในกรณีที่การประมวลผลข้อมูลที่เก็บไว้อย่างจริงจังอาจไม่จำเป็นในอนาคต การใช้ mp3 (หรือรูปแบบการบีบอัดข้อมูลสูญหายอื่น ๆ ) ก็ค่อนข้างยอมรับได้ ไม่ใช่ทุกคนที่ต้องการใส่แผ่นเพลงใหม่ลงในไดรฟ์ซีดีทุกๆ ชั่วโมง หากฮาร์ดไดรฟ์มีความจุหลายสิบกิกะไบต์ การบันทึกเพลงในรูปแบบ MP3 ลงในฮาร์ดไดรฟ์หรือซีดีรอมและฟังจากที่นั่นทำได้ง่ายกว่ามาก หรือใช้เครื่องเล่น MP3 แบบพกพา เครื่องเล่น MP3-CD วิทยุติดรถยนต์ที่รองรับ MP3 หรือคุณสามารถดาวน์โหลด mp3 จากอินเทอร์เน็ตที่คุณเลือกได้

ส่วนนี้และส่วนย่อยถัดไปจะอธิบายกรณีที่การใช้การบีบอัดแบบสูญเสียเป็นสิ่งที่ยอมรับไม่ได้ และจะพยายามทำความเข้าใจด้วยว่าเพราะเหตุใด

ไม่มีเหตุผลที่จะสร้างการจัดเก็บข้อมูลเสียงเพื่อการประมวลผลเพิ่มเติม (ไลบรารีตัวอย่าง ไลบรารีเพลง ฯลฯ) ให้เป็น MP3 สิ่งนี้ใช้กับ MiniDisk (ซึ่งใช้การบีบอัดแบบสูญเสียข้อมูลด้วย) และรูปแบบอื่น ๆ : การประมวลผลดิจิทัลหลายประเภททำให้เกิดการบิดเบือนของเสียง กฎข้อนี้ไม่ขึ้นอยู่กับบิตเรตที่ใช้ เมื่อพูดถึงการประมวลผลเสียงเพิ่มเติม ฉันหมายถึงบางสิ่งที่จริงจังมากกว่าแค่มิกซ์หรือเฟดเข้า/ออก เช่น Flange, การบิดเบือน, การบีบอัดไดนามิก, เสียงก้อง, การกรองเสียงรบกวน และแม้แต่การใช้อีควอไลเซอร์... ตัวอย่างเช่น ไม่สามารถจัดเก็บตัวอย่างในรูปแบบ MP3 ได้ (สำหรับการจัดเก็บให้ใช้รูปแบบการบีบอัดพิเศษ ไม่มีการสูญเสียเช่น sfArk) เนื่องจากในกรณีของการเข้ารหัสที่สูญหาย จึงเป็นไปไม่ได้ที่จะกู้คืนข้อมูลที่สูญหายระหว่างขั้นตอนการเข้ารหัสได้ ขอแนะนำให้บันทึกเฉพาะการบันทึกเสียงเวอร์ชันสุดท้ายในรูปแบบ MP3

ข้อโต้แย้งอีกประการหนึ่ง: คุณรู้วิธีบันทึกแผ่นดิสก์เสียงที่กลั่นเป็น MP3 แล้วกลับลงบนซีดีเพลงเพื่อไม่ให้มีการหยุดชั่วคราวหรือคลิกระหว่างแทร็กโดยไม่จำเป็นหรือไม่? ไม่รู้เหรอ? อ่านพูด www.r3mix.net มันยุ่งยากมาก... หากคุณต้องการพูดว่า: “แต่ฉันทำได้ ทุกอย่างเรียบร้อยดี!” — มาระบุงานกันดีกว่า: เพลงควรเคลื่อนไหวโดยไม่หยุดจากแทร็กหนึ่งไปอีกแทร็ก และการหยุดชั่วคราวนั้นไม่เพียงแต่ถือเป็นช่วงเวลา 1-2 วินาทีเท่านั้น แต่ยังรวมถึงช่วงความเงียบเล็กๆ สองสามถึงสิบมิลลิวินาทีด้วย ตามทฤษฎีแล้ว ในกรณีนี้ ทุกอย่างสามารถทำได้พร้อมกันอย่างสมบูรณ์แบบ แต่กลับกลายเป็นว่า "เกมนี้ไม่คุ้มกับเทียน"

มีวิธีใดบ้างในการจัดเก็บเสียงแบบไม่สูญเสียข้อมูล?

ฉันจัดเก็บคลังเพลงของฉันไว้ในไฟล์ wav (ในรูปแบบ PCM) คุณยังสามารถใช้ CD-DA; มีคุณลักษณะที่เข้ากันได้มากกว่า แต่มีความแม่นยำในการอ่านต่ำกว่าระหว่างการเล่น มีตัวเลือกอื่น ๆ - การเก็บถาวรแบบปกติ (ZIP, RAR) หรือ โปรแกรมพิเศษเช่น WavPack, Monkey's Audio, RK Audio, LPAC Archiver, Shorten อย่างไรก็ตามการทำงานกับไฟล์ที่ถูกบีบอัดในลักษณะนี้เต็มไปด้วยความประหลาดใจอันไม่พึงประสงค์: ผู้เล่นส่วนใหญ่เล่น wav (PCM) แต่แปลกใหม่เช่น RKA... การมีอยู่ของปลั๊กอินสำหรับ RKA นั้นเป็นที่รู้จักภายใต้ WinAmp แต่ WinAmp นั้นไม่เหมือนกัน: มีผู้ที่ไม่ได้ใช้มัน ดังนั้น WinAmp เพียงอย่างเดียวจึงเข้ากันไม่ได้ (ใน. ในความหมายกว้างๆ- แล้วโปรแกรมผู้เล่นอื่นล่ะ? แล้วผู้เล่นฮาร์ดแวร์ล่ะ? แล้วเครื่องเล่น mp3-CD ล่ะ? ฉันไม่รู้เกี่ยวกับคุณ แต่สำหรับฉันความเข้ากันได้ในแง่ข้างต้นเป็นสิ่งสำคัญมาก และการใช้คู่เข้ารหัส/เครื่องเล่นเพียงคู่เดียวจะจำกัดเสรีภาพอย่างมาก ตัวอย่างเช่น เพื่อให้เพื่อนของคุณฟังไฟล์ คุณยังต้องโน้มน้าวพวกเขาถึงความจำเป็นในการใช้เครื่องเล่นใหม่

ควรคำนึงถึงอะไรบ้างเมื่อเลือกพารามิเตอร์การบีบอัด

ในความคิดของฉัน โหมดการบีบอัดหลักๆ สามารถแยกแยะได้สองโหมด: “รักษาระดับคุณภาพที่ยอมรับได้ในขณะที่บรรลุเป้าหมาย การบีบอัดสูงสุด" (ตัวอย่างเช่น สำหรับการเผยแพร่บนเว็บ) และ "การรักษาคุณภาพของเนื้อหาต้นฉบับโดยสมบูรณ์โดยไม่มีการบีบอัดที่ยิ่งใหญ่ที่สุด" (สำหรับการจัดเก็บและการฟังปกติ) เป็นที่น่าสังเกตว่าบิตเรตเกณฑ์สำหรับทั้งสองโหมดนั้นเป็นรายบุคคล . สำหรับฉันพวกเขาอยู่ที่ 128 และ 256 kb/s ตามลำดับ แน่นอนว่ามีตัวเลือกระดับกลางมากมาย: มีเครื่องเล่น MP3 แบบพกพาที่มีหูฟังด้อยกว่าซึ่งต้องการวิทยุที่รองรับ MP3 และติดตั้งระบบเสียงที่ดีกว่า ในรถยนต์ - ที่นี่คุณจะต้องมี 192 kb/s ดังนั้นเมื่อเลือกพารามิเตอร์การบีบอัด คุณต้องกำหนดงานที่จะสร้างไฟล์ MP3 ก่อน และจากนี้ ให้ตัดสินใจว่าอัตราส่วนระหว่างคุณภาพเสียงและขนาดไฟล์ จะเหมาะกับคุณ คุณภาพเสียง คนละคนอาจแตกต่างกันมาก

จากมุมมอง สามัญสำนึกคุณไม่ควรกังวลกับคำถาม: “บิตเรตเท่าไหร่ก็เพียงพอแล้ว ไม่มีใครไม่ได้ยินความแตกต่างกับ CD-DA เลยเหรอ?” ท้ายที่สุดแล้ว ประเด็นทั้งหมดก็คือโมเดลทางจิตอะคูสติกของอัลกอริธึม mp3 ได้รับการพัฒนาสำหรับคนทั่วไปที่มีหูทั่วๆ ไป ดังนั้น การตัดสินคุณค่าในประเด็นที่หยิบยกขึ้นมาอาจไม่เห็นด้วยแบบ Diametrically สำหรับบางคน คุณภาพของ mp3 @ 128 kbps ที่สร้างโดย Xing ก็ไม่ได้แย่ไปกว่า Audio CD แม้แต่กับอุปกรณ์ที่ยอดเยี่ยมก็ตาม อีกวิธีหนึ่งสามารถแยกแยะ mp3@320 kbps จากซีดีเพลงได้อย่างง่ายดายในการทดสอบแบบ blind จากที่นี่คุณเพียงแค่ต้องได้ข้อสรุปที่ถูกต้อง ในกรณีแรกบุคคลไม่จำเป็นต้องใช้เงินเป็นจำนวนมากกับอุปกรณ์เครื่องเสียงคุณภาพสูงและประการที่สองเรายินดีกับการได้ยินที่ดีของเธอ (ของเขา) เท่านั้น ดังนั้น ตามความต้องการของคุณเอง คุณจะต้องทดลองหนึ่งครั้งเพื่อดูว่าคุณควรปฏิบัติตามพารามิเตอร์ใดในอนาคต

ในกรณีที่มีการประดิษฐ์อัลกอริธึมที่ได้รับการปรับปรุงซึ่งเป็นพื้นฐานใหม่ (เรียกว่า mp2000) การจัดเก็บไฟล์ wav จะทำให้สำเนาต้นฉบับของต้นฉบับถูกกลั่นให้อยู่ในรูปแบบคุณภาพสูงขึ้นได้ ในขณะที่ต้นฉบับอาจไม่ได้อยู่ในมืออีกต่อไป ... หากคุณจำได้ สถานการณ์ที่คล้ายกันก็เกิดขึ้นเมื่อเริ่มต้นการเดินขบวนแห่งชัยชนะของรูปแบบการบีบอัดวิดีโอ MPEG4

รูปแบบการบีบอัดแบบ lossy ใดที่เหมาะสมที่สุด: mp3, LQT, WMA, MP+, ogg vorbis...

ควรสังเกตว่าจนถึงขณะนี้ยังไม่มีทางเลือกอื่นนอกเหนือจากรูปแบบ MP3 ที่ระบุไว้ในชื่อทั้งในด้านคุณภาพและความเข้ากันได้ มีรูปแบบต่างๆ ที่ปัจจุบันมีคุณภาพเทียบเท่าหรือดีกว่า MP3 อยู่แล้ว ตัวอย่างเช่น LQT AAC ซึ่งมักเรียกว่า mp4 อย่างไรก็ตาม บิตเรตนั้นจำกัดอยู่ที่ 192 kb/s (ซึ่งผู้ที่ชื่นชอบ mp3 @ 256/320 kbps ไม่ชอบ) และความต้องการอุปกรณ์นั้นรุนแรงกว่ามาก (อย่างไรก็ตาม ในยุคของการพัฒนาอย่างรวดเร็ว เทคโนโลยีคอมพิวเตอร์เป็นปัญหาชั่วคราว) อย่างไรก็ตาม ฉันคิดว่าคุณจะเห็นด้วยว่าไม่มีใครเทียบได้กับความเข้ากันได้ของ mp3

คู่แข่งที่แท้จริงอีกคนคือ ogg vorbis ขณะนี้รูปแบบนี้อยู่ในการทดสอบเบต้า แต่พวกเขาบอกว่ามีประสิทธิภาพดีมากและมีศักยภาพสูง บนอินเทอร์เน็ตมีการพูดคุยถึง "ข้อดี" และ "ข้อเสีย" ของการใช้ ogg และ mp3 และการเปรียบเทียบมักจะไม่เข้าข้างกับสิ่งหลัง

เห็นได้ชัดว่า mp3 จะถูกแทนที่เป็นเวลานาน: จำ CD-DA ซึ่งคาดว่าจะตายในไม่ช้าหลังจากการถือกำเนิดของ mp3, MiniDisk ฯลฯ ความคิดเห็นมากมายเกี่ยวกับ mp3 ก็เป็นจริงสำหรับรูปแบบการบีบอัดที่สูญเสียอื่น ๆ เช่นกัน

เล่น MP3

ส่วนนี้จะน่าสนใจแม้กระทั่งกับผู้ที่ไม่ต้องการใช้การบีบอัดข้อมูลเสียงเลย เราจะพูดถึงแง่มุมที่ไม่ชัดเจนในการเล่นไฟล์สำเร็จรูป

เครื่องเล่น mp3 ตัวไหนดีกว่ากัน?

ในบรรดาผู้เล่นซอฟต์แวร์ ผู้ที่ทำด้วยโค้ด Fraunhofer มักจะถือว่าดีที่สุด: WinAmp, WinPlay, AudioActive, Microsoft Media Player บางเวอร์ชัน... โค้ดจาก Fraunhofer ใช้ใน WinAmp เวอร์ชัน 1.5, 1.6, 2.13, 2.20, 2.21, 2.22, 2.666, 2.7 และใหม่กว่า ; เวอร์ชันอื่น ๆ มีการติดตั้งตัวถอดรหัสของตัวเองจาก NullSoft และลิขสิทธิ์ของ Fraunhofer นั้นเป็นไปตามข้อกำหนดด้านลิขสิทธิ์เท่านั้น X-Audio และทุกสิ่งที่ทำกับโค้ดนี้ก็สมควรได้รับการกล่าวถึงเช่นกัน (, CoolPlay, MusicMatch Jukebox มี รวมถึงผู้เล่นหลายคนที่ใช้รหัส ISO ซึ่งประสบความสำเร็จมากที่สุด) - MPG123, UltraPlayer และ Apollo ที่ฉันชื่นชอบ (แน่นอนว่าคุณภาพการเล่นไม่เหมาะ แต่โดยทั่วไปแล้วสะดวกมาก) สำหรับการถอดรหัส mp3 ที่สร้างขึ้นบนพื้นฐานของ MPG123 เครื่องเล่น NAD ซึ่งใช้รหัสเสียง ISO นั้นถือว่าเป็นหนึ่งในเครื่องเล่นที่ดีที่สุด แต่ปัญหาคือมันไม่เข้าใจทุกอย่างที่ทำบน Xing รหัส (เครื่องเล่น Xing, FreeAmp) ถือเป็นตัวเลือกที่แย่ที่สุด: เครื่องเล่นเหล่านี้เพิ่มความถี่สูง ซึ่งเห็นได้ชัดว่าทำด้วยเหตุผลนี้

สำหรับเครื่องเล่น mp3 แบบฮาร์ดแวร์แล้วพวกเขาล่ะ? โครงสร้างภายในไม่ค่อยมีใครรู้เกี่ยวกับอัลกอริทึมที่ใช้ แต่สิ่งที่แน่นอนก็คืออัลกอริธึมที่พวกเขาใช้นั้นเหมือนกับในเครื่องเล่นซอฟต์แวร์ บางส่วนมีการใช้งานฮาร์ดแวร์ของอัลกอริธึม Fraunhofer ชิปแยก- ผู้เล่นคนอื่นๆ ยังมีชิปแฟลชเพื่ออัปเดตอัลกอริธึมการถอดรหัส MP3 ไม่ว่าในกรณีใด คุณต้องดูว่าโปรแกรมเล่นนั้นใช้รหัสอะไร เชื่อกันว่า Fraunhofer นั้นดีเสมอ ISO และ X-Audio ขึ้นอยู่กับการใช้งาน ส่วน Xing นั้นแย่อย่างแน่นอน

การเลือกเครื่องเล่นไฟล์ MP3 ขึ้นอยู่กับตัวเข้ารหัสที่คุณใช้หรือไม่

ใช่. ตามที่เขียนไว้ข้างต้น ผู้เล่นที่ใช้ Xing จะเพิ่มความถี่สูง เนื่องจากตัวเข้ารหัสที่ใช้ Xing จะตัดความถี่เหล่านี้อย่างไร้ยางอายในระหว่างการบีบอัด พวกมันจะชดเชยกันเป็นคู่: ไฟล์ mp3 ที่สร้างโดย Xing จะฟังดูดีกว่ามากเมื่อแสดงโดย Xing MPEG Player มากกว่าโดย Fraunhofer ผู้เขียน LAME (ดูหัวข้อถัดไป) แนะนำให้ใช้ LAME เพื่อถอดรหัส mp3 ที่พวกเขาสร้างด้วย

แน่นอนว่าการเก็บชุดเครื่องเล่นหรือแม้แต่ตัวถอดรหัส (โปรแกรมที่สามารถแปลงไฟล์ mp3 เป็น PCM wav เท่านั้น) ไว้ที่บ้านนั้นไม่สะดวก ดังนั้นฉันขอแนะนำให้ใช้มาตรการที่รุนแรงเช่นนี้เฉพาะในกรณีที่สำคัญโดยเฉพาะอย่างยิ่งในการแปลงเสียงจาก MP3: การบันทึกลงในซีดีเพลง การมิกซ์ การบรรจุใหม่ด้วยตัวเข้ารหัสอื่น ฯลฯ

จะทราบได้อย่างไรว่าตัวเข้ารหัสใดสร้างไฟล์ mp3

เนื่องจากรูปแบบ MP3 ไม่มีลายเซ็นตัวเข้ารหัสใดๆ ในไฟล์ที่สร้างขึ้น จึงเป็นเรื่องยากมากที่จะระบุอย่างชัดเจนว่าใช้ตัวเข้ารหัสใด มีสัญญาณหลายอย่างที่ทำให้สามารถคาดเดาความน่าจะเป็นได้มากหรือน้อย: ตัวอย่างเช่นตัวเข้ารหัสที่ใช้ Fraunhofer และ ISO เติมความเงียบด้วยค่าที่แตกต่างกัน (ในทางเสียงความเงียบจะไม่ถูกทำลาย) เพื่อใช้เทคโนโลยี VBR พวกเขาแทรกลายเซ็นลงในไฟล์ดังกล่าว ต่อมา LAME เริ่มสร้างลายเซ็นเดียวกัน (ดูหัวข้อถัดไป) ซึ่งแน่นอนว่างานในการระบุตัวเข้ารหัสที่ใช้นั้นซับซ้อน .

มีโปรแกรมที่พยายามพิจารณาว่าตัวเข้ารหัสใดที่ใช้ในการสร้าง MP3 ตามคุณลักษณะที่ทราบ หนึ่งในโปรแกรมดังกล่าวคือ RenaTager เมื่อใช้งานอาจเกิดปัญหา: โปรแกรมไม่ได้รับการแก้ไขอีกต่อไปดังนั้นจึงตรวจพบตัวเข้ารหัสเวอร์ชันใหม่อย่างไม่ถูกต้อง บางทีฟังก์ชันดังกล่าวอาจรวมอยู่ในปลั๊กอินทางเลือกสำหรับ WinAmp สำหรับการเล่น mp3 MAD ในไม่ช้า ฉันเคยได้ยินเกี่ยวกับ mp3GuessEnc ซึ่งมีอินเทอร์เฟซบรรทัดคำสั่งและ EncSpot ซึ่งเป็นโปรแกรมที่คล้ายกันซึ่งมีอินเทอร์เฟซหน้าต่างที่สะดวก แต่เป็นไปไม่ได้ที่จะแน่ใจ 100% ว่าโปรแกรมเปลี่ยนไฟล์ใดได้รับไฟล์ บ่อยครั้งที่โปรแกรมเหล่านี้แสดงว่าหนึ่งหรือสองแทร็กจากซีดีถูกสร้างขึ้นโดยตัวเข้ารหัสอื่น แม้ว่าดิสก์นั้นจะถูกบีบอัดด้วยตัวเข้ารหัสตัวเดียวที่มีพารามิเตอร์เดียวกันก็ตาม

อย่างไรก็ตาม มาตรฐาน id3v2 จัดให้มีฟิลด์ที่ระบุชื่อของตัวเข้ารหัส

อุทิศให้กับเลเมอร์...

เพื่อให้ผู้อ่านเข้าใจสิ่งที่จะกล่าวถึงได้ดีขึ้น ให้ฉันอ้างอิงข้อความที่ตัดตอนมาจากพจนานุกรมภาษาอังกฤษ-รัสเซีย:

ไม่ได้เรื่อง - - คำคุณศัพท์- 1) ง่อยขาดวิ่น; 2) ไม่สำเร็จ, ไม่ถูกต้อง; 3) การสลายตัว ชนบท, ถอยหลัง

ลีมคืออะไร?

LAME (อ่านว่า "leim") เป็นโครงการสร้างซอฟต์แวร์เข้ารหัส mp3 ตามหลักการโอเพ่นซอร์ส ชื่อของโครงการย่อมาจาก "Lame Ain"t a Mpeg Encoder" ซึ่งแปลว่า "Lame ไม่ใช่ตัวเข้ารหัส MPEG"

โค้ดทั้งหมดเขียนโดยกลุ่มโปรแกรมเมอร์ผู้กระตือรือร้น รหัสสาธิตจาก ISO ซึ่งแจกจ่ายอย่างอิสระเป็นไฟล์แนบกับมาตรฐาน MPEG ถือเป็นพื้นฐาน ตัวเข้ารหัสกำลังได้รับการปรับปรุงแบบไดนามิก: เวอร์ชันใหม่ออกเกือบทุกวัน

ในความคิดของฉัน Leim สมควรได้รับการยอมรับมากกว่านี้ นี่คือตัวเข้ารหัสที่ยอดเยี่ยมที่มีการตั้งค่าจำนวนมากที่ให้คุณเข้ารหัสเพื่อให้เหมาะกับทุกรสนิยม Layme รองรับ VBR การเข้ารหัสที่อัตราบิตสูงสุด 320 kb/s การเลือกโหมดการเข้ารหัสสัญญาณสเตอริโอ การเลือกความถี่คัตออฟสำหรับตัวกรองความถี่สูงและความถี่ต่ำผ่าน และอื่นๆ อีกมากมาย คุณภาพของการเข้ารหัสที่บิตเรตสูงเป็นที่ยอมรับในระดับสากลว่าดีที่สุด

เพื่อหลีกเลี่ยงข้อจำกัดด้านลิขสิทธิ์ของผู้เขียนมาตรฐาน MPEG Layer 3 และเจ้าของสิทธิบัตร Fraunhofer IIS เลเยอร์นี้จึงได้รับการเผยแพร่อย่างเป็นทางการในรูปแบบแพตช์เท่านั้น (การแก้ไขหรือการแทนที่ไฟล์หลายไฟล์) สำหรับโค้ดตัวเข้ารหัส mp3 ต้นฉบับจาก ISO ตามข้อจำกัดเหล่านี้ ผู้เขียนหรือผู้จัดจำหน่ายโปรแกรม mp3 จะต้องชำระค่าธรรมเนียมใบอนุญาต ไม่ว่าโปรแกรมจะขายหรือแจกจ่ายอย่างเสรีก็ตาม Fraunhofer อ้างว่าละเมิดสิทธิ์จึงปิดโครงการที่น่าสนใจหลายโครงการในสาขา mp3 ได้ เช่น เครื่องเล่น NAD, ตัวเข้ารหัส mpegEnc

เกือบทั้งหมด ซอร์สโค้ด ISO ได้รับการอัปเดต ดังนั้นข้อความต้นฉบับจึงเพียงพอที่จะรวบรวมและสร้างเวอร์ชันเปลวไฟที่ใช้งานได้ โปรดทราบว่าไม่มีเพจอย่างเป็นทางการ โปรแกรมสำเร็จรูป(เพื่อให้ Fraunhofer ไม่สามารถจับผิดได้) คุณจะได้เรียนรู้ว่าจะพบสิ่งเหล่านี้ได้ที่ไหนในหัวข้อย่อยข้อใดข้อหนึ่งต่อไปนี้

Leim ไม่มีเชลล์แบบกราฟิกและควบคุมจากบรรทัดคำสั่ง จะค้นหาเชลล์กราฟิกที่สร้างขึ้นโดยเฉพาะสำหรับโปรแกรมนี้ได้ที่ไหนจะกล่าวถึงด้านล่าง บางโปรแกรม (เช่น สำหรับการคัดลอกเพลงจากซีดีเพลง) มีความสามารถในการเชื่อมต่อตัวเข้ารหัส mp3 ภายนอก โดยเฉพาะ LAME รายชื่อโปรแกรมดังกล่าวได้รับที่

มี leim เวอร์ชันใดบ้าง? เวอร์ชั่นไหนใหม่กว่า อันไหนน่าเชื่อถือกว่ากัน?

เวอร์ชันล่าสุดมีชื่อสามัญว่าอัลฟ่า ไม่มีใครรวมทั้งผู้เขียนโค้ดสามารถรับประกันได้ว่าจะไม่มีข้อผิดพลาด เนื่องจากการอัปเดตเกิดขึ้นบ่อยมาก เพื่อระบุเวอร์ชันของตัวเข้ารหัสโดยไม่ซ้ำกัน คุณจะต้องระบุหมายเลขเวอร์ชันอัลฟ่าและวันที่ของการเปลี่ยนแปลงล่าสุดในซอร์สโค้ด แนะนำให้ใช้เวอร์ชันอัลฟ่าเพื่อทดสอบฟีเจอร์ลูปใหม่เท่านั้น

หลังจาก รุ่นปัจจุบันจะผ่านขั้นตอนการทดสอบอัลฟ่าและแก้ไขข้อบกพร่อง โดยจะมีเวอร์ชันเบต้าปรากฏขึ้น บางครั้งถึงแม้จะมีข้อบกพร่องร้ายแรง (เช่น 3.67 หากหน่วยความจำใช้งานได้) จากนั้นจะมีการเปิดตัวเวอร์ชันเบต้าใหม่ที่ปรับปรุงแล้ว ตามกฎแล้ว เวอร์ชันเบต้าทำงานได้ดีกว่าและเชื่อถือได้มากกว่าเวอร์ชันอัลฟ่ามาก โดยส่วนตัวแล้วฉันชอบที่จะรอสักระยะ (2 - 3 เดือน) ก่อนที่จะเริ่มใช้เวอร์ชันเบต้านี้

ในปี 1999 ผู้ประสานงานโครงการ Leim ตัดสินใจที่จะเผยแพร่เวอร์ชันเสถียร (ดีบั๊ก) เป็นประจำ ซึ่งแตกต่างจากเวอร์ชันปัจจุบันตรงที่ไม่ได้รับการอัปเดตที่มีความหมายเป็นเวลานาน (เพื่อหลีกเลี่ยงข้อผิดพลาดใหม่ แม้ว่าการแก้ไขเวอร์ชันเก่าจะเป็นเช่นนั้น ยินดีต้อนรับ). ปัจจุบันมีเสถียรภาพอยู่ที่ 3.70 (เมษายน 2543) ฉันถูกห้ามไม่ให้ใช้เนื่องจากมีการเพิ่ม ABR ใน 3.8x และปรับปรุงคุณภาพ (ปัญหาที่กลืนไม่เข้าคายไม่ออกอย่างต่อเนื่องระหว่างความน่าเชื่อถือและคุณสมบัติใหม่)

ฉันทราบว่าเวอร์ชันเบต้าล่าสุด - 3.87 - มีการใช้งานตั้งแต่เดือนกันยายน 2543 ซึ่งหมายความว่าตลอดเวลานี้ไม่มีการสังเกตเห็นข้อผิดพลาดร้ายแรง และสำหรับฉันเป็นการส่วนตัวแล้ว นี่ก็เพียงพอแล้วที่จะตัดสินใจเลือก 3.87

Leime เป็นรหัส ISO หรือไม่?

เริ่มแรก ลูปถูกสร้างขึ้นเป็นแพตช์สำหรับโค้ด ISO โดยเฉพาะ เมื่อปรับปรุงตัวเข้ารหัสให้ทันสมัย เน้นไปที่การแก้ไขข้อผิดพลาดและปรับปรุงอัลกอริทึม แต่ในปี 2000 ดูเหมือนว่าในเวอร์ชัน 3.6 จะสังเกตเห็นว่ารหัส ISO ทั้งหมดมีการเปลี่ยนแปลงและเปลวไฟได้รับการรวบรวมอย่างอิสระโดยไม่มีแหล่ง ISO ดั้งเดิม ดังนั้นในปัจจุบันเปลวไฟสามารถเรียกได้ว่าเป็นตัวเข้ารหัส ISO ในแง่ประวัติศาสตร์เท่านั้น แต่โครงสร้างของมันเปลี่ยนไปมากจนง่ายต่อการพิจารณาเปลวไฟว่าเป็นการพัฒนาที่เป็นอิสระ นอกจากนี้การพัฒนายังมีคุณภาพสูงและมีแนวโน้ม: ตอนนี้ Lame แข่งขันอย่างมั่นใจทั้งในด้านความเร็วและคุณภาพด้วย โปรแกรมที่คล้ายกันตามรหัสจาก Fraunhofer

อันไหนดีกว่า: ตัวเข้ารหัสที่ใช้ LAME หรือ Fraunhofer

บางคนชอบก้น บางคนชอบกระดูกอ่อนหมู การสนทนานี้คล้ายกับการโต้เถียงกันว่าควรตอกไข่ด้านไหน จากการทดสอบในเดือนสิงหาคม ปี 1999 ฉันพบว่าตัวเข้ารหัสที่ใช้ Fraunhofer มีข้อได้เปรียบเหนือขาง่อยที่บิตเรต 160 kb/s และต่ำกว่า Lame ดีกว่าที่ 192 kb/s และสูงกว่า มีอะไรเปลี่ยนแปลงไปตั้งแต่นั้นมา? แนวโน้มที่แพร่หลายต่อบิตเรตสูง (160 ขึ้นไป) และ VBR อาจทำให้ LAME มีอนาคตที่ดี

ตัวเข้ารหัสที่ใช้ ISO และยิ่งกว่านั้นตัวเข้ารหัสที่ใช้ Xing ยังไม่สมเหตุสมผลที่จะใช้ในปัจจุบัน Leim ซึมซับสิ่งที่ดีที่สุดจาก ISO และรีบตาม Fraunhofer ให้ทัน บางคนคิดว่าตามทันแล้ว และบางคนเชื่อว่าเป็นการดีกว่าที่จะไม่รีบด่วนสรุปและใช้ Fraunhofer ตัวเก่าที่ดี พวกเขาจำได้ว่าในการทดสอบทั้งหมดที่บิตเรตต่ำ (128 และต่ำกว่า) Fraunhofer เป็นผู้นำและก้าวข้ามเปลวไฟอย่างมั่นใจ แต่พวกเขาลืมไปว่าสถานการณ์อาจเปลี่ยนแปลงไปในช่วงเวลานั้นตั้งแต่นั้นมา

พวกเขาบอกว่าเวอร์ชัน leim ปรากฏขึ้นเกือบทุกวันเนื่องจากพบข้อผิดพลาดในเวอร์ชันเก่า ใช่แล้ว ถูกต้องแล้ว พบ Fraunhofer เช่นกัน แต่ไม่ได้รับการแก้ไขเป็นเวลาหลายปี - ดีกว่าไหม

อย่างน้อย VBR ใน Leim ก็ดีกว่าใน Fraunhofer แม้ว่าที่นี่จะยังห่างไกลจากอุดมคติก็ตาม

ฉันจะรวบรวม LAME สำหรับ Windows ได้ที่ไหน

ในไซต์ส่วนใหญ่ คุณจะพบทั้งเวอร์ชันเสถียรและเบต้าล่าสุด และบางครั้งก็เป็นอัลฟ่า

มีเชลล์หน้าต่างสำหรับ LAME บน Windows หรือไม่

การเตรียมวัสดุก่อนอัด

ในส่วนนี้ประกอบด้วยเคล็ดลับในการเตรียมสื่อเสียงดิจิทัลสำหรับกระบวนการบีบอัด ฉันจะไม่พูดถึงวิธีที่คุณได้รับเนื้อหานี้ในบทความนี้

องค์ประกอบคงที่

ในบางกรณี (แทบไม่เคยใช้แผ่นซีดีและแทบทุกครั้งเมื่อบันทึกจากสายหรืออินพุตไมโครโฟน) สัญญาณจะมีองค์ประกอบที่เรียกว่าคงที่: ความผันผวนของระดับสัญญาณจะไม่เกิดขึ้นสัมพันธ์กับศูนย์ทั่วไป (ตรงกลางของช่วง ของระดับสัญญาณ) แต่สัมพันธ์กับระดับอื่น ขอแนะนำอย่างยิ่งให้ลบส่วนประกอบนี้ออกก่อนที่จะเข้ารหัส โชคดีที่โปรแกรมแก้ไขเสียงเกือบทุกตัวสามารถทำได้ (ลบ DC offset) ตัวเข้ารหัสบางตัว (เช่น Leim) เมื่อเข้ารหัสไฟล์ดังกล่าวจะบิดเบือนเสียงอย่างมากเนื่องจากแบบจำลองทางจิตอะคูสติกได้รับการออกแบบสำหรับสัญญาณต้นฉบับโดยไม่มีส่วนประกอบคงที่

ฉันจำเป็นต้องดาวน์เกรดไฟล์หรือไม่?

ใช่ จำเป็นหากระดับสูงสุดของสัญญาณแหล่งที่มาอยู่ที่ประมาณ 0 dB มิฉะนั้นอาจเกิดความผิดเพี้ยนของสัญญาณระหว่างการเข้ารหัส การใช้การบีบอัดแบบสูญเสียหมายความว่าสัญญาณต้นฉบับจะไม่ถูกสร้างขึ้นใหม่ทั้งหมด แต่จะถูกสร้างขึ้นโดยประมาณ ด้วยเหตุนี้ ในส่วนที่มีแอมพลิจูดสูงสุด คุณจึงมีโอกาสเกินระดับสัญญาณสูงสุด (0 dB) ซึ่งจะนำไปสู่การบิดเบือน ปริมาณของการบิดเบือนดังกล่าวขึ้นอยู่กับตัวเข้ารหัสและบิตเรต (ยิ่งบิตเรตสูง การบิดเบือนก็จะน้อยลง) โดยทั่วไป เฉพาะระดับของสัญญาณดั้งเดิมเท่านั้นที่ลดลงก่อนการบีบอัดจะรับประกัน (ในระดับหนึ่ง) ป้องกันการบิดเบือน

ฉันควรลดมันลงเท่าไหร่? คำถามนี้มีความขัดแย้ง จะต้องคำนึงว่าเมื่อระดับลดลงและมีการสุ่มตัวอย่างมากเกินไป สัญญาณดั้งเดิมก็จะมีการบิดเบือนเช่นกัน โดยธรรมชาติแล้ว ความบิดเบี้ยวจะลดลงเมื่อระดับลดลง 2 เท่าพอดี แต่นี่เป็นปริมาณที่ลดลงค่อนข้างมาก คุณสามารถลองเลือกสิ่งที่เป็นผลคูณของ "สองครั้ง" นี้ สมมติว่าลดระดับลง 25% และบางคนอาจชอบเสียงเดซิเบลจำนวนเต็ม เช่น 3.00 เดซิเบล

เนื่องจากการบิดเบือนจากการเกินระดับสัญญาณสูงสุดนั้นขึ้นอยู่กับบิตเรตและตัวเข้ารหัส ฉันจะให้ข้อสังเกตของเพื่อนคนหนึ่งของฉันที่นี่: “ที่ 320 + lemes มันเป็นเรื่องปกติ - 98% และที่ 128 - 85-88% ของ ระดับสูงสุด(100% = 0dB)" ตัวฉันเองไม่ได้ทดลองกับไฟล์ที่มีระดับสัญญาณใกล้เคียงกับ 0 dB

ฉันควรใช้การทำให้เป็นมาตรฐานหรือไม่

ตามกฎแล้วไม่มี มีหลักการไม่รบกวนการทำงานของนักแสดงและวิศวกรเสียง หากบางสิ่งฟังดูเงียบกว่า นั่นก็หมายความว่าจะเป็นอย่างนั้น มันเหมือนกับการอ่านหนังสือที่มีตัวละครหลักผมสีน้ำตาล แต่จินตนาการว่าเธอเป็นสาวผมบลอนด์เพราะคุณชอบแบบนั้น นี่จะไม่ใช่แนวคิดของผู้เขียนอีกต่อไป แต่เป็นการดัดแปลงฟรีของคุณ

สิ่งที่ไม่สมเหตุสมผลไปกว่านั้นคือการทำให้เป็นมาตรฐานภายใต้อย่างมาก ระดับสูง(มักจะ 98% หรือ 100%) - ดูหัวข้อย่อยก่อนหน้า

ดังนั้นจึงไม่จำเป็นต้องทำให้เป็นมาตรฐานเมื่อทำงานกับเนื้อหาที่ได้รับจากซีดีเพลงและเมื่อทำงานกับการบันทึกอื่น - เฉพาะในกรณีที่ระดับสัญญาณต่ำมากและสำหรับทั้งอัลบั้มเท่านั้น

ความคิดเห็นเกี่ยวกับการเพิ่มระดับด้วยตัวประกอบจำนวนเต็มก็ใช้ได้ในกรณีนี้เช่นกัน เนื่องจากการปรับมาตรฐานกำลังสุ่มตัวอย่างใหม่ด้วยระดับสัญญาณใหม่

รายละเอียดปลีกย่อยของกระบวนการบีบอัด

ส่วนนี้อธิบายคุณสมบัติบางอย่างของกระบวนการบีบอัด เช่น การเลือกพารามิเตอร์ตัวเข้ารหัส บิตเรต และอื่นๆ

ฉันจำเป็นต้องปิดจิตอะคูสติก (ในวง) หรือไม่?

ฉันคิดว่าไม่ เลย์มีพัฒนาการเร็วมาก ในเดือนสิงหาคม 1999 ฉันทดสอบเวอร์ชัน 3.24 เวอร์ชันปัจจุบันคือ 3.87 ในเวอร์ชันเก่านั้น ฉันได้ยินถึงความแตกต่างของเสียงระหว่างไฟล์ที่สร้างโดยเปิดเสียงไซโคอะคูสติกกับไฟล์ที่ปิดอยู่ ฉันชอบตัวเลือกสุดท้ายมากกว่า แต่จากมุมมองของทฤษฎีการเข้ารหัส mp3 สิ่งนี้ไม่ถูกต้อง Psychoacoustics เป็นส่วนสำคัญและค่อนข้างสำคัญของอัลกอริธึมการบีบอัด อัลกอริธึมทางจิตอะคูสติกที่ใช้งานไม่ดีจึงเป็นข้อผิดพลาดในเวอร์ชันเก่าของ leim และอีกอย่างมันก็ได้รับการแก้ไขแล้ว ลองเปรียบเทียบเอาเองนะครับ

อย่างไรก็ตาม มี "แต่" อย่างหนึ่ง

ปรับแต่งจิตอะคูสติกระหว่างการบีบอัด

ดังที่ฉันได้กล่าวไว้ข้างต้น จิตอะคูสติก ได้รับการออกแบบมาเพื่อคนทั่วไปและสอดคล้องกับการตั้งค่า "เริ่มต้น" สำหรับผู้เล่น ด้วยเหตุนี้ เมื่อเพิ่มความถี่สูงในอีควอไลเซอร์ เราจึงสามารถได้ยินเสียงที่ผิดเพี้ยนของไฟล์ MP3 ที่ดูเหมือนจะเหมาะสมที่สุดได้ นี่คือสิ่งที่พวกเขาพูดเกี่ยวกับเรื่องนี้ในฟอรัม MP3:

ประชากร! ดูเหมือนว่าฉันได้เขียนเกี่ยวกับการพิจารณาง่ายๆ เพียงครั้งเดียวถึง 20 ครั้ง ฉันจะทำซ้ำอีกครั้ง

บางครั้งจำเป็นต้องปิดบางแง่มุมของจิตอะคูสติก ตัวอย่างเช่น ในเกมมีตัวเลือกในการลด ATH (เกณฑ์การได้ยินสัมบูรณ์) เช่น เกณฑ์การได้ยินที่แน่นอน ทำไมคุณถึงเข้ารหัสเสียงที่เราไม่ได้ยิน? แต่ทำไม. หากบุคคลฟังเพลงนี้ผ่านอีควอไลเซอร์ พารามิเตอร์เหล่านี้ (พารามิเตอร์ของแบบจำลองทางจิตอะคูสติกที่มีมาตรฐาน ATH - AG) ก็ถือว่าใช้ไม่ได้ เหล่านั้น. เมื่อคุณเพิ่มความถี่สูงเล็กน้อย ข้อบกพร่องทั้งหมดของ mp3 จะแสดงแบบเต็ม

แล้วทำไมยังไม่มีใครเขียนเกี่ยวกับเรื่องนี้เลยฮะ?

แต่การลดลงของ ATH มีผลกระทบที่ “เจ็บปวด” เกินไปต่อบิตเรตในรูปแบบของการเพิ่มขึ้นอย่างมาก

โหมดการเข้ารหัสสเตอริโอใดดีกว่า: สเตอริโอ, สเตอริโอร่วมหรือช่องสัญญาณคู่

การเลือกโหมดการเข้ารหัสสเตอริโอขึ้นอยู่กับสถานการณ์เฉพาะ ในอีกด้านหนึ่ง เมื่อใช้สเตอริโอร่วม บิตเรตมากกว่าครึ่งหนึ่งจะอยู่ที่การเข้ารหัสช่องกลางด้วยช่องขวาและซ้ายที่เกือบจะเหมือนกัน ในทางกลับกัน ตัวเข้ารหัสอาจเหลือพื้นที่น้อยเกินไปสำหรับการเข้ารหัสความแตกต่างระหว่างช่องสัญญาณและความเบลอ เอฟเฟกต์สเตอริโอ ในกรณีนี้ ดูเหมือนว่าโหมดสเตอริโอจะดีกว่า เมื่อตัวเข้ารหัสเข้ารหัสช่องสัญญาณแยกกัน แต่สัดส่วนที่แบ่งบิตเรตสำหรับช่องด้านขวาและด้านซ้ายอาจแตกต่างกันไป จะเกิดอะไรขึ้นหากตัวเข้ารหัสทำให้การไหลในช่องสัญญาณใดช่องหนึ่งเล็กเกินไปที่ส่วนวิกฤตบางช่วง กล่าวโดยสรุปแต่ละวิธีมีข้อดีและข้อเสีย - ตัวเลือกที่ดีที่สุดจะขึ้นอยู่กับประเภทของการบันทึก

โปรดทราบว่าการบันทึกบางรายการมีการเลื่อนเฟสระหว่างช่องสัญญาณ ซึ่งในทางปฏิบัติไม่รวมถึงความเป็นไปได้ในการใช้สเตอริโอร่วม จริงอยู่ มีซอฟต์แวร์พิเศษที่ค้นหาและแก้ไขการเปลี่ยนแปลงดังกล่าว แต่การใช้โปรแกรมอื่นในระหว่างกระบวนการบีบอัดไม่ได้ทำให้กระบวนการนี้ง่ายขึ้นอีกต่อไป สถานที่รับโปรแกรมดังกล่าวระบุไว้ในส่วน "รายการลิงก์"

Layme จะเลือกแต่ละเฟรมโดยอัตโนมัติ สเตอริโอหรือ สเตอริโอร่วม(หากต้องการคุณสามารถป้องกันไม่ให้ทำเช่นนี้: "-m s" - สเตอริโอเท่านั้น, "-m f" - เฉพาะสเตอริโอร่วม) ฉันใช้โหมดกับ การเลือกอัตโนมัติ"-มเจ"

มีความเห็นว่าตัวเข้ารหัสจำเป็นต้องห้ามการกระจายสตรีมซ้ำระหว่างช่องบันทึกเสียงสเตอริโอ เพื่อที่ว่าในบางส่วนที่วิกฤต ตัวเข้ารหัสจะไม่ทำให้สตรีมในช่องใดช่องหนึ่งเล็กเกินไป โหมดเมื่อครึ่งหนึ่งของบิตสตรีมถูกกำหนดให้กับแต่ละช่องสัญญาณเรียกว่าช่องสัญญาณคู่ ในเกมโหมดนี้เปิดใช้งานโดยปุ่ม "-m d" ฉันแนะนำให้ใช้โหมดนี้เฉพาะเมื่อขนาดสตรีมมีขนาดใหญ่อย่างเห็นได้ชัด - บิตเรต 256 kb/s หรือมากกว่า

ฉันควรใช้บิตเรตแบบแปรผัน (VBR) หรือไม่

ปัญหาคือ VBR (Variable BitRate) ต้องใช้โมเดลทางจิตอะคูสติกของตัวเอง ซึ่งจะควบคุมการเปลี่ยนแปลงของบิตเรต ก่อนหน้านี้ผู้เขียนโค้ดใช้ CBR (บิตเรตคงที่) และหลักการ "รับประกันคุณภาพสูงสุดโดยการบรรจุข้อมูลลงในสตรีมที่มีความกว้างที่กำหนดไว้ล่วงหน้า" บิตเรตที่แปรผันต้องใช้แนวทางที่แตกต่างไปจากเดิมอย่างสิ้นเชิง: “ให้ระดับคุณภาพที่กำหนดโดยใช้สตรีมความกว้างขั้นต่ำ” ดังนั้นจึงต้องสร้างอัลกอริธึมการบีบอัดสำหรับ VBR เกือบตั้งแต่เริ่มต้น มีเพียง Leim ซึ่งเป็นตัวเข้ารหัสที่พัฒนาเร็วที่สุดเท่านั้นที่มีต้นแบบของอัลกอริทึมดังกล่าวที่ยอมรับได้ไม่มากก็น้อย ทั้ง Xing และ Fraunhofer ยังไม่ได้นำเสนอการพัฒนา VBR คุณภาพสูง อัลกอริธึมของพวกเขาเปลี่ยนแปลงบิตเรตเฉลี่ยภายใน 10-15% ของฐาน ซึ่งดูเหมือนว่าจะเป็นผลมาจากความพยายามในการปรับอัลกอริธึม CBR เพื่อใช้กับ VBR (อันที่จริง อัลกอริธึมแบบเก่าไม่มีความสามารถในการเปลี่ยนบิตเรตเลย ).

ปัญหาก็คือยังไม่มีความแม่นยำ แบบจำลองทางคณิตศาสตร์การได้ยินของมนุษย์ ดังนั้นการพัฒนาอัลกอริธึมทางจิตจึงดำเนินการทดลอง - โดยการลองผิดลองถูก ความยากในการสร้างอัลกอริทึมที่ได้รับ "ระดับคุณภาพ" ที่แน่นอนเป็นอินพุตก็คือ ยังไม่ชัดเจนว่าระดับคุณภาพนี้เกี่ยวข้องกับพารามิเตอร์อื่นๆ ของอัลกอริทึมอย่างไร โดยเฉพาะกับบิตเรต แม้ว่าจะง่ายกว่ามากสำหรับผู้ที่อยู่ห่างไกลจากเทคโนโลยีนี้ในการทำงานด้วยพารามิเตอร์ที่กำหนดระดับคุณภาพการบีบอัดโดยตรงมากกว่าพารามิเตอร์ภายในบางตัวของอัลกอริทึม

เมื่อเทียบกับพื้นหลังนี้ การปรากฏตัวของตัวเลือกประนีประนอม - ABR (บิตเรตเฉลี่ย) - ที่ใช้งานใน LAME ดูเหมือนจะค่อนข้างสมเหตุสมผล โดยพื้นฐานแล้ว นี่คือ VBR ที่มีองค์ประกอบของอัลกอริธึมการเข้ารหัส CBR แบบเก่าที่ได้รับการปรับเปลี่ยน เมื่อคุณภาพลดลงต่ำกว่าเกณฑ์ที่กำหนด บิตเรตจะเพิ่มขึ้น หากสัญญาณที่เข้ารหัสนั้นง่ายเพียงพอ บิตเรตจะลดลง เป็นผลให้เราได้รับไฟล์ปกติที่มีสตรีม VBR โดยที่พารามิเตอร์ไม่ใช่ระดับคุณภาพเชิงนามธรรม แต่เป็นบิตเรตที่กำหนด

ควรสังเกตว่าผู้เล่นบางคนเล่น VBR ไม่ถูกต้อง ตัวอย่างเช่น เครื่องเล่น NAD คุณภาพสูงจะบิดเบือนเสียงของไฟล์ดังกล่าวอย่างมาก เหตุผลก็คือเมื่อเครื่องเล่นนี้ถูกสร้างขึ้น ไม่มีตัวเข้ารหัสใดเลยที่ใช้ VBR คุณอาจพบปัญหาที่คล้ายกันเมื่อใช้เครื่องเล่น MP3 ที่เป็นฮาร์ดแวร์บางตัว

แต่อนาคตก็ขึ้นอยู่กับหลักการพื้นฐานของ VBR สิ่งที่เหลืออยู่คือการรอการใช้งานซอฟต์แวร์ที่เหมาะสมของอัลกอริธึมที่สร้างไฟล์ VBR

จำเป็นต้องอาศัยรายละเอียดเพิ่มเติมเกี่ยวกับ สถานการณ์ต่อไป: เมื่อสลับบิตเรตระหว่างเฟรม ชิ้นส่วนหนึ่งของส่วนที่ซับซ้อนสามารถเข้ารหัสด้วยบิตเรตที่สูงกว่า และอีกชิ้นหนึ่งที่มีขนาดเล็กกว่า ผลการกระโดดที่เกิดขึ้นคือข้อบกพร่องด้านเสียงที่ได้ยิน เคสนี้มีความคล้ายคลึงกับโหมดสเตอริโอที่กล่าวไว้ข้างต้นหลายประการ นั่นคือสาเหตุที่พัดลมแบบ Dual Channel มักใช้ CBR

รายการลิงค์

ส่วนนี้ประกอบด้วยรายการลิงก์ไปยังแหล่งข้อมูลอินเทอร์เน็ตที่เกี่ยวข้องกับ mp3 ซึ่งในความคิดของฉันสมควรได้รับความสนใจมากกว่ารายการอื่น บางส่วนมีรายการลิงก์มากมายซึ่งไม่สมเหตุสมผลที่จะทำซ้ำ

มันได้กลายเป็นคลาสสิกไปแล้วและใช้เป็น FAK ในการประชุม FIDO echo conference RU.MPEG "การตรวจสอบ MP3" (ในสองส่วน: ส่วนที่ 1, ส่วนที่ 2) บทวิจารณ์มีลิงก์มากมายไปยังไซต์ที่เกี่ยวข้องกับ mp3 ต่างๆ ฉันขอแนะนำอย่างยิ่งสำหรับผู้เริ่มต้น

เอกสารทางเทคนิคเกี่ยวกับมาตรฐานการบีบอัด mp3 - www.mp3-tech.org

เว็บไซต์อย่างเป็นทางการของโครงการ LAME คือ .

มีการวางแผนการทดสอบใหม่หรือไม่?

พูดตามตรง ฉันคิดว่ามันไม่จำเป็นในตอนนี้ ตอนนี้ฉันไม่ใช่ผู้ทดสอบ แต่เป็นนักวิเคราะห์: ฉันรวบรวมข้อมูลเกี่ยวกับการทดสอบของผู้อื่น วิเคราะห์ และสรุปผล

คุณจะเขียนโค้ดเพลงของคุณเองได้อย่างไร?

การใช้ Lame เวอร์ชัน 3.87 ใน 128 CBR จะมีการเปิดระบบจิตอะคูสติกเพื่อแสดงให้เพื่อนและสหายเห็น นั่นคือนี่คือโหมดของ "การรักษาระดับคุณภาพที่ยอมรับได้ในขณะที่ได้รับการบีบอัดสูงสุด" ด้วย VBR -V2 ระบบจิตอะคูสติกจะถูกเปิดใช้งานเพื่อจัดเก็บการบันทึก MP3 คุณภาพสูงชั่วคราว เนื้อหาทั้งหมดที่คุ้มค่าแก่การจัดเก็บระยะยาวในคลังเพลงของฉันจะถูกบันทึกในรูปแบบ WAV

จะติดต่อฉันได้อย่างไร?

อีเมลของฉัน: [ป้องกันอีเมล]- หากคุณมีคำถาม อย่าลังเลที่จะถาม ฉันตอบทุกตัวอักษร หากคุณเข้าร่วมการอภิปรายบทความนี้ในฟอรัมใด ๆ โปรดแจ้งให้เราทราบ

แทนที่จะได้ข้อสรุป

ฉันรู้สึกขอบคุณทุกคนที่ส่งความคิดเห็นข้อเสนอแนะและความปรารถนาที่สำคัญ ฉันอยากจะเน้นย้ำถึงผู้เข้าร่วมประจำของฟอรัม MP3 และผู้เขียนโครงการนี้อย่าง Mikhail Fedotov..com) ซึ่งได้เตรียมเนื้อหานี้ไว้เพื่อการมีส่วนร่วม

ขอบคุณสำหรับความสนใจของคุณ ฉันหวังว่าคุณจะพบข้อมูลข้างต้นบางส่วนที่เป็นประโยชน์

เพื่อนร่วมชั้น