स्पीच कोडिंग
भाषण कोडिंग स्पीच वाले डिजिटल ऑडियो सिग्नल के आधार - सामग्री संकोचन का अनुप्रयोग है। स्पीच कोडिंग ऑडियो सिग्नल प्रोसेसिंग तकनीकों का उपयोग करके स्पीच सिग्नल को मॉडल करने के लिए स्पीच-विशिष्ट पैरामीटर अनुमान का उपयोग करती है, जो कॉम्पैक्ट बिटस्ट्रीम में परिणामी मॉडल किए गए मापदंडों का प्रतिनिधित्व करने के लिए जेनेरिक डेटा कम्प्रेशन एल्गोरिदम के साथ संयुक्त है।[1]
स्पीच कोडिंग के कुछ अनुप्रयोग मोबाइल टेलीफोनी और आईपी पर आवाज (वीओआईपी) हैं।[2] मोबाइल टेलीफोनी में सबसे व्यापक रूप से उपयोग की जाने वाली स्पीच कोडिंग तकनीक रैखिक भविष्य कहनेवाला कोडिंग (LPC) है, जबकि वीओआईपी अनुप्रयोगों में सबसे व्यापक रूप से उपयोग की जाने वाली LPC और संशोधित संशोधित असतत कोसाइन परिवर्तनMDCT) तकनीकें हैं।
भाषण कोडिंग में नियोजित तकनीकें ऑडियो डेटा संपीड़न और ऑडियो कोडिंग में उपयोग की जाने वाली तकनीकों के समान होती हैं, जहां मनोविज्ञान में ज्ञान केवल मानव श्रवण प्रणाली के लिए प्रासंगिक डेटा संचारित करने के लिए उपयोग किया जाता है। उदाहरण के लिए, वॉयसबैंड स्पीच कोडिंग में, केवल 400 से 3500 Hz फ़्रीक्वेंसी बैंड में सूचना प्रसारित की जाती है, लेकिन फिर से निर्मित सिग्नल अभी भी इंटेलीजेंसी (संचार) के लिए पर्याप्त है।
स्पीच कोडिंग ऑडियो कोडिंग के अन्य रूपों से भिन्न होती है क्योंकि स्पीच अधिकांश अन्य ऑडियो सिग्नलों की तुलना में सरल संकेत है, और स्पीच के गुणों के बारे में बहुत अधिक सांख्यिकीय जानकारी उपलब्ध है। नतीजतन, ऑडियो कोडिंग में प्रासंगिक कुछ श्रवण जानकारी भाषण कोडिंग संदर्भ में अनावश्यक हो सकती है। भाषण कोडिंग में, सबसे महत्वपूर्ण मानदंड संचरित डेटा की सीमित मात्रा के साथ, भाषण की सुगमता और सुखदता का संरक्षण है।[3] इसके अलावा, अधिकांश वाक् अनुप्रयोगों में कम कोडिंग विलंब की आवश्यकता होती है, क्योंकि लंबे कोडिंग विलंब वाक् अंतःक्रिया में हस्तक्षेप करते हैं।[4]
श्रेणियां
स्पीच कोडर दो प्रकार के होते हैं:[5]
- वेवफॉर्म कोडर
- टाइम-डोमेन: पीसीएम, एडीपीसीएम
- फ़्रीक्वेंसी-डोमेन: उप-बैंड कोडिंग, अनुकूली रूपांतरण ध्वनिक कोडिंग
- vocoder ्स
- लीनियर प्रेडिक्टिव कोडिंग (LPC)
- फॉर्मेंट संश्लेषण
== सैंपल कंपैंडिंग को स्पीच कोडिंग == के रूप में देखा जाता है पारंपरिक पल्स कोड मॉडुलेशन डिजिटल टेलीफोनी में उपयोग किए जाने वाले ए-लॉ एल्गोरिद्म|ए-लॉ और ए-कानून एल्गोरिदम (जी.711) को स्पीच एन्कोडिंग के पहले के अग्रदूत के रूप में देखा जा सकता है, जिसके लिए प्रति नमूना केवल 8 बिट की आवश्यकता होती है लेकिन प्रभावी रूप से 12 बिट देता है। संकल्प का।[6] लॉगरिदमिक कंपाउंडिंग कानून मानव श्रवण धारणा के अनुरूप हैं जिसमें कम-आयाम वाले शोर को कम-आयाम वाले भाषण संकेत के साथ सुना जाता है, लेकिन उच्च-आयाम वाले द्वारा नकाबपोश किया जाता है। यद्यपि यह संगीत संकेत में अस्वीकार्य विरूपण उत्पन्न करेगा, वाक् तरंगों की चरम प्रकृति, वाक् की सरल आवृत्ति संरचना के साथ मिलकर आवधिक कार्य के रूप में एकल मूलभूत आवृत्ति के साथ कभी-कभी जोड़े गए शोर फटने के साथ, इन बहुत ही सरल तात्कालिक संपीड़न एल्गोरिदम को स्वीकार्य बनाते हैं भाषण।
उस समय अन्य एल्गोरिदम की विस्तृत विविधता की कोशिश की गई थी, ज्यादातर डेल्टा मॉड्यूलेशन वेरिएंट, लेकिन सावधानीपूर्वक विचार करने के बाद, ए-लॉ/μ-लॉ एल्गोरिदम को शुरुआती डिजिटल टेलीफोनी सिस्टम के डिजाइनरों द्वारा चुना गया था। उनके डिजाइन के समय, बहुत कम जटिलता के लिए उनकी 33% बैंडविड्थ की कमी ने उत्कृष्ट इंजीनियरिंग समझौता किया। उनका ऑडियो प्रदर्शन स्वीकार्य रहता है, और स्थिर फ़ोन नेटवर्क में उन्हें बदलने की कोई आवश्यकता नहीं थी।
2008 में, G.711.1 कोडेक, जिसकी स्केलेबल संरचना है, ITU-T द्वारा मानकीकृत किया गया था। इनपुट सैंपलिंग रेट 16 kHz है।
आधुनिक भाषण संपीड़न
स्पीच कंप्रेशन में बाद के अधिकांश कार्य सुरक्षित आवाज के लिए डिजिटल संचार में सैन्य अनुसंधान से प्रेरित थे, जहां शत्रुतापूर्ण रेडियो वातावरण में प्रभावी संचालन प्राप्त करने के लिए बहुत कम डेटा दरों का उपयोग किया गया था। उसी समय, बहुत बड़े पैमाने पर एकीकरण के रूप में, पहले की संपीड़न तकनीकों की तुलना में कहीं अधिक प्रसंस्करण शक्ति उपलब्ध थी। नतीजतन, आधुनिक भाषण संपीड़न एल्गोरिदम 1960 के दशक में उपलब्ध उच्च संपीड़न अनुपात प्राप्त करने की तुलना में कहीं अधिक जटिल तकनीकों का उपयोग कर सकते थे।
ये तकनीकें नागरिक अनुप्रयोगों के लिए उपयोग किए जाने वाले खुले अनुसंधान साहित्य के माध्यम से उपलब्ध थीं, जिससे डिजिटल मोबाइल फोन नेटवर्क के निर्माण की अनुमति मिलती है, जो उनके पहले के एनालॉग सिस्टम की तुलना में काफी अधिक चैनल क्षमता वाले होते हैं।
सबसे व्यापक रूप से इस्तेमाल किया जाने वाला स्पीच कोडिंग एल्गोरिदम लीनियर प्रेडिक्टिव कोडिंग (LPC) पर आधारित है।[7] विशेष रूप से, सबसे आम भाषण कोडिंग योजना एलपीसी-आधारित [[कोड-उत्साहित रैखिक भविष्यवाणी]] (सीईएलपी) कोडिंग है, जिसका प्रयोग जीएसएम मानक में उदाहरण के लिए किया जाता है। CELP में, मॉडलिंग को दो चरणों में विभाजित किया गया है, एक रेखीय भविष्यवाणी चरण जो वर्णक्रमीय आवरण और रेखीय भविष्य कहनेवाला मॉडल के अवशिष्ट का कोड-बुक-आधारित मॉडल है। CELP में, रैखिक भविष्यवाणी गुणांक (LPC) की गणना और मात्रा निर्धारित की जाती है, आमतौर पर रेखा वर्णक्रमीय जोड़े (LSPs) के रूप में। सिग्नल की वास्तविक स्पीच कोडिंग के अलावा, ट्रांसमिशन त्रुटियों के कारण होने वाले नुकसान से बचने के लिए, ट्रांसमिशन के लिए चैनल कोडिंग का उपयोग करना अक्सर आवश्यक होता है। सर्वोत्तम समग्र कोडिंग परिणाम प्राप्त करने के लिए, स्पीच कोडिंग और चैनल कोडिंग विधियों को जोड़े में चुना जाता है, स्पीच डेटा स्ट्रीम में अधिक महत्वपूर्ण बिट्स के साथ अधिक मजबूत चैनल कोडिंग द्वारा संरक्षित किया जाता है।
संशोधित असतत कोसाइन परिवर्तन (MDCT), एक प्रकार का असतत कोसाइन ट्रांसफ़ॉर्म (DCT) एल्गोरिथम, LD-MDCT नामक स्पीच कोडिंग एल्गोरिथम में अनुकूलित किया गया था, जिसका उपयोग 1999 में शुरू किए गए AAC-LD प्रारूप के लिए किया गया था।[8] तब से एमडीसीटी को आईपी पर आवाज (वीओआईपी) अनुप्रयोगों में व्यापक रूप से अपनाया गया है, जैसे कि 2006 में पेश किया गया G.729.1 वाइडबैंड ऑडियो कोडेक,[9] Apple Inc. का फेस टाइम (AAC-LD का उपयोग करके) 2010 में पेश किया गया,[10] और CELT कोडेक 2011 में पेश किया गया।[11] ओपस (ऑडियो प्रारूप) एक मुफ्त सॉफ्टवेयर ऑडियो कोडर है। यह एमडीसीटी (सीईएलटी) और एलपीसी (सिल्क) ऑडियो कम्प्रेशन एल्गोरिदम दोनों को जोड़ती है, भाषण के लिए पूर्व का उपयोग करती है।[12] व्हाट्सप्प में वीओआईपी कॉल के लिए इसका व्यापक रूप से उपयोग किया जाता है।[13][14][15] PlayStation 4 वीडियो गेम कंसोल भी अपने PlayStation नेटवर्क सिस्टम पार्टी चैट के लिए Opus का उपयोग करता है।[16] इससे भी कम बिटरेट वाले कई कोडेक्स प्रदर्शित किए गए हैं। कोडेक2, जो 450 बिट/सेकंड जितनी कम बिट दर पर संचालित होता है, शौकिया रेडियो में इसका उपयोग देखता है।[17] नाटो वर्तमान में मिश्रित-उत्तेजना रैखिक भविष्यवाणी का उपयोग करता है, सुपाठ्य भाषण 600 बिट/एस (गैर-मानक संस्करण संख्या को आधा करने के साथ) की पेशकश करता है।[18] Google द्वारा लायरा (कोडेक) असामान्य मशीन लर्निंग दृष्टिकोण अपनाता है, जो लगभग 3 kbit/s पर भयानक गुणवत्ता देता है। Microsoft का साटन (कोडेक) भी मशीन लर्निंग का उपयोग करता है, लेकिन उच्च ट्यून करने योग्य बिटरेट का उपयोग करता है और वाइडबैंड है।[19]
उप-क्षेत्र
- वाइडबैंड ऑडियो कोडिंग
- लीनियर प्रेडिक्टिव कोडिंग (LPC)
- संशोधित असतत कोज्या परिवर्तन (एमडीसीटी)
- AAC-LD, G.722.1, G.729.1, CELT और Opus VoIP और वीडियो कॉन्फ़्रेंसिंग के लिए
- अनुकूली अंतर पल्स-कोड मॉड्यूलेशन (ADPCM)
- वीओआईपी के लिए G.722
- नैरोबैंड ऑडियो कोडिंग
- एलपीसी
- सैन्य अनुप्रयोगों के लिए एफएनबीडीटी
- सीडीएमए नेटवर्क के लिए चयन योग्य मोड वोकोडर
- जीएसएम नेटवर्क के लिए पूर्ण दर, आधी दर, बढ़ी हुई पूर्ण दर और अनुकूली बहु-दर
- G.723.1, G.728, G.729, G.729.1 और iLBC वीओआईपी या वीडियो कॉन्फ़्रेंसिंग के लिए
- एडीपीसीएम
- वीओआईपी के लिए G.726
- मल्टी-बैंड उत्तेजना (एमबीई)
- मल्टी-बैंड एक्साइटमेंट | डिजिटल रेडियो मोबाइल रेडियो और उपग्रह टेलीफोन के लिए AMBE+
- कोडेक 2
यह भी देखें
संदर्भ
- ↑ M. Arjona Ramírez and M. Minami, "Low bit rate speech coding," in Wiley Encyclopedia of Telecommunications, J. G. Proakis, Ed., New York: Wiley, 2003, vol. 3, pp. 1299-1308.
- ↑ M. Arjona Ramírez and M. Minami, "Technology and standards for low-bit-rate vocoding methods," in The Handbook of Computer Networks, H. Bidgoli, Ed., New York: Wiley, 2011, vol. 2, pp. 447–467.
- ↑ P. Kroon, "Evaluation of speech coders," in Speech Coding and Synthesis, W. Bastiaan Kleijn and K. K. Paliwal, Ed., Amsterdam: Elsevier Science, 1995, pp. 467-494.
- ↑ J. H. Chen, R. V. Cox, Y.-C. Lin, N. S. Jayant, and M. J. Melchner, A low-delay CELP coder for the CCITT 16 kb/s speech coding standard. IEEE J. Select. Areas Commun. 10(5): 830-849, June 1992.
- ↑ "Soo Hyun Bae, ECE 8873 Data Compression & Modeling, Georgia Institute of Technology , 2004". Archived from the original on 7 September 2006.
- ↑ N. S. Jayant and P. Noll, Digital coding of waveforms. Englewood Cliffs: Prentice-Hall, 1984.
- ↑ Gupta, Shipra (May 2016). "पाठ स्वतंत्र अध्यक्ष मान्यता में एमएफसीसी का अनुप्रयोग" (PDF). International Journal of Advanced Research in Computer Science and Software Engineering. 6 (5): 805–810 (806). ISSN 2277-128X. S2CID 212485331. Archived from the original (PDF) on 2019-10-18. Retrieved 18 October 2019.
- ↑ Schnell, Markus; Schmidt, Markus; Jander, Manuel; Albert, Tobias; Geiger, Ralf; Ruoppila, Vesa; Ekstrand, Per; Bernhard, Grill (October 2008). MPEG-4 Enhanced Low Delay AAC - A New Standard for High Quality Communication (PDF). 125th AES Convention. Fraunhofer IIS. Audio Engineering Society. Retrieved 20 October 2019.
- ↑ Nagireddi, Sivannarayana (2008). वीओआईपी आवाज और फैक्स सिग्नल प्रोसेसिंग. John Wiley & Sons. p. 69. ISBN 9780470377864.
- ↑ Daniel Eran Dilger (June 8, 2010). "Inside iPhone 4: FaceTime video calling". AppleInsider. Retrieved June 9, 2010.
- ↑ Presentation of the CELT codec by Timothy B. Terriberry (65 minutes of video, see also presentation slides in PDF)
- ↑ Valin, Jean-Marc; Maxwell, Gregory; Terriberry, Timothy B.; Vos, Koen (October 2013). ओपस कोडेक में उच्च-गुणवत्ता, निम्न-विलंब संगीत कोडिंग. 135th AES Convention. Audio Engineering Society. arXiv:1602.04845.
- ↑ Leyden, John (27 October 2015). "WhatsApp laid bare: Info-sucking app's innards probed". The Register. Retrieved 19 October 2019.
- ↑ Hazra, Sudip; Mateti, Prabhaker (September 13–16, 2017). "Challenges in Android Forensics". In Thampi, Sabu M.; Pérez, Gregorio Martínez; Westphall, Carlos Becker; Hu, Jiankun; Fan, Chun I.; Mármol, Félix Gómez (eds.). Security in Computing and Communications: 5th International Symposium, SSCC 2017. Springer. pp. 286–299 (290). doi:10.1007/978-981-10-6898-0_24. ISBN 9789811068980.
- ↑ Srivastava, Saurabh Ranjan; Dube, Sachin; Shrivastaya, Gulshan; Sharma, Kavita (2019). "Smartphone Triggered Security Challenges: Issues, Case Studies and Prevention". In Le, Dac-Nhuong; Kumar, Raghvendra; Mishra, Brojo Kishore; Chatterjee, Jyotir Moy; Khari, Manju (eds.). Cyber Security in Parallel and Distributed Computing: Concepts, Techniques, Applications and Case Studies. pp. 187–206 (200). doi:10.1002/9781119488330.ch12. ISBN 9781119488057. S2CID 214034702.
{{cite book}}
:|journal=
ignored (help) - ↑ "Open Source Software used in PlayStation4". Sony Interactive Entertainment Inc. Retrieved 2017-12-11.[failed verification]
- ↑ "GitHub - Codec2". GitHub. November 2019.
- ↑ Alan McCree, “A scalable phonetic vocoder framework using joint predictive vector quantization of MELP parameters,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, 2006, pp. I 705–708, Toulouse, France
- ↑ Levent-Levi, Tsahi (2021-04-19). "Lyra, Satin और WebRTC में वॉयस कोडेक्स का भविष्य". BlogGeek.me (in English). Retrieved 2022-07-21.