स्पीच कोडिंग: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 2: Line 2:




[[ भाषण | भाषण]] कोडिंग स्पीच वाले [[डिजिटल ऑडियो]] सिग्नल के [[आधार - सामग्री संकोचन]] का अनुप्रयोग है। स्पीच कोडिंग [[ऑडियो सिग्नल प्रोसेसिंग]] तकनीकों का उपयोग करके स्पीच सिग्नल को मॉडल करने के लिए स्पीच-विशिष्ट [[पैरामीटर अनुमान]] का उपयोग करती है, जो कॉम्पैक्ट बिटस्ट्रीम में परिणामी मॉडल किए गए मापदंडों का प्रतिनिधित्व करने के लिए जेनेरिक डेटा कम्प्रेशन एल्गोरिदम के साथ संयुक्त है।<ref>M. Arjona Ramírez and M. Minami, "Low bit rate speech coding," in Wiley Encyclopedia of Telecommunications, J. G. Proakis, Ed., New York: Wiley, 2003, vol. 3, pp. 1299-1308.</ref>
स्पीच कोडिंग के कुछ अनुप्रयोग [[मोबाइल टेलीफोनी]] और [[आईपी ​​पर आवाज]] (वीओआईपी) हैं।<ref>M. Arjona Ramírez and M. Minami, "Technology and standards for low-bit-rate vocoding methods," in The Handbook of Computer Networks, H. Bidgoli, Ed., New York: Wiley, 2011, vol. 2, pp. 447–467.</ref> मोबाइल टेलीफोनी में सबसे व्यापक रूप से उपयोग की जाने वाली स्पीच कोडिंग तकनीक [[ रैखिक भविष्य कहनेवाला कोडिंग |रैखिक भविष्य कहनेवाला कोडिंग]] (LPC) है, जबकि वीओआईपी अनुप्रयोगों में सबसे व्यापक रूप से उपयोग की जाने वाली LPC और संशोधित [[संशोधित असतत कोसाइन परिवर्तन]]MDCT) तकनीकें हैं।


भाषण कोडिंग में नियोजित तकनीकें [[ऑडियो डेटा संपीड़न]] और [[ऑडियो कोडिंग]] में उपयोग की जाने वाली तकनीकों के समान होती हैं, जहां [[मनो]]विज्ञान में ज्ञान केवल मानव श्रवण प्रणाली के लिए प्रासंगिक डेटा संचारित करने के लिए उपयोग किया जाता है। उदाहरण के लिए, [[ वॉयसबैंड |वॉयसबैंड]] स्पीच कोडिंग में, केवल 400 से 3500 Hz फ़्रीक्वेंसी बैंड में सूचना प्रसारित की जाती है, लेकिन फिर से निर्मित सिग्नल अभी भी इंटेलीजेंसी (संचार) के लिए पर्याप्त है।
[[ भाषण |स्पीच]] कोडिंग स्पीच वाले [[डिजिटल ऑडियो]] संकेत के [[आधार - सामग्री संकोचन|डेटा कम्प्रेशन]] का अनुप्रयोग है। स्पीच कोडिंग, स्पीच संकेत को मॉडल करने के लिए [[ऑडियो सिग्नल प्रोसेसिंग|ऑडियो संकेत प्रोसेसिंग]] तकनीकों का उपयोग करके स्पीच-विशिष्ट [[पैरामीटर अनुमान]] का उपयोग करती है, जो सघन बिटस्ट्रीम में परिणामी मॉडल में किए गए मापदंडों का प्रतिनिधित्व करने के लिए जेनेरिक डेटा कम्प्रेशन कलनविधि के साथ संयुक्त है।<ref>M. Arjona Ramírez and M. Minami, "Low bit rate speech coding," in Wiley Encyclopedia of Telecommunications, J. G. Proakis, Ed., New York: Wiley, 2003, vol. 3, pp. 1299-1308.</ref>
 
स्पीच कोडिंग के कुछ अनुप्रयोग [[मोबाइल टेलीफोनी]] और [[आईपी ​​पर आवाज|वॉइस ओवर]] (वीओआईपी) हैं।<ref>M. Arjona Ramírez and M. Minami, "Technology and standards for low-bit-rate vocoding methods," in The Handbook of Computer Networks, H. Bidgoli, Ed., New York: Wiley, 2011, vol. 2, pp. 447–467.</ref> मोबाइल टेलीफोनी में सबसे व्यापक रूप से उपयोग की जाने वाली स्पीच कोडिंग तकनीक [[ रैखिक भविष्य कहनेवाला कोडिंग |रैखिक प्रेडिक्टिव कोडिंग]] (एलपीसी) है, जबकि वीओआईपी अनुप्रयोगों में सबसे व्यापक रूप से उपयोग की जाने वाली एलपीसी और [[संशोधित असतत कोसाइन परिवर्तन]] (एमडीसीटी) तकनीकें हैं।
 
स्पीच कोडिंग में नियोजित तकनीकें [[ऑडियो डेटा संपीड़न]] और [[ऑडियो कोडिंग]] में उपयोग की जाने वाली तकनीकों के समान होती हैं, जहां [[मनो|मनोविज्ञान]] में ज्ञान केवल मानव श्रवण प्रणाली के लिए प्रासंगिक डेटा संचारित करने के लिए उपयोग किया जाता है। उदाहरण के लिए, [[ वॉयसबैंड |वॉयसबैंड]] स्पीच कोडिंग में, केवल 400 से 3500 Hz आवृत्ति बैंड में सूचना प्रसारित की जाती है, लेकिन फिर से निर्मित संकेत अभी भी इंटेलीजेंसी (संचार) के लिए पर्याप्त है।
 
स्पीच कोडिंग ऑडियो कोडिंग के अन्य रूपों से भिन्न होती है क्योंकि स्पीच अधिकांश अन्य ऑडियो संकेतों की तुलना में सरल संकेत है, और स्पीच के गुणों के बारे में बहुत अधिक सांख्यिकीय जानकारी उपलब्ध है। परिणामस्वरूप, ऑडियो कोडिंग में प्रासंगिक कुछ श्रवण जानकारी स्पीच कोडिंग संदर्भ में अनावश्यक हो सकती है। स्पीच कोडिंग में, सबसे महत्वपूर्ण मानदंड संचरित डेटा की सीमित मात्रा के साथ, स्पीच की सुगमता और सुखदता का संरक्षण है।<ref>P. Kroon, "Evaluation of speech coders," in Speech Coding and Synthesis, W. Bastiaan Kleijn and K. K. Paliwal, Ed., Amsterdam: Elsevier Science, 1995, pp. 467-494.</ref> इसके अतिरिक्त, अधिकांश स्पीच अनुप्रयोगों में कम कोडिंग विलंब की आवश्यकता होती है, क्योंकि लंबे कोडिंग विलंब स्पीच अंतःक्रिया में हस्तक्षेप करते हैं।<ref>J. H. Chen, R. V. Cox, Y.-C. Lin, N. S. Jayant, and  M. J. Melchner, A low-delay CELP coder for the CCITT 16 kb/s speech coding standard. IEEE J. Select. Areas Commun. 10(5): 830-849, June 1992.</ref>


स्पीच कोडिंग ऑडियो कोडिंग के अन्य रूपों से भिन्न होती है क्योंकि स्पीच अधिकांश अन्य ऑडियो सिग्नलों की तुलना में सरल संकेत है, और स्पीच के गुणों के बारे में बहुत अधिक सांख्यिकीय जानकारी उपलब्ध है। नतीजतन, ऑडियो कोडिंग में प्रासंगिक कुछ श्रवण जानकारी भाषण कोडिंग संदर्भ में अनावश्यक हो सकती है। भाषण कोडिंग में, सबसे महत्वपूर्ण मानदंड संचरित डेटा की सीमित मात्रा के साथ, भाषण की सुगमता और सुखदता का संरक्षण है।<ref>P. Kroon, "Evaluation of speech coders," in Speech Coding and Synthesis, W. Bastiaan Kleijn and K. K. Paliwal, Ed., Amsterdam: Elsevier Science, 1995, pp. 467-494.</ref> इसके अलावा, अधिकांश वाक् अनुप्रयोगों में कम कोडिंग विलंब की आवश्यकता होती है, क्योंकि लंबे कोडिंग विलंब वाक् अंतःक्रिया में हस्तक्षेप करते हैं।<ref>J. H. Chen, R. V. Cox, Y.-C. Lin, N. S. Jayant, and  M. J. Melchner, A low-delay CELP coder for the CCITT 16 kb/s speech coding standard. IEEE J. Select. Areas Commun. 10(5): 830-849, June 1992.</ref>




Line 14: Line 17:
# वेवफॉर्म कोडर
# वेवफॉर्म कोडर
#* टाइम-डोमेन: [[पीसीएम]], [[एडीपीसीएम]]
#* टाइम-डोमेन: [[पीसीएम]], [[एडीपीसीएम]]
#* फ़्रीक्वेंसी-डोमेन: [[उप-बैंड कोडिंग]], अनुकूली रूपांतरण ध्वनिक कोडिंग
#* आवृत्ति-डोमेन: [[उप-बैंड कोडिंग]], अनुकूली रूपांतरण ध्वनिक कोडिंग
# [[ vocoder ]]्स
# [[ vocoder | वोकोडर्स]]  
#* लीनियर प्रेडिक्टिव कोडिंग (LPC)
#* रैखिक प्रेडिक्टिव कोडिंग (एलपीसी)
#* [[ फॉर्मेंट संश्लेषण ]]
#* [[ फॉर्मेंट संश्लेषण ]]


== सैंपल कंपैंडिंग को स्पीच कोडिंग == के रूप में देखा जाता है
== सैंपल कंपैंडिंग को स्पीच कोडिंग के रूप में देखा जाता है ==
पारंपरिक [[ पल्स कोड मॉडुलेशन |पल्स कोड मॉडुलेशन]] [[डिजिटल टेलीफोनी]] में उपयोग किए जाने वाले ए-लॉ एल्गोरिद्म|ए-लॉ और [[ए-कानून एल्गोरिदम]] (जी.711) को स्पीच एन्कोडिंग के पहले के अग्रदूत के रूप में देखा जा सकता है, जिसके लिए प्रति नमूना केवल 8 बिट की आवश्यकता होती है लेकिन प्रभावी रूप से 12 बिट देता है। संकल्प का।<ref>N. S. Jayant and P. Noll, Digital coding of waveforms. Englewood Cliffs: Prentice-Hall, 1984.</ref> लॉगरिदमिक कंपाउंडिंग कानून मानव श्रवण धारणा के अनुरूप हैं जिसमें कम-आयाम वाले शोर को कम-आयाम वाले भाषण संकेत के साथ सुना जाता है, लेकिन उच्च-आयाम वाले द्वारा नकाबपोश किया जाता है। यद्यपि यह संगीत संकेत में अस्वीकार्य विरूपण उत्पन्न करेगा, वाक् तरंगों की चरम प्रकृति, वाक् की सरल आवृत्ति संरचना के साथ मिलकर आवधिक कार्य के रूप में एकल मूलभूत आवृत्ति के साथ कभी-कभी जोड़े गए शोर फटने के साथ, इन बहुत ही सरल तात्कालिक संपीड़न एल्गोरिदम को स्वीकार्य बनाते हैं भाषण।
पारंपरिक [[ पल्स कोड मॉडुलेशन |पल्स कोड मॉडुलेशन]] [[डिजिटल टेलीफोनी]] में उपयोग किए जाने वाले ए-नियम कलनविधि और [[ए-कानून एल्गोरिदम|ए-कानून कलनविधि]] (जी.711) को स्पीच एन्कोडिंग के पहले के अग्रदूत के रूप में देखा जा सकता है, जिसके लिए प्रति नमूना केवल 8 बिट की आवश्यकता होती है लेकिन प्रभावी रूप से 12 बिट देता है। संकल्प का।<ref>N. S. Jayant and P. Noll, Digital coding of waveforms. Englewood Cliffs: Prentice-Hall, 1984.</ref> लॉगरिदमिक कंपाउंडिंग कानून मानव श्रवण धारणा के अनुरूप हैं जिसमें कम-आयाम वाले शोर को कम-आयाम वाले स्पीच संकेत के साथ सुना जाता है, लेकिन उच्च-आयाम वाले द्वारा नकाबपोश किया जाता है। यद्यपि यह संगीत संकेत में अस्वीकार्य विरूपण उत्पन्न करेगा, स्पीच तरंगों की चरम प्रकृति, स्पीच की सरल आवृत्ति संरचना के साथ मिलकर आवधिक कार्य के रूप में एकल मूलभूत आवृत्ति के साथ कभी-कभी जोड़े गए शोर फटने के साथ, इन बहुत ही सरल तात्कालिक संपीड़न कलनविधि को स्वीकार्य बनाते हैं स्पीच।
 
उस समय अन्य कलनविधि की विस्तृत विविधता का प्रयास किया गया था, अधिकतर [[डेल्टा मॉड्यूलेशन]] वेरिएंट, लेकिन सावधानीपूर्वक विचार करने के बाद, ए-नियम/μ-नियम कलनविधि को प्रारंभिक डिजिटल टेलीफोनी प्रणाली के डिजाइनरों द्वारा चुना गया था। उनके डिजाइन के समय, बहुत कम जटिलता के लिए उनकी 33% बैंडविड्थ की कमी ने उत्कृष्ट इंजीनियरिंग समझौता किया था। उनका ऑडियो प्रदर्शन स्वीकार्य रहता है, और स्थिर फ़ोन नेटवर्क में उन्हें परिवर्तन की कोई आवश्यकता नहीं थी।
 
2008 में, G.711.1 कोडेक, जिसकी स्केलेबल संरचना है, आईटीयू-टी द्वारा मानकीकृत किया गया था। इनपुट सैंपलिंग रेट 16 kHz है।
 
== आधुनिक स्पीच संपीड़न ==
स्पीच कंप्रेशन में बाद के अधिकांश कार्य [[सुरक्षित आवाज|सुरक्षित ध्वनि]] के लिए डिजिटल संचार में सैन्य अनुसंधान से प्रेरित थे, जहां शत्रुतापूर्ण रेडियो वातावरण में प्रभावी संचालन प्राप्त करने के लिए बहुत कम डेटा दरों का उपयोग किया गया था। उसी समय, बहुत [[बड़े पैमाने पर एकीकरण]] के रूप में, पहले की संपीड़न तकनीकों की तुलना में कहीं अधिक [[प्रसंस्करण शक्ति]] उपलब्ध थी। परिणामस्वरूप, आधुनिक स्पीच संपीड़न कलनविधि 1960 के दशक में उपलब्ध उच्च संपीड़न अनुपात प्राप्त करने की तुलना में कहीं अधिक जटिल विधियों का उपयोग कर सकते थे।


उस समय अन्य एल्गोरिदम की विस्तृत विविधता की कोशिश की गई थी, ज्यादातर [[डेल्टा मॉड्यूलेशन]] वेरिएंट, लेकिन सावधानीपूर्वक विचार करने के बाद, ए-लॉ/μ-लॉ एल्गोरिदम को शुरुआती डिजिटल टेलीफोनी सिस्टम के डिजाइनरों द्वारा चुना गया था। उनके डिजाइन के समय, बहुत कम जटिलता के लिए उनकी 33% बैंडविड्थ की कमी ने उत्कृष्ट इंजीनियरिंग समझौता किया। उनका ऑडियो प्रदर्शन स्वीकार्य रहता है, और स्थिर फ़ोन नेटवर्क में उन्हें बदलने की कोई आवश्यकता नहीं थी।
ये तकनीकें नागरिक अनुप्रयोगों के लिए उपयोग किए जाने वाले खुले अनुसंधान साहित्य के माध्यम से उपलब्ध थीं, जिससे डिजिटल [[मोबाइल फोन नेटवर्क]] के निर्माण की अनुमति मिलती है, जो उनके पहले के एनालॉग प्रणाली की तुलना में अत्यधिक अधिक चैनल क्षमता वाले होते हैं।


2008 में, G.711.1 कोडेक, जिसकी स्केलेबल संरचना है, ITU-T द्वारा मानकीकृत किया गया था। इनपुट सैंपलिंग रेट 16 kHz है।
सबसे व्यापक रूप से उपयोग किया जाने वाला स्पीच कोडिंग कलनविधि रैखिक प्रेडिक्टिव कोडिंग (एलपीसी) पर आधारित है।<ref>{{cite journal |last1=Gupta |first1=Shipra |title=पाठ स्वतंत्र अध्यक्ष मान्यता में एमएफसीसी का अनुप्रयोग|journal=International Journal of Advanced Research in Computer Science and Software Engineering |date=May 2016 |volume=6 |issue=5 |pages=805–810 (806) |s2cid=212485331 |issn=2277-128X |url=https://pdfs.semanticscholar.org/2aa9/c2971342e8b0b1a0714938f39c406f258477.pdf |archive-url=https://web.archive.org/web/20191018231621/https://pdfs.semanticscholar.org/2aa9/c2971342e8b0b1a0714938f39c406f258477.pdf |url-status=dead |archive-date=2019-10-18 |access-date=18 October 2019}}</ref> विशेष रूप से, सबसे सामान्य स्पीच कोडिंग योजना एलपीसी-आधारित कोड-उत्साहित [[रैखिक भविष्यवाणी|रैखिक प्रेडिक्टिव]] (सीईएलपी) कोडिंग है, जिसका प्रयोग [[जीएसएम]] मानक में उदाहरण के लिए किया जाता है। सीईएलपी में, मॉडलिंग को दो चरणों में विभाजित किया गया है, रैखिक प्रेडिक्टिव चरण जो वर्णक्रमीय आवरण और रैखिक प्रेडिक्टिव मॉडल के अवशिष्ट का कोड-बुक-आधारित मॉडल है। सीईएलपी में, रैखिक प्रेडिक्टिव गुणांक (एलपीसी) की गणना और मात्रा निर्धारित की जाती है, सामान्यतः [[रेखा वर्णक्रमीय जोड़े]] (एलएसपी) के रूप में निर्धारित की जाती है। संकेत की वास्तविक स्पीच कोडिंग के अतिरिक्त, ट्रांसमिशन त्रुटियों के कारण होने वाली हानि से बचने के लिए, ट्रांसमिशन के लिए [[चैनल कोडिंग]] का उपयोग करना अधिकांशतः आवश्यक होता है। सर्वोत्तम समग्र कोडिंग परिणाम प्राप्त करने के लिए, स्पीच कोडिंग और चैनल कोडिंग विधियों को जोड़े में चुना जाता है, स्पीच डेटा स्ट्रीम में अधिक महत्वपूर्ण बिट्स के साथ अधिक दृढ़ चैनल कोडिंग द्वारा संरक्षित किया जाता है।


== आधुनिक भाषण संपीड़न ==
संशोधित [[असतत कोसाइन परिवर्तन]] (एमडीसीटी), एक प्रकार का असतत कोसाइन ट्रांसफ़ॉर्म (डीसीटी) कलनविधि, एलडी-एमडीसीटी नामक स्पीच कोडिंग कलनविधि में अनुकूलित किया गया था, जिसका उपयोग 1999 में प्रारंभ किए गए [[AAC-LD|एएसी-एलडी]] प्रारूप के लिए किया गया था।<ref name="Schnell">{{cite conference |last1=Schnell|first1=Markus |last2=Schmidt |first2=Markus |last3=Jander |first3=Manuel |last4=Albert |first4=Tobias |last5=Geiger |first5=Ralf |last6=Ruoppila |first6=Vesa |last7=Ekstrand |first7=Per |last8=Bernhard |first8=Grill |date=October 2008 |title=MPEG-4 Enhanced Low Delay AAC - A New Standard for High Quality Communication |url=https://www.iis.fraunhofer.de/content/dam/iis/de/doc/ame/conference/AES-125-Convention_AAC-ELD-NewStandardForHighQualityCommunication_AES7503.pdf |conference=125th AES Convention |publisher=[[Audio Engineering Society]] |access-date=20 October 2019 |website=[[Fraunhofer IIS]]}}</ref> तब से एमडीसीटी को [[आईपी ​​पर आवाज|आईपी ​​पर ध्वनि]] (वीओआईपी) अनुप्रयोगों में व्यापक रूप से अपनाया गया है, जैसे कि 2006 में प्रस्तुत किया गया G.729.1 [[वाइडबैंड ऑडियो]] कोडेक,<ref name="Nagireddi">{{cite book |last1=Nagireddi |first1=Sivannarayana |title=वीओआईपी आवाज और फैक्स सिग्नल प्रोसेसिंग|date=2008 |publisher=[[John Wiley & Sons]] |isbn=9780470377864 |page=69 |url=https://books.google.com/books?id=5AneeZFE71MC&pg=PA69}}</ref> एप्पल इंक. का [[ फेस टाइम |फेस टाइम]] (एएसी-एलडी का उपयोग करके) 2010 में प्रस्तुत किया गया,<ref name="AppleInsider standards 1">{{cite web|url=http://www.appleinsider.com/articles/10/06/08/inside_iphone_4_facetime_video_calling.html|date=June 8, 2010|access-date=June 9, 2010|title=Inside iPhone 4: FaceTime video calling|publisher=[[Apple community#AppleInsider|AppleInsider]]|author=Daniel Eran Dilger}}</ref> और [[CELT|सीईएलटी]] कोडेक 2011 में प्रस्तुत किया गया था।<ref name="presentation">[http://people.xiph.org/~greg/video/linux_conf_au_CELT_2.ogv Presentation of the CELT codec] by Timothy B. Terriberry (65 minutes of video, see also [http://www.celt-codec.org/presentations/misc/lca-celt.pdf presentation slides] in PDF)</ref>
स्पीच कंप्रेशन में बाद के अधिकांश कार्य [[सुरक्षित आवाज]] के लिए डिजिटल संचार में सैन्य अनुसंधान से प्रेरित थे, जहां शत्रुतापूर्ण रेडियो वातावरण में प्रभावी संचालन प्राप्त करने के लिए बहुत कम डेटा दरों का उपयोग किया गया था। उसी समय, बहुत [[बड़े पैमाने पर एकीकरण]] के रूप में, पहले की संपीड़न तकनीकों की तुलना में कहीं अधिक [[प्रसंस्करण शक्ति]] उपलब्ध थी। नतीजतन, आधुनिक भाषण संपीड़न एल्गोरिदम 1960 के दशक में उपलब्ध उच्च संपीड़न अनुपात प्राप्त करने की तुलना में कहीं अधिक जटिल तकनीकों का उपयोग कर सकते थे।


ये तकनीकें नागरिक अनुप्रयोगों के लिए उपयोग किए जाने वाले खुले अनुसंधान साहित्य के माध्यम से उपलब्ध थीं, जिससे डिजिटल [[मोबाइल फोन नेटवर्क]] के निर्माण की अनुमति मिलती है, जो उनके पहले के एनालॉग सिस्टम की तुलना में काफी अधिक चैनल क्षमता वाले होते हैं।
ओपस (ऑडियो प्रारूप) [[मुफ्त सॉफ्टवेयर]] ऑडियो कोडर है। यह एमडीसीटी (सीईएलटी) और एलपीसी (सिल्क) ऑडियो कम्प्रेशन कलनविधि दोनों को जोड़ती है, स्पीच के लिए पूर्व का उपयोग करती है।<ref>{{cite conference |last1=Valin |first1=Jean-Marc |last2=Maxwell |first2=Gregory |last3=Terriberry |first3=Timothy B. |last4=Vos |first4=Koen |title=ओपस कोडेक में उच्च-गुणवत्ता, निम्न-विलंब संगीत कोडिंग|conference=135th AES Convention |publisher=[[Audio Engineering Society]] |date=October 2013 |arxiv=1602.04845 }}</ref> [[ व्हाट्सप्प |व्हाट्सप्प]] में वीओआईपी कॉल के लिए इसका व्यापक रूप से उपयोग किया जाता है।<ref name="Register">{{cite news |last1=Leyden |first1=John |title=WhatsApp laid bare: Info-sucking app's innards probed |url=https://www.theregister.co.uk/2015/10/27/whatsapp_forensic_analysis/ |access-date=19 October 2019 |work=[[The Register]] |date=27 October 2015}}</ref><ref name="Hazra">{{cite book |last1=Hazra |first1=Sudip |last2=Mateti |first2=Prabhaker |chapter=Challenges in Android Forensics |editor-last1=Thampi |editor-first1=Sabu M. |editor-last2=Pérez |editor-first2=Gregorio Martínez |editor-last3=Westphall |editor-first3=Carlos Becker |editor-last4=Hu |editor-first4=Jiankun |editor-last5=Fan |editor-first5=Chun I. |editor-last6=Mármol |editor-first6=Félix Gómez |title=Security in Computing and Communications: 5th International Symposium, SSCC 2017 |date=September 13–16, 2017 |publisher=Springer |isbn=9789811068980 |pages=286–299 (290) |doi=10.1007/978-981-10-6898-0_24 |chapter-url=https://books.google.com/books?id=1u09DwAAQBAJ&pg=PA290}}</ref><ref name="Srivastava">{{cite book |last1=Srivastava |first1=Saurabh Ranjan |last2=Dube |first2=Sachin |last3=Shrivastaya |first3=Gulshan |last4=Sharma |first4=Kavita |chapter=Smartphone Triggered Security Challenges: Issues, Case Studies and Prevention |journal=Cyber Security in Parallel and Distributed Computing |editor-last1=Le |editor-first1=Dac-Nhuong |editor-last2=Kumar |editor-first2=Raghvendra |editor-last3=Mishra |editor-first3=Brojo Kishore |editor-last4=Chatterjee |editor-first4=Jyotir Moy |editor-last5=Khari |editor-first5=Manju |title=Cyber Security in Parallel and Distributed Computing: Concepts, Techniques, Applications and Case Studies |date=2019 |publisher=John Wiley & Sons |isbn=9781119488057 |pages=187–206 (200) |doi=10.1002/9781119488330.ch12 |s2cid=214034702 |chapter-url=https://books.google.com/books?id=FzGtDwAAQBAJ&pg=PA200}}</ref> [[PlayStation 4|प्लेस्टेशन 4]] वीडियो गेम कंसोल भी अपने प्लेस्टेशन नेटवर्क प्रणाली पार्टी चैट के लिए ओपस का उपयोग करता है।<ref name="playstation">{{cite web|url=https://doc.dl.playstation.net/doc/ps4-oss/ |title=Open Source Software used in PlayStation4 |publisher=Sony Interactive Entertainment Inc. |access-date=2017-12-11}}{{fv|reason=Source does not indicate how Opus is used|date=September 2022}}</ref>


सबसे व्यापक रूप से इस्तेमाल किया जाने वाला स्पीच कोडिंग एल्गोरिदम लीनियर प्रेडिक्टिव कोडिंग (LPC) पर आधारित है।<ref>{{cite journal |last1=Gupta |first1=Shipra |title=पाठ स्वतंत्र अध्यक्ष मान्यता में एमएफसीसी का अनुप्रयोग|journal=International Journal of Advanced Research in Computer Science and Software Engineering |date=May 2016 |volume=6 |issue=5 |pages=805–810 (806) |s2cid=212485331 |issn=2277-128X |url=https://pdfs.semanticscholar.org/2aa9/c2971342e8b0b1a0714938f39c406f258477.pdf |archive-url=https://web.archive.org/web/20191018231621/https://pdfs.semanticscholar.org/2aa9/c2971342e8b0b1a0714938f39c406f258477.pdf |url-status=dead |archive-date=2019-10-18 |access-date=18 October 2019}}</ref> विशेष रूप से, सबसे आम भाषण कोडिंग योजना एलपीसी-आधारित [[कोड-उत्साहित [[रैखिक भविष्यवाणी]]]] (सीईएलपी) कोडिंग है, जिसका प्रयोग [[जीएसएम]] मानक में उदाहरण के लिए किया जाता है। CELP में, मॉडलिंग को दो चरणों में विभाजित किया गया है, एक रेखीय भविष्यवाणी चरण जो वर्णक्रमीय आवरण और रेखीय भविष्य कहनेवाला मॉडल के अवशिष्ट का कोड-बुक-आधारित मॉडल है। CELP में, रैखिक भविष्यवाणी गुणांक (LPC) की गणना और मात्रा निर्धारित की जाती है, आमतौर पर [[रेखा वर्णक्रमीय जोड़े]] (LSPs) के रूप में। सिग्नल की वास्तविक स्पीच कोडिंग के अलावा, ट्रांसमिशन त्रुटियों के कारण होने वाले नुकसान से बचने के लिए, ट्रांसमिशन के लिए [[चैनल कोडिंग]] का उपयोग करना अक्सर आवश्यक होता है। सर्वोत्तम समग्र कोडिंग परिणाम प्राप्त करने के लिए, स्पीच कोडिंग और चैनल कोडिंग विधियों को जोड़े में चुना जाता है, स्पीच डेटा स्ट्रीम में अधिक महत्वपूर्ण बिट्स के साथ अधिक मजबूत चैनल कोडिंग द्वारा संरक्षित किया जाता है।
इससे भी कम बिटरेट वाले कई कोडेक्स प्रदर्शित किए गए हैं। [[कोडेक2]], जो 450 bit/s जितनी कम [[बिट दर]] पर संचालित होता है, शौकिया रेडियो में इसका उपयोग देखता है।<ref>{{cite web |title=GitHub - Codec2 |website=[[GitHub]] |date=November 2019 |url=https://github.com/x893/codec2}}</ref> नाटो वर्तमान में [[मिश्रित-उत्तेजना रैखिक भविष्यवाणी|मिश्रित-उत्तेजना रैखिक प्रेडिक्टिव]] का उपयोग करता है, सुपाठ्य स्पीच 600 bit/s (गैर-मानक संस्करण संख्या को आधा करने के साथ) की प्रस्तुति करता है।<ref>Alan McCree, “A scalable phonetic vocoder framework using joint predictive vector quantization of MELP parameters,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, 2006, pp. I 705–708, Toulouse, France</ref> गूगल द्वारा [[लायरा (कोडेक)]] असामान्य मशीन लर्निंग दृष्टिकोण अपनाता है, जो लगभग 3 kbit/s पर भयानक गुणवत्ता देता है। माइक्रोसॉफ्ट का [[ साटन (कोडेक) |सैटिन]] भी मशीन लर्निंग का उपयोग करता है, लेकिन उच्च ट्यून करने योग्य बिटरेट का उपयोग करता है और वाइडबैंड है।<ref name=":3">{{Cite web |last=Levent-Levi |first=Tsahi |date=2021-04-19 |title=Lyra, Satin और WebRTC में वॉयस कोडेक्स का भविष्य|url=https://bloggeek.me/lyra-satin-webrtc-voice-codecs/ |access-date=2022-07-21 |website=BlogGeek.me |language=en-US}}</ref>


संशोधित [[असतत कोसाइन परिवर्तन]] (MDCT), एक प्रकार का असतत कोसाइन ट्रांसफ़ॉर्म (DCT) एल्गोरिथम, LD-MDCT नामक स्पीच कोडिंग एल्गोरिथम में अनुकूलित किया गया था, जिसका उपयोग 1999 में शुरू किए गए [[AAC-LD]] प्रारूप के लिए किया गया था।<ref name="Schnell">{{cite conference |last1=Schnell|first1=Markus |last2=Schmidt |first2=Markus |last3=Jander |first3=Manuel |last4=Albert |first4=Tobias |last5=Geiger |first5=Ralf |last6=Ruoppila |first6=Vesa |last7=Ekstrand |first7=Per |last8=Bernhard |first8=Grill |date=October 2008 |title=MPEG-4 Enhanced Low Delay AAC - A New Standard for High Quality Communication |url=https://www.iis.fraunhofer.de/content/dam/iis/de/doc/ame/conference/AES-125-Convention_AAC-ELD-NewStandardForHighQualityCommunication_AES7503.pdf |conference=125th AES Convention |publisher=[[Audio Engineering Society]] |access-date=20 October 2019 |website=[[Fraunhofer IIS]]}}</ref> तब से एमडीसीटी को [[आईपी ​​पर आवाज]] (वीओआईपी) अनुप्रयोगों में व्यापक रूप से अपनाया गया है, जैसे कि 2006 में पेश किया गया G.729.1 [[वाइडबैंड ऑडियो]] कोडेक,<ref name="Nagireddi">{{cite book |last1=Nagireddi |first1=Sivannarayana |title=वीओआईपी आवाज और फैक्स सिग्नल प्रोसेसिंग|date=2008 |publisher=[[John Wiley & Sons]] |isbn=9780470377864 |page=69 |url=https://books.google.com/books?id=5AneeZFE71MC&pg=PA69}}</ref> Apple Inc. का [[ फेस टाइम |फेस टाइम]] (AAC-LD का उपयोग करके) 2010 में पेश किया गया,<ref name="AppleInsider standards 1">{{cite web|url=http://www.appleinsider.com/articles/10/06/08/inside_iphone_4_facetime_video_calling.html|date=June 8, 2010|access-date=June 9, 2010|title=Inside iPhone 4: FaceTime video calling|publisher=[[Apple community#AppleInsider|AppleInsider]]|author=Daniel Eran Dilger}}</ref> और [[CELT]] कोडेक 2011 में पेश किया गया।<ref name="presentation">[http://people.xiph.org/~greg/video/linux_conf_au_CELT_2.ogv Presentation of the CELT codec] by Timothy B. Terriberry (65 minutes of video, see also [http://www.celt-codec.org/presentations/misc/lca-celt.pdf presentation slides] in PDF)</ref>
ओपस (ऑडियो प्रारूप) एक [[मुफ्त सॉफ्टवेयर]] ऑडियो कोडर है। यह एमडीसीटी (सीईएलटी) और एलपीसी (सिल्क) ऑडियो कम्प्रेशन एल्गोरिदम दोनों को जोड़ती है, भाषण के लिए पूर्व का उपयोग करती है।<ref>{{cite conference |last1=Valin |first1=Jean-Marc |last2=Maxwell |first2=Gregory |last3=Terriberry |first3=Timothy B. |last4=Vos |first4=Koen |title=ओपस कोडेक में उच्च-गुणवत्ता, निम्न-विलंब संगीत कोडिंग|conference=135th AES Convention |publisher=[[Audio Engineering Society]] |date=October 2013 |arxiv=1602.04845 }}</ref> [[ व्हाट्सप्प |व्हाट्सप्प]] में वीओआईपी कॉल के लिए इसका व्यापक रूप से उपयोग किया जाता है।<ref name="Register">{{cite news |last1=Leyden |first1=John |title=WhatsApp laid bare: Info-sucking app's innards probed |url=https://www.theregister.co.uk/2015/10/27/whatsapp_forensic_analysis/ |access-date=19 October 2019 |work=[[The Register]] |date=27 October 2015}}</ref><ref name="Hazra">{{cite book |last1=Hazra |first1=Sudip |last2=Mateti |first2=Prabhaker |chapter=Challenges in Android Forensics |editor-last1=Thampi |editor-first1=Sabu M. |editor-last2=Pérez |editor-first2=Gregorio Martínez |editor-last3=Westphall |editor-first3=Carlos Becker |editor-last4=Hu |editor-first4=Jiankun |editor-last5=Fan |editor-first5=Chun I. |editor-last6=Mármol |editor-first6=Félix Gómez |title=Security in Computing and Communications: 5th International Symposium, SSCC 2017 |date=September 13–16, 2017 |publisher=Springer |isbn=9789811068980 |pages=286–299 (290) |doi=10.1007/978-981-10-6898-0_24 |chapter-url=https://books.google.com/books?id=1u09DwAAQBAJ&pg=PA290}}</ref><ref name="Srivastava">{{cite book |last1=Srivastava |first1=Saurabh Ranjan |last2=Dube |first2=Sachin |last3=Shrivastaya |first3=Gulshan |last4=Sharma |first4=Kavita |chapter=Smartphone Triggered Security Challenges: Issues, Case Studies and Prevention |journal=Cyber Security in Parallel and Distributed Computing |editor-last1=Le |editor-first1=Dac-Nhuong |editor-last2=Kumar |editor-first2=Raghvendra |editor-last3=Mishra |editor-first3=Brojo Kishore |editor-last4=Chatterjee |editor-first4=Jyotir Moy |editor-last5=Khari |editor-first5=Manju |title=Cyber Security in Parallel and Distributed Computing: Concepts, Techniques, Applications and Case Studies |date=2019 |publisher=John Wiley & Sons |isbn=9781119488057 |pages=187–206 (200) |doi=10.1002/9781119488330.ch12 |s2cid=214034702 |chapter-url=https://books.google.com/books?id=FzGtDwAAQBAJ&pg=PA200}}</ref> [[PlayStation 4]] वीडियो गेम कंसोल भी अपने PlayStation नेटवर्क सिस्टम पार्टी चैट के लिए Opus का उपयोग करता है।<ref name="playstation">{{cite web|url=https://doc.dl.playstation.net/doc/ps4-oss/ |title=Open Source Software used in PlayStation4 |publisher=Sony Interactive Entertainment Inc. |access-date=2017-12-11}}{{fv|reason=Source does not indicate how Opus is used|date=September 2022}}</ref>
इससे भी कम बिटरेट वाले कई कोडेक्स प्रदर्शित किए गए हैं। [[कोडेक2]], जो 450 बिट/सेकंड जितनी कम [[बिट दर]] पर संचालित होता है, शौकिया रेडियो में इसका उपयोग देखता है।<ref>{{cite web |title=GitHub - Codec2 |website=[[GitHub]] |date=November 2019 |url=https://github.com/x893/codec2}}</ref> नाटो वर्तमान में [[मिश्रित-उत्तेजना रैखिक भविष्यवाणी]] का उपयोग करता है, सुपाठ्य भाषण 600 बिट/एस (गैर-मानक संस्करण संख्या को आधा करने के साथ) की पेशकश करता है।<ref>Alan McCree, “A scalable phonetic vocoder framework using joint predictive vector quantization of MELP parameters,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, 2006, pp. I 705–708, Toulouse, France</ref> Google द्वारा [[लायरा (कोडेक)]] असामान्य मशीन लर्निंग दृष्टिकोण अपनाता है, जो लगभग 3 kbit/s पर भयानक गुणवत्ता देता है। Microsoft का [[ साटन (कोडेक) |साटन (कोडेक)]] भी मशीन लर्निंग का उपयोग करता है, लेकिन उच्च ट्यून करने योग्य बिटरेट का उपयोग करता है और वाइडबैंड है।<ref name=":3">{{Cite web |last=Levent-Levi |first=Tsahi |date=2021-04-19 |title=Lyra, Satin और WebRTC में वॉयस कोडेक्स का भविष्य|url=https://bloggeek.me/lyra-satin-webrtc-voice-codecs/ |access-date=2022-07-21 |website=BlogGeek.me |language=en-US}}</ref>




=== उप-क्षेत्र ===
=== उप-क्षेत्र ===
; वाइडबैंड ऑडियो कोडिंग
; वाइडबैंड ऑडियो कोडिंग
* लीनियर प्रेडिक्टिव कोडिंग (LPC)
* रैखिक प्रेडिक्टिव कोडिंग (एलपीसी)
** [[WCDMA]] नेटवर्क के लिए [[AMR-WB]]
** [[WCDMA|डब्ल्यूसीडीएमए]] नेटवर्क के लिए [[AMR-WB|एएमआर-डब्लूबी]]
** [[CDMA2000]] नेटवर्क के लिए [[VMR-WB]]
** [[CDMA2000|सीडीएमए2000]] नेटवर्क के लिए [[VMR-WB|वीएमआर-डब्लूबी]]
** वॉइस-ओवर-आईपी (वीओआईपी) और वीडियो कॉन्फ़्रेंसिंग के लिए [[स्पीक्स]], आईपी-एमआर, [[ रेशम |रेशम]] और ओपस (ऑडियो प्रारूप)
** वॉइस-ओवर-आईपी (वीओआईपी) और वीडियो कॉन्फ़्रेंसिंग के लिए [[स्पीक्स]], आईपी-एमआर, [[ रेशम |सिल्क]] और ओपस (ऑडियो प्रारूप)
* संशोधित असतत कोज्या परिवर्तन (एमडीसीटी)
* संशोधित असतत कोज्या परिवर्तन (एमडीसीटी)
** AAC-LD, G.722.1, G.729.1, CELT और Opus VoIP और वीडियो कॉन्फ़्रेंसिंग के लिए
** एएसी-एलडी, G.722.1, G.729.1, सीईएलटी और ओपस वीओआईपी और वीडियो कॉन्फ़्रेंसिंग के लिए
* [[अनुकूली अंतर पल्स-कोड मॉड्यूलेशन]] (ADPCM)
* [[अनुकूली अंतर पल्स-कोड मॉड्यूलेशन]] (एडीपीसीएम)
** वीओआईपी के लिए G.722
** वीओआईपी के लिए G.722


Line 52: Line 58:
* एलपीसी
* एलपीसी
** सैन्य अनुप्रयोगों के लिए [[एफएनबीडीटी]]
** सैन्य अनुप्रयोगों के लिए [[एफएनबीडीटी]]
** [[सीडीएमए]] नेटवर्क के लिए चयन योग्य मोड वोकोडर
** [[सीडीएमए]] नेटवर्क के लिए एसएमवी
** जीएसएम नेटवर्क के लिए [[पूर्ण दर]], आधी दर, [[बढ़ी हुई पूर्ण दर]] और [[अनुकूली बहु-दर]]
** जीएसएम नेटवर्क के लिए [[पूर्ण दर]], आधी दर, [[बढ़ी हुई पूर्ण दर|ईएफआर]] और [[अनुकूली बहु-दर|एएमआर]]
** G.723.1, G.728, G.729, G.729.1 और [[iLBC]] वीओआईपी या वीडियो कॉन्फ़्रेंसिंग के लिए
** वीओआईपी या वीडियो कॉन्फ़्रेंसिंग के लिए G.723.1, G.728, G.729, G.729.1 और [[iLBC|आईएलबीसी]]  
* एडीपीसीएम
* एडीपीसीएम
** वीओआईपी के लिए G.726
** वीओआईपी के लिए G.726
* [[मल्टी-बैंड उत्तेजना]] (एमबीई)
* [[मल्टी-बैंड उत्तेजना|मल्टी-बैंड एक्साइटमेंट]] (एमबीई)
** मल्टी-बैंड एक्साइटमेंट | [[डिजिटल रेडियो]] [[मोबाइल रेडियो]] और [[ उपग्रह टेलीफोन |उपग्रह टेलीफोन]] के लिए AMBE+
** [[डिजिटल रेडियो|डिजिटल]] [[मोबाइल रेडियो]] और [[ उपग्रह टेलीफोन |उपग्रह टेलीफोन]] के लिए एएमबीई+
** [[कोडेक 2]]
** [[कोडेक 2]]


== यह भी देखें ==
== यह भी देखें ==
* [[अंकीय संकेत प्रक्रिया]]
* [[अंकीय संकेत प्रक्रिया]]
* [[भाषण इंटरफ़ेस दिशानिर्देश]]
* [[भाषण इंटरफ़ेस दिशानिर्देश|स्पीच इंटरफ़ेस दिशानिर्देश]]
* [[भाषण प्रसंस्करण]]
* [[भाषण प्रसंस्करण|स्पीच प्रसंस्करण]]
* [[भाषा संकलन]]
* [[भाषा संकलन]]
* [[वेक्टर परिमाणीकरण]]
* [[वेक्टर परिमाणीकरण]]
Line 73: Line 79:


==बाहरी संबंध==
==बाहरी संबंध==
* [http://www.itu.int/net/itu-t/sigdb/genaudio/Pseries.htm ITU-T Test Signals for Telecommunication Systems Test Samples]
* [http://www.itu.int/net/itu-t/sigdb/genaudio/Pseries.htm आईटीयू-टी Test Signals for Telecommunication Systems Test Samples]
* [http://www.itu.int/rec/T-REC-P.862/ ITU-T Perceptual evaluation of speech quality (PESQ) tool Sources]
* [http://www.itu.int/rec/T-REC-P.862/ आईटीयू-टी Perceptual evaluation of speech quality (PESQ) tool Sources]


{{Compression Methods}}
{{Compression Methods}}

Revision as of 01:39, 18 May 2023


स्पीच कोडिंग स्पीच वाले डिजिटल ऑडियो संकेत के डेटा कम्प्रेशन का अनुप्रयोग है। स्पीच कोडिंग, स्पीच संकेत को मॉडल करने के लिए ऑडियो संकेत प्रोसेसिंग तकनीकों का उपयोग करके स्पीच-विशिष्ट पैरामीटर अनुमान का उपयोग करती है, जो सघन बिटस्ट्रीम में परिणामी मॉडल में किए गए मापदंडों का प्रतिनिधित्व करने के लिए जेनेरिक डेटा कम्प्रेशन कलनविधि के साथ संयुक्त है।[1]

स्पीच कोडिंग के कुछ अनुप्रयोग मोबाइल टेलीफोनी और वॉइस ओवर (वीओआईपी) हैं।[2] मोबाइल टेलीफोनी में सबसे व्यापक रूप से उपयोग की जाने वाली स्पीच कोडिंग तकनीक रैखिक प्रेडिक्टिव कोडिंग (एलपीसी) है, जबकि वीओआईपी अनुप्रयोगों में सबसे व्यापक रूप से उपयोग की जाने वाली एलपीसी और संशोधित असतत कोसाइन परिवर्तन (एमडीसीटी) तकनीकें हैं।

स्पीच कोडिंग में नियोजित तकनीकें ऑडियो डेटा संपीड़न और ऑडियो कोडिंग में उपयोग की जाने वाली तकनीकों के समान होती हैं, जहां मनोविज्ञान में ज्ञान केवल मानव श्रवण प्रणाली के लिए प्रासंगिक डेटा संचारित करने के लिए उपयोग किया जाता है। उदाहरण के लिए, वॉयसबैंड स्पीच कोडिंग में, केवल 400 से 3500 Hz आवृत्ति बैंड में सूचना प्रसारित की जाती है, लेकिन फिर से निर्मित संकेत अभी भी इंटेलीजेंसी (संचार) के लिए पर्याप्त है।

स्पीच कोडिंग ऑडियो कोडिंग के अन्य रूपों से भिन्न होती है क्योंकि स्पीच अधिकांश अन्य ऑडियो संकेतों की तुलना में सरल संकेत है, और स्पीच के गुणों के बारे में बहुत अधिक सांख्यिकीय जानकारी उपलब्ध है। परिणामस्वरूप, ऑडियो कोडिंग में प्रासंगिक कुछ श्रवण जानकारी स्पीच कोडिंग संदर्भ में अनावश्यक हो सकती है। स्पीच कोडिंग में, सबसे महत्वपूर्ण मानदंड संचरित डेटा की सीमित मात्रा के साथ, स्पीच की सुगमता और सुखदता का संरक्षण है।[3] इसके अतिरिक्त, अधिकांश स्पीच अनुप्रयोगों में कम कोडिंग विलंब की आवश्यकता होती है, क्योंकि लंबे कोडिंग विलंब स्पीच अंतःक्रिया में हस्तक्षेप करते हैं।[4]


श्रेणियां

स्पीच कोडर दो प्रकार के होते हैं:[5]

  1. वेवफॉर्म कोडर
  2. वोकोडर्स

सैंपल कंपैंडिंग को स्पीच कोडिंग के रूप में देखा जाता है

पारंपरिक पल्स कोड मॉडुलेशन डिजिटल टेलीफोनी में उपयोग किए जाने वाले ए-नियम कलनविधि और ए-कानून कलनविधि (जी.711) को स्पीच एन्कोडिंग के पहले के अग्रदूत के रूप में देखा जा सकता है, जिसके लिए प्रति नमूना केवल 8 बिट की आवश्यकता होती है लेकिन प्रभावी रूप से 12 बिट देता है। संकल्प का।[6] लॉगरिदमिक कंपाउंडिंग कानून मानव श्रवण धारणा के अनुरूप हैं जिसमें कम-आयाम वाले शोर को कम-आयाम वाले स्पीच संकेत के साथ सुना जाता है, लेकिन उच्च-आयाम वाले द्वारा नकाबपोश किया जाता है। यद्यपि यह संगीत संकेत में अस्वीकार्य विरूपण उत्पन्न करेगा, स्पीच तरंगों की चरम प्रकृति, स्पीच की सरल आवृत्ति संरचना के साथ मिलकर आवधिक कार्य के रूप में एकल मूलभूत आवृत्ति के साथ कभी-कभी जोड़े गए शोर फटने के साथ, इन बहुत ही सरल तात्कालिक संपीड़न कलनविधि को स्वीकार्य बनाते हैं स्पीच।

उस समय अन्य कलनविधि की विस्तृत विविधता का प्रयास किया गया था, अधिकतर डेल्टा मॉड्यूलेशन वेरिएंट, लेकिन सावधानीपूर्वक विचार करने के बाद, ए-नियम/μ-नियम कलनविधि को प्रारंभिक डिजिटल टेलीफोनी प्रणाली के डिजाइनरों द्वारा चुना गया था। उनके डिजाइन के समय, बहुत कम जटिलता के लिए उनकी 33% बैंडविड्थ की कमी ने उत्कृष्ट इंजीनियरिंग समझौता किया था। उनका ऑडियो प्रदर्शन स्वीकार्य रहता है, और स्थिर फ़ोन नेटवर्क में उन्हें परिवर्तन की कोई आवश्यकता नहीं थी।

2008 में, G.711.1 कोडेक, जिसकी स्केलेबल संरचना है, आईटीयू-टी द्वारा मानकीकृत किया गया था। इनपुट सैंपलिंग रेट 16 kHz है।

आधुनिक स्पीच संपीड़न

स्पीच कंप्रेशन में बाद के अधिकांश कार्य सुरक्षित ध्वनि के लिए डिजिटल संचार में सैन्य अनुसंधान से प्रेरित थे, जहां शत्रुतापूर्ण रेडियो वातावरण में प्रभावी संचालन प्राप्त करने के लिए बहुत कम डेटा दरों का उपयोग किया गया था। उसी समय, बहुत बड़े पैमाने पर एकीकरण के रूप में, पहले की संपीड़न तकनीकों की तुलना में कहीं अधिक प्रसंस्करण शक्ति उपलब्ध थी। परिणामस्वरूप, आधुनिक स्पीच संपीड़न कलनविधि 1960 के दशक में उपलब्ध उच्च संपीड़न अनुपात प्राप्त करने की तुलना में कहीं अधिक जटिल विधियों का उपयोग कर सकते थे।

ये तकनीकें नागरिक अनुप्रयोगों के लिए उपयोग किए जाने वाले खुले अनुसंधान साहित्य के माध्यम से उपलब्ध थीं, जिससे डिजिटल मोबाइल फोन नेटवर्क के निर्माण की अनुमति मिलती है, जो उनके पहले के एनालॉग प्रणाली की तुलना में अत्यधिक अधिक चैनल क्षमता वाले होते हैं।

सबसे व्यापक रूप से उपयोग किया जाने वाला स्पीच कोडिंग कलनविधि रैखिक प्रेडिक्टिव कोडिंग (एलपीसी) पर आधारित है।[7] विशेष रूप से, सबसे सामान्य स्पीच कोडिंग योजना एलपीसी-आधारित कोड-उत्साहित रैखिक प्रेडिक्टिव (सीईएलपी) कोडिंग है, जिसका प्रयोग जीएसएम मानक में उदाहरण के लिए किया जाता है। सीईएलपी में, मॉडलिंग को दो चरणों में विभाजित किया गया है, रैखिक प्रेडिक्टिव चरण जो वर्णक्रमीय आवरण और रैखिक प्रेडिक्टिव मॉडल के अवशिष्ट का कोड-बुक-आधारित मॉडल है। सीईएलपी में, रैखिक प्रेडिक्टिव गुणांक (एलपीसी) की गणना और मात्रा निर्धारित की जाती है, सामान्यतः रेखा वर्णक्रमीय जोड़े (एलएसपी) के रूप में निर्धारित की जाती है। संकेत की वास्तविक स्पीच कोडिंग के अतिरिक्त, ट्रांसमिशन त्रुटियों के कारण होने वाली हानि से बचने के लिए, ट्रांसमिशन के लिए चैनल कोडिंग का उपयोग करना अधिकांशतः आवश्यक होता है। सर्वोत्तम समग्र कोडिंग परिणाम प्राप्त करने के लिए, स्पीच कोडिंग और चैनल कोडिंग विधियों को जोड़े में चुना जाता है, स्पीच डेटा स्ट्रीम में अधिक महत्वपूर्ण बिट्स के साथ अधिक दृढ़ चैनल कोडिंग द्वारा संरक्षित किया जाता है।

संशोधित असतत कोसाइन परिवर्तन (एमडीसीटी), एक प्रकार का असतत कोसाइन ट्रांसफ़ॉर्म (डीसीटी) कलनविधि, एलडी-एमडीसीटी नामक स्पीच कोडिंग कलनविधि में अनुकूलित किया गया था, जिसका उपयोग 1999 में प्रारंभ किए गए एएसी-एलडी प्रारूप के लिए किया गया था।[8] तब से एमडीसीटी को आईपी ​​पर ध्वनि (वीओआईपी) अनुप्रयोगों में व्यापक रूप से अपनाया गया है, जैसे कि 2006 में प्रस्तुत किया गया G.729.1 वाइडबैंड ऑडियो कोडेक,[9] एप्पल इंक. का फेस टाइम (एएसी-एलडी का उपयोग करके) 2010 में प्रस्तुत किया गया,[10] और सीईएलटी कोडेक 2011 में प्रस्तुत किया गया था।[11]

ओपस (ऑडियो प्रारूप) मुफ्त सॉफ्टवेयर ऑडियो कोडर है। यह एमडीसीटी (सीईएलटी) और एलपीसी (सिल्क) ऑडियो कम्प्रेशन कलनविधि दोनों को जोड़ती है, स्पीच के लिए पूर्व का उपयोग करती है।[12] व्हाट्सप्प में वीओआईपी कॉल के लिए इसका व्यापक रूप से उपयोग किया जाता है।[13][14][15] प्लेस्टेशन 4 वीडियो गेम कंसोल भी अपने प्लेस्टेशन नेटवर्क प्रणाली पार्टी चैट के लिए ओपस का उपयोग करता है।[16]

इससे भी कम बिटरेट वाले कई कोडेक्स प्रदर्शित किए गए हैं। कोडेक2, जो 450 bit/s जितनी कम बिट दर पर संचालित होता है, शौकिया रेडियो में इसका उपयोग देखता है।[17] नाटो वर्तमान में मिश्रित-उत्तेजना रैखिक प्रेडिक्टिव का उपयोग करता है, सुपाठ्य स्पीच 600 bit/s (गैर-मानक संस्करण संख्या को आधा करने के साथ) की प्रस्तुति करता है।[18] गूगल द्वारा लायरा (कोडेक) असामान्य मशीन लर्निंग दृष्टिकोण अपनाता है, जो लगभग 3 kbit/s पर भयानक गुणवत्ता देता है। माइक्रोसॉफ्ट का सैटिन भी मशीन लर्निंग का उपयोग करता है, लेकिन उच्च ट्यून करने योग्य बिटरेट का उपयोग करता है और वाइडबैंड है।[19]


उप-क्षेत्र

वाइडबैंड ऑडियो कोडिंग
नैरोबैंड ऑडियो कोडिंग

यह भी देखें

संदर्भ

  1. M. Arjona Ramírez and M. Minami, "Low bit rate speech coding," in Wiley Encyclopedia of Telecommunications, J. G. Proakis, Ed., New York: Wiley, 2003, vol. 3, pp. 1299-1308.
  2. M. Arjona Ramírez and M. Minami, "Technology and standards for low-bit-rate vocoding methods," in The Handbook of Computer Networks, H. Bidgoli, Ed., New York: Wiley, 2011, vol. 2, pp. 447–467.
  3. P. Kroon, "Evaluation of speech coders," in Speech Coding and Synthesis, W. Bastiaan Kleijn and K. K. Paliwal, Ed., Amsterdam: Elsevier Science, 1995, pp. 467-494.
  4. J. H. Chen, R. V. Cox, Y.-C. Lin, N. S. Jayant, and M. J. Melchner, A low-delay CELP coder for the CCITT 16 kb/s speech coding standard. IEEE J. Select. Areas Commun. 10(5): 830-849, June 1992.
  5. "Soo Hyun Bae, ECE 8873 Data Compression & Modeling, Georgia Institute of Technology , 2004". Archived from the original on 7 September 2006.
  6. N. S. Jayant and P. Noll, Digital coding of waveforms. Englewood Cliffs: Prentice-Hall, 1984.
  7. Gupta, Shipra (May 2016). "पाठ स्वतंत्र अध्यक्ष मान्यता में एमएफसीसी का अनुप्रयोग" (PDF). International Journal of Advanced Research in Computer Science and Software Engineering. 6 (5): 805–810 (806). ISSN 2277-128X. S2CID 212485331. Archived from the original (PDF) on 2019-10-18. Retrieved 18 October 2019.
  8. Schnell, Markus; Schmidt, Markus; Jander, Manuel; Albert, Tobias; Geiger, Ralf; Ruoppila, Vesa; Ekstrand, Per; Bernhard, Grill (October 2008). MPEG-4 Enhanced Low Delay AAC - A New Standard for High Quality Communication (PDF). 125th AES Convention. Fraunhofer IIS. Audio Engineering Society. Retrieved 20 October 2019.
  9. Nagireddi, Sivannarayana (2008). वीओआईपी आवाज और फैक्स सिग्नल प्रोसेसिंग. John Wiley & Sons. p. 69. ISBN 9780470377864.
  10. Daniel Eran Dilger (June 8, 2010). "Inside iPhone 4: FaceTime video calling". AppleInsider. Retrieved June 9, 2010.
  11. Presentation of the CELT codec by Timothy B. Terriberry (65 minutes of video, see also presentation slides in PDF)
  12. Valin, Jean-Marc; Maxwell, Gregory; Terriberry, Timothy B.; Vos, Koen (October 2013). ओपस कोडेक में उच्च-गुणवत्ता, निम्न-विलंब संगीत कोडिंग. 135th AES Convention. Audio Engineering Society. arXiv:1602.04845.
  13. Leyden, John (27 October 2015). "WhatsApp laid bare: Info-sucking app's innards probed". The Register. Retrieved 19 October 2019.
  14. Hazra, Sudip; Mateti, Prabhaker (September 13–16, 2017). "Challenges in Android Forensics". In Thampi, Sabu M.; Pérez, Gregorio Martínez; Westphall, Carlos Becker; Hu, Jiankun; Fan, Chun I.; Mármol, Félix Gómez (eds.). Security in Computing and Communications: 5th International Symposium, SSCC 2017. Springer. pp. 286–299 (290). doi:10.1007/978-981-10-6898-0_24. ISBN 9789811068980.
  15. Srivastava, Saurabh Ranjan; Dube, Sachin; Shrivastaya, Gulshan; Sharma, Kavita (2019). "Smartphone Triggered Security Challenges: Issues, Case Studies and Prevention". In Le, Dac-Nhuong; Kumar, Raghvendra; Mishra, Brojo Kishore; Chatterjee, Jyotir Moy; Khari, Manju (eds.). Cyber Security in Parallel and Distributed Computing: Concepts, Techniques, Applications and Case Studies. pp. 187–206 (200). doi:10.1002/9781119488330.ch12. ISBN 9781119488057. S2CID 214034702. {{cite book}}: |journal= ignored (help)
  16. "Open Source Software used in PlayStation4". Sony Interactive Entertainment Inc. Retrieved 2017-12-11.[failed verification]
  17. "GitHub - Codec2". GitHub. November 2019.
  18. Alan McCree, “A scalable phonetic vocoder framework using joint predictive vector quantization of MELP parameters,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, 2006, pp. I 705–708, Toulouse, France
  19. Levent-Levi, Tsahi (2021-04-19). "Lyra, Satin और WebRTC में वॉयस कोडेक्स का भविष्य". BlogGeek.me (in English). Retrieved 2022-07-21.


बाहरी संबंध