रैखिक भविष्य कोडिंग (लीनियर प्रेडिक्टिव कोडिंग): Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Speech analysis and encoding technique}} {{Use American English|date=June 2021}} रैखिक भविष्यवाणी कोडिंग (LP...")
 
No edit summary
 
(14 intermediate revisions by 4 users not shown)
Line 1: Line 1:
{{Short description|Speech analysis and encoding technique}}
[[रैखिक भविष्यवाणी]] कोडिंग (LPC) विधि है जिसका उपयोग ज्यादातर [[ऑडियो सिग्नल प्रोसेसिंग|ऑडियो संकेत प्रोसेसिंग]] और [[ भाषण प्रसंस्करण |भाषण प्रसंस्करण]] में किया जाता है, जो कि रैखिक भविष्य कहनेवाला मॉडल की जानकारी का उपयोग करते हुए [[संकुचित रूप]] में डिजिटल संकेत के [[वर्णक्रमीय]] आवरण का प्रतिनिधित्व करता है।<ref>{{cite book |last= Deng |first= Li |author2=Douglas O'Shaughnessy |title= Speech processing: a dynamic and optimization-oriented approach |publisher= [[Marcel Dekker]] |year= 2003 |pages= 41–48 |isbn= 978-0-8247-4040-5 |url=https://books.google.com/books?id=136wRmFT_t8C&pg=PA41}}</ref><ref>{{cite book | title=स्पीकर मान्यता की बुनियादी बातों| publisher=Springer-Verlag | author=Beigi, Homayoon | year=2011 | location=Berlin | isbn=978-0-387-77591-3}}</ref> LPC [[ भाषण कोडिंग |भाषण कोडिंग]] और [[ भाषा संकलन |भाषा संकलन]] में सबसे व्यापक रूप से उपयोग की जाने वाली विधि है। यह शक्तिशाली भाषण विश्लेषण प्रविधि है और कम बिट दर पर अच्छी गुणवत्ता वाले भाषण को एन्कोड करने के लिए उपयोगी विधि है।
{{Use American English|date=June 2021}}
 
[[रैखिक भविष्यवाणी]] कोडिंग (LPC) एक विधि है जिसका उपयोग ज्यादातर [[ऑडियो सिग्नल प्रोसेसिंग]] और [[ भाषण प्रसंस्करण ]] में [[आधार - सामग्री संकोचन]] फॉर्म में [[ भाषण संचार ]] के [[डिजिटल डाटा]] सिग्नल (सूचना सिद्धांत) के वर्णक्रमीय लिफाफे का प्रतिनिधित्व करने के लिए किया जाता है, जिसमें लीनियर [[ भविष्य कहनेवाला मॉडलिंग ]] की जानकारी का उपयोग किया जाता है।<ref>{{cite book |last= Deng |first= Li |author2=Douglas O'Shaughnessy |title= Speech processing: a dynamic and optimization-oriented approach |publisher= [[Marcel Dekker]] |year= 2003 |pages= 41–48 |isbn= 978-0-8247-4040-5 |url=https://books.google.com/books?id=136wRmFT_t8C&pg=PA41}}</ref><ref>{{cite book | title=स्पीकर मान्यता की बुनियादी बातों| publisher=Springer-Verlag | author=Beigi, Homayoon | year=2011 | location=Berlin | isbn=978-0-387-77591-3}}</ref> LPC [[ भाषण कोडिंग ]] और [[ भाषा संकलन ]] में सबसे व्यापक रूप से उपयोग की जाने वाली विधि है। यह एक शक्तिशाली भाषण विश्लेषण तकनीक है, और कम बिट दर पर अच्छी गुणवत्ता वाले भाषण को एन्कोड करने के लिए एक उपयोगी तरीका है।


== सिंहावलोकन ==
== सिंहावलोकन ==
एलपीसी इस धारणा के साथ शुरू होता है कि एक ट्यूब के अंत में एक बजर द्वारा एक भाषण संकेत उत्पन्न होता है ([[आवाज (ध्वन्यात्मक)]] ध्वनियों के लिए), कभी-कभी जोड़े जाने वाले हिसिंग और पॉपिंग ध्वनियों के साथ (ध्वनिहीनता के लिए [[ सीटी बजानेवाला ]]्स और [[ स्पर्श ]] जैसी आवाज़ें)। हालांकि स्पष्ट रूप से अपरिष्कृत, यह स्रोत-फ़िल्टर मॉडल वास्तव में भाषण उत्पादन की वास्तविकता का एक निकट सन्निकटन है। [[उपजिह्वा]] (मुखर सिलवटों के बीच का स्थान) भनभनाहट पैदा करता है, जो इसकी तीव्रता (जोर) और [[आवृत्ति]] (पिच) की विशेषता है। मुखर पथ (गला और मुंह) ट्यूब बनाता है, जो इसके अनुनादों की विशेषता है; ये अनुनाद उत्पन्न ध्वनि में [[ फार्मेंट ]]्स, या बढ़ी हुई आवृत्ति बैंड को जन्म देते हैं। सिबिलेंट्स और प्लोसिव्स के दौरान जीभ, होंठ और गले की क्रिया से फुफकार और चबूतरे उत्पन्न होते हैं।
एलपीसी इस धारणा के साथ प्रारंभ होता है कि नली के अंत में बजर द्वारा भाषण संकेत उत्पन्न होता है [[आवाज]] वाली आवाजों के लिए, कभी-कभी जोड़े जाने वाले हिसिंग और पॉपिंग ध्वनियों के साथ (ध्वनिहीनता के लिए [[ सीटी बजानेवाला |सीटी बजानेवाला]] और [[ स्पर्श |स्पर्श]] जैसी आवाज़ें)। चूंकि स्पष्ट रूप से अपरिष्कृत, यह स्रोत-फ़िल्टर मॉडल वास्तव में भाषण उत्पादन की वास्तविकता का निकट सन्निकटन है। [[उपजिह्वा]] (मुखर सिलवटों के बीच का स्थान) भनभनाहट उत्पन्न करता है, जो इसकी तीव्रता (जोर) और [[आवृत्ति]] (पिच) की विशेषता है। मुखर पथ (गला और मुंह) नली बनाता है, जो इसके अनुनादों की विशेषता है; ये अनुनाद उत्पन्न ध्वनि में [[ फार्मेंट |फार्मेंट]] या बढ़ी हुई आवृत्ति बैंड को जन्म देते हैं। सहोदर और स्पर्श के पर्यन्त जीभ, होंठ और गले की क्रिया से फुफकार और चबूतरे उत्पन्न होते हैं।


LPC फॉर्मेंट्स का अनुमान लगाकर, स्पीच सिग्नल से उनके प्रभावों को हटाकर, और शेष भनभनाहट की तीव्रता और आवृत्ति का अनुमान लगाकर स्पीच सिग्नल का विश्लेषण करती है। फॉर्मेंट्स को हटाने की प्रक्रिया को व्युत्क्रम फ़िल्टरिंग कहा जाता है, और फ़िल्टर्ड मॉडल्ड सिग्नल के घटाव के बाद शेष सिग्नल को अवशेष कहा जाता है।
LPC फॉर्मेंट्स का अनुमान लगाकर, भाषण संकेत से उनके प्रभावों को हटाकर और शेष भनभनाहट की तीव्रता और आवृत्ति का अनुमान लगाकर भाषण संकेत का विश्लेषण करती है। फॉर्मेंट्स को हटाने की प्रक्रिया को व्युत्क्रम फ़िल्टरिंग कहा जाता है और फ़िल्टर्ड मॉडल्ड संकेत के घटाव के बाद शेष संकेत को अवशेष कहा जाता है।


वे संख्याएँ जो भनभनाहट की तीव्रता और आवृत्ति का वर्णन करती हैं, फॉर्मेंट्स और अवशेष संकेत, कहीं और संग्रहीत या प्रसारित किए जा सकते हैं। एलपीसी प्रक्रिया को उलट कर भाषण संकेत को संश्लेषित करता है: स्रोत सिग्नल बनाने के लिए बज़ पैरामीटर और अवशेष का उपयोग करें, फ़िल्टर बनाने के लिए फॉर्मेंट्स का उपयोग करें (जो ट्यूब का प्रतिनिधित्व करता है), और फ़िल्टर के माध्यम से स्रोत को चलाएं, जिसके परिणामस्वरूप भाषण होता है।
वे संख्याएँ जो भनभनाहट की तीव्रता और आवृत्ति का वर्णन करती हैं, फॉर्मेंट्स और अवशेष संकेत, कहीं और संग्रहीत या प्रसारित किए जा सकते हैं। एलपीसी प्रक्रिया को उलट कर भाषण संकेत को संश्लेषित करता है, स्रोत संकेत बनाने के लिए बज़ पैरामीटर और अवशेष का उपयोग करें, फ़िल्टर बनाने के लिए फॉर्मेंट्स का उपयोग करें (जो नली का प्रतिनिधित्व करता है) और फ़िल्टर के माध्यम से स्रोत को चलाएं, जिसके परिणामस्वरूप भाषण होता है।


क्योंकि वाक् संकेत समय के साथ बदलते हैं, यह प्रक्रिया वाक् संकेत के छोटे टुकड़ों पर की जाती है, जिन्हें फ्रेम कहा जाता है; आम तौर पर, प्रति सेकंड 30 से 50 फ्रेम अच्छे संपीड़न के साथ एक समझदार भाषण देते हैं।
क्योंकि भाषण संकेत समय के साथ बदलते हैं, यह प्रक्रिया भाषण संकेत के छोटे टुकड़ों पर की जाती है, जिन्हें फ्रेम कहा जाता है। सामान्यतः प्रति सेकंड 30 से 50 फ्रेम अच्छे संपीड़न के साथ बुद्धिग्राह्य भाषण देते हैं।


== प्रारंभिक इतिहास ==
== प्रारंभिक इतिहास ==


रैखिक भविष्यवाणी (संकेत अनुमान) कम से कम 1940 के दशक में वापस चला जाता है जब [[नॉर्बर्ट वीनर]] ने शोर में छिपे संकेतों का पता लगाने के लिए सर्वश्रेष्ठ [[ विनीज़ फ़िल्टर ]] और भविष्यवक्ताओं की गणना के लिए एक गणितीय सिद्धांत विकसित किया।<ref>{{cite journal | author=B.S. Atal | title=रैखिक भविष्यवाणी का इतिहास| year=2006 | pages=154–161 | volume=23 | issue=2 | journal=IEEE Signal Processing Magazine| doi=10.1109/MSP.2006.1598091 | bibcode=2006ISPM...23..154A | s2cid=15601493 | url=https://www.researchgate.net/publication/3321695}}</ref><ref name="Sasahira">{{cite journal |author1=Y. Sasahira |author2=S. Hashimoto | title=गायक के व्यक्तिगत समय को बनाए रखने के लिए लीनियर प्रेडिक्टिव कोडिंग विधि द्वारा वॉयस पिच को बदलना| year=1995 | url=https://quod.lib.umich.edu/cgi/p/pod/dod-idx/voice-pitch-changing.pdf?c=icmc;idno=bbp2372.1995.118;format=pdf}}</ref> [[क्लाउड शैनन]] द्वारा [[संचार का एक गणितीय सिद्धांत]] की स्थापना के तुरंत बाद, सी. चैपिन कटलर द्वारा प्रेडिक्टिव कोडिंग पर काम किया गया था।<ref>{{cite patent | inventor=C. C. Cutler | title=संचार संकेतों का विभेदक परिमाणीकरण| pubdate=1952-07-29 | country=US|number=2605361}}</ref> बर्नार्ड एम ओलिवर<ref>{{cite journal | author=B. M. Oliver | title=कुशल कोडिंग| year=1952 | volume=31 | issue=4 | pages=724–750 | publisher=Nokia Bell Labs}}</ref> और हेनरी सी. हैरिसन।<ref>{{cite journal | author=H. C. Harrison | title=टेलीविजन में रैखिक भविष्यवाणी के साथ प्रयोग| year=1952 | volume=31 | pages=764–783 | publisher=Bell System Technical Journal}}</ref> 1955 में [[पीटर एलियास]] ने संकेतों की भविष्यवाणी कोडिंग पर दो पत्र प्रकाशित किए।<ref>{{cite journal | author=P. Elias | title=भविष्य कहनेवाला कोडिंग I| year=1955 | pages=16–24 | volume=IT-1 no. 1 | publisher=IRE Trans. Inform.Theory}}</ref><ref>{{cite journal | author=P. Elias | title=भविष्य कहनेवाला कोडिंग द्वितीय| year=1955 | pages=24–33 | volume=IT-1 no. 1 | publisher=IRE Trans. Inform. Theory}}</ref>
रैखिक भविष्यवाणी (संकेत अनुमान) कम से कम 1940 के दशक में वापस चला जाता है जब [[नॉर्बर्ट वीनर]] ने शोर में छिपे संकेतों का पता लगाने के लिए सर्वश्रेष्ठ [[ विनीज़ फ़िल्टर |विनीज़ फ़िल्टर]] और भविष्यवक्ताओं की गणना के लिए गणितीय सिद्धांत विकसित किया।<ref>{{cite journal | author=B.S. Atal | title=रैखिक भविष्यवाणी का इतिहास| year=2006 | pages=154–161 | volume=23 | issue=2 | journal=IEEE Signal Processing Magazine| doi=10.1109/MSP.2006.1598091 | bibcode=2006ISPM...23..154A | s2cid=15601493 | url=https://www.researchgate.net/publication/3321695}}</ref><ref name="Sasahira">{{cite journal |author1=Y. Sasahira |author2=S. Hashimoto | title=गायक के व्यक्तिगत समय को बनाए रखने के लिए लीनियर प्रेडिक्टिव कोडिंग विधि द्वारा वॉयस पिच को बदलना| year=1995 | url=https://quod.lib.umich.edu/cgi/p/pod/dod-idx/voice-pitch-changing.pdf?c=icmc;idno=bbp2372.1995.118;format=pdf}}</ref> [[क्लाउड शैनन]] द्वारा [[संचार का एक गणितीय सिद्धांत|संचार का गणितीय सिद्धांत]] की स्थापना के तुरंत बाद, सी. चैपिन कटलर द्वारा भविष्य कहनेवाला कोडिंग पर काम किया गया था।<ref>{{cite patent | inventor=C. C. Cutler | title=संचार संकेतों का विभेदक परिमाणीकरण| pubdate=1952-07-29 | country=US|number=2605361}}</ref> बर्नार्ड एम ओलिवर<ref>{{cite journal | author=B. M. Oliver | title=कुशल कोडिंग| year=1952 | volume=31 | issue=4 | pages=724–750 | publisher=Nokia Bell Labs}}</ref> और हेनरी सी. हैरिसन।<ref>{{cite journal | author=H. C. Harrison | title=टेलीविजन में रैखिक भविष्यवाणी के साथ प्रयोग| year=1952 | volume=31 | pages=764–783 | publisher=Bell System Technical Journal}}</ref> 1955 में [[पीटर एलियास]] ने संकेतों की भविष्यवाणी कोडिंग पर दो पत्र प्रकाशित किए।<ref>{{cite journal | author=P. Elias | title=भविष्य कहनेवाला कोडिंग I| year=1955 | pages=16–24 | volume=IT-1 no. 1 | publisher=IRE Trans. Inform.Theory}}</ref><ref>{{cite journal | author=P. Elias | title=भविष्य कहनेवाला कोडिंग द्वितीय| year=1955 | pages=24–33 | volume=IT-1 no. 1 | publisher=IRE Trans. Inform. Theory}}</ref>1966 में [[नागोया विश्वविद्यालय]] के [[बुंददा इटाकुरा]] और [[निप्पॉन टेलीग्राफ और टेलीफोन]] के शूजो सैटो द्वारा और 1967 में बिष्णु एस. अटल, मैनफ्रेड आर. श्रोएडर और जॉन बर्ग द्वारा स्वतंत्र रूप से भाषण विश्लेषण के लिए रैखिक भविष्यवाणियों को लागू किया गया था। इटाकुरा और सैटो ने [[अधिकतम संभावना अनुमान]] के आधार पर सांख्यिकीय दृष्टिकोण का वर्णन किया; अटल और श्रोएडर ने अनुकूली फ़िल्टर दृष्टिकोण का वर्णन किया; बर्ग ने अधिकतम एन्ट्रॉपी वर्णक्रम संबंधी अनुमान के आधार पर दृष्टिकोण की रूपरेखा तैयार की।<ref name="Sasahira"></ref><ref>{{cite journal |author1=S. Saito |author2=F. Itakura | title=भाषण के वर्णक्रमीय घनत्व की सांख्यिकीय इष्टतम मान्यता का सैद्धांतिक विचार| date=Jan 1967 | publisher=J. Acoust. Soc.Japan}}</ref><ref>{{cite journal |author1=B.S. Atal |author2=M.R. Schroeder | title=भाषण की भविष्य कहनेवाला कोडिंग| year=1967 | publisher=Conf. Communications and Proc}}</ref><ref>{{cite journal | author=J.P. Burg | title=अधिकतम एंट्रॉपी स्पेक्ट्रल विश्लेषण| year=1967 | publisher=Proceedings of 37th Meeting, Society of Exploration Geophysics, Oklahoma City}}</ref>1969 में, इटाकुरा और सैटो ने [[आंशिक सहसंबंध]] (पारकोर) पर आधारित विधि प्रस्तुत की, [[ग्लेन कूलर]] ने वास्तविक काल भाषण एन्कोडिंग प्रस्तावित की और बिष्णु एस. अटल ने [[अमेरिका की ध्वनिक सोसायटी]] की वार्षिक बैठक में LPC भाषण कोडर प्रस्तुत किया। 1971 में, [[ फ़िल्को-फोर्ड |फ़िल्को-फोर्ड]] द्वारा 16-बिट LPC हार्डवेयर का उपयोग करके वास्तविक काल LPC का प्रदर्शन किया गया; चार इकाइयां बेची गईं।<ref name="Gray">{{cite journal |last1=Gray |first1=Robert M. |author1-link=Robert M. Gray |title=A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol |journal=Found. Trends Signal Process. |date=2010 |volume=3 |issue=4 |pages=203–303 |doi=10.1561/2000000036 |url=https://ee.stanford.edu/~gray/lpcip.pdf |archive-url=https://ghostarchive.org/archive/20221009/https://ee.stanford.edu/~gray/lpcip.pdf |archive-date=2022-10-09 |url-status=live |issn=1932-8346|doi-access=free }}</ref> 1970 के दशक के पर्यन्त बिष्णु अटल और [[मैनफ्रेड श्रोएडर]] द्वारा 1980 के दशक LPC प्रविधि को उन्नत किया गया था <ref name="Gray"/>1978 में, अटल और विश्वनाथ एट अल BBN ने पहला [[ चर बिटरेट |चर बिट]]दर | चर-दर LPC एल्गोरिथम विकसित किया।<ref name="Gray"/>उसी वर्ष, बेल लैब्स में अटल और मैनफ़्रेड आर. श्रोएडर ने [[ अनुकूली भविष्य कहनेवाला कोडिंग |अनुकूली भविष्य कहनेवाला कोडिंग]] नामक एलपीसी भाषण [[कोडेक]] का प्रस्ताव रखा, जिसमें मानव कान के मास्किंग गुणों का उपयोग करते हुए [[मनो]]ध्वनिक कोडिंग एल्गोरिथम का उपयोग किया गया।<ref name="Schroeder2014">{{cite book|last1=Schroeder|first=Manfred R.|title=Acoustics, Information, and Communication: Memorial Volume in Honor of Manfred R. Schroeder|date=2014|publisher=Springer|isbn=9783319056609|chapter=Bell Laboratories|page=388|chapter-url=https://books.google.com/books?id=d9IkBAAAQBAJ&pg=PA388}}</ref><ref>{{cite journal|last1=Atal|first1=B.|last2=Schroeder|first2=M.|title=भाषण संकेतों और व्यक्तिपरक त्रुटि मानदंड की भविष्यवाणी कोडिंग|journal=ICASSP '78. IEEE International Conference on Acoustics, Speech, and Signal Processing|date=1978|volume=3|pages=573–576|doi=10.1109/ICASSP.1978.1170564}}</ref> यह बाद में 1993 में प्रस्तुत किए गए [[बिका हुआ]] [[ऑडियो संपीड़न (डेटा)]] प्रारूप द्वारा उपयोग की जाने वाली [[अवधारणात्मक कोडिंग]] प्रविधि का आधार बन गया।<ref name="Schroeder2014"/>1985 में श्रोएडर और अटल द्वारा [[ कोड-उत्तेजित रैखिक भविष्यवाणी |कोड-उत्तेजित रैखिक भविष्यवाणी]] (CELP) विकसित किया गया था।<ref>{{cite journal|last1=Schroeder|first1=Manfred R.|author1-link=Manfred R. Schroeder|last2=Atal|first2=Bishnu S.|author2-link=Bishnu S. Atal|title=Code-excited linear prediction (CELP): High-quality speech at very low bit rates|journal=ICASSP '85. IEEE International Conference on Acoustics, Speech, and Signal Processing|date=1985|volume=10|pages=937–940|doi=10.1109/ICASSP.1985.1168147|s2cid=14803427}}</ref>एलपीसी [[आईपी ​​पर आवाज]] (वीओआईपी) प्रविधि का आधार है।<ref name="Gray"/>1972 में, जिम फोर्गी (लिंकन लेबोरेटरी, एलएल) और डेव वाल्डेन ([[बीबीएन टेक्नोलॉजीज]]) के साथ [[रक्षा अग्रिम जाँच परियोजनाएं एजेंसी]] के [[ बॉब क्हान |बॉब क्हान]] ने पैकेटयुक्त भाषण में पहला विकास प्रारंभ किया, जो अंततः पार्श्व स्वर -आईपी प्रविधि का नेतृत्व करेगा। 1973 में, [[लिंकन प्रयोगशाला]] के अनौपचारिक इतिहास के अनुसार, एड हॉफस्टेटर द्वारा पहली वास्तविक समय 2400 बिट/एस एलपीसी लागू की गई थी। 1974 में, कुलर-हैरिसन और लिंकन प्रयोगशाला के बीच 3500 बिट/एस पर अरपानेट पर पहला वास्तविक समय दो-तरफ़ा LPC पैकेट भाषण संचार पूरा किया गया था। 1976 में, 3500 बिट/एस पर कुलेर-हैरिसन, आईएसआई, एसआरआई, और एलएल के बीच [[नेटवर्क वॉयस प्रोटोकॉल]] का उपयोग करते हुए [[अरपानेट]] पर पहला एलपीसी सम्मेलन हुआ।
1966 में [[नागोया विश्वविद्यालय]] के [[बुंददा इटाकुरा]] और [[निप्पॉन टेलीग्राफ और टेलीफोन]] के शूजो सैटो द्वारा और 1967 में बिष्णु एस. अटल, मैनफ्रेड आर. श्रोएडर और जॉन बर्ग द्वारा स्वतंत्र रूप से भाषण विश्लेषण के लिए रैखिक भविष्यवाणियों को लागू किया गया था। इटाकुरा और सैटो ने [[अधिकतम संभावना अनुमान]] के आधार पर एक सांख्यिकीय दृष्टिकोण का वर्णन किया; अटल और श्रोएडर ने एक अनुकूली फ़िल्टर दृष्टिकोण का वर्णन किया; बर्ग ने अधिकतम एन्ट्रॉपी स्पेक्ट्रल अनुमान के आधार पर एक दृष्टिकोण की रूपरेखा तैयार की।<ref name="Sasahira"></ref><ref>{{cite journal |author1=S. Saito |author2=F. Itakura | title=भाषण के वर्णक्रमीय घनत्व की सांख्यिकीय इष्टतम मान्यता का सैद्धांतिक विचार| date=Jan 1967 | publisher=J. Acoust. Soc.Japan}}</ref><ref>{{cite journal |author1=B.S. Atal |author2=M.R. Schroeder | title=भाषण की भविष्य कहनेवाला कोडिंग| year=1967 | publisher=Conf. Communications and Proc}}</ref><ref>{{cite journal | author=J.P. Burg | title=अधिकतम एंट्रॉपी स्पेक्ट्रल विश्लेषण| year=1967 | publisher=Proceedings of 37th Meeting, Society of Exploration Geophysics, Oklahoma City}}</ref>
1969 में, इटाकुरा और सैटो ने [[आंशिक सहसंबंध]] (PARCOR) पर आधारित विधि पेश की, [[ग्लेन कूलर]] ने रीयल-टाइम स्पीच एन्कोडिंग प्रस्तावित की, और बिष्णु एस. अटल ने [[अमेरिका की ध्वनिक सोसायटी]] की वार्षिक बैठक में एक LPC स्पीच कोडर प्रस्तुत किया। 1971 में, [[ फ़िल्को-फोर्ड ]] द्वारा 16-बिट LPC हार्डवेयर का उपयोग करके रीयलटाइम LPC का प्रदर्शन किया गया; चार इकाइयां बेची गईं।<ref name="Gray">{{cite journal |last1=Gray |first1=Robert M. |author1-link=Robert M. Gray |title=A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol |journal=Found. Trends Signal Process. |date=2010 |volume=3 |issue=4 |pages=203–303 |doi=10.1561/2000000036 |url=https://ee.stanford.edu/~gray/lpcip.pdf |archive-url=https://ghostarchive.org/archive/20221009/https://ee.stanford.edu/~gray/lpcip.pdf |archive-date=2022-10-09 |url-status=live |issn=1932-8346|doi-access=free }}</ref> 1970 के दशक के दौरान बिष्णु अटल और [[मैनफ्रेड श्रोएडर]] द्वारा LPC तकनीक को उन्नत किया गया था{{ndash}1980 के दशक।<ref name="Gray"/>1978 में, अटल और विश्वनाथ एट अल। BBN ने पहला [[ चर बिटरेट ]] | वेरिएबल-रेट LPC एल्गोरिथम विकसित किया।<ref name="Gray"/>उसी वर्ष, बेल लैब्स में अटल और मैनफ़्रेड आर. श्रोएडर ने [[ अनुकूली भविष्य कहनेवाला कोडिंग ]] नामक एक एलपीसी स्पीच [[कोडेक]] का प्रस्ताव रखा, जिसमें मानव कान के मास्किंग गुणों का उपयोग करते हुए एक [[मनो]]ध्वनिक कोडिंग एल्गोरिथम का उपयोग किया गया।<ref name="Schroeder2014">{{cite book|last1=Schroeder|first=Manfred R.|title=Acoustics, Information, and Communication: Memorial Volume in Honor of Manfred R. Schroeder|date=2014|publisher=Springer|isbn=9783319056609|chapter=Bell Laboratories|page=388|chapter-url=https://books.google.com/books?id=d9IkBAAAQBAJ&pg=PA388}}</ref><ref>{{cite journal|last1=Atal|first1=B.|last2=Schroeder|first2=M.|title=भाषण संकेतों और व्यक्तिपरक त्रुटि मानदंड की भविष्यवाणी कोडिंग|journal=ICASSP '78. IEEE International Conference on Acoustics, Speech, and Signal Processing|date=1978|volume=3|pages=573–576|doi=10.1109/ICASSP.1978.1170564}}</ref> यह बाद में 1993 में पेश किए गए [[बिका हुआ]] [[ऑडियो संपीड़न (डेटा)]]डेटा) प्रारूप द्वारा उपयोग की जाने वाली [[अवधारणात्मक कोडिंग]] तकनीक का आधार बन गया।<ref name="Schroeder2014"/>1985 में श्रोएडर और अटल द्वारा [[ कोड-उत्तेजित रैखिक भविष्यवाणी ]] (CELP) विकसित किया गया था।<ref>{{cite journal|last1=Schroeder|first1=Manfred R.|author1-link=Manfred R. Schroeder|last2=Atal|first2=Bishnu S.|author2-link=Bishnu S. Atal|title=Code-excited linear prediction (CELP): High-quality speech at very low bit rates|journal=ICASSP '85. IEEE International Conference on Acoustics, Speech, and Signal Processing|date=1985|volume=10|pages=937–940|doi=10.1109/ICASSP.1985.1168147|s2cid=14803427}}</ref>
एलपीसी [[आईपी ​​पर आवाज]] (वीओआईपी) तकनीक का आधार है।<ref name="Gray"/>1972 में, जिम फोर्गी (लिंकन लेबोरेटरी, एलएल) और डेव वाल्डेन ([[बीबीएन टेक्नोलॉजीज]]) के साथ [[रक्षा अग्रिम जाँच परियोजनाएं एजेंसी]] के [[ बॉब क्हान ]] ने पैकेटयुक्त भाषण में पहला विकास शुरू किया, जो अंततः वॉइस-ओवर-आईपी तकनीक का नेतृत्व करेगा। 1973 में, [[लिंकन प्रयोगशाला]] के अनौपचारिक इतिहास के अनुसार, एड हॉफस्टेटर द्वारा पहली वास्तविक समय 2400 बिट/एस एलपीसी लागू की गई थी। 1974 में, कुलर-हैरिसन और लिंकन प्रयोगशाला के बीच 3500 बिट/एस पर ARPANET पर पहला वास्तविक समय दो-तरफ़ा LPC पैकेट भाषण संचार पूरा किया गया था। 1976 में, 3500 बिट/एस पर कुलेर-हैरिसन, आईएसआई, एसआरआई, और एलएल के बीच [[नेटवर्क वॉयस प्रोटोकॉल]] का उपयोग करते हुए [[अरपानेट]] पर पहला एलपीसी सम्मेलन हुआ।{{Citation needed|date=December 2019}}


== एलपीसी गुणांक प्रतिनिधित्व ==
== एलपीसी गुणांक प्रतिनिधित्व ==
एलपीसी अक्सर वर्णक्रमीय लिफाफा सूचना प्रसारित करने के लिए प्रयोग किया जाता है, और इस तरह इसे संचरण त्रुटियों के प्रति सहिष्णु होना पड़ता है। फ़िल्टर गुणांकों का सीधे प्रसारण (गुणांकों की परिभाषा के लिए रेखीय भविष्यवाणी देखें) अवांछनीय है, क्योंकि वे त्रुटियों के प्रति बहुत संवेदनशील हैं। दूसरे शब्दों में, एक बहुत छोटी त्रुटि पूरे स्पेक्ट्रम को विकृत कर सकती है, या इससे भी बदतर, एक छोटी सी त्रुटि भविष्यवाणी फ़िल्टर को अस्थिर कर सकती है।
एलपीसी अधिकांशतः वर्णक्रमीय आवरण सूचना प्रसारित करने के लिए प्रयोग किया जाता है और इस तरह इसे संचरण त्रुटियों के प्रति सहिष्णु होना पड़ता है। फ़िल्टर गुणांकों का सीधे प्रसारण (गुणांकों की परिभाषा के लिए रेखीय भविष्यवाणी देखें) अवांछनीय है, क्योंकि वे त्रुटियों के प्रति बहुत संवेदनशील हैं। दूसरे शब्दों में, बहुत छोटी त्रुटि पूरे वर्णक्रमीय आवरण को विकृत कर सकती है और इससे भी ज़्यादा बुरा, छोटी सी त्रुटि भविष्यवाणी फ़िल्टर को अस्थिर कर सकती है।


लॉग एरिया अनुपात (एलएआर), [[रेखा वर्णक्रमीय जोड़े]] (एलएसपी) अपघटन और [[प्रतिबिंब गुणांक]] जैसे अधिक उन्नत प्रतिनिधित्व हैं। इनमें से, विशेष रूप से एलएसपी अपघटन ने लोकप्रियता हासिल की है क्योंकि यह भविष्यवक्ता की स्थिरता सुनिश्चित करता है, और छोटे गुणांक विचलन के लिए वर्णक्रमीय त्रुटियां स्थानीय हैं।
लॉग क्षेत्र अनुपात (एलएआर), [[रेखा वर्णक्रमीय जोड़े]] (एलएसपी) अपघटन और [[प्रतिबिंब गुणांक]] जैसे अधिक उन्नत प्रतिनिधित्व हैं। इनमें से, विशेष रूप से एलएसपी अपघटन ने लोकप्रियता प्राप्त की है क्योंकि यह भविष्यवक्ता की स्थिरता सुनिश्चित करता है और छोटे गुणांक विचलन के लिए वर्णक्रमीय त्रुटियां स्थानीय हैं।


== अनुप्रयोग ==
== अनुप्रयोग ==
LPC स्पीच कोडिंग और स्पीच सिंथेसिस में सबसे व्यापक रूप से उपयोग की जाने वाली विधि है।<ref>{{cite journal |last1=Gupta |first1=Shipra |title=पाठ स्वतंत्र अध्यक्ष मान्यता में एमएफसीसी का अनुप्रयोग|journal=International Journal of Advanced Research in Computer Science and Software Engineering |date=May 2016 |volume=6 |issue=5 |pages=805-810 (806) |s2cid=212485331 |issn=2277-128X |url=https://pdfs.semanticscholar.org/2aa9/c2971342e8b0b1a0714938f39c406f258477.pdf |archive-url=https://web.archive.org/web/20191018231621/https://pdfs.semanticscholar.org/2aa9/c2971342e8b0b1a0714938f39c406f258477.pdf |url-status=dead |archive-date=2019-10-18 |access-date=18 October 2019}}</ref> यह आम तौर पर भाषण विश्लेषण और पुनरुत्थान के लिए प्रयोग किया जाता है। उदाहरण के लिए, [[जीएसएम]] मानक जैसे फोन कंपनियों द्वारा आवाज संपीड़न के रूप में इसका उपयोग किया जाता है। इसका उपयोग [[COMSEC]] वायरलेस के लिए भी किया जाता है, जहाँ आवाज को [[ digitize ]]किया जाना चाहिए, [[ कूटलेखन ]] और एक संकीर्ण वॉयस चैनल पर भेजा जाना चाहिए; इसका एक प्रारंभिक उदाहरण अमेरिकी सरकार का [[नवाजो आई]] है।
LPC भाषण कोडिंग और भाषण संश्लेषण में सबसे व्यापक रूप से उपयोग की जाने वाली विधि है।<ref>{{cite journal |last1=Gupta |first1=Shipra |title=पाठ स्वतंत्र अध्यक्ष मान्यता में एमएफसीसी का अनुप्रयोग|journal=International Journal of Advanced Research in Computer Science and Software Engineering |date=May 2016 |volume=6 |issue=5 |pages=805-810 (806) |s2cid=212485331 |issn=2277-128X |url=https://pdfs.semanticscholar.org/2aa9/c2971342e8b0b1a0714938f39c406f258477.pdf |archive-url=https://web.archive.org/web/20191018231621/https://pdfs.semanticscholar.org/2aa9/c2971342e8b0b1a0714938f39c406f258477.pdf |url-status=dead |archive-date=2019-10-18 |access-date=18 October 2019}}</ref> यह सामान्यतः भाषण विश्लेषण और पुनरुत्थान के लिए प्रयोग किया जाता है। उदाहरण के लिए, [[जीएसएम]] मानक जैसे फोन कंपनियों द्वारा आवाज संपीड़न के रूप में इसका उपयोग किया जाता है। इसका उपयोग [[COMSEC|कॉमसेक]] वायरलेस के लिए भी किया जाता है, जहाँ आवाज को [[ digitize |अंकीकरण]] किया जाना चाहिए, [[ कूटलेखन |कूटलेखन]] और संकीर्ण आवाज चैनल पर भेजा जाना चाहिए; इसका प्रारंभिक उदाहरण अमेरिकी सरकार का [[नवाजो जनरेटिंग स्टेशन|नवाजो आई]] है।


एलपीसी संश्लेषण का उपयोग [[ vocoder ]]्स बनाने के लिए किया जा सकता है जहां संगीत वाद्ययंत्र एक गायक के भाषण से अनुमानित समय-भिन्न फ़िल्टर के उत्तेजना संकेत के रूप में उपयोग किया जाता है। यह [[इलेक्ट्रॉनिक संगीत]] में कुछ हद तक लोकप्रिय है।
एलपीसी संश्लेषण का उपयोग [[ vocoder |वोकोडर]] बनाने के लिए किया जा सकता है जहां संगीत वाद्ययंत्र गायक के भाषण से अनुमानित समय-भिन्न फ़िल्टर के उत्तेजना संकेत के रूप में उपयोग किया जाता है। यह [[इलेक्ट्रॉनिक संगीत]] में कुछ सीमा तक लोकप्रिय है।[[पॉल लैंस्की]] ने रेखिक भविष्य कहनेवाला कोडिंग का उपयोग करते हुए प्रसिद्ध कंप्यूटर संगीत का टुकड़ा को न केवल अधिक व्यर्थ चहचहाना बनाया। [https://web.archive.org/web/20171224031037/http://paul.mycpanel.princeton.edu/liner_notes/morethanidlechatter.html व्यर्थ की बातचीत से अधिक]1980 के लोकप्रिय बोलो और जादू करो (गेम) | स्पीक एंड स्पेल शैक्षिक खिलौना में 10वें क्रम के एलपीसी का उपयोग किया गया था।
[[पॉल लैंस्की]] ने लीनियर प्रेडिक्टिव कोडिंग का उपयोग करते हुए प्रसिद्ध कंप्यूटर म्यूजिक पीस को न केवल अधिक बेकार बकबक बनाया। [https://web.archive.org/web/20171224031037/http://paul.mycpanel.princeton.edu/liner_notes/morethanidlechatter.html बेकार की बातचीत से अधिक]
1980 के लोकप्रिय स्पीक एंड स्पेल (गेम) | स्पीक एंड स्पेल एजुकेशनल टॉय में 10वें क्रम के एलपीसी का इस्तेमाल किया गया था।
 
LPC भविष्यवक्ताओं का उपयोग शॉर्टन (फ़ाइल स्वरूप), [[MPEG-4 ALS]], [[FLAC]], [[SILK]] [[ऑडियो कोडेक]] और अन्य [[दोषरहित संपीड़न]] ऑडियो कोडेक में किया जाता है।
 
एलपीसी ने वायलिन और अन्य कड़े संगीत वाद्ययंत्रों के टोनल विश्लेषण में उपयोग के लिए एक उपकरण के रूप में कुछ ध्यान आकर्षित किया।<ref name=tai>{{cite journal|last=Tai|first=Hwan-Ching|author2=Chung, Dai-Ting |title=स्ट्राडिवरी वायलिन महिलाओं द्वारा निर्मित स्वरों से मिलती-जुलती फॉर्मेंट फ्रीक्वेंसी प्रदर्शित करते हैं|journal=Savart Journal|date=June 14, 2012|volume=1|issue=2|url=http://savartjournal.org/index.php/sj/article/view/16/pdf}}</ref>


LPC भविष्यवक्ताओं का उपयोग शॉर्टन (फ़ाइल स्वरूप), [[MPEG-4 ALS|एमपीईजी-4 एएलएस]], [[FLAC|फ्लैक]], [[SILK|सिल्क]] [[ऑडियो कोडेक]] और अन्य [[दोषरहित संपीड़न]] ऑडियो कोडेक में किया जाता है।


एलपीसी ने वायोलिन और अन्य कड़े संगीत वाद्ययंत्रों के तानवाला विश्लेषण में उपयोग के लिए उपकरण के रूप में कुछ ध्यान आकर्षित किया।<ref name=tai>{{cite journal|last=Tai|first=Hwan-Ching|author2=Chung, Dai-Ting |title=स्ट्राडिवरी वायलिन महिलाओं द्वारा निर्मित स्वरों से मिलती-जुलती फॉर्मेंट फ्रीक्वेंसी प्रदर्शित करते हैं|journal=Savart Journal|date=June 14, 2012|volume=1|issue=2|url=http://savartjournal.org/index.php/sj/article/view/16/pdf}}</ref>
== यह भी देखें ==
== यह भी देखें ==
*एकाइके सूचना मानदंड
*एकाइके सूचना मानदंड
Line 54: Line 44:
* [http://www-ee.stanford.edu/~gray/dl.html Robert M. Gray, IEEE Signal Processing Society, Distinguished Lecturer Program]
* [http://www-ee.stanford.edu/~gray/dl.html Robert M. Gray, IEEE Signal Processing Society, Distinguished Lecturer Program]
{{refend}}
{{refend}}
==अग्रिम पठन==
==अग्रिम पठन==
*{{Cite journal|last=O'Shaughnessy|first=D.|year=1988|title=Linear predictive coding|journal=IEEE Potentials|volume=7|issue=1|pages=29–32|doi=10.1109/45.1890|s2cid=12786562}}
*{{Cite journal|last=O'Shaughnessy|first=D.|year=1988|title=Linear predictive coding|journal=IEEE Potentials|volume=7|issue=1|pages=29–32|doi=10.1109/45.1890|s2cid=12786562}}
*{{Cite book|first1=Alan | last1=Bundy | author-link1=Alan Bundy | first2=Lincoln | last2=Wallen| author-link2=Lincoln Wallen | year=1984 | title=A Generalisation of the Glivenko-Cantelli Theorem | journal=Symbolic Computation | doi=10.1007/978-3-642-96868-6_123 | pages=61| isbn=978-3-540-13938-6 }}
*{{Cite book|first1=Alan | last1=Bundy | author-link1=Alan Bundy | first2=Lincoln | last2=Wallen| author-link2=Lincoln Wallen | year=1984 | title=A Generalisation of the Glivenko-Cantelli Theorem | journal=Symbolic Computation | doi=10.1007/978-3-642-96868-6_123 | pages=61| isbn=978-3-540-13938-6 }}
*{{cite book|last=El-Jaroudi|first=Amro|title=Wiley Encyclopedia of Telecommunications|year=2003|chapter=Linear Predictive Coding|journal=Encyclopedia of Telecommunications|doi=10.1002/0471219282.eot155|isbn=978-0471219286}}
*{{cite book|last=El-Jaroudi|first=Amro|title=Wiley Encyclopedia of Telecommunications|year=2003|chapter=Linear Predictive Coding|journal=Encyclopedia of Telecommunications|doi=10.1002/0471219282.eot155|isbn=978-0471219286}}
==बाहरी संबंध==
==बाहरी संबंध==
*[http://soundlab.cs.princeton.edu/software/rt_lpc/ real-time LPC analysis/synthesis learning software]
*[http://soundlab.cs.princeton.edu/software/rt_lpc/ real-time LPC analysis/synthesis learning software]
Line 68: Line 54:
{{Compression Methods}}
{{Compression Methods}}


{{DEFAULTSORT:Linear Predictive Coding}}[[Category: ऑडियो कोडेक्स]] [[Category: हानिपूर्ण संपीड़न एल्गोरिदम]] [[Category: भाषण कोडेक्स]] [[Category: अंकीय संकेत प्रक्रिया]] [[Category: जापानी आविष्कार]]
{{DEFAULTSORT:Linear Predictive Coding}}
 
 


[[Category: Machine Translated Page]]
[[Category:CS1]]
[[Category:Created On 12/05/2023]]
[[Category:CS1 errors]]
[[Category:Collapse templates|Linear Predictive Coding]]
[[Category:Created On 12/05/2023|Linear Predictive Coding]]
[[Category:Data compression|Linear Predictive Coding]]
[[Category:Machine Translated Page|Linear Predictive Coding]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists|Linear Predictive Coding]]
[[Category:Pages with script errors|Linear Predictive Coding]]
[[Category:Sidebars with styles needing conversion|Linear Predictive Coding]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready|Linear Predictive Coding]]
[[Category:Templates generating microformats|Linear Predictive Coding]]
[[Category:Templates that are not mobile friendly|Linear Predictive Coding]]
[[Category:Templates using TemplateData|Linear Predictive Coding]]
[[Category:Wikipedia metatemplates|Linear Predictive Coding]]
[[Category:अंकीय संकेत प्रक्रिया|Linear Predictive Coding]]
[[Category:ऑडियो कोडेक्स|Linear Predictive Coding]]
[[Category:जापानी आविष्कार|Linear Predictive Coding]]
[[Category:भाषण कोडेक्स|Linear Predictive Coding]]
[[Category:हानिपूर्ण संपीड़न एल्गोरिदम|Linear Predictive Coding]]

Latest revision as of 09:35, 22 May 2023

रैखिक भविष्यवाणी कोडिंग (LPC) विधि है जिसका उपयोग ज्यादातर ऑडियो संकेत प्रोसेसिंग और भाषण प्रसंस्करण में किया जाता है, जो कि रैखिक भविष्य कहनेवाला मॉडल की जानकारी का उपयोग करते हुए संकुचित रूप में डिजिटल संकेत के वर्णक्रमीय आवरण का प्रतिनिधित्व करता है।[1][2] LPC भाषण कोडिंग और भाषा संकलन में सबसे व्यापक रूप से उपयोग की जाने वाली विधि है। यह शक्तिशाली भाषण विश्लेषण प्रविधि है और कम बिट दर पर अच्छी गुणवत्ता वाले भाषण को एन्कोड करने के लिए उपयोगी विधि है।

सिंहावलोकन

एलपीसी इस धारणा के साथ प्रारंभ होता है कि नली के अंत में बजर द्वारा भाषण संकेत उत्पन्न होता है आवाज वाली आवाजों के लिए, कभी-कभी जोड़े जाने वाले हिसिंग और पॉपिंग ध्वनियों के साथ (ध्वनिहीनता के लिए सीटी बजानेवाला और स्पर्श जैसी आवाज़ें)। चूंकि स्पष्ट रूप से अपरिष्कृत, यह स्रोत-फ़िल्टर मॉडल वास्तव में भाषण उत्पादन की वास्तविकता का निकट सन्निकटन है। उपजिह्वा (मुखर सिलवटों के बीच का स्थान) भनभनाहट उत्पन्न करता है, जो इसकी तीव्रता (जोर) और आवृत्ति (पिच) की विशेषता है। मुखर पथ (गला और मुंह) नली बनाता है, जो इसके अनुनादों की विशेषता है; ये अनुनाद उत्पन्न ध्वनि में फार्मेंट या बढ़ी हुई आवृत्ति बैंड को जन्म देते हैं। सहोदर और स्पर्श के पर्यन्त जीभ, होंठ और गले की क्रिया से फुफकार और चबूतरे उत्पन्न होते हैं।

LPC फॉर्मेंट्स का अनुमान लगाकर, भाषण संकेत से उनके प्रभावों को हटाकर और शेष भनभनाहट की तीव्रता और आवृत्ति का अनुमान लगाकर भाषण संकेत का विश्लेषण करती है। फॉर्मेंट्स को हटाने की प्रक्रिया को व्युत्क्रम फ़िल्टरिंग कहा जाता है और फ़िल्टर्ड मॉडल्ड संकेत के घटाव के बाद शेष संकेत को अवशेष कहा जाता है।

वे संख्याएँ जो भनभनाहट की तीव्रता और आवृत्ति का वर्णन करती हैं, फॉर्मेंट्स और अवशेष संकेत, कहीं और संग्रहीत या प्रसारित किए जा सकते हैं। एलपीसी प्रक्रिया को उलट कर भाषण संकेत को संश्लेषित करता है, स्रोत संकेत बनाने के लिए बज़ पैरामीटर और अवशेष का उपयोग करें, फ़िल्टर बनाने के लिए फॉर्मेंट्स का उपयोग करें (जो नली का प्रतिनिधित्व करता है) और फ़िल्टर के माध्यम से स्रोत को चलाएं, जिसके परिणामस्वरूप भाषण होता है।

क्योंकि भाषण संकेत समय के साथ बदलते हैं, यह प्रक्रिया भाषण संकेत के छोटे टुकड़ों पर की जाती है, जिन्हें फ्रेम कहा जाता है। सामान्यतः प्रति सेकंड 30 से 50 फ्रेम अच्छे संपीड़न के साथ बुद्धिग्राह्य भाषण देते हैं।

प्रारंभिक इतिहास

रैखिक भविष्यवाणी (संकेत अनुमान) कम से कम 1940 के दशक में वापस चला जाता है जब नॉर्बर्ट वीनर ने शोर में छिपे संकेतों का पता लगाने के लिए सर्वश्रेष्ठ विनीज़ फ़िल्टर और भविष्यवक्ताओं की गणना के लिए गणितीय सिद्धांत विकसित किया।[3][4] क्लाउड शैनन द्वारा संचार का गणितीय सिद्धांत की स्थापना के तुरंत बाद, सी. चैपिन कटलर द्वारा भविष्य कहनेवाला कोडिंग पर काम किया गया था।[5] बर्नार्ड एम ओलिवर[6] और हेनरी सी. हैरिसन।[7] 1955 में पीटर एलियास ने संकेतों की भविष्यवाणी कोडिंग पर दो पत्र प्रकाशित किए।[8][9]1966 में नागोया विश्वविद्यालय के बुंददा इटाकुरा और निप्पॉन टेलीग्राफ और टेलीफोन के शूजो सैटो द्वारा और 1967 में बिष्णु एस. अटल, मैनफ्रेड आर. श्रोएडर और जॉन बर्ग द्वारा स्वतंत्र रूप से भाषण विश्लेषण के लिए रैखिक भविष्यवाणियों को लागू किया गया था। इटाकुरा और सैटो ने अधिकतम संभावना अनुमान के आधार पर सांख्यिकीय दृष्टिकोण का वर्णन किया; अटल और श्रोएडर ने अनुकूली फ़िल्टर दृष्टिकोण का वर्णन किया; बर्ग ने अधिकतम एन्ट्रॉपी वर्णक्रम संबंधी अनुमान के आधार पर दृष्टिकोण की रूपरेखा तैयार की।[4][10][11][12]1969 में, इटाकुरा और सैटो ने आंशिक सहसंबंध (पारकोर) पर आधारित विधि प्रस्तुत की, ग्लेन कूलर ने वास्तविक काल भाषण एन्कोडिंग प्रस्तावित की और बिष्णु एस. अटल ने अमेरिका की ध्वनिक सोसायटी की वार्षिक बैठक में LPC भाषण कोडर प्रस्तुत किया। 1971 में, फ़िल्को-फोर्ड द्वारा 16-बिट LPC हार्डवेयर का उपयोग करके वास्तविक काल LPC का प्रदर्शन किया गया; चार इकाइयां बेची गईं।[13] 1970 के दशक के पर्यन्त बिष्णु अटल और मैनफ्रेड श्रोएडर द्वारा 1980 के दशक LPC प्रविधि को उन्नत किया गया था ।[13]1978 में, अटल और विश्वनाथ एट अल BBN ने पहला चर बिटदर | चर-दर LPC एल्गोरिथम विकसित किया।[13]उसी वर्ष, बेल लैब्स में अटल और मैनफ़्रेड आर. श्रोएडर ने अनुकूली भविष्य कहनेवाला कोडिंग नामक एलपीसी भाषण कोडेक का प्रस्ताव रखा, जिसमें मानव कान के मास्किंग गुणों का उपयोग करते हुए मनोध्वनिक कोडिंग एल्गोरिथम का उपयोग किया गया।[14][15] यह बाद में 1993 में प्रस्तुत किए गए बिका हुआ ऑडियो संपीड़न (डेटा) प्रारूप द्वारा उपयोग की जाने वाली अवधारणात्मक कोडिंग प्रविधि का आधार बन गया।[14]1985 में श्रोएडर और अटल द्वारा कोड-उत्तेजित रैखिक भविष्यवाणी (CELP) विकसित किया गया था।[16]एलपीसी आईपी ​​पर आवाज (वीओआईपी) प्रविधि का आधार है।[13]1972 में, जिम फोर्गी (लिंकन लेबोरेटरी, एलएल) और डेव वाल्डेन (बीबीएन टेक्नोलॉजीज) के साथ रक्षा अग्रिम जाँच परियोजनाएं एजेंसी के बॉब क्हान ने पैकेटयुक्त भाषण में पहला विकास प्रारंभ किया, जो अंततः पार्श्व स्वर -आईपी प्रविधि का नेतृत्व करेगा। 1973 में, लिंकन प्रयोगशाला के अनौपचारिक इतिहास के अनुसार, एड हॉफस्टेटर द्वारा पहली वास्तविक समय 2400 बिट/एस एलपीसी लागू की गई थी। 1974 में, कुलर-हैरिसन और लिंकन प्रयोगशाला के बीच 3500 बिट/एस पर अरपानेट पर पहला वास्तविक समय दो-तरफ़ा LPC पैकेट भाषण संचार पूरा किया गया था। 1976 में, 3500 बिट/एस पर कुलेर-हैरिसन, आईएसआई, एसआरआई, और एलएल के बीच नेटवर्क वॉयस प्रोटोकॉल का उपयोग करते हुए अरपानेट पर पहला एलपीसी सम्मेलन हुआ।

एलपीसी गुणांक प्रतिनिधित्व

एलपीसी अधिकांशतः वर्णक्रमीय आवरण सूचना प्रसारित करने के लिए प्रयोग किया जाता है और इस तरह इसे संचरण त्रुटियों के प्रति सहिष्णु होना पड़ता है। फ़िल्टर गुणांकों का सीधे प्रसारण (गुणांकों की परिभाषा के लिए रेखीय भविष्यवाणी देखें) अवांछनीय है, क्योंकि वे त्रुटियों के प्रति बहुत संवेदनशील हैं। दूसरे शब्दों में, बहुत छोटी त्रुटि पूरे वर्णक्रमीय आवरण को विकृत कर सकती है और इससे भी ज़्यादा बुरा, छोटी सी त्रुटि भविष्यवाणी फ़िल्टर को अस्थिर कर सकती है।

लॉग क्षेत्र अनुपात (एलएआर), रेखा वर्णक्रमीय जोड़े (एलएसपी) अपघटन और प्रतिबिंब गुणांक जैसे अधिक उन्नत प्रतिनिधित्व हैं। इनमें से, विशेष रूप से एलएसपी अपघटन ने लोकप्रियता प्राप्त की है क्योंकि यह भविष्यवक्ता की स्थिरता सुनिश्चित करता है और छोटे गुणांक विचलन के लिए वर्णक्रमीय त्रुटियां स्थानीय हैं।

अनुप्रयोग

LPC भाषण कोडिंग और भाषण संश्लेषण में सबसे व्यापक रूप से उपयोग की जाने वाली विधि है।[17] यह सामान्यतः भाषण विश्लेषण और पुनरुत्थान के लिए प्रयोग किया जाता है। उदाहरण के लिए, जीएसएम मानक जैसे फोन कंपनियों द्वारा आवाज संपीड़न के रूप में इसका उपयोग किया जाता है। इसका उपयोग कॉमसेक वायरलेस के लिए भी किया जाता है, जहाँ आवाज को अंकीकरण किया जाना चाहिए, कूटलेखन और संकीर्ण आवाज चैनल पर भेजा जाना चाहिए; इसका प्रारंभिक उदाहरण अमेरिकी सरकार का नवाजो आई है।

एलपीसी संश्लेषण का उपयोग वोकोडर बनाने के लिए किया जा सकता है जहां संगीत वाद्ययंत्र गायक के भाषण से अनुमानित समय-भिन्न फ़िल्टर के उत्तेजना संकेत के रूप में उपयोग किया जाता है। यह इलेक्ट्रॉनिक संगीत में कुछ सीमा तक लोकप्रिय है।पॉल लैंस्की ने रेखिक भविष्य कहनेवाला कोडिंग का उपयोग करते हुए प्रसिद्ध कंप्यूटर संगीत का टुकड़ा को न केवल अधिक व्यर्थ चहचहाना बनाया। व्यर्थ की बातचीत से अधिक1980 के लोकप्रिय बोलो और जादू करो (गेम) | स्पीक एंड स्पेल शैक्षिक खिलौना में 10वें क्रम के एलपीसी का उपयोग किया गया था।

LPC भविष्यवक्ताओं का उपयोग शॉर्टन (फ़ाइल स्वरूप), एमपीईजी-4 एएलएस, फ्लैक, सिल्क ऑडियो कोडेक और अन्य दोषरहित संपीड़न ऑडियो कोडेक में किया जाता है।

एलपीसी ने वायोलिन और अन्य कड़े संगीत वाद्ययंत्रों के तानवाला विश्लेषण में उपयोग के लिए उपकरण के रूप में कुछ ध्यान आकर्षित किया।[18]

यह भी देखें

संदर्भ

  1. Deng, Li; Douglas O'Shaughnessy (2003). Speech processing: a dynamic and optimization-oriented approach. Marcel Dekker. pp. 41–48. ISBN 978-0-8247-4040-5.
  2. Beigi, Homayoon (2011). स्पीकर मान्यता की बुनियादी बातों. Berlin: Springer-Verlag. ISBN 978-0-387-77591-3.
  3. B.S. Atal (2006). "रैखिक भविष्यवाणी का इतिहास". IEEE Signal Processing Magazine. 23 (2): 154–161. Bibcode:2006ISPM...23..154A. doi:10.1109/MSP.2006.1598091. S2CID 15601493.
  4. 4.0 4.1 Y. Sasahira; S. Hashimoto (1995). "गायक के व्यक्तिगत समय को बनाए रखने के लिए लीनियर प्रेडिक्टिव कोडिंग विधि द्वारा वॉयस पिच को बदलना" (PDF). {{cite journal}}: Cite journal requires |journal= (help)
  5. US 2605361, C. C. Cutler, "संचार संकेतों का विभेदक परिमाणीकरण", published 1952-07-29 
  6. B. M. Oliver (1952). "कुशल कोडिंग". 31 (4). Nokia Bell Labs: 724–750. {{cite journal}}: Cite journal requires |journal= (help)
  7. H. C. Harrison (1952). "टेलीविजन में रैखिक भविष्यवाणी के साथ प्रयोग". 31. Bell System Technical Journal: 764–783. {{cite journal}}: Cite journal requires |journal= (help)
  8. P. Elias (1955). "भविष्य कहनेवाला कोडिंग I". IT-1 no. 1. IRE Trans. Inform.Theory: 16–24. {{cite journal}}: Cite journal requires |journal= (help)
  9. P. Elias (1955). "भविष्य कहनेवाला कोडिंग द्वितीय". IT-1 no. 1. IRE Trans. Inform. Theory: 24–33. {{cite journal}}: Cite journal requires |journal= (help)
  10. S. Saito; F. Itakura (Jan 1967). "भाषण के वर्णक्रमीय घनत्व की सांख्यिकीय इष्टतम मान्यता का सैद्धांतिक विचार". J. Acoust. Soc.Japan. {{cite journal}}: Cite journal requires |journal= (help)
  11. B.S. Atal; M.R. Schroeder (1967). "भाषण की भविष्य कहनेवाला कोडिंग". Conf. Communications and Proc. {{cite journal}}: Cite journal requires |journal= (help)
  12. J.P. Burg (1967). "अधिकतम एंट्रॉपी स्पेक्ट्रल विश्लेषण". Proceedings of 37th Meeting, Society of Exploration Geophysics, Oklahoma City. {{cite journal}}: Cite journal requires |journal= (help)
  13. 13.0 13.1 13.2 13.3 Gray, Robert M. (2010). "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF). Found. Trends Signal Process. 3 (4): 203–303. doi:10.1561/2000000036. ISSN 1932-8346. Archived (PDF) from the original on 2022-10-09.
  14. 14.0 14.1 Schroeder, Manfred R. (2014). "Bell Laboratories". Acoustics, Information, and Communication: Memorial Volume in Honor of Manfred R. Schroeder. Springer. p. 388. ISBN 9783319056609.
  15. Atal, B.; Schroeder, M. (1978). "भाषण संकेतों और व्यक्तिपरक त्रुटि मानदंड की भविष्यवाणी कोडिंग". ICASSP '78. IEEE International Conference on Acoustics, Speech, and Signal Processing. 3: 573–576. doi:10.1109/ICASSP.1978.1170564.
  16. Schroeder, Manfred R.; Atal, Bishnu S. (1985). "Code-excited linear prediction (CELP): High-quality speech at very low bit rates". ICASSP '85. IEEE International Conference on Acoustics, Speech, and Signal Processing. 10: 937–940. doi:10.1109/ICASSP.1985.1168147. S2CID 14803427.
  17. Gupta, Shipra (May 2016). "पाठ स्वतंत्र अध्यक्ष मान्यता में एमएफसीसी का अनुप्रयोग" (PDF). International Journal of Advanced Research in Computer Science and Software Engineering. 6 (5): 805-810 (806). ISSN 2277-128X. S2CID 212485331. Archived from the original (PDF) on 2019-10-18. Retrieved 18 October 2019.
  18. Tai, Hwan-Ching; Chung, Dai-Ting (June 14, 2012). "स्ट्राडिवरी वायलिन महिलाओं द्वारा निर्मित स्वरों से मिलती-जुलती फॉर्मेंट फ्रीक्वेंसी प्रदर्शित करते हैं". Savart Journal. 1 (2).

अग्रिम पठन

बाहरी संबंध