वाक् प्रक्रमण: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(10 intermediate revisions by 6 users not shown)
Line 1: Line 1:
{{Short description|Study of speech signals and the processing methods of these signals}}
'''भाषा प्रक्रिया या वाक् प्रक्रमण''', [[ भाषण संचार |वाक्]] [[सिग्नल (सूचना सिद्धांत)|संकेतों]] और संकेतों की प्रक्रमण विधियों का अध्ययन है। संकेतों को सामान्यतः [[डिजिटल डाटा]] प्रतिनिधित्व में संसाधित किया जाता है, इसलिए वाक् प्रक्रमण को [[ ऑडियो संकेत |ऑडियो संकेत]] पर लागू [[ अंकीय संकेत प्रक्रिया |डिजिटल संकेत प्रक्रिया]] का एक विशेष विषय माना जा सकता है। वाक् प्रक्रमण के पहलुओं में वाक् संकेतों का अधिग्रहण, हेरफेर, भंडारण, स्थानांतरण और आउटपुट शामिल है। विभिन्न वाक् प्रक्रमण कार्यों में [[वाक् पहचान]], वाक् संश्लेषण, [[वक्ता डायरीकरण]], वाक् संवर्धन, वक्ता पहचान आदि शामिल हैं।<ref>{{cite arXiv |last1=Sahidullah |first1=Md |last2=Patino |first2=Jose |last3=Cornell |first3=Samuele |last4=Yin |first4=Ruiking |last5=Sivasankaran |first5=Sunit |last6=Bredin |first6=Herve |last7=Korshunov |first7=Pavel |last8=Brutti |first8=Alessio |last9=Serizel |first9=Romain |last10=Vincent |first10=Emmanuel |last11=Evans |first11=Nicholas |last12=Marcel |first12=Sebastien |last13=Squartini |first13=Stefano |last14=Barras |first14=Claude |date=2019-11-06 |title=The Speed Submission to DIHARD II: Contributions & Lessons Learned |class=eess.AS |eprint=1911.02388 }}</ref>
{{about|electronic speech processing|speech processing in the human brain|Language processing in the brain}}
भाषण या वाक् प्रसंस्करण, [[ भाषण संचार |वाक्]] [[सिग्नल (सूचना सिद्धांत)|संकेतों]] और संकेतों की प्रसंस्करण विधियों का अध्ययन है। संकेतों को आमतौर पर [[डिजिटल डाटा]] प्रतिनिधित्व में संसाधित किया जाता है, इसलिए वाक् प्रसंस्करण को [[ ऑडियो संकेत |ऑडियो संकेत]] पर लागू [[ अंकीय संकेत प्रक्रिया |अंकीय संकेत प्रक्रिया]] का एक विशेष विषय माना जा सकता है। वाक् प्रसंस्करण के पहलुओं में वाक् संकेतों का अधिग्रहण, हेरफेर, भंडारण, स्थानांतरण और आउटपुट शामिल है। विभिन्न वाक् प्रसंस्करण कार्यों में [[वाक् पहचान]], वाक् संश्लेषण, [[वक्ता डायरीकरण]], वाक् संवर्धन, वक्ता पहचान आदि शामिल हैं।<ref>{{cite arXiv |last1=Sahidullah |first1=Md |last2=Patino |first2=Jose |last3=Cornell |first3=Samuele |last4=Yin |first4=Ruiking |last5=Sivasankaran |first5=Sunit |last6=Bredin |first6=Herve |last7=Korshunov |first7=Pavel |last8=Brutti |first8=Alessio |last9=Serizel |first9=Romain |last10=Vincent |first10=Emmanuel |last11=Evans |first11=Nicholas |last12=Marcel |first12=Sebastien |last13=Squartini |first13=Stefano |last14=Barras |first14=Claude |date=2019-11-06 |title=The Speed Submission to DIHARD II: Contributions & Lessons Learned |class=eess.AS |eprint=1911.02388 }}</ref>
== इतिहास ==
== इतिहास ==
वाक् प्रसंस्करण और पहचान के शुरुआती प्रयास मुख्य रूप से स्वरों जैसे मुट्ठी भर सरल ध्वन्यात्मक तत्वों को समझने पर केंद्रित थे। 1952 में, बेल लैब्स के तीन शोधकर्ता, स्टीफन बालाशेक, आर. बिडुलफ और के.एच. डेविस ने एक ऐसी प्रणाली विकसित की जो एक वक्ता द्वारा बोले गए अंकों को पहचान सकती है।<ref>{{Citation|last1=Juang|first1=B.-H.|title=Speech Recognition, Automatic: History|date=2006|encyclopedia=Encyclopedia of Language & Linguistics|pages=806–819|publisher=Elsevier|isbn=9780080448541|last2=Rabiner|first2=L.R.|doi=10.1016/b0-08-044854-2/00906-8}}</ref> 1940 के दशक में इसके स्पेक्ट्रम के विश्लेषण का उपयोग करते हुए वाक् पहचान के क्षेत्र में पथप्रदर्शक कार्य प्रस्तुत किये गए।<ref>{{Cite book| publisher = Energiya| last1 = Myasnikov| first1 = L. L.| last2 = Myasnikova| first2 = Ye. N.| title = ध्वनि पैटर्न की स्वचालित पहचान| location = Leningrad| date = 1970|language=ru}}</ref>
वाक् प्रक्रमण और पहचान के शुरुआती प्रयास मुख्य रूप से स्वरों जैसे मुट्ठी भर सरल ध्वन्यात्मक तत्वों को समझने पर केंद्रित थे। 1952 में, बेल लैब्स के तीन शोधकर्ता स्टीफन बालाशेक, आर. बिडुलफ और के.एच. डेविस ने एक ऐसी प्रणाली विकसित की जो एक वक्ता द्वारा बोले गए अंकों को पहचान सकती है।<ref>{{Citation|last1=Juang|first1=B.-H.|title=Speech Recognition, Automatic: History|date=2006|encyclopedia=Encyclopedia of Language & Linguistics|pages=806–819|publisher=Elsevier|isbn=9780080448541|last2=Rabiner|first2=L.R.|doi=10.1016/b0-08-044854-2/00906-8}}</ref> 1940 के दशक में इसके स्पेक्ट्रम के विश्लेषण का उपयोग करते हुए वाक् पहचान के क्षेत्र में पथप्रदर्शक कार्य प्रस्तुत किये गए।<ref>{{Cite book| publisher = Energiya| last1 = Myasnikov| first1 = L. L.| last2 = Myasnikova| first2 = Ye. N.| title = ध्वनि पैटर्न की स्वचालित पहचान| location = Leningrad| date = 1970|language=ru}}</ref>


[[ रैखिक भविष्य कहनेवाला कोडिंग |लीनियर प्रेडिक्टिव कोडिंग]] (LPC), एक वाक् प्रसंस्करण एल्गोरिथम, पहली बार 1966 में [[ नागोया विश्वविद्यालय |नागोया विश्वविद्यालय]] के [[बुंददा इटाकुरा]] और [[निप्पॉन टेलीग्राफ और टेलीफोन]] (NTT) के शूजो सैटो द्वारा प्रस्तावित किया गया था।<ref name="Gray">{{cite journal |last1=Gray |first1=Robert M. |title=A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol |journal=Found. Trends Signal Process. |date=2010 |volume=3 |issue=4 |pages=203–303 |doi=10.1561/2000000036 |url=https://ee.stanford.edu/~gray/lpcip.pdf |issn=1932-8346|doi-access=free }}</ref> 1970 के दशक के दौरान [[बेल लैब्स]] में बिष्णु एस.अटल और मैनफ्रेड आर. श्रोएडर द्वारा एलपीसी प्रौद्योगिकी में और विकास किए गए।<ref name="Gray">{{cite journal |last1=Gray |first1=Robert M. |title=A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol |journal=Found. Trends Signal Process. |date=2010 |volume=3 |issue=4 |pages=203–303 |doi=10.1561/2000000036 |url=https://ee.stanford.edu/~gray/lpcip.pdf |issn=1932-8346|doi-access=free }}</ref> एलपीसी, [[आईपी ​​पर आवाज]] (वीओआईपी) तकनीक का आधार है,<ref name="Gray" />साथ ही [[भाषण सिंथेसाइज़र|वाक् सिंथेसाइज़र]] चिप्स, जैसे कि [[टेक्सास इंस्ट्रूमेंट्स एलपीसी स्पीच चिप्स]] का इस्तेमाल स्पीक एंड स्पेल (टॉय) में किया जाता है।<ref name="vintagecomputing_article">{{cite web|url=http://www.vintagecomputing.com/index.php/archives/528|title=वीसी एंड जी - वीसी एंड जी साक्षात्कार: 30 साल बाद, रिचर्ड विगिन्स टॉक एंड स्पेल डेवलपमेंट}}</ref>
लीनियर प्रेडिक्टिव कोडिंग (LPC), एक वाक् प्रक्रमण एल्गोरिथम, पहली बार 1966 में [[ नागोया विश्वविद्यालय |नागोया विश्वविद्यालय]] के [[बुंददा इटाकुरा]] और [[निप्पॉन टेलीग्राफ और टेलीफोन]] (NTT) के शूजो सैटो द्वारा प्रस्तावित किया गया था।<ref name="Gray">{{cite journal |last1=Gray |first1=Robert M. |title=A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol |journal=Found. Trends Signal Process. |date=2010 |volume=3 |issue=4 |pages=203–303 |doi=10.1561/2000000036 |url=https://ee.stanford.edu/~gray/lpcip.pdf |issn=1932-8346|doi-access=free }}</ref> 1970 के दशक के दौरान [[बेल लैब्स]] में बिष्णु एस.अटल और मैनफ्रेड आर. श्रोएडर द्वारा एलपीसी प्रौद्योगिकी में और विकास किए गए।<ref name="Gray">{{cite journal |last1=Gray |first1=Robert M. |title=A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol |journal=Found. Trends Signal Process. |date=2010 |volume=3 |issue=4 |pages=203–303 |doi=10.1561/2000000036 |url=https://ee.stanford.edu/~gray/lpcip.pdf |issn=1932-8346|doi-access=free }}</ref> एलपीसी, [[आईपी ​​पर आवाज]] (वीओआईपी) तकनीक का आधार है,<ref name="Gray" />साथ ही [[भाषण सिंथेसाइज़र|वाक् सिंथेसाइज़र]] चिप्स, जैसे कि [[टेक्सास इंस्ट्रूमेंट्स एलपीसी स्पीच चिप्स]] का इस्तेमाल स्पीक एंड स्पेल (टॉय) में किया जाता है।<ref name="vintagecomputing_article">{{cite web|url=http://www.vintagecomputing.com/index.php/archives/528|title=वीसी एंड जी - वीसी एंड जी साक्षात्कार: 30 साल बाद, रिचर्ड विगिन्स टॉक एंड स्पेल डेवलपमेंट}}</ref>


व्यावसायिक रूप से उपलब्ध वाक् पहचान उत्पादों में से एक ड्रैगन डिक्टेट था, जिसे 1990 में प्रस्तुत किया गया था। 1992 में, बेल लैब्स में [[लॉरेंस राबिनर]] और अन्य द्वारा विकसित तकनीक का उपयोग एटी एंड टी द्वारा मानव ऑपरेटर के बिना कॉल को रूट करने के लिए उनकी वॉयस रिकॉग्निशन कॉल प्रोसेसिंग सेवा में किया गया था। इस बिंदु तक, इन प्रणालियों की शब्दावली औसत मानव शब्दावली से बड़ी थी।
व्यावसायिक रूप से उपलब्ध वाक् पहचान उत्पादों में से एक ड्रैगन डिक्टेट था, जिसे 1990 में प्रस्तुत किया गया था। 1992 में, बेल लैब्स में [[लॉरेंस राबिनर]] और अन्य द्वारा विकसित तकनीक का उपयोग एटी एंड टी द्वारा मानव ऑपरेटर के बिना कॉल को रूट करने के लिए उनकी वॉयस रिकॉग्निशन कॉल प्रोसेसिंग सेवा में किया गया था। इस बिंदु तक, इन प्रणालियों की शब्दावली औसत मानव शब्दावली से बड़ी थी।


रेफरी>{{Cite journal|last1=Huang|first1=Xuedong|last2=Baker|first2=James|last3=Reddy|first3=Raj|date=2014-01-01|title=भाषण मान्यता का एक ऐतिहासिक परिप्रेक्ष्य|journal=Communications of the ACM|volume=57|issue=1|pages=94–103|doi=10.1145/2500887|s2cid=6175701 |issn=0001-0782}}<nowiki></ref></nowiki>
2000 के दशक के प्रारंभ तक, प्रमुख वाक् प्रक्रमण रणनीति [[छिपा हुआ मार्कोव मॉडल|हिडन मार्कोव मॉडल्स]] से अधिक आधुनिक [[कृत्रिम तंत्रिका नेटवर्क]] और गहन शिक्षा की ओर स्थानांतरित होने लगी।
 
2000 के दशक के प्रारंभ तक, प्रमुख वाक् प्रसंस्करण रणनीति [[छिपा हुआ मार्कोव मॉडल|हिडन मार्कोव मॉडल्स]] से अधिक आधुनिक [[कृत्रिम तंत्रिका नेटवर्क]] और गहन शिक्षा की ओर स्थानांतरित होने लगी।{{citation needed|date=December 2018}}


== तकनीक ==
== तकनीक ==


=== डायनेमिक टाइम वार्पिंग ===
=== डायनेमिक टाइम वार्पिंग ===
{{Main|Dynamic time warping}}डायनामिक टाइम वार्पिंग (DTW) दो [[समय श्रृंखला]]ओं के बीच समानता को मापने के लिए एक [[कलन विधि]] है, जो गति में भिन्न हो सकती है। सामान्य तौर पर, DTW एक ऐसी विधि है जो कुछ निश्चित प्रतिबंधों और नियमों के साथ दो दिए गए अनुक्रमों (जैसे समय श्रृंखला) के बीच [[इष्टतम मिलान]] की गणना करती है। इष्टतम [[इष्टतम मिलान|मिलान]] को उस [[इष्टतम मिलान|मिलान]] से दर्शाया जाता है जो सभी प्रतिबंधों और नियमों को संतुष्ट करता है और जिसकी न्यूनतम लागत होती है, जहां लागत की गणना उनके मूल्यों के बीच, प्रत्येक मिलान किए गए सूचकांकों के जोड़े के लिए पूर्ण अंतर के योग के रूप में की जाती है।{{citation needed|date=December 2018}}
{{Main|गतिशील समय विरूपण}}
 
डायनामिक टाइम वार्पिंग (DTW) दो [[समय श्रृंखला]]ओं के बीच समानता को मापने के लिए एक [[कलन विधि]] है, जो गति में भिन्न हो सकती है। सामान्य तौर पर, DTW एक ऐसी विधि है जो कुछ निश्चित प्रतिबंधों और नियमों के साथ दो दिए गए अनुक्रमों (जैसे समय श्रृंखला) के बीच [[इष्टतम मिलान]] की गणना करती है। इष्टतम [[इष्टतम मिलान|मिलान]] को उस [[इष्टतम मिलान|मिलान]] से दर्शाया जाता है जो सभी प्रतिबंधों और नियमों को संतुष्ट करता है और जिसकी न्यूनतम लागत होती है, जहां लागत की गणना उनके मूल्यों के बीच, प्रत्येक मिलान किए गए सूचकांकों के जोड़े के लिए पूर्ण अंतर के योग के रूप में की जाती है।


=== [[छिपा हुआ मार्कोव मॉडल|हिडन मार्कोव मॉडल्स]] ===
=== [[छिपा हुआ मार्कोव मॉडल|हिडन मार्कोव मॉडल्स]] ===
{{Main|Hidden Markov model}}[[छिपा हुआ मार्कोव मॉडल|हिडन मार्कोव मॉडल्स]] को सबसे सरल [[डायनेमिक बायेसियन नेटवर्क]] के रूप में प्रदर्शित किया जा सकता है। एल्गोरिथम का लक्ष्य प्रेक्षणों की सूची y(t) दिए जाने पर छिपे हुए चर x(t) का अनुमान लगाना है। [[मार्कोव संपत्ति|मार्कोव स्वभाव]] को लागू करने से, समय t पर छिपे हुए चर x(t) का [[सशर्त संभाव्यता वितरण]], हर समय छिपे हुए चर x के मान दिए जाने पर, केवल छिपे हुए चर x(t − 1) के मान पर निर्भर करता है। इसी तरह, प्रेक्षित चर y(t) का मान केवल छिपे हुए चर x(t) (दोनों समय t पर) के मान पर निर्भर करता है।{{citation needed|date=December 2018}}
{{Main|अदृश्य मार्कोव मॉडल}}
[[छिपा हुआ मार्कोव मॉडल|हिडन मार्कोव मॉडल्स]] को सबसे सरल [[डायनेमिक बायेसियन नेटवर्क]] के रूप में प्रदर्शित किया जा सकता है। इस एल्गोरिथम का लक्ष्य प्रेक्षणों की सूची y(t) दिए जाने पर छिपे हुए चर x(t) का अनुमान लगाना है। [[मार्कोव संपत्ति|मार्कोव स्वभाव]] को लागू करने से, समय t पर छिपे हुए चर x(t) का [[सशर्त संभाव्यता वितरण]], हर समय छिपे हुए चर x के मान दिए जाने पर, केवल छिपे हुए चर x(t − 1) के मान पर निर्भर करता है। इसी तरह, प्रेक्षित चर y(t) का मान केवल छिपे हुए चर x(t) (दोनों समय t पर) के मान पर निर्भर करता है।{{citation needed|date=December 2018}}


=== कृत्रिम तंत्रिका नेटवर्क ===
=== कृत्रिम तंत्रिका प्रणाली ===
{{Main|Artificial neural network}}एक कृत्रिम तंत्रिका नेटवर्क (एएनएन) कनेक्टेड इकाइयों या कृत्रिम [[न्यूरॉन]]्स नामक नोड्स के संग्रह पर आधारित है, जो जैविक मस्तिष्क में न्यूरॉन्स को अव्यवस्थित
{{Main|कृत्रिम तंत्रिका नेटवर्क}}एक कृत्रिम तंत्रिका प्रणाली (ANA) कनेक्टेड इकाइयों या कृत्रिम [[न्यूरॉन]]्स नामक नोड्स के संग्रह पर आधारित है, जो जैविक मस्तिष्क में न्यूरॉन्स को अव्यवस्थित


ढंग से मॉडल करते हैं। प्रत्येक कनेक्शन, एक जैविक मस्तिष्क में [[निष्कर्ष]] की तरह, एक [[कृत्रिम न्यूरॉन]] से दूसरे में एक संकेत संचारित कर सकता है। एक कृत्रिम न्यूरॉन जो एक संकेत प्राप्त करता है, इसे संसाधित कर सकता है और फिर इससे जुड़े अतिरिक्त कृत्रिम न्यूरॉन्स को संकेत दे सकता है। सामान्य एएनएन कार्यान्वयन में, कृत्रिम न्यूरॉन्स के बीच एक कनेक्शन पर संकेत एक [[वास्तविक संख्या]] है, और प्रत्येक कृत्रिम न्यूरॉन के आउटपुट की गणना उसके इनपुट के योग के कुछ गैर-रैखिक फलन द्वारा की जाती है।{{citation needed|date=December 2018}}
ढंग से मॉडल करते हैं। प्रत्येक कनेक्शन, एक जैविक मस्तिष्क में [[निष्कर्ष]] की तरह, एक [[कृत्रिम न्यूरॉन]] से दूसरे में एक संकेत संचारित कर सकता है। एक कृत्रिम न्यूरॉन जो एक संकेत प्राप्त करता है, इसे संसाधित कर सकता है और फिर इससे जुड़े अतिरिक्त कृत्रिम न्यूरॉन्स को संकेत दे सकता है। सामान्य एएनएन कार्यान्वयन में, कृत्रिम न्यूरॉन्स के बीच एक कनेक्शन पर संकेत एक [[वास्तविक संख्या]] है, और प्रत्येक कृत्रिम न्यूरॉन के आउटपुट की गणना उसके इनपुट के योग के कुछ गैर-रैखिक फलन द्वारा की जाती है।


=== फेज-अवेयर प्रसंस्करण ===
=== फेज-अवेयर प्रक्रमण ===
फेज को आमतौर पर यादृच्छिक वर्दी चर माना जाता है और इस प्रकार यह किसी काम का नहीं होता है । यह फेज-रैपिंग के कारण है:<ref name="limits"> {{Cite journal| doi = 10.1109/TASLP.2015.2430820| issn = 2329-9290| volume = 23| issue = 8| pages = 1283–1294| last1 = Mowlaee| first1 = Pejman| last2 = Kulmer| first2 = Josef| title = Phase Estimation in Single-Channel Speech Enhancement: Limits-Potential| journal = IEEE/ACM Transactions on Audio, Speech, and Language Processing|access-date= 2017-12-03| date = August 2015| s2cid = 13058142| url = https://ieeexplore.ieee.org/document/7103305}}</ref> <math>2 \pi</math> पर समय-समय पर छलांग लगाने के कारण चापस्पर्श फलन का परिणाम निरंतर नहीं होता है| फेज अनरैपिंग के बाद (देखें,<ref>{{Cite book| publisher = Wiley| isbn = 978-1-119-23882-9| last1 = Mowlaee| first1 = Pejman| last2 = Kulmer| first2 = Josef| last3 = Stahl| first3 = Johannes| last4 = Mayer| first4 = Florian| title = Single channel phase-aware signal processing in speech communication: theory and practice| location = Chichester| date = 2017}}</ref> अध्याय 2.3; [[तात्कालिक चरण और आवृत्ति]]), इसे इस प्रकार व्यक्त किया जा सकता है:<ref name="limits"></ref><ref name="vonMises"> {{Cite conference| publisher = IEEE| pages = 5063–5067| last1 = Kulmer| first1 = Josef| last2 = Mowlaee| first2 = Pejman| title = Harmonic phase estimation in single-channel speech enhancement using von Mises distribution and prior SNR|book-title= Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on| date = April 2015}}</ref>
फेज को सामान्यतः यादृच्छिक वर्दी चर माना जाता है और इस प्रकार यह किसी काम का नहीं होता है । यह फेज-रैपिंग के कारण है:<ref name="limits"> {{Cite journal| doi = 10.1109/TASLP.2015.2430820| issn = 2329-9290| volume = 23| issue = 8| pages = 1283–1294| last1 = Mowlaee| first1 = Pejman| last2 = Kulmer| first2 = Josef| title = Phase Estimation in Single-Channel Speech Enhancement: Limits-Potential| journal = IEEE/ACM Transactions on Audio, Speech, and Language Processing|access-date= 2017-12-03| date = August 2015| s2cid = 13058142| url = https://ieeexplore.ieee.org/document/7103305}}</ref> <math>2 \pi</math> पर समय-समय पर छलांग लगाने के कारण चापस्पर्श फलन का परिणाम निरंतर नहीं होता है| फेज अनरैपिंग के बाद (देखें,<ref>{{Cite book| publisher = Wiley| isbn = 978-1-119-23882-9| last1 = Mowlaee| first1 = Pejman| last2 = Kulmer| first2 = Josef| last3 = Stahl| first3 = Johannes| last4 = Mayer| first4 = Florian| title = Single channel phase-aware signal processing in speech communication: theory and practice| location = Chichester| date = 2017}}</ref> अध्याय 2.3; [[तात्कालिक चरण और आवृत्ति]]), इसे इस प्रकार व्यक्त किया जा सकता है:<ref name="limits"></ref><ref name="vonMises"> {{Cite conference| publisher = IEEE| pages = 5063–5067| last1 = Kulmer| first1 = Josef| last2 = Mowlaee| first2 = Pejman| title = Harmonic phase estimation in single-channel speech enhancement using von Mises distribution and prior SNR|book-title= Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on| date = April 2015}}</ref>


<math>\phi(h,l) = \phi_{lin}(h,l) + \Psi(h,l)</math>, जहाँ <math>\phi_{lin}(h,l) = \omega_0(l') {}_\Delta t</math> रैखिक चरण है (<math>{}_\Delta t</math> विश्लेषण के प्रत्येक फ्रेम में अस्थायी बदलाव है), <math>\Psi(h,l)</math> मुखर पथ और चरण स्रोत का चरण योगदान है।<ref name="vonMises"></ref>
<math>\phi(h,l) = \phi_{lin}(h,l) + \Psi(h,l)</math>, जहाँ <math>\phi_{lin}(h,l) = \omega_0(l') {}_\Delta t</math> रैखिक चरण है (<math>{}_\Delta t</math> विश्लेषण के प्रत्येक फ्रेम में अस्थायी बदलाव है), <math>\Psi(h,l)</math> मुखर पथ और चरण स्रोत का चरण योगदान है।<ref name="vonMises"></ref>


प्राप्त चरण अनुमानों का उपयोग शोर में कमी के लिए किया जा सकता है: तात्कालिक चरण का अस्थायी चौरसाई <ref>{{Cite journal| doi = 10.1109/LSP.2014.2365040| issn = 1070-9908| volume = 22| issue = 5| pages = 598–602| last1 = Kulmer| first1 = Josef| last2 = Mowlaee| first2 = Pejman| title = चरण अपघटन का उपयोग करके सिंगल चैनल स्पीच एन्हांसमेंट में चरण अनुमान| journal = IEEE Signal Processing Letters|access-date= 2017-12-03| date = May 2015| s2cid = 15503015| url = https://ieeexplore.ieee.org/document/6936313}}</ref> और इसके व्युत्पन्न समय (तात्कालिक चरण और आवृत्ति) और आवृत्ति ([[समूह विलंब और चरण विलंब]]) द्वारा,<ref name="Advances"> {{Cite journal| doi = 10.1016/j.specom.2016.04.002| issn = 0167-6393| volume = 81| pages = 1–29| last1 = Mowlaee| first1 = Pejman| last2 = Saeidi| first2 = Rahim| last3 = Stylianou| first3 = Yannis| title = Advances in phase-aware signal processing in speech communication| journal = Speech Communication|access-date= 2017-12-03| date = July 2016| s2cid = 17409161| url = http://linkinghub.elsevier.com/retrieve/pii/S0167639316300784}}</ref> आवृत्ति भर में चरण का चौरसाई।<ref name="Advances"></ref> जुड़े हुए आयाम और चरण अनुमानक चरण के वॉन माइस वितरण की धारणा के आधार पर भाषण को अधिक सटीक रूप से पुनर्प्राप्त कर सकते हैं।<ref name="vonMises"></ref>
प्राप्त चरण अनुमानों का उपयोग शोर में कमी : तात्कालिक चरण का अस्थायी समतलीकरण <ref>{{Cite journal| doi = 10.1109/LSP.2014.2365040| issn = 1070-9908| volume = 22| issue = 5| pages = 598–602| last1 = Kulmer| first1 = Josef| last2 = Mowlaee| first2 = Pejman| title = चरण अपघटन का उपयोग करके सिंगल चैनल स्पीच एन्हांसमेंट में चरण अनुमान| journal = IEEE Signal Processing Letters|access-date= 2017-12-03| date = May 2015| s2cid = 15503015| url = https://ieeexplore.ieee.org/document/6936313}}</ref> और इसके व्युत्पन्न समय (तात्कालिक चरण और आवृत्ति) और आवृत्ति ([[समूह विलंब और चरण विलंब]]) द्वारा,<ref name="Advances"> {{Cite journal| doi = 10.1016/j.specom.2016.04.002| issn = 0167-6393| volume = 81| pages = 1–29| last1 = Mowlaee| first1 = Pejman| last2 = Saeidi| first2 = Rahim| last3 = Stylianou| first3 = Yannis| title = Advances in phase-aware signal processing in speech communication| journal = Speech Communication|access-date= 2017-12-03| date = July 2016| s2cid = 17409161| url = http://linkinghub.elsevier.com/retrieve/pii/S0167639316300784}}</ref> आवृत्ति भर में चरण के समतलीकरण के लिए किया जा सकता है।<ref name="Advances"></ref> जुड़े हुए आयाम और चरण अनुमानक, चरण के वॉन माइस वितरण की धारणा के आधार पर भाषण को अधिक सटीक रूप से पुनर्प्राप्त कर सकते हैं।<ref name="vonMises"></ref>
== अनुप्रयोग ==
== अनुप्रयोग ==


Line 42: Line 41:


== यह भी देखें ==
== यह भी देखें ==
* [[न्यूरोकंप्यूटेशनल भाषण प्रसंस्करण|न्यूरोकंप्यूटेशनल वाक् प्रसंस्करण]]
* [[न्यूरोकंप्यूटेशनल भाषण प्रसंस्करण|न्यूरोकंप्यूटेशनल वाक् प्रक्रमण]]
* [[भाषण कोडिंग|वाक् कोडिंग]]
* [[भाषण कोडिंग|वाक् कोडिंग]]
* [[भाषण प्रौद्योगिकी|वाक् प्रौद्योगिकी]]
* [[भाषण प्रौद्योगिकी|वाक् प्रौद्योगिकी]]
*[[प्राकृतिक भाषा प्रसंस्करण]]
*[[प्राकृतिक भाषा प्रसंस्करण|प्राकृतिक भाषा प्रक्रमण]]


==संदर्भ==
==संदर्भ==
{{reflist}}
{{reflist}}{{Authority control}}
 
{{Speech processing}}
{{Authority control}}
[[Category: भाषण प्रसंस्करण | भाषण प्रसंस्करण ]] [[Category: भाषण]] [[Category: संकेत आगे बढ़ाना]]
 
 


[[Category: Machine Translated Page]]
[[Category:All articles with unsourced statements]]
[[Category:Articles with hatnote templates targeting a nonexistent page]]
[[Category:Articles with unsourced statements from December 2018]]
[[Category:CS1 русский-language sources (ru)]]
[[Category:Collapse templates]]
[[Category:Created On 12/05/2023]]
[[Category:Created On 12/05/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages with script errors]]
[[Category:Sidebars with styles needing conversion]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates generating microformats]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that are not mobile friendly]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:Wikipedia metatemplates]]
[[Category:भाषण]]
[[Category:भाषण प्रसंस्करण| भाषण प्रसंस्करण ]]
[[Category:संकेत आगे बढ़ाना]]

Latest revision as of 16:33, 11 September 2023

भाषा प्रक्रिया या वाक् प्रक्रमण, वाक् संकेतों और संकेतों की प्रक्रमण विधियों का अध्ययन है। संकेतों को सामान्यतः डिजिटल डाटा प्रतिनिधित्व में संसाधित किया जाता है, इसलिए वाक् प्रक्रमण को ऑडियो संकेत पर लागू डिजिटल संकेत प्रक्रिया का एक विशेष विषय माना जा सकता है। वाक् प्रक्रमण के पहलुओं में वाक् संकेतों का अधिग्रहण, हेरफेर, भंडारण, स्थानांतरण और आउटपुट शामिल है। विभिन्न वाक् प्रक्रमण कार्यों में वाक् पहचान, वाक् संश्लेषण, वक्ता डायरीकरण, वाक् संवर्धन, वक्ता पहचान आदि शामिल हैं।[1]

इतिहास

वाक् प्रक्रमण और पहचान के शुरुआती प्रयास मुख्य रूप से स्वरों जैसे मुट्ठी भर सरल ध्वन्यात्मक तत्वों को समझने पर केंद्रित थे। 1952 में, बेल लैब्स के तीन शोधकर्ता स्टीफन बालाशेक, आर. बिडुलफ और के.एच. डेविस ने एक ऐसी प्रणाली विकसित की जो एक वक्ता द्वारा बोले गए अंकों को पहचान सकती है।[2] 1940 के दशक में इसके स्पेक्ट्रम के विश्लेषण का उपयोग करते हुए वाक् पहचान के क्षेत्र में पथप्रदर्शक कार्य प्रस्तुत किये गए।[3]

लीनियर प्रेडिक्टिव कोडिंग (LPC), एक वाक् प्रक्रमण एल्गोरिथम, पहली बार 1966 में नागोया विश्वविद्यालय के बुंददा इटाकुरा और निप्पॉन टेलीग्राफ और टेलीफोन (NTT) के शूजो सैटो द्वारा प्रस्तावित किया गया था।[4] 1970 के दशक के दौरान बेल लैब्स में बिष्णु एस.अटल और मैनफ्रेड आर. श्रोएडर द्वारा एलपीसी प्रौद्योगिकी में और विकास किए गए।[4] एलपीसी, आईपी ​​पर आवाज (वीओआईपी) तकनीक का आधार है,[4]साथ ही वाक् सिंथेसाइज़र चिप्स, जैसे कि टेक्सास इंस्ट्रूमेंट्स एलपीसी स्पीच चिप्स का इस्तेमाल स्पीक एंड स्पेल (टॉय) में किया जाता है।[5]

व्यावसायिक रूप से उपलब्ध वाक् पहचान उत्पादों में से एक ड्रैगन डिक्टेट था, जिसे 1990 में प्रस्तुत किया गया था। 1992 में, बेल लैब्स में लॉरेंस राबिनर और अन्य द्वारा विकसित तकनीक का उपयोग एटी एंड टी द्वारा मानव ऑपरेटर के बिना कॉल को रूट करने के लिए उनकी वॉयस रिकॉग्निशन कॉल प्रोसेसिंग सेवा में किया गया था। इस बिंदु तक, इन प्रणालियों की शब्दावली औसत मानव शब्दावली से बड़ी थी।

2000 के दशक के प्रारंभ तक, प्रमुख वाक् प्रक्रमण रणनीति हिडन मार्कोव मॉडल्स से अधिक आधुनिक कृत्रिम तंत्रिका नेटवर्क और गहन शिक्षा की ओर स्थानांतरित होने लगी।

तकनीक

डायनेमिक टाइम वार्पिंग

डायनामिक टाइम वार्पिंग (DTW) दो समय श्रृंखलाओं के बीच समानता को मापने के लिए एक कलन विधि है, जो गति में भिन्न हो सकती है। सामान्य तौर पर, DTW एक ऐसी विधि है जो कुछ निश्चित प्रतिबंधों और नियमों के साथ दो दिए गए अनुक्रमों (जैसे समय श्रृंखला) के बीच इष्टतम मिलान की गणना करती है। इष्टतम मिलान को उस मिलान से दर्शाया जाता है जो सभी प्रतिबंधों और नियमों को संतुष्ट करता है और जिसकी न्यूनतम लागत होती है, जहां लागत की गणना उनके मूल्यों के बीच, प्रत्येक मिलान किए गए सूचकांकों के जोड़े के लिए पूर्ण अंतर के योग के रूप में की जाती है।

हिडन मार्कोव मॉडल्स

हिडन मार्कोव मॉडल्स को सबसे सरल डायनेमिक बायेसियन नेटवर्क के रूप में प्रदर्शित किया जा सकता है। इस एल्गोरिथम का लक्ष्य प्रेक्षणों की सूची y(t) दिए जाने पर छिपे हुए चर x(t) का अनुमान लगाना है। मार्कोव स्वभाव को लागू करने से, समय t पर छिपे हुए चर x(t) का सशर्त संभाव्यता वितरण, हर समय छिपे हुए चर x के मान दिए जाने पर, केवल छिपे हुए चर x(t − 1) के मान पर निर्भर करता है। इसी तरह, प्रेक्षित चर y(t) का मान केवल छिपे हुए चर x(t) (दोनों समय t पर) के मान पर निर्भर करता है।[citation needed]

कृत्रिम तंत्रिका प्रणाली

एक कृत्रिम तंत्रिका प्रणाली (ANA) कनेक्टेड इकाइयों या कृत्रिम न्यूरॉन्स नामक नोड्स के संग्रह पर आधारित है, जो जैविक मस्तिष्क में न्यूरॉन्स को अव्यवस्थित

ढंग से मॉडल करते हैं। प्रत्येक कनेक्शन, एक जैविक मस्तिष्क में निष्कर्ष की तरह, एक कृत्रिम न्यूरॉन से दूसरे में एक संकेत संचारित कर सकता है। एक कृत्रिम न्यूरॉन जो एक संकेत प्राप्त करता है, इसे संसाधित कर सकता है और फिर इससे जुड़े अतिरिक्त कृत्रिम न्यूरॉन्स को संकेत दे सकता है। सामान्य एएनएन कार्यान्वयन में, कृत्रिम न्यूरॉन्स के बीच एक कनेक्शन पर संकेत एक वास्तविक संख्या है, और प्रत्येक कृत्रिम न्यूरॉन के आउटपुट की गणना उसके इनपुट के योग के कुछ गैर-रैखिक फलन द्वारा की जाती है।

फेज-अवेयर प्रक्रमण

फेज को सामान्यतः यादृच्छिक वर्दी चर माना जाता है और इस प्रकार यह किसी काम का नहीं होता है । यह फेज-रैपिंग के कारण है:[6] पर समय-समय पर छलांग लगाने के कारण चापस्पर्श फलन का परिणाम निरंतर नहीं होता है| फेज अनरैपिंग के बाद (देखें,[7] अध्याय 2.3; तात्कालिक चरण और आवृत्ति), इसे इस प्रकार व्यक्त किया जा सकता है:[6][8]

, जहाँ रैखिक चरण है ( विश्लेषण के प्रत्येक फ्रेम में अस्थायी बदलाव है), मुखर पथ और चरण स्रोत का चरण योगदान है।[8]

प्राप्त चरण अनुमानों का उपयोग शोर में कमी : तात्कालिक चरण का अस्थायी समतलीकरण [9] और इसके व्युत्पन्न समय (तात्कालिक चरण और आवृत्ति) और आवृत्ति (समूह विलंब और चरण विलंब) द्वारा,[10] आवृत्ति भर में चरण के समतलीकरण के लिए किया जा सकता है।[10] जुड़े हुए आयाम और चरण अनुमानक, चरण के वॉन माइस वितरण की धारणा के आधार पर भाषण को अधिक सटीक रूप से पुनर्प्राप्त कर सकते हैं।[8]

अनुप्रयोग

यह भी देखें

संदर्भ

  1. Sahidullah, Md; Patino, Jose; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Herve; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vincent, Emmanuel; Evans, Nicholas; Marcel, Sebastien; Squartini, Stefano; Barras, Claude (2019-11-06). "The Speed Submission to DIHARD II: Contributions & Lessons Learned". arXiv:1911.02388 [eess.AS].
  2. Juang, B.-H.; Rabiner, L.R. (2006), "Speech Recognition, Automatic: History", Encyclopedia of Language & Linguistics, Elsevier, pp. 806–819, doi:10.1016/b0-08-044854-2/00906-8, ISBN 9780080448541
  3. Myasnikov, L. L.; Myasnikova, Ye. N. (1970). ध्वनि पैटर्न की स्वचालित पहचान (in русский). Leningrad: Energiya.
  4. 4.0 4.1 4.2 Gray, Robert M. (2010). "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF). Found. Trends Signal Process. 3 (4): 203–303. doi:10.1561/2000000036. ISSN 1932-8346.
  5. "वीसी एंड जी - वीसी एंड जी साक्षात्कार: 30 साल बाद, रिचर्ड विगिन्स टॉक एंड स्पेल डेवलपमेंट".
  6. 6.0 6.1 Mowlaee, Pejman; Kulmer, Josef (August 2015). "Phase Estimation in Single-Channel Speech Enhancement: Limits-Potential". IEEE/ACM Transactions on Audio, Speech, and Language Processing. 23 (8): 1283–1294. doi:10.1109/TASLP.2015.2430820. ISSN 2329-9290. S2CID 13058142. Retrieved 2017-12-03.
  7. Mowlaee, Pejman; Kulmer, Josef; Stahl, Johannes; Mayer, Florian (2017). Single channel phase-aware signal processing in speech communication: theory and practice. Chichester: Wiley. ISBN 978-1-119-23882-9.
  8. 8.0 8.1 8.2 Kulmer, Josef; Mowlaee, Pejman (April 2015). "Harmonic phase estimation in single-channel speech enhancement using von Mises distribution and prior SNR". Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE. pp. 5063–5067.
  9. Kulmer, Josef; Mowlaee, Pejman (May 2015). "चरण अपघटन का उपयोग करके सिंगल चैनल स्पीच एन्हांसमेंट में चरण अनुमान". IEEE Signal Processing Letters. 22 (5): 598–602. doi:10.1109/LSP.2014.2365040. ISSN 1070-9908. S2CID 15503015. Retrieved 2017-12-03.
  10. 10.0 10.1 Mowlaee, Pejman; Saeidi, Rahim; Stylianou, Yannis (July 2016). "Advances in phase-aware signal processing in speech communication". Speech Communication. 81: 1–29. doi:10.1016/j.specom.2016.04.002. ISSN 0167-6393. S2CID 17409161. Retrieved 2017-12-03.