वाक् प्रक्रमण: Difference between revisions
No edit summary |
No edit summary |
||
Line 1: | Line 1: | ||
{{Short description|Study of speech signals and the processing methods of these signals}} | {{Short description|Study of speech signals and the processing methods of these signals}} | ||
{{about|electronic speech processing|speech processing in the human brain|Language processing in the brain}} | {{about|electronic speech processing|speech processing in the human brain|Language processing in the brain}} | ||
वाक् प्रसंस्करण, [[ भाषण संचार |वाक्]] [[सिग्नल (सूचना सिद्धांत)|संकेतों]] और संकेतों की प्रसंस्करण विधियों का अध्ययन है। संकेतों को आमतौर पर [[डिजिटल डाटा]] प्रतिनिधित्व में संसाधित किया जाता है, इसलिए वाक् प्रसंस्करण को [[ ऑडियो संकेत |ऑडियो संकेत]] पर लागू [[ अंकीय संकेत प्रक्रिया |अंकीय संकेत प्रक्रिया]] का एक विशेष विषय माना जा सकता है। वाक् प्रसंस्करण के पहलुओं में वाक् संकेतों का अधिग्रहण, हेरफेर, भंडारण, स्थानांतरण और आउटपुट शामिल है। विभिन्न वाक् प्रसंस्करण कार्यों में [[वाक् पहचान]], वाक् संश्लेषण, [[वक्ता डायरीकरण]], वाक् संवर्धन, वक्ता पहचान आदि शामिल हैं।<ref>{{cite arXiv |last1=Sahidullah |first1=Md |last2=Patino |first2=Jose |last3=Cornell |first3=Samuele |last4=Yin |first4=Ruiking |last5=Sivasankaran |first5=Sunit |last6=Bredin |first6=Herve |last7=Korshunov |first7=Pavel |last8=Brutti |first8=Alessio |last9=Serizel |first9=Romain |last10=Vincent |first10=Emmanuel |last11=Evans |first11=Nicholas |last12=Marcel |first12=Sebastien |last13=Squartini |first13=Stefano |last14=Barras |first14=Claude |date=2019-11-06 |title=The Speed Submission to DIHARD II: Contributions & Lessons Learned |class=eess.AS |eprint=1911.02388 }}</ref> | भाषण या वाक् प्रसंस्करण, [[ भाषण संचार |वाक्]] [[सिग्नल (सूचना सिद्धांत)|संकेतों]] और संकेतों की प्रसंस्करण विधियों का अध्ययन है। संकेतों को आमतौर पर [[डिजिटल डाटा]] प्रतिनिधित्व में संसाधित किया जाता है, इसलिए वाक् प्रसंस्करण को [[ ऑडियो संकेत |ऑडियो संकेत]] पर लागू [[ अंकीय संकेत प्रक्रिया |अंकीय संकेत प्रक्रिया]] का एक विशेष विषय माना जा सकता है। वाक् प्रसंस्करण के पहलुओं में वाक् संकेतों का अधिग्रहण, हेरफेर, भंडारण, स्थानांतरण और आउटपुट शामिल है। विभिन्न वाक् प्रसंस्करण कार्यों में [[वाक् पहचान]], वाक् संश्लेषण, [[वक्ता डायरीकरण]], वाक् संवर्धन, वक्ता पहचान आदि शामिल हैं।<ref>{{cite arXiv |last1=Sahidullah |first1=Md |last2=Patino |first2=Jose |last3=Cornell |first3=Samuele |last4=Yin |first4=Ruiking |last5=Sivasankaran |first5=Sunit |last6=Bredin |first6=Herve |last7=Korshunov |first7=Pavel |last8=Brutti |first8=Alessio |last9=Serizel |first9=Romain |last10=Vincent |first10=Emmanuel |last11=Evans |first11=Nicholas |last12=Marcel |first12=Sebastien |last13=Squartini |first13=Stefano |last14=Barras |first14=Claude |date=2019-11-06 |title=The Speed Submission to DIHARD II: Contributions & Lessons Learned |class=eess.AS |eprint=1911.02388 }}</ref> | ||
== इतिहास == | == इतिहास == | ||
वाक् प्रसंस्करण और पहचान के शुरुआती प्रयास मुख्य रूप से स्वरों जैसे मुट्ठी भर सरल ध्वन्यात्मक तत्वों को समझने पर केंद्रित थे। 1952 में, बेल लैब्स के तीन शोधकर्ता, स्टीफन बालाशेक, आर. बिडुलफ और के.एच. डेविस ने एक ऐसी प्रणाली विकसित की जो एक वक्ता द्वारा बोले गए अंकों को पहचान सकती है।<ref>{{Citation|last1=Juang|first1=B.-H.|title=Speech Recognition, Automatic: History|date=2006|encyclopedia=Encyclopedia of Language & Linguistics|pages=806–819|publisher=Elsevier|isbn=9780080448541|last2=Rabiner|first2=L.R.|doi=10.1016/b0-08-044854-2/00906-8}}</ref> 1940 के दशक में इसके स्पेक्ट्रम के विश्लेषण का उपयोग करते हुए वाक् पहचान के क्षेत्र में पथप्रदर्शक कार्य | वाक् प्रसंस्करण और पहचान के शुरुआती प्रयास मुख्य रूप से स्वरों जैसे मुट्ठी भर सरल ध्वन्यात्मक तत्वों को समझने पर केंद्रित थे। 1952 में, बेल लैब्स के तीन शोधकर्ता, स्टीफन बालाशेक, आर. बिडुलफ और के.एच. डेविस ने एक ऐसी प्रणाली विकसित की जो एक वक्ता द्वारा बोले गए अंकों को पहचान सकती है।<ref>{{Citation|last1=Juang|first1=B.-H.|title=Speech Recognition, Automatic: History|date=2006|encyclopedia=Encyclopedia of Language & Linguistics|pages=806–819|publisher=Elsevier|isbn=9780080448541|last2=Rabiner|first2=L.R.|doi=10.1016/b0-08-044854-2/00906-8}}</ref> 1940 के दशक में इसके स्पेक्ट्रम के विश्लेषण का उपयोग करते हुए वाक् पहचान के क्षेत्र में पथप्रदर्शक कार्य प्रस्तुत किये गए।<ref>{{Cite book| publisher = Energiya| last1 = Myasnikov| first1 = L. L.| last2 = Myasnikova| first2 = Ye. N.| title = ध्वनि पैटर्न की स्वचालित पहचान| location = Leningrad| date = 1970|language=ru}}</ref> | ||
[[ रैखिक भविष्य कहनेवाला कोडिंग |लीनियर प्रेडिक्टिव कोडिंग]] (LPC), एक वाक् प्रसंस्करण एल्गोरिथम, पहली बार 1966 में [[ नागोया विश्वविद्यालय |नागोया विश्वविद्यालय]] के [[बुंददा इटाकुरा]] और [[निप्पॉन टेलीग्राफ और टेलीफोन]] (NTT) के शूजो सैटो द्वारा प्रस्तावित किया गया था।<ref name="Gray">{{cite journal |last1=Gray |first1=Robert M. |title=A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol |journal=Found. Trends Signal Process. |date=2010 |volume=3 |issue=4 |pages=203–303 |doi=10.1561/2000000036 |url=https://ee.stanford.edu/~gray/lpcip.pdf |issn=1932-8346|doi-access=free }}</ref> 1970 के दशक के दौरान [[बेल लैब्स]] में बिष्णु एस.अटल और मैनफ्रेड आर. श्रोएडर द्वारा एलपीसी प्रौद्योगिकी में और विकास किए गए।<ref name="Gray">{{cite journal |last1=Gray |first1=Robert M. |title=A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol |journal=Found. Trends Signal Process. |date=2010 |volume=3 |issue=4 |pages=203–303 |doi=10.1561/2000000036 |url=https://ee.stanford.edu/~gray/lpcip.pdf |issn=1932-8346|doi-access=free }}</ref> एलपीसी [[आईपी पर आवाज]] (वीओआईपी) तकनीक का आधार | [[ रैखिक भविष्य कहनेवाला कोडिंग |लीनियर प्रेडिक्टिव कोडिंग]] (LPC), एक वाक् प्रसंस्करण एल्गोरिथम, पहली बार 1966 में [[ नागोया विश्वविद्यालय |नागोया विश्वविद्यालय]] के [[बुंददा इटाकुरा]] और [[निप्पॉन टेलीग्राफ और टेलीफोन]] (NTT) के शूजो सैटो द्वारा प्रस्तावित किया गया था।<ref name="Gray">{{cite journal |last1=Gray |first1=Robert M. |title=A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol |journal=Found. Trends Signal Process. |date=2010 |volume=3 |issue=4 |pages=203–303 |doi=10.1561/2000000036 |url=https://ee.stanford.edu/~gray/lpcip.pdf |issn=1932-8346|doi-access=free }}</ref> 1970 के दशक के दौरान [[बेल लैब्स]] में बिष्णु एस.अटल और मैनफ्रेड आर. श्रोएडर द्वारा एलपीसी प्रौद्योगिकी में और विकास किए गए।<ref name="Gray">{{cite journal |last1=Gray |first1=Robert M. |title=A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol |journal=Found. Trends Signal Process. |date=2010 |volume=3 |issue=4 |pages=203–303 |doi=10.1561/2000000036 |url=https://ee.stanford.edu/~gray/lpcip.pdf |issn=1932-8346|doi-access=free }}</ref> एलपीसी, [[आईपी पर आवाज]] (वीओआईपी) तकनीक का आधार है,<ref name="Gray" />साथ ही [[भाषण सिंथेसाइज़र|वाक् सिंथेसाइज़र]] चिप्स, जैसे कि [[टेक्सास इंस्ट्रूमेंट्स एलपीसी स्पीच चिप्स]] का इस्तेमाल स्पीक एंड स्पेल (टॉय) में किया जाता है।<ref name="vintagecomputing_article">{{cite web|url=http://www.vintagecomputing.com/index.php/archives/528|title=वीसी एंड जी - वीसी एंड जी साक्षात्कार: 30 साल बाद, रिचर्ड विगिन्स टॉक एंड स्पेल डेवलपमेंट}}</ref> | ||
व्यावसायिक रूप से उपलब्ध वाक् पहचान उत्पादों में से एक ड्रैगन डिक्टेट था, जिसे 1990 में | व्यावसायिक रूप से उपलब्ध वाक् पहचान उत्पादों में से एक ड्रैगन डिक्टेट था, जिसे 1990 में प्रस्तुत किया गया था। 1992 में, बेल लैब्स में [[लॉरेंस राबिनर]] और अन्य द्वारा विकसित तकनीक का उपयोग एटी एंड टी द्वारा मानव ऑपरेटर के बिना कॉल को रूट करने के लिए उनकी वॉयस रिकॉग्निशन कॉल प्रोसेसिंग सेवा में किया गया था। इस बिंदु तक, इन प्रणालियों की शब्दावली औसत मानव शब्दावली से बड़ी थी। | ||
रेफरी>{{Cite journal|last1=Huang|first1=Xuedong|last2=Baker|first2=James|last3=Reddy|first3=Raj|date=2014-01-01|title=भाषण मान्यता का एक ऐतिहासिक परिप्रेक्ष्य|journal=Communications of the ACM|volume=57|issue=1|pages=94–103|doi=10.1145/2500887|s2cid=6175701 |issn=0001-0782}}<nowiki></ref></nowiki> | रेफरी>{{Cite journal|last1=Huang|first1=Xuedong|last2=Baker|first2=James|last3=Reddy|first3=Raj|date=2014-01-01|title=भाषण मान्यता का एक ऐतिहासिक परिप्रेक्ष्य|journal=Communications of the ACM|volume=57|issue=1|pages=94–103|doi=10.1145/2500887|s2cid=6175701 |issn=0001-0782}}<nowiki></ref></nowiki> |
Revision as of 18:57, 19 May 2023
भाषण या वाक् प्रसंस्करण, वाक् संकेतों और संकेतों की प्रसंस्करण विधियों का अध्ययन है। संकेतों को आमतौर पर डिजिटल डाटा प्रतिनिधित्व में संसाधित किया जाता है, इसलिए वाक् प्रसंस्करण को ऑडियो संकेत पर लागू अंकीय संकेत प्रक्रिया का एक विशेष विषय माना जा सकता है। वाक् प्रसंस्करण के पहलुओं में वाक् संकेतों का अधिग्रहण, हेरफेर, भंडारण, स्थानांतरण और आउटपुट शामिल है। विभिन्न वाक् प्रसंस्करण कार्यों में वाक् पहचान, वाक् संश्लेषण, वक्ता डायरीकरण, वाक् संवर्धन, वक्ता पहचान आदि शामिल हैं।[1]
इतिहास
वाक् प्रसंस्करण और पहचान के शुरुआती प्रयास मुख्य रूप से स्वरों जैसे मुट्ठी भर सरल ध्वन्यात्मक तत्वों को समझने पर केंद्रित थे। 1952 में, बेल लैब्स के तीन शोधकर्ता, स्टीफन बालाशेक, आर. बिडुलफ और के.एच. डेविस ने एक ऐसी प्रणाली विकसित की जो एक वक्ता द्वारा बोले गए अंकों को पहचान सकती है।[2] 1940 के दशक में इसके स्पेक्ट्रम के विश्लेषण का उपयोग करते हुए वाक् पहचान के क्षेत्र में पथप्रदर्शक कार्य प्रस्तुत किये गए।[3]
लीनियर प्रेडिक्टिव कोडिंग (LPC), एक वाक् प्रसंस्करण एल्गोरिथम, पहली बार 1966 में नागोया विश्वविद्यालय के बुंददा इटाकुरा और निप्पॉन टेलीग्राफ और टेलीफोन (NTT) के शूजो सैटो द्वारा प्रस्तावित किया गया था।[4] 1970 के दशक के दौरान बेल लैब्स में बिष्णु एस.अटल और मैनफ्रेड आर. श्रोएडर द्वारा एलपीसी प्रौद्योगिकी में और विकास किए गए।[4] एलपीसी, आईपी पर आवाज (वीओआईपी) तकनीक का आधार है,[4]साथ ही वाक् सिंथेसाइज़र चिप्स, जैसे कि टेक्सास इंस्ट्रूमेंट्स एलपीसी स्पीच चिप्स का इस्तेमाल स्पीक एंड स्पेल (टॉय) में किया जाता है।[5]
व्यावसायिक रूप से उपलब्ध वाक् पहचान उत्पादों में से एक ड्रैगन डिक्टेट था, जिसे 1990 में प्रस्तुत किया गया था। 1992 में, बेल लैब्स में लॉरेंस राबिनर और अन्य द्वारा विकसित तकनीक का उपयोग एटी एंड टी द्वारा मानव ऑपरेटर के बिना कॉल को रूट करने के लिए उनकी वॉयस रिकॉग्निशन कॉल प्रोसेसिंग सेवा में किया गया था। इस बिंदु तक, इन प्रणालियों की शब्दावली औसत मानव शब्दावली से बड़ी थी।
रेफरी>Huang, Xuedong; Baker, James; Reddy, Raj (2014-01-01). "भाषण मान्यता का एक ऐतिहासिक परिप्रेक्ष्य". Communications of the ACM. 57 (1): 94–103. doi:10.1145/2500887. ISSN 0001-0782. S2CID 6175701.</ref>
2000 के दशक के प्रारंभ तक, प्रमुख वाक् प्रसंस्करण रणनीति हिडन मार्कोव मॉडल्स से अधिक आधुनिक कृत्रिम तंत्रिका नेटवर्क और गहन शिक्षा की ओर स्थानांतरित होने लगी।[citation needed]
तकनीक
डायनेमिक टाइम वार्पिंग
डायनामिक टाइम वार्पिंग (DTW) दो समय श्रृंखलाओं के बीच समानता को मापने के लिए एक कलन विधि है, जो गति में भिन्न हो सकती है। सामान्य तौर पर, DTW एक ऐसी विधि है जो कुछ निश्चित प्रतिबंधों और नियमों के साथ दो दिए गए अनुक्रमों (जैसे समय श्रृंखला) के बीच इष्टतम मिलान की गणना करती है। इष्टतम मिलान को उस मिलान से दर्शाया जाता है जो सभी प्रतिबंधों और नियमों को संतुष्ट करता है और जिसकी न्यूनतम लागत होती है, जहां लागत की गणना उनके मूल्यों के बीच, प्रत्येक मिलान किए गए सूचकांकों के जोड़े के लिए पूर्ण अंतर के योग के रूप में की जाती है।[citation needed]
हिडन मार्कोव मॉडल्स
हिडन मार्कोव मॉडल्स को सबसे सरल डायनेमिक बायेसियन नेटवर्क के रूप में प्रदर्शित किया जा सकता है। एल्गोरिथम का लक्ष्य प्रेक्षणों की सूची y(t) दिए जाने पर छिपे हुए चर x(t) का अनुमान लगाना है। मार्कोव स्वभाव को लागू करने से, समय t पर छिपे हुए चर x(t) का सशर्त संभाव्यता वितरण, हर समय छिपे हुए चर x के मान दिए जाने पर, केवल छिपे हुए चर x(t − 1) के मान पर निर्भर करता है। इसी तरह, प्रेक्षित चर y(t) का मान केवल छिपे हुए चर x(t) (दोनों समय t पर) के मान पर निर्भर करता है।[citation needed]
कृत्रिम तंत्रिका नेटवर्क
एक कृत्रिम तंत्रिका नेटवर्क (एएनएन) कनेक्टेड इकाइयों या कृत्रिम न्यूरॉन्स नामक नोड्स के संग्रह पर आधारित है, जो जैविक मस्तिष्क में न्यूरॉन्स को अव्यवस्थित
ढंग से मॉडल करते हैं। प्रत्येक कनेक्शन, एक जैविक मस्तिष्क में निष्कर्ष की तरह, एक कृत्रिम न्यूरॉन से दूसरे में एक संकेत संचारित कर सकता है। एक कृत्रिम न्यूरॉन जो एक संकेत प्राप्त करता है, इसे संसाधित कर सकता है और फिर इससे जुड़े अतिरिक्त कृत्रिम न्यूरॉन्स को संकेत दे सकता है। सामान्य एएनएन कार्यान्वयन में, कृत्रिम न्यूरॉन्स के बीच एक कनेक्शन पर संकेत एक वास्तविक संख्या है, और प्रत्येक कृत्रिम न्यूरॉन के आउटपुट की गणना उसके इनपुट के योग के कुछ गैर-रैखिक फलन द्वारा की जाती है।[citation needed]
फेज-अवेयर प्रसंस्करण
फेज को आमतौर पर यादृच्छिक वर्दी चर माना जाता है और इस प्रकार यह किसी काम का नहीं होता है । यह फेज-रैपिंग के कारण है:[6] पर समय-समय पर छलांग लगाने के कारण चापस्पर्श फलन का परिणाम निरंतर नहीं होता है| फेज अनरैपिंग के बाद (देखें,[7] अध्याय 2.3; तात्कालिक चरण और आवृत्ति), इसे इस प्रकार व्यक्त किया जा सकता है:[6][8]
, जहाँ रैखिक चरण है ( विश्लेषण के प्रत्येक फ्रेम में अस्थायी बदलाव है), मुखर पथ और चरण स्रोत का चरण योगदान है।[8]
प्राप्त चरण अनुमानों का उपयोग शोर में कमी के लिए किया जा सकता है: तात्कालिक चरण का अस्थायी चौरसाई [9] और इसके व्युत्पन्न समय (तात्कालिक चरण और आवृत्ति) और आवृत्ति (समूह विलंब और चरण विलंब) द्वारा,[10] आवृत्ति भर में चरण का चौरसाई।[10] जुड़े हुए आयाम और चरण अनुमानक चरण के वॉन माइस वितरण की धारणा के आधार पर भाषण को अधिक सटीक रूप से पुनर्प्राप्त कर सकते हैं।[8]
अनुप्रयोग
- इंटरएक्टिव वॉयस सिस्टम्स
- आभासी सहायक
- वाक् पहचान
- भावना पहचान
- कॉल सेंटर स्वचालन
- रोबोटिक्स
यह भी देखें
संदर्भ
- ↑ Sahidullah, Md; Patino, Jose; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Herve; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vincent, Emmanuel; Evans, Nicholas; Marcel, Sebastien; Squartini, Stefano; Barras, Claude (2019-11-06). "The Speed Submission to DIHARD II: Contributions & Lessons Learned". arXiv:1911.02388 [eess.AS].
- ↑ Juang, B.-H.; Rabiner, L.R. (2006), "Speech Recognition, Automatic: History", Encyclopedia of Language & Linguistics, Elsevier, pp. 806–819, doi:10.1016/b0-08-044854-2/00906-8, ISBN 9780080448541
- ↑ Myasnikov, L. L.; Myasnikova, Ye. N. (1970). ध्वनि पैटर्न की स्वचालित पहचान (in русский). Leningrad: Energiya.
- ↑ 4.0 4.1 4.2 Gray, Robert M. (2010). "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF). Found. Trends Signal Process. 3 (4): 203–303. doi:10.1561/2000000036. ISSN 1932-8346.
- ↑ "वीसी एंड जी - वीसी एंड जी साक्षात्कार: 30 साल बाद, रिचर्ड विगिन्स टॉक एंड स्पेल डेवलपमेंट".
- ↑ 6.0 6.1 Mowlaee, Pejman; Kulmer, Josef (August 2015). "Phase Estimation in Single-Channel Speech Enhancement: Limits-Potential". IEEE/ACM Transactions on Audio, Speech, and Language Processing. 23 (8): 1283–1294. doi:10.1109/TASLP.2015.2430820. ISSN 2329-9290. S2CID 13058142. Retrieved 2017-12-03.
- ↑ Mowlaee, Pejman; Kulmer, Josef; Stahl, Johannes; Mayer, Florian (2017). Single channel phase-aware signal processing in speech communication: theory and practice. Chichester: Wiley. ISBN 978-1-119-23882-9.
- ↑ 8.0 8.1 8.2 Kulmer, Josef; Mowlaee, Pejman (April 2015). "Harmonic phase estimation in single-channel speech enhancement using von Mises distribution and prior SNR". Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE. pp. 5063–5067.
- ↑ Kulmer, Josef; Mowlaee, Pejman (May 2015). "चरण अपघटन का उपयोग करके सिंगल चैनल स्पीच एन्हांसमेंट में चरण अनुमान". IEEE Signal Processing Letters. 22 (5): 598–602. doi:10.1109/LSP.2014.2365040. ISSN 1070-9908. S2CID 15503015. Retrieved 2017-12-03.
- ↑ 10.0 10.1 Mowlaee, Pejman; Saeidi, Rahim; Stylianou, Yannis (July 2016). "Advances in phase-aware signal processing in speech communication". Speech Communication. 81: 1–29. doi:10.1016/j.specom.2016.04.002. ISSN 0167-6393. S2CID 17409161. Retrieved 2017-12-03.