वाक् पहचान
भाषण मान्यता कंप्यूटर विज्ञान और कम्प्यूटरीकृत भाषाविज्ञान का वह अंतःविषय उपक्षेत्र है जो कार्यप्रणाली और प्रौद्योगिकियों को विकसित करता है तथा पाठ में खोज के मुख्य लाभ के साथ कंप्यूटर द्वारा पाठ में बोली जाने वाली भाषा की पहचान और अनुवाद को सक्षम बनाता है। इसे स्वचालित वाक् पहचान (ASR), कंप्यूटर वाक् पहचान या स्पीच टू पाठ्य खोज के रूप में भी जाना जाता है। यह कंप्यूटर विज्ञान, भाषाविज्ञान और कंप्यूटर अभियांत्रिकी क्षेत्रों में ज्ञान और अनुसंधान को सम्मलित करता है। व्युत्क्रम प्रक्रिया मुख्यतः भाषण संश्लेषण प्रक्रिया है।
कुछ भाषण पहचान प्रणालियों को प्रशिक्षण की आवश्यकता होती है (जिसे नामांकन भी कहा जाता है) जहां व्यक्तिगत वक्ता प्रणाली में पाठ या पृथक शब्दावली पढ़ता है। प्रणाली व्यक्ति की विशिष्ट ध्वनि का विश्लेषण करती है और इसका उपयोग उस व्यक्ति के भाषण की पहचान को ठीक करने के लिए करती है, जिसके परिणामस्वरूप सटीकता में वृद्धि होती है। प्रणाली जो प्रशिक्षण का उपयोग नहीं करती हैं उन्हें स्पीकर-स्वतंत्र कहा जाता है[1] प्रणाली प्रशिक्षण का उपयोग करने वाली प्रणालियाँ वक्ता पर आश्रित होती हैं।
वाक् पहचान अनुप्रयोगों में वॉयस डायलिंग (जैसे घर पर कॉल करना), कॉल रूटिंग (जैसे मैं कलेक्ट कॉल करना चाहूंगा), डोमोटिक उपकरण नियंत्रण, खोज कुंजी शब्द (जैसे पॉडकास्ट खोजें जहां विशेष शब्द बोले गए थे) जैसे ध्वनि उपयोगकर्ता मंच सम्मलित हैं। सरल डेटा प्रविष्टि (जैसे, क्रेडिट कार्ड नंबर दर्ज करना), संरचित दस्तावेजों की तैयारी (जैसे रेडियोलॉजी रिपोर्ट), स्पीकर विशेषताओं का निर्धारण करना,[2] स्पीच-टू-टेक्स्ट प्रोसेसिंग (जैसे, शब्द संसाधक या ईमेल), और सामान्यत प्रत्यक्ष ध्वनि इनपुट कहा जाता है।
शब्द ध्वनि पहचान[3][4][5] या वक्ता मान्यता[6][7][8] बोलने वाले की पहचान करने के लिए संदर्भित करता है, इसके अतिरिक्त वे क्या कह रहे हैं। वाक् पहचान प्रणाली में भाषण अनुवाद के कार्य को सरल बना सकता है जिसे किसी विशिष्ट व्यक्ति की ध्वनि पर प्रशिक्षित किया गया है या इसे सुरक्षा प्रक्रिया के हिस्से के रूप में प्रमाणीकरण या स्पीकर की पहचान को सत्यापित करने के लिए उपयोग किया जा सकता है।
प्रौद्योगिकी के दृष्टिकोण से, प्रमुख नवाचारों की कई लहरों के साथ वाक् पहचान का लंबा इतिहास है। हाल ही में, क्षेत्र को गहन शिक्षा और बड़े डेटा में प्रगति से लाभ हुआ है। प्रगति न केवल क्षेत्र में प्रकाशित अकादमिक पत्रों की वृद्धि से प्रमाणित होती है, बल्कि विश्वव्यापी उद्योग द्वारा वाक् पहचान प्रणाली को डिजाइन करने और नियुक्त करने में विभिन्न गहन शिक्षण विधियों को अपनाने से भी महत्वपूर्ण है।
इतिहास
विकास के प्रमुख क्षेत्र थे: शब्दावली का आकार, वक्ता की स्वतंत्रता और प्रसंस्करण की गति।
1970 से पहले
- 1952 - बेल लैब्स के तीन शोधकर्ता, स्टीफ़न बालाशेक,[9] आर. बिडुल्फ और के.एच. डेविस ने ऑड्रे नामक प्रणाली का निर्माण किया[10] एकल वक्ता अंक पहचान के लिए। उनकी प्रणाली प्रत्येक उच्चारण के पावर स्पेक्ट्रम में फार्मेंट्स को स्थित करती है।[11] 1960 - गुन्नार फंता ने भाषण उत्पादन के स्रोत-फ़िल्टर मॉडल को विकसित और प्रकाशित किया।
- 1962 - आईबीएम ने 1962 के विश्व मेले में अपनी 16-शब्द वाली शोबॉक्स मशीन की वाक् पहचान क्षमता का प्रदर्शन किया।[12]
- 1966 - रैखिक भविष्य कहनेवाला कोडिंग (एलपीसी), भाषण कोडिंग विधि, पहली बार वाक् पहचान पर कार्य करते हुए नागोया विश्वविद्यालय के बुंददा इटाकुरा और निप्पॉन टेलीग्राफ और टेलीफोन (एनटीटी) के शुजो सैटो द्वारा प्रस्तावित की गई थी।[13]
- 1969 - बेल लैब्स में फंडिंग कई वर्षों तक रुकी रही, जब 1969 में, प्रभावशाली जॉन आर. पियर्स ने खुला पत्र लिखा, जो वाक् पहचान रिसर्च के लिए आलोचनात्मक और निराधार था।[14] यह डिफंडिंग पियर्स और जेम्स एल के सेवानिवृत्त होने तथा फ्लानागन के पदभार संभालने तक चली।
संतुष्ट हिला 1960 के दशक के अंत में स्टैनफोर्ड विश्वविद्यालय में स्नातक छात्र के रूप में निरंतर भाषण मान्यता लेने वाले पहले व्यक्ति थे। पिछली प्रणालियों में उपयोगकर्ताओं को प्रत्येक शब्द के पश्चात रुकने की आवश्यकता होती थी। रेड्डीज प्रणाली ने शतरंज खेलने के लिए स्पोकन कमांड जारी किया।
इस समय के आसपास सोवियत शोधकर्ताओं ने गतिशील समय वारिंग (डीटीडब्ल्यू) एल्गोरिथम का आविष्कार किया और इसका उपयोग पहचानकर्ता बनाने के लिए किया जो 200-शब्द शब्दावली पर कार्य करने में सक्षम था।[15] डीटीडब्ल्यू ने भाषण को छोटे फ्रेम में विभाजित करके संसाधित किया, उदाहरण के लिए 10 मिलीसेकेंड के भाग, और प्रत्येक फ्रेम को इकाई के रूप में संसाधित करना। चूंकि डीटीडब्ल्यू को बाद के एल्गोरिदम द्वारा हटा दिया जाएगा, तथा यह विधि जारी रही। इस समय की अवधि में स्पीकर स्वतंत्रता प्राप्त करना अनसुलझा रहा।
1970–1990
- 1971 - 1,000 शब्दों के न्यूनतम शब्दावली आकार की मांग करने वाले वाक् पहचान अनुसंधान के लिए 'वाक् समझ अनुसंधान' के लिए डारपा ने पांच साल का वित्त पोषण किया। उन्होंने सोचा कि प्राकृतिक-भाषा की समझ या वाक् समझ वाणी मान्यता में प्रगति करने के लिए महत्वपूर्ण होगी, लेकिन यह बाद में असत्य सिद्ध हुई।[16] बीबीएन प्रौद्योगिकीज, आईबीएम, कार्नेगी मेलॉन और स्टैनफोर्ड अनुसंधान संस्थान सभी ने कार्यक्रम में भाग लिया।[17][18] जॉन पियर्स के पत्र के पश्चात इस वाक् पहचान अनुसंधान को पुनर्जीवित किया।
- 1972 - आईईईई ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग समूह ने न्यूटन, मैसाचुसेट्स में सम्मेलन आयोजित किया।
- 1976 - पहला आईसीएएसएसपी फ़िलाडेल्फ़िया में आयोजित किया गया था, जो तब से वाक् पहचान पर शोध के प्रकाशन के लिए प्रमुख स्थान रहा है।[19]
1960 के दशक के अंत में लियोनार्ड ई. बॉम ने रक्षा विश्लेषण संस्थान में मार्कोव श्रृंखलाओं का गणित विकसित किया। एक दशक पश्चात, सीएमयू में, राज रेड्डी के छात्रों जेम्स के. बेकर और जेनेट एम. बेकर ने वाक् पहचान के लिए हिडन मार्कोव मॉडल (एचएमएमएम) का उपयोग करना शुरू किया।[20] जेम्स बेकर ने अपनी स्नातक शिक्षा के समय इंस्टीट्यूट ऑफ डिफेंस एनालिसिस में ग्रीष्मकालीन नौकरी से एचएमएम के बारे में सीखा था।[21] एचएमएम के उपयोग ने शोधकर्ताओं को एकीकृत संभाव्य मॉडल में ध्वनिकी, भाषा और वाक्य रचना जैसे ज्ञान के विभिन्न स्रोतों को संयोजित करने की अनुमति दी।
- 1980 के दशक के मध्य तक आईबीएम के फ्रेडरिक जेलिनेक या फ्रेड जेलिनेक की टीम ने टैंगोरा नामक ध्वनि सक्रिय टाइपराइटर बनाया, जो 20,000 शब्दों की शब्दावली को संभाल सकता था[22] जेलाइनेक के सांख्यिकीय दृष्टिकोण ने एचएमएम जैसी सांख्यिकीय मॉडलिंग विधिों का उपयोग करने के पक्ष में मानव मस्तिष्क की प्रक्रियाओं और भाषण को समझने के विधि का अनुकरण करने पर कम जोर दिया। (जेलाइनेक के समूह ने स्वतंत्र रूप से भाषण में एचएमएम के अनुप्रयोग की खोज की।[21]) यह भाषाविदों के साथ विवादास्पद था क्योंकि एचएमएम मानव भाषाओं की कई सामान्य विशेषताओं को ध्यान में रखते हुए बहुत सरल हैं।[23] चूंकि, एचएमएम मॉडलिंग भाषण के लिए अत्यधिक उपयोगी तरीका सिद्ध हुआ और 1980 के दशक में प्रमुख भाषण मान्यता एल्गोरिदम बनने के लिए गतिशील समय परिवर्तन को बदल दिया।[24]
- 1982 - जेम्स और जेनेट एम. बेकर द्वारा स्थापित ड्रैगन प्रणाली,[25] आईबीएम के कुछ प्रतियोगियों में से था।
व्यावहारिक वाक् पहचान
1980 के दशक में एन-ग्राम भाषा मॉडल का प्रारंभ भी हुआ।
- 1987 - काट्ज़ का बैक-ऑफ़ मॉडल|बैक-ऑफ़ मॉडल ने भाषा मॉडल को कई लंबाई एन-ग्राम और सीएसईएलटी का उपयोग करने की अनुमति दी[26] भाषाओं को पहचानने के लिए एचएमएम का उपयोग किया (सॉफ्टवेयर और हार्डवेयर विशेष प्रोसेसर, जैसे रिपएसी (माइक्रोप्रोसेसर) दोनों में)।
इस क्षेत्र में अधिकांश प्रगति कंप्यूटर की तेजी से बढ़ती क्षमताओं के कारण हुई है। 1976 में डारपा कार्यक्रम के अंत में, शोधकर्ताओं के लिए उपलब्ध सबसे अच्छा कंप्यूटर 4 एमबी रैम वाला पीडीपी-10 था।[23]केवल 30 सेकंड के भाषण को डिकोड करने में 100 मिनट तक का समय लग सकता है।[27] इसके दो व्यावहारिक उत्पाद थे:
- 1984 - 4096 शब्दों के समर्थन के साथ खुबानी पोर्टेबल जारी किया गया था, जिसमें से केवल 64 को समय में रैंडम एक्सेस मेमोरी में रखा जा सकता था।[28]
- 1987 - कुर्ज़वील एप्लाइड इंटेलिजेंस से पहचानकर्ता
- 1990 - ड्रैगन डिक्टेट, 1990 में जारी उपभोक्ता उत्पाद[29][30] एटी एंड टी ने मानव ऑपरेटर के उपयोग के बिना टेलीफोन कॉल को रूट करने के लिए 1992 में वाक् पहचान कॉल प्रोसेसिंग सेवा को नियुक्त किया।[31] प्रौद्योगिकी को बेल लैब्स में लॉरेंस राबिनर और अन्य द्वारा विकसित किया गया था।
इस बिंदु तक, विशिष्ट व्यावसायिक वाक् पहचान प्रणाली की शब्दावली औसत मानव शब्दावली से बड़ी थी।[23] राज रेड्डी के पूर्व छात्र, एक्स यूई हुआंग को समझता है ने सीएमयू स्फिंक्स|स्फिंक्स-II प्रणाली को सीएमयू में विकसित किया। स्फिंक्स-II प्रणाली स्पीकर-स्वतंत्र, बड़ी शब्दावली, निरंतर वाक् पहचान करने वाली पहली प्रणाली थी और इसका डारपा के 1992 के मूल्यांकन में सर्वश्रेष्ठ प्रदर्शन था। भाषण मान्यता के इतिहास में बड़ी शब्दावली के साथ निरंतर भाषण को संभालना प्रमुख मील का पत्थर था। हुआंग ने 1993 में विंडोज भाषण मान्यता की खोज की। राज रेड्डी के छात्र काई-फ यू ली एप्पल में सम्मलित हुए, जहां 1992 में, उन्होंने कैस्पर नामक एप्पल कंप्यूटर के लिए स्पीच इंटरफेस प्रोटोटाइप विकसित करने में सहायता की।
बेल्जियम स्थित वाक् पहचान कंपनी, लर्नआउट एंड हॉस्पी ने 1997 में कुर्ज़वील एप्लाइड इंटेलिजेंस और 2000 में ड्रैगन प्रणाली्स सहित कई अन्य कंपनियों का अधिग्रहण किया। एल एंड एच वाक् प्रौद्योगिकी का उपयोग विंडोज एक्सपी ऑपरेटिंग प्रणाली में किया गया था। 2001 में लेखा घोटाले के समाप्त होने तक एल एंड एच उद्योग अग्रणी था। एल एंड एच की वाक् प्रौद्योगिकी को स्कैनसॉफ्ट द्वारा खरीदा गया था जो 2005 में नौन्सी कम्यूनिकेशन तथा एप्पल इंक सहायक महोदय मै द्वारा बन गया।[32]
2000s
2000 के दशक में डारपा ने दो भाषण मान्यता कार्यक्रम प्रायोजित किए: 2002 में प्रभावी वहनीय पुन: प्रयोज्य भाषण-से-पाठ (EARS) और डारपा वैश्विक स्वायत्त भाषा शोषण कार्यक्रम (गेल)। ईएआरएस कार्यक्रम में चार टीमों ने भाग लिया: आईबीएम, एलआईएमएसआई और पिट्सबर्ग विश्वविद्यालय के साथ बीबीएन प्रौद्योगिकीज के नेतृत्व वाली टीम। पिट्सबर्ग, कैम्ब्रिज विश्वविद्यालय, और अंतर्राष्ट्रीय कंप्यूटर विज्ञान संस्थान, स्टैनफोर्ड अनुसंधान संस्थान और वाशिंगटन विश्वविद्यालय से बनी टीम। ईएआरएस ने स्विचबोर्ड टेलीफोन भाषण कोष के संग्रह को वित्त पोषित किया जिसमें 500 से अधिक वक्ताओं से 260 घंटे की रिकॉर्ड की गई बातचीत सम्मलित थी।[33] गेल कार्यक्रम आधुनिक मानक अरबी और मानक चीनी प्रसारण समाचार भाषण पर केंद्रित था। वाक् पहचान में गूगल का पहला प्रयास 2007 में Nuance के कुछ शोधकर्ताओं को कार्य पर रखने के पश्चात आया।[34] पहला उत्पाद गूग-411 था, जो टेलीफोन आधारित निर्देशिका सेवा थी। गूग-411 की रिकॉर्डिंग से मूल्यवान डेटा प्राप्त हुआ जिससे गूगल को अपनी पहचान प्रणाली को उत्कृष्ट बनाने में सहायता मिली. गूगल वायस सर्च अब 30 से अधिक भाषाओं में समर्थित है।
संयुक्त राज्य अमेरिका में, राष्ट्रीय सुरक्षा एजेंसी ने कम से कम 2006 से कीवर्ड स्पॉटिंग के लिए प्रकार की वाक् पहचान का उपयोग किया है।[35] यह विधि विश्लेषकों को बड़ी मात्रा में रिकॉर्ड की गई बातचीत के माध्यम से खोज करने और कीवर्ड के उल्लेखों को अलग करने की अनुमति देती है। रिकॉर्डिंग को अनुक्रमित किया जा सकता है और विश्लेषक रुचि की बातचीत खोजने के लिए डेटाबेस पर प्रश्न चला सकते हैं। कुछ सरकारी अनुसंधान कार्यक्रम भाषण मान्यता के खुफिया अनुप्रयोगों पर केंद्रित हैं, उदा। डारपा का ईएआरएस प्रोग्राम और आईआर्पा का बेबेल कार्यक्रम
2000 के दशक की प्रारंभ में, फीडफॉरवर्ड कृत्रिम तंत्रिका प्रसार के साथ संयुक्त छिपे हुए मार्कोव मॉडल जैसे पारंपरिक दृष्टिकोणों में वाक् पहचान का अभी भी वर्चस्व था।[36]
चूंकि, आज, स्पीच रिकॉग्निशन के कई पहलुओं को लंबी अल्पकालिक स्मृति (एलएसटीएम) नामक गहन शिक्षण पद्धति द्वारा ले लिया गया है, जो 1997 में सेप होचराइटर और जुरगेन श्मिटुबर द्वारा प्रकाशित आवर्तक तंत्रिका नेटवर्क है।[37] एलएसटीएम आरएनएन लुप्त होती ढाल की समस्या से बचते हैं और बहुत गहन शिक्षण कार्य सीख सकते हैं[38] जिसके लिए हज़ारों असतत समय पहले घटित घटनाओं की यादों की आवश्यकता होती है, जो भाषण के लिए महत्वपूर्ण है।
2007 के आसपास, एलएसटीएम कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (सीटीसी) द्वारा प्रशिक्षित किया गया[39] कुछ अनुप्रयोगों में पारंपरिक वाक् पहचान को मात देना शुरू कर दिया है।[40] 2015 में, गूगल की वाक् पहचान ने कथित तौर पर सीटीसी-प्रशिक्षित एलएसटीएम के माध्यम से 49% की नाटकीय प्रदर्शन छलांग का अनुभव किया, जो अब सभी स्मार्टफोन उपयोगकर्ताओं के लिए गूगल वायस के माध्यम से उपलब्ध है।[41]
ध्वनिक मॉडल के लिए डीप फीडफॉर्वर्ड (गैर-आवर्तक) नेटवर्क का उपयोग 2009 के उत्तरार्ध में जेफ्री हिंटन और उनके छात्रों द्वारा टोरंटो विश्वविद्यालय और ली डेंग द्वारा शुरू किया गया था।[42] और माइक्रोसॉफ्ट रिसर्च में सहयोगियों, प्रारंभ में माइक्रोसॉफ्ट और टोरंटो विश्वविद्यालय के बीच सहयोगी कार्य में जो बाद में आईबीएम और गूगल को सम्मलित करने के लिए विस्तारित किया गया था (इसलिए उनके 2012 समीक्षा पत्र में उपशीर्षक के चार शोध समूहों के साझा विचार)।[43][44][45] माइक्रोसाफ्ट अनुसंधान कार्यकारी ने इस नवाचार को 1979 के पश्चात से सटीकता में सबसे नाटकीय परिवर्तन कहा।[46] पिछले कुछ दशकों में लगातार वृद्धिशील सुधारों के विपरीत, गहन शिक्षण के प्रयोग से शब्द त्रुटि दर में 30% की कमी आई है।[46] इस नवाचार को पूरे क्षेत्र में तेजी से अपनाया गया। शोधकर्ताओं ने भाषा मॉडलिंग के लिए भी गहन शिक्षण विधिों का उपयोग करना शुरू कर दिया है।
भाषण मान्यता के लंबे इतिहास में, 1980, 1990 के दशक और 2000 के दशक में कुछ वर्षों के समय कृत्रिम तंत्रिका नेटवर्क के उथले रूप और गहरे रूप (जैसे आवर्तक जाल) दोनों का पता लगाया गया था।[47][48][49]
लेकिन इन विधियों ने गैर-समान आंतरिक-हैंडक्राफ्टिंग मिक्स्चर छिपा हुआ मार्कोव मॉडल (जीएमएम-एचएमएम) विधि पर कभी जीत प्राप्त नहीं की, जो भेदभावपूर्ण विधि से प्रशिक्षित भाषण के जनरेटिव मॉडल पर आधारित है।[50] 1990 के दशक में कई प्रमुख कठिनाइयों का पद्धतिगत रूप से विश्लेषण किया गया था, जिसमें धीरे-धीरे ह्रासमान भी सम्मलित था[51] और तंत्रिका भविष्यवाणी मॉडल में कमजोर अस्थायी सहसंबंध संरचना हैं।[52][53] ये सभी कठिनाइयाँ इन प्रारंभिकी दिनों में बड़े प्रशिक्षण डेटा और बड़ी कंप्यूटिंग शक्ति की कमी के अतिरिक्त थीं। अधिकांश भाषण मान्यता शोधकर्ता जो इस तरह की बाधाओं को समझते थे, इसलिए पश्चात में 2009-2010 के आसपास शुरू होने वाली डीप लर्निंग के पुनरुत्थान तक जनरेटिव मॉडलिंग दृष्टिकोणों को आगे बढ़ाने के लिए तंत्रिका जाल से दूर चले गए, जिसने इन सभी कठिनाइयों को दूर कर दिया था। हिंटन एट अल और डेंग एट अल ने इस इतिहास के इस भाग की समीक्षा की कि कैसे दूसरे के साथ और फिर चार समूहों (टोरंटो विश्वविद्यालय, माइक्रोसॉफ्ट, गूगल और आईबीएम) के सहयोगियों के साथ उनके सहयोग ने वाक् पहचान के लिए गहरे फीडफॉरवर्ड न्यूरल नेटवर्क के अनुप्रयोगों के पुनर्जागरण को प्रज्वलित किया।[44][45][54][55]
2010
2010 की प्रारंभ में वाक् पहचान, जिसे ध्वनि पहचान भी कहा जाता है[56][57][58] तक सीमित थी वक्ता की मान्यता से स्पष्ट रूप से अलग था, और वक्ता की स्वतंत्रता को बड़ी सफलता माना गया था। तब तक, प्रणाली को प्रशिक्षण अवधि की आवश्यकता होती है। 1987 में डॉल के विज्ञापन में टैगलाइन दी गई थी फाइनली, डॉल जो आपको समझती है। - इस तथ्य के अतिरिक्त कि यह वर्णन किया गया था कि कौन से बच्चे अपनी ध्वनि का जवाब देने के लिए प्रशिक्षित कर सकते हैं।[12]
2017 में, माइक्रोसाफ्ट शोधकर्ता व्यापक रूप से बेंचमार्क किए गए स्विचबोर्ड कार्य पर संवादी टेलीफोनी भाषण को प्रसारित करने के ऐतिहासिक मानवीय समता मील के पत्थर पर पहुंच गए। भाषण पहचान सटीकता को अनुकूलित करने के लिए कई गहन शिक्षण मॉडल का उपयोग किया गया था। भाषण पहचान शब्द त्रुटि दर को ही बेंचमार्क पर साथ कार्य करने वाले 4 विशेषज्ञ मानव प्रतिलेखकों के रूप में कम बताया गया था, जिसे आईबीएम वाटसन भाषण टीम द्वारा ही कार्य पर वित्त पोषित किया गया था।[59]
मॉडल, विधि और एल्गोरिदम
ध्वनिक मॉडलिंग और भाषा मॉडल दोनों ही आधुनिक सांख्यिकीय आधारित वाक् पहचान एल्गोरिदम के महत्वपूर्ण भाग हैं। छिपे हुए मार्कोव मॉडल (एचएमएम) कई प्रणालियों में व्यापक रूप से उपयोग किए जाते हैं। भाषा मॉडलिंग का उपयोग कई अन्य प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों जैसे दस्तावेज़ वर्गीकरण या सांख्यिकीय मशीन अनुवाद में भी किया जाता है।
छिपे हुए मार्कोव मॉडल
आधुनिक सामान्य-उद्देश्य वाक् पहचान प्रणालियाँ छिपे हुए मार्कोव मॉडल पर आधारित हैं। ये सांख्यिकीय मॉडल हैं जो प्रतीकों या मात्राओं के अनुक्रम का उत्पादन करते हैं। एचएमएम का उपयोग वाक् पहचान में किया जाता है क्योंकि वाक् संकेत को टुकड़े-टुकड़े स्थिर संकेत या लघु-समय स्थिर संकेत के रूप में देखा जा सकता है। थोड़े समय के पैमाने में (उदाहरण के लिए, 10 मिलीसेकंड), भाषण को स्थिर प्रक्रिया के रूप में अनुमानित किया जा सकता है। भाषण को कई स्टोकेस्टिक उद्देश्यों के लिए मार्कोव मॉडल के रूप में माना जा सकता है।
एचएमएम के लोकप्रिय होने का और कारण यह है कि उन्हें स्वचालित रूप से प्रशिक्षित किया जा सकता है और उपयोग करने के लिए सरल और कम्प्यूटरीकृत रूप से व्यवहार्य हैं। वाक् पहचान में, छिपा हुआ मार्कोव मॉडल एन-डायमेंशनल रियल-वैल्यूड वैक्टर (एन के साथ छोटा पूर्णांक, जैसे 10) के अनुक्रम को आउटपुट करेगा, इनमें से प्रत्येक 10 मिलीसेकंड में से को आउटपुट करेगा। सदिशों में प्रभुत्व गुणांक सम्मलित होंगे, जो भाषण की छोटी समय की खिड़की के फूरियर रूपांतरण और कोसाइन परिवर्तन का उपयोग करके स्पेक्ट्रम को सजाने के द्वारा प्राप्त किए जाते हैं, फिर पहले (सबसे महत्वपूर्ण) गुणांक लेते हैं। छिपे हुए मार्कोव मॉडल में प्रत्येक राज्य में सांख्यिकीय वितरण होता है जो विकर्ण सहप्रसरण गॉसियन का मिश्रण होता है, जो प्रत्येक मनाया वेक्टर के लिए संभावना देगा। प्रत्येक शब्द, या (अधिक सामान्य वाक् पहचान प्रणाली के लिए), प्रत्येक स्वनिम का अलग आउटपुट वितरण होगा; शब्दों या स्वरों के अनुक्रम के लिए छिपा हुआ मार्कोव मॉडल अलग-अलग शब्दों और स्वरों के लिए अलग-अलग प्रशिक्षित छिपे हुए मार्कोव मॉडल को जोड़कर बनाया गया है।
ऊपर वर्णित भाषण मान्यता के लिए सबसे आम, एचएमएम-आधारित दृष्टिकोण के मूल तत्व हैं। ऊपर वर्णित मूल दृष्टिकोण पर परिणामों को उत्कृष्ट बनाने के लिए आधुनिक वाक् पहचान प्रणालियाँ कई मानक विधिों के विभिन्न संयोजनों का उपयोग करती हैं। विशिष्ट बड़ी-शब्दावली प्रणाली को स्वरों के लिए संदर्भ निर्भरता की आवश्यकता होगी (इसलिए अलग-अलग बाएँ और दाएँ संदर्भ वाले स्वरों में एचएमएम स्थितियों के रूप में अलग-अलग महसूस होते हैं); यह अलग स्पीकर और रिकॉर्डिंग स्थितियों के लिए सामान्य करने के लिए सेप्स्ट्रल सामान्यीकरण का उपयोग करेगा; आगे के स्पीकर सामान्यीकरण के लिए, यह पुरुष-महिला सामान्यीकरण के लिए वोकल ट्रैक्ट लेंथ नॉर्मलाइज़ेशन (वीटीएलएन) और अधिक सामान्य स्पीकर अनुकूलन के लिए अधिकतम संभावना रैखिक प्रतिगमन (एमएलएलआर) का उपयोग कर सकता है। भाषण की गतिशीलता को पकड़ने के लिए सुविधाओं में तथाकथित डेल्टा गुणांक और डेल्टा-डेल्टा गुणांक होंगे और इसके अतिरिक्त, विषमलैंगिक रैखिक विभेदक विश्लेषण (एचएलडीए) का उपयोग कर सकते हैं; या डेल्टा और डेल्टा-डेल्टा गुणांकों को छोड़ सकते हैं और स्प्लिसिंग (वाक् पहचान) और रैखिक विभेदक विश्लेषण-आधारित प्रक्षेपण का उपयोग कर सकते हैं, जिसके पश्चात विषमलैंगिक रैखिक विभेदक विश्लेषण या वैश्विक अर्ध-बंधे सह-प्रसरण परिवर्तन (जिसे अधिकतम संभावना रैखिक परिवर्तन के रूप में भी जाना जाता है) या एमएलएलटी)। कई प्रणालियाँ तथाकथित भेदभावपूर्ण प्रशिक्षण विधिों का उपयोग करती हैं जो एचएमएम पैरामीटर अनुमान के लिए विशुद्ध रूप से सांख्यिकीय दृष्टिकोण से दूर होती हैं और इसके अतिरिक्त प्रशिक्षण डेटा के कुछ वर्गीकरण-संबंधित माप का अनुकूलन करती हैं। इसका मुख्य उदाहरण अधिकतम आपसी जानकारी (एमएमआई), न्यूनतम वर्गीकरण त्रुटि (एमसीई), और न्यूनतम फोन त्रुटि (एमपीई) हैं।
भाषण का डिकोडिंग (क्या होता है जब प्रणाली को नए उच्चारण के साथ प्रस्तुत किया जाता है और सबसे संभावित स्रोत वाक्य की गणना करनी चाहिए) शायद सबसे अच्छा रास्ता खोजने के लिए विटरबी एल्गोरिथ्म का उपयोग करेगा, और यहां गतिशील रूप से विकल्प बनाने के बीच विकल्प है संयोजन छिपा हुआ मार्कोव मॉडल, जिसमें ध्वनिक और भाषा दोनों मॉडल की जानकारी सम्मलित है और इसे पहले से स्थिर रूप से संयोजित करना (परिमित राज्य ट्रांसड्यूसर, या एफएसटी, दृष्टिकोण) सम्मलित हैं।
डिकोडिंग में संभावित सुधार सिर्फ सर्वश्रेष्ठ उम्मीदवार को रखने के अतिरिक्त अच्छे उम्मीदवारों का सेट रखना है, और इन अच्छे उम्मीदवारों को रेट करने के लिए उत्कृष्ट स्कोरिंग फ़ंक्शन (पुनः स्कोरिंग (एएसआर)) का उपयोग करना है जिससे कि हम अपने अनुसार सर्वश्रेष्ठ उम्मीदवार चुन सकें। यह परिष्कृत स्कोर। उम्मीदवारों के सेट को या तो सूची के रूप में रखा जा सकता है (एन-सर्वश्रेष्ठ सूची अनुमोदन) या मॉडलों के सबसेट के रूप में (एक जाली (क्रम)) उपयोग किया जाता हैं। री स्कोरिंग सामान्यतः बेयस जोखिम को कम करने का प्रयास करके किया जाता है[60] (या इसका सन्निकटन): स्रोत वाक्य को अधिकतम संभाव्यता के साथ लेने के अतिरिक्त, हम उस वाक्य को लेने का प्रयास करते हैं जो किसी दिए गए नुकसान फ़ंक्शन की प्रत्याशा को सभी संभावित ट्रांसक्रिप्शन के संबंध में कम करता है (अर्ताथ, हम उस वाक्य को लेते हैं जो औसत दूरी को कम करता है जिसमें उनकी अनुमानित संभाव्यता द्वारा भारित अन्य संभावित वाक्यों के लिए उपयोगी हैं। इससे होने वाली हानि फंक्शन सामान्यतः लेवेनशेटिन दूरी है, चूंकि यह विशिष्ट कार्यों के लिए अलग-अलग दूरी हो सकती है; संभावित प्रतिलेखन का सेट, निश्चित रूप से, सुवाह्यता बनाए रखने के लिए छंटाई की जाती है। संपादित दूरी के साथ भारित परिमित राज्य ट्रांसड्यूसर के रूप में प्रस्तुत जालक (आदेश) को फिर से स्कोर करने के लिए कुशल एल्गोरिदम तैयार किए गए हैं, जो कुछ मान्यताओं की पुष्टि करने वाले परिमित राज्य ट्रांसड्यूसर के रूप में खुद का प्रतिनिधित्व करते हैं।[61]
डायनामिक टाइम वार्पिंग (डीटीडब्ल्यू)-आधारित वाक् पहचान
डायनेमिक टाइम वारपिंग दृष्टिकोण है जो ऐतिहासिक रूप से वाक् पहचान के लिए उपयोग किया जाता था लेकिन अब इसे अधिक सफल एचएमएम-आधारित दृष्टिकोण द्वारा विस्थापित कर दिया गया है।
डायनेमिक टाइम वारपिंग दो अनुक्रमों के बीच समानता को मापने के लिए एल्गोरिथ्म है जो समय या गति में भिन्न हो सकता है। उदाहरण के लिए, चलने के स्वरूप में समानता का पता लगाया जाएगा, भले ही वीडियो में व्यक्ति धीरे-धीरे चल रहा हो और यदि दूसरे वीडियो में वह अधिक तेज़ी से चल रहा हो, या भले ही अवलोकन के समय त्वरण और मंदी हो जाती हैं। डीटीडब्ल्यू को वीडियो, ऑडियो और ग्राफ़िक्स पर लागू किया गया है - वास्तव में, कोई भी डेटा जिसे रेखीय प्रतिनिधित्व में बदला जा सकता है, उसका विश्लेषण डीटीडब्ल्यू के साथ किया जा सकता है।
अलग-अलग बोलने की गति से निपटने के लिए प्रसिद्ध एप्लिकेशन स्वचालित वाक् पहचान है। सामान्यतः, यह ऐसी विधि है जो कंप्यूटर को कुछ प्रतिबंधों के साथ दो दिए गए अनुक्रमों (जैसे, समय श्रृंखला) के बीच इष्टतम मिलान खोजने की अनुमति देती है। यही है, दृश्यों को दूसरे से मेल खाने के लिए गैर-रैखिक रूप से विकृत किया जाता है। यह अनुक्रम संरेखण विधि अधिकांशतः छिपे हुए मार्कोव मॉडल के संदर्भ में उपयोग की जाती है।
तंत्रिका नेटवर्क
1980 के दशक के अंत में एएसआर में तंत्रिका नेटवर्क आकर्षक ध्वनिक मॉडलिंग दृष्टिकोण के रूप में उभरा। तब से, भाषण मान्यता के कई पहलुओं में तंत्रिका नेटवर्क का उपयोग किया गया है जैसे कि ध्वनि वर्गीकरण,[62] बहुउद्देश्यीय विकासवादी एल्गोरिदम के माध्यम से स्वनिम वर्गीकरण,[63] दृश्य-श्रव्य भाषण पहचान, दृश्य-श्रव्य वक्ता पहचान और वक्ता अनुकूलन।
कृत्रिम तंत्रिका नेटवर्क एचएमएम की तुलना में फीचर सांख्यिकीय गुणों के बारे में कम स्पष्ट धारणाएं बनाते हैं और भाषण मान्यता के लिए उन्हें आकर्षक पहचान मॉडल बनाने वाले कई गुण हैं। जब भाषण सुविधा भाग की संभावनाओं का अनुमान लगाने के लिए उपयोग किया जाता है, तो तंत्रिका नेटवर्क स्वाभाविक और कुशल विधि से भेदभावपूर्ण प्रशिक्षण की अनुमति देते हैं। चूंकि, कम समय की इकाइयों जैसे अलग-अलग स्वरों और पृथक शब्दों को वर्गीकृत करने में उनकी प्रभावशीलता के अतिरिक्त [64] प्रारंभिक तंत्रिका नेटवर्क निरंतर मान्यता कार्यों के लिए शायद ही कभी सफल रहे थे क्योंकि अस्थायी निर्भरताओं को मॉडल करने की उनकी सीमित क्षमता थी।
इस सीमा के लिए दृष्टिकोण तंत्रिका नेटवर्क को पूर्व-प्रसंस्करण, सुविधा परिवर्तन या आयामी कमी के रूप में उपयोग करना था, [65] एचएमएम आधारित मान्यता से पहले का चरण हैं। चूंकि, हाल ही में, एलएसटीएम और संबंधित आवर्तक तंत्रिका नेटवर्क (आरएनएनs)[37][41][66][67] और समय विलंब तंत्रिका नेटवर्क (टीडीएनएन)[68] इस क्षेत्र में उत्कृष्ट प्रदर्शन किया है।
डीप फीडफॉरवर्ड और रिकरंट न्यूरल नेटवर्क्स
डीप न्यूरल नेटवर्क और डीनोइज़िंग ऑटोएन्कोडर[69] भी जांच के सीमा में हैं। डीप फीडफॉर्वर्ड न्यूरल नेटवर्क (डीएनएन) कृत्रिम तंत्रिका नेटवर्क है जिसमें इनपुट और आउटपुट परतों के बीच इकाइयों की कई छिपी हुई परतें होती हैं।[44] उथले तंत्रिका नेटवर्क के समान, डीएनएन जटिल गैर-रैखिक संबंधों को मॉडल कर सकते हैं। डीएनएन आर्किटेक्चर संरचनागत मॉडल उत्पन्न करते हैं, जहाँ अतिरिक्त परतें निचली परतों से सुविधाओं की संरचना को सक्षम करती हैं, जिससे बड़ी सीखने की क्षमता मिलती है और इस प्रकार भाषण डेटा के जटिल स्वरूप की मॉडलिंग की संभावना होती है।[70]
शैक्षणिक शोधकर्ताओं के सहयोग से औद्योगिक शोधकर्ताओं द्वारा 2010 में बड़ी शब्दावली भाषण मान्यता में डीएनएन की सफलता हुई, जहां डीएनएन की बड़ी आउटपुट परतें संदर्भ निर्भर एचएमएम स्थितियों के आधार पर निर्णय वृक्षों द्वारा निर्मित की गईं।[71][72] [73] अक्टूबर 2014 तक इस विकास और अत्याधुनिक स्थिति की व्यापक समीक्षा माइक्रोसाफ्ट अनुसंधान से हाल ही में स्प्रिंगर पुस्तक में देखें।[74]स्वचालित भाषण पहचान की संबंधित पृष्ठभूमि और विभिन्न मशीन लर्निंग प्रतिमानों के प्रभाव को भी देखें, विशेष रूप से हाल के अवलोकन लेख इसमें डीप लर्निंग भी सम्मलित है।[75][76]
गहन शिक्षण का मूलभूत सिद्धांत हाथ से तैयार की गई फीचर अभियांत्रिकी को खत्म करना और कच्ची सुविधाओं का उपयोग करना है। कच्चे स्पेक्ट्रोग्राम या रैखिक फ़िल्टर-बैंक सुविधाओं पर गहरे ऑटोएन्कोडर के आर्किटेक्चर में इस सिद्धांत को पहली बार सफलतापूर्वक खोजा गया था,[77] मेल-सेप्स्ट्रल सुविधाओं पर अपनी श्रेष्ठता दिखा रहा है जिसमें स्पेक्ट्रोग्राम से निश्चित परिवर्तन के कुछ चरण होते हैं। स्पीच, वेवफॉर्म्स की असली अपरिष्कृत विशेषताओं को हाल ही में उत्कृष्ट बड़े पैमाने पर वाक् पहचान परिणामों का उत्पादन करने के लिए दिखाया गया है।[78]
एंड-टू-एंड स्वचालित भाषण पहचान
2014 के पश्चात से, एंड-टू-एंड एएसआर में बहुत अधिक शोध रुचि रही है। पारंपरिक ध्वन्यात्मक-आधारित (अर्ताथ, सभी छिपे हुए मार्कोव मॉडल-आधारित मॉडल) दृष्टिकोणों को उच्चारण, ध्वनिक और भाषा मॉडल के लिए अलग-अलग घटकों और प्रशिक्षण की आवश्यकता होती है। एंड-टू-एंड मॉडल संयुक्त रूप से वाक् पहचानकर्ता के सभी घटकों को सीखते हैं। यह मूल्यवान है क्योंकि यह प्रशिक्षण प्रक्रिया और परिनियोजन प्रक्रिया को सरल करता है। उदाहरण के लिए, सभी एचएमएम-आधारित प्रणालियों के लिए एन-ग्राम या एन-ग्राम भाषा मॉडल की आवश्यकता होती है, और विशिष्ट एन-ग्राम भाषा मॉडल अधिकांशतः स्मृति में कई गीगाबाइट लेता है जिससे उन्हें मोबाइल उपकरणों पर नियुक्त करना अव्यावहारिक हो जाता है।[79] परिणामस्वरूप, गूगल और एप्पल इंक के आधुनिक वाणिज्यिक एएसआर प्रणाली (as of 2017[update]) क्लाउड पर नियुक्त हैं और स्थानीय रूप से डिवाइस के विपरीत नेटवर्क कनेक्शन की आवश्यकता होती है।
एंड-टू-एंड एएसआर का पहला प्रयास 2014 में डीपमाइंड के एलेक्स ग्रेव्स (कंप्यूटर वैज्ञानिक) और टोरंटो विश्वविद्यालय के नवदीप जेटली द्वारा पेश किए गए संबंधवादी लौकिक वर्गीकरण (सीटीसी) आधारित प्रणाली के साथ था।[80] मॉडल में आवर्तक तंत्रिका नेटवर्क और सीटीसी परत सम्मलित थी। संयुक्त रूप से, आरएनएन-सीटीसी मॉडल उच्चारण और ध्वनिक मॉडल को साथ सीखता है, चूंकि यह एचएमएम के समान सशर्त स्वतंत्रता धारणाओं के कारण भाषा सीखने में असमर्थ है। नतीजतन, सीटीसी मॉडल सीधे अंग्रेजी वर्णों के लिए भाषण ध्वनिकी को मैप करना सीख सकते हैं, लेकिन मॉडल कई सामान्य वर्तनी की गलतियाँ करते हैं और प्रतिलेख को साफ करने के लिए अलग भाषा मॉडल पर भरोसा करना चाहिए। पश्चात में, बायडू ने अत्यधिक बड़े डेटासेट के साथ कार्य पर विस्तार किया और चीनी मेंडारिन और अंग्रेजी में कुछ व्यावसायिक सफलता प्रदर्शित की।[81] 2016 में, ऑक्सफोर्ड विश्वविद्यालय ने लिपनेट प्रस्तुत किया,[82] आरएनएन-सीटीसी आर्किटेक्चर के साथ स्पैटियोटेम्पोरल कनवल्शन का उपयोग करते हुए पहला एंड-टू-एंड सेंटेंस-लेवल लिपरीडिंग मॉडल, प्रतिबंधित व्याकरण डेटासेट में मानव-स्तर के प्रदर्शन को पार करता है।[83] दीपमाइंड द्वारा 2018 में बड़े पैमाने पर सीएनएन-आरएनएन-सीटीसी आर्किटेक्चर प्रस्तुत किया गया था, जिसने मानव विशेषज्ञों की तुलना में 6 गुना उत्कृष्ट प्रदर्शन प्राप्त किया।[84]
सीटीसी-आधारित मॉडलों के लिए वैकल्पिक दृष्टिकोण ध्यान-आधारित मॉडल हैं। चान एट अल द्वारा ध्यान-आधारित एएसआर मॉडल साथ पेश किए गए थे। कार्नेगी मेलन विश्वविद्यालय और गूगल ब्रेन और बहदानौ एट अल। 2016 में यूनिवर्सिटी डी मॉन्ट्रियल।[85][86] लिसन, अटेंड एंड स्पेल (एलएएस) नाम का मॉडल, शाब्दिक रूप से ध्वनिक संकेत को सुनता है, संकेत के विभिन्न भागों पर ध्यान देता है और समय में वर्ण को प्रतिलेखित करता है। सीटीसी-आधारित मॉडल के विपरीत, ध्यान-आधारित मॉडल में सशर्त-स्वतंत्रता की धारणा नहीं होती है और उच्चारण, ध्वनिक और भाषा मॉडल सहित वाक् पहचानकर्ता के सभी घटकों को सीधे सीख सकते हैं। इसका मतलब है, परिनियोजन के समय, सीमित स्मृति वाले अनुप्रयोगों के लिए इसे बहुत व्यावहारिक बनाने के लिए भाषा मॉडल को ले जाने की कोई आवश्यकता नहीं है। 2016 के अंत तक, ध्यान-आधारित मॉडलों ने सीटीसी मॉडल (बाहरी भाषा मॉडल के साथ या उसके बिना) से अच्छे प्रदर्शन सहित अच्छी सफलता देखी है।[87] मूल एलएएस मॉडल के बाद से विभिन्न एक्सटेंशन प्रस्तावित किए गए हैं। कार्नेगी मेलॉन यूनिवर्सिटी, मेसाचुसेट्स प्रौद्योगिक संस्थान और गूगल ब्रेन द्वारा अव्यक्त अनुक्रम अपघटन (एलएसडी) का प्रस्ताव सीधे उप-शब्द इकाइयों को उत्सर्जित करने के लिए किया गया था जो अंग्रेजी वर्णों की तुलना में अधिक स्वाभाविक हैं;[88] ऑक्सफोर्ड विश्वविद्यालय और डीपमाइंड ने एलएएस को मानव-स्तर के प्रदर्शन को पार करते हुए लिप रीडिंग को संभालने के लिए एलएएस को वॉच, लिसन, अटेंड और स्पेल (डबल्यूएलएएस) तक बढ़ाया।[89]
अनुप्रयोग
इन-कार प्रणाली
सामान्यतः मैनुअल कंट्रोल इनपुट, उदाहरण के लिए स्टीयरिंग-व्हील पर फिंगर कंट्रोल के माध्यम से, वाक् पहचान प्रणाली को सक्षम करता है और यह ऑडियो प्रॉम्प्ट द्वारा ड्राइवर को संकेत दिया जाता है। ऑडियो प्रॉम्प्ट के पश्चात, प्रणाली में सुनने की खिड़की होती है जिसके समय यह पहचान के लिए भाषण इनपुट स्वीकार कर सकता है।[citation needed] फोन कॉल शुरू करने, रेडियो स्टेशनों का चयन करने या संगत स्मार्टफोन, एमपी3 प्लेयर या म्यूजिक-लोडेड फ्लैश ड्राइव से संगीत चलाने के लिए सरल वॉयस कमांड का उपयोग किया जा सकता है। कार बनाने और मॉडल के बीच ध्वनि पहचानने की क्षमता अलग-अलग होती है। कुछ सबसे हाल के[when?] कार मॉडल कमांड के निश्चित सेट के स्थान पर प्राकृतिक-भाषा वाक् पहचान प्रदान करते हैं, जिससे ड्राइवर को पूर्ण वाक्यों और सामान्य वाक्यांशों का उपयोग करने की अनुमति मिलती है। इस तरह की प्रणालियों के साथ, उपयोगकर्ता को निश्चित कमांड शब्दों के सेट को याद रखने की कोई आवश्यकता नहीं है।[citation needed]
स्वास्थ्य देखभाल
चिकित्सा दस्तावेज
स्वास्थ्य देखभाल क्षेत्र में, वाक् पहचान चिकित्सा प्रलेखन प्रक्रिया के फ्रंट-एंड या बैक-एंड में लागू की जा सकती है। फ्रंट-एंड वाक् पहचान वह जगह है जहां प्रदाता वाक् पहचान इंजन में डिक्टेट करता है, पहचाने गए शब्दों को बोले जाने पर प्रदर्शित किया जाता है, और तानाशाह दस्तावेज़ पर संपादन और हस्ताक्षर करने के लिए जिम्मेदार होता है। बैक-एंड या डिफर्ड वाक् पहचान वह जगह है जहां प्रदाता डिजिटल श्रुतलेख प्रणाली में डिक्टेट करता है, वॉयस को वाक् पहचान मशीन के माध्यम से रूट किया जाता है और मान्यता प्राप्त ड्राफ्ट डॉक्यूमेंट को मूल वॉयस फाइल के साथ एडिटर तक पहुंचाया जाता है, जहां ड्राफ्ट को एडिट किया जाता है। और रिपोर्ट को अंतिम रूप दिया। आस्थगित भाषण मान्यता वर्तमान में उद्योग में व्यापक रूप से उपयोग की जाती है।
स्वास्थ्य सेवा में भाषण मान्यता के उपयोग से संबंधित प्रमुख मुद्दों में से यह है कि 2009 का अमेरिकी रिकवरी और पुनर्निवेश अधिनियम (2009 का अमेरिकी पुनर्प्राप्ति और पुनर्निवेश अधिनियम) सार्थक उपयोग मानकों के अनुसार ईएमआर का उपयोग करने वाले चिकित्सकों को पर्याप्त वित्तीय लाभ प्रदान करता है। इन मानकों के लिए आवश्यक है कि ईएमआर द्वारा पर्याप्त मात्रा में डेटा बनाए रखा जाए (अब इसे सामान्यतः इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड या ईएचआर के रूप में संदर्भित किया जाता है)। भाषण मान्यता का उपयोग रेडियोलॉजी / पैथोलॉजी व्याख्या, प्रगति नोट या डिस्चार्ज सारांश के भाग के रूप में कथा पाठ की पीढ़ी के लिए अधिक स्वाभाविक रूप से अनुकूल है: संरचित असतत डेटा (जैसे, संख्यात्मक मान या कोड) दर्ज करने के लिए भाषण मान्यता का उपयोग करने के एर्गोनोमिक लाभ सूची या नियंत्रित शब्दावली से) उन लोगों के लिए अपेक्षाकृत न्यूनतम हैं जिन्हें देखा जा सकता है और जो कीबोर्ड और माउस को संचालित कर सकते हैं।
एक अधिक महत्वपूर्ण मुद्दा यह है कि अधिकांश ईएचआर को स्पष्ट रूप से ध्वनि-पहचान क्षमताओं का लाभ उठाने के लिए तैयार नहीं किया गया है। ईएचआर के साथ चिकित्सक की बातचीत के बड़े हिस्से में मेनू, और टैब/बटन क्लिक का उपयोग करके उपयोगकर्ता इंटरफ़ेस के माध्यम से नेविगेशन सम्मलित है, और कीबोर्ड और माउस पर बहुत अधिक निर्भर है: ध्वनि-आधारित नेविगेशन केवल साधारण एर्गोनोमिक लाभ प्रदान करता है। इसके विपरीत, रेडियोलॉजी या पैथोलॉजी डिक्टेशन के लिए कई अत्यधिक अनुकूलित प्रणालियाँ वॉयस मैक्रोज़ को लागू करती हैं, जहाँ कुछ वाक्यांशों का उपयोग - उदाहरण के लिए, सामान्य रिपोर्ट, स्वचालित रूप से बड़ी संख्या में डिफ़ॉल्ट मानों को भर देगी और/या बॉयलरप्लेट उत्पन्न करेगी, जो प्रकार के साथ भिन्न होगी परीक्षा का - उदाहरण के लिए, रेडियोलॉजी प्रणाली के लिए छाती का एक्स-रे बनाम गैस्ट्रोइंटेस्टाइनल कंट्रास्ट श्रृंखला का उदाहरण हैं।
चिकित्सीय उपयोग
वर्ड प्रोसेसर के साथ संयोजन के रूप में वाक् पहचान सॉफ़्टवेयर के लंबे समय तक उपयोग ने मस्तिष्क एवीएम रोगियों में अल्पावधि-स्मृति पुनर्संरचना के लिए लाभ दिखाया है, जिनका उपचार लकीर (सर्जरी) के साथ किया गया है। जिन व्यक्तियों के एवीएम का उपचार रेडियोलॉजिकल विधिों का उपयोग करके किया गया है, उनके लिए संज्ञानात्मक लाभों का निर्धारण करने के लिए और अनुसंधान किए जाने की आवश्यकता है।[citation needed]
सैन्य
उच्च प्रदर्शन लड़ाकू विमान
लड़ाकू विमानों में वाक् पहचान के परीक्षण और मूल्यांकन के लिए पिछले दशक में पर्याप्त प्रयास किए गए हैं। जनरल डायनेमिक्स एफ-16 फाइटिंग फाल्कन वेरिएंट प्रौद्योगिकी प्रदर्शनकारियों, और टेस्ट संस्करण फ्लाइट कंट्रोल संस्करण F-16 एडवांस्ड फाइटर प्रौद्योगिकी इंटीग्रेशन या एडवांस्ड फाइटर प्रौद्योगिकी इंटीग्रेशन (आफ्टी)/एफ -16 विमान (एफ-16 विस्टा), फ्रांस में मिराज (विमान) विमान के लिए कार्यक्रम, और ब्रिटेन में विभिन्न प्रकार के विमान प्लेटफार्मों से निपटने वाले अन्य कार्यक्रम को उपयोग किया जाता है इन कार्यक्रमों में, रेडियो फ्रीक्वेंसी सेट करने, ऑटोपायलट प्रणाली को कमांड करने, स्टीयर-पॉइंट निर्देशांक सेट करने और हथियार रिलीज पैरामीटर, और उड़ान प्रदर्शन को नियंत्रित करने सहित अनुप्रयोगों के साथ, लड़ाकू विमानों में भाषण पहचानकर्ताओं को सफलतापूर्वक संचालित किया गया है।
जेएएस 39 ग्रिपेन मिलेगा या जेएएस-39 ग्रिपेन कॉकपिट, इंग्लैंड (2004) में उड़ान भरने वाले स्वीडिश पायलटों के साथ कार्य करते हुए पाया गया कि बढ़ती जी बल या जी-लोड के साथ मान्यता बिगड़ गई। रिपोर्ट ने यह भी निष्कर्ष निकाला कि अनुकूलन ने सभी स्थितियों में परिणामों में बहुत सुधार किया और यह कि सांस लेने के लिए मॉडल की शुरूआत को पहचान स्कोर में अधिकसुधार करने के लिए दिखाया गया। अपेक्षाकृत के विपरीत, बोलने वालों की टूटी-फूटी अंग्रेजी का कोई प्रभाव नहीं पाया गया। यह स्पष्ट था कि सहज भाषण पहचानकर्ता के लिए समस्याएँ पैदा करता है, जैसा कि उम्मीद की जा सकती थी। प्रतिबंधित शब्दावली, और सबसे बढ़कर, उचित सिंटैक्स, इस प्रकार मान्यता सटीकता में अधिकसुधार की उम्मीद की जा सकती है।[90] यूरोफाइटर टाइफून, वर्तमान में यूके आरएएफ के साथ सेवा में है, स्पीकर-निर्भर प्रणाली को नियोजित करता है, जिसके लिए प्रत्येक पायलट को टेम्पलेट बनाने की आवश्यकता होती है। प्रणाली का उपयोग किसी भी सुरक्षा-महत्वपूर्ण या हथियार-महत्वपूर्ण कार्यों के लिए नहीं किया जाता है, जैसे कि हथियार छोड़ना या हवाई जहाज़ के पहिये को कम करना, लेकिन अन्य कॉकपिट कार्यों की विस्तृत श्रृंखला के लिए उपयोग किया जाता है। वॉयस कमांड की पुष्टि दृश्य और/या श्रव्य प्रतिक्रिया द्वारा की जाती है। पायलट कार्यभार को कम करने में प्रणाली को प्रमुख डिजाइन सुविधा के रूप में देखा जाता है,[91] और यहां तक कि पायलट को अपने विमान को दो सरल वॉयस कमांड या अपने किसी भी विंगमैन को केवल पांच कमांड के साथ लक्ष्य निर्धारित करने की अनुमति देता है।[92]
स्पीकर-इंडिपेंडेंट प्रणाली भी विकसित किए जा रहे हैं और लॉकहीड मार्टिन F-35 लाइटनिंग II (जेएसएफ) और अलीनिया एरमच्छी एम-346 मास्टर लीड-इन फाइटर ट्रेनर के लिए परीक्षण के अधीन हैं। इन प्रणालियों ने 98% से अधिक शब्द सटीकता अवमूलन का उत्पादन किया है।[93]
हेलीकॉप्टर
तनाव और शोर के अनुसार उच्च पहचान सटीकता प्राप्त करने की समस्या विशेष रूप से हेलीकॉप्टर पर्यावरण के साथ-साथ जेट लड़ाकू पर्यावरण में भी प्रासंगिक है। हेलीकॉप्टर वातावरण में ध्वनिक शोर की समस्या वास्तव में अधिक गंभीर है, न केवल उच्च शोर के स्तर के कारण बल्कि इसलिए भी कि हेलीकॉप्टर पायलट, सामान्य रूप से लड़ाकू पायलट हेलमेट नहीं पहनता है, जिससे माइक्रोफ़ोन में ध्वनिक शोर कम हो जाता है। पिछले दशक में हेलीकाप्टरों में वाक् पहचान प्रणाली अनुप्रयोगों में पर्याप्त परीक्षण और मूल्यांकन कार्यक्रम किए गए हैं, विशेष रूप से यू.एस. आर्मी एवियोनिक्स रिसर्च एंड डेवलपमेंट एक्टिविटी (एवराडा) और यूके में रॉयल एयरोस्पेस एस्टैब्लिशमेंट (शाही विमान प्रतिष्ठान) द्वारा फ़्रांस में कार्य में प्यूमा हेलीकाप्टर में वाक् पहचान सम्मलित है। कनाडा में भी बहुत उपयोगी कार्य हुए हैं। परिणाम उत्साहजनक रहे हैं, और ध्वनि अनुप्रयोगों में सम्मलित हैं: संचार रेडियो का नियंत्रण, पथ प्रदर्शन प्रणाली की स्थापना, और स्वचालित लक्ष्य के हस्तांतरण की प्रणाली का नियंत्रण किया जाता हैं।
लड़ाकू अनुप्रयोगों के रूप में, हेलीकाप्टरों में ध्वनि के लिए प्रमुख मुद्दा पायलट प्रभावशीलता पर प्रभाव है। एवराडा परीक्षणों के लिए उत्साहजनक परिणाम रिपोर्ट किए गए हैं, चूंकि ये परीक्षण वातावरण में केवल व्यवहार्यता प्रदर्शन का प्रतिनिधित्व करते हैं। परिचालन सेटिंग्स में लगातार प्रदर्शन सुधार प्राप्त करने के लिए वाक् पहचान और समग्र वाक् प्रौद्योगिकी दोनों में बहुत कुछ किया जाना बाकी है।
प्रशिक्षण हवाई यातायात नियंत्रकों
वायु यातायात नियंत्रकों (एटीसी) के लिए प्रशिक्षण भाषण पहचान प्रणाली के लिए उत्कृष्ट अनुप्रयोग का प्रतिनिधित्व करता है। कई एटीसी प्रशिक्षण प्रणालियों में वर्तमान में व्यक्ति को छद्म-पायलट के रूप में कार्य करने की आवश्यकता होती है, जो प्रशिक्षु नियंत्रक के साथ ध्वनि संवाद में सम्मलित होता है, जो संवाद को अनुकरण करता है कि नियंत्रक को वास्तविक एटीसी स्थिति में पायलटों के साथ आचरण करना होगा। भाषण पहचान और भाषण संश्लेषण विधि व्यक्ति को छद्म-पायलट के रूप में कार्य करने की आवश्यकता को खत्म करने की क्षमता प्रदान करती है, इस प्रकार प्रशिक्षण और सहायक कर्मियों को कम करती है। सिद्धांत रूप में, वायु नियंत्रक कार्यों को नियंत्रक के प्राथमिक आउटपुट के रूप में अत्यधिक संरचित भाषण द्वारा भी वर्णित किया जाता है, इसलिए वाक् पहचान कार्य की कठिनाई को कम करना संभव होना चाहिए। व्यवहार में, ऐसा कम ही होता है। एफएए दस्तावेज़ 7110.65 उन वाक्यांशों का विवरण देता है जिनका उपयोग हवाई यातायात नियंत्रकों द्वारा किया जाना चाहिए। जबकि यह दस्तावेज़ ऐसे वाक्यांशों के 150 से कम उदाहरण देता है, सिम्युलेशन विक्रेताओं में से भाषण पहचान प्रणाली द्वारा समर्थित वाक्यांशों की संख्या 500,000 से अधिक है।
यूएसएएफ, यूएसएमसी, यूएस आर्मी, यूएस नेवी और एफएए के साथ-साथ कई अंतरराष्ट्रीय एटीसी प्रशिक्षण संगठन जैसे कि रॉयल ऑस्ट्रेलियाई वायु सेना और इटली, ब्राजील और कनाडा में नागरिक उड्डयन प्राधिकरण वर्तमान में एटीसी सिमुलेटर का उपयोग वाक् पहचान के साथ कर रहे हैं। इसके कई अलग-अलग विक्रेता हैं।[citation needed]
टेलीफ़ोनी और अन्य डोमेन
एएसआर अब टेलीफोनी के क्षेत्र में आम हो गया है और कंप्यूटर गेमिंग और सिमुलेशन के क्षेत्र में अधिक व्यापक होता जा रहा है। टेलीफोनी प्रणालियों में, एएसआर अब आईवीआर प्रणालियों के साथ एकीकृत करके मुख्य रूप से संपर्क केंद्रों में उपयोग किया जा रहा है। दस्तावेज़ उत्पादन के क्षेत्र में सामान्य व्यक्तिगत कंप्यूटिंग में वर्ड प्रोसेसिंग के साथ उच्च स्तर के एकीकरण के अतिरिक्त, एएसआर ने उपयोग में अपेक्षित वृद्धि नहीं देखी है।
मोबाइल प्रोसेसर की गति में सुधार ने स्मार्टफोन में वाक् पहचान को व्यावहारिक बना दिया है। पूर्वनिर्धारित या कस्टम स्पीच कमांड बनाने के लिए स्पीच का उपयोग अधिकतम यूजर इंटरफेस के भाग के रूप में किया जाता है।
शिक्षा और दैनिक जीवन में उपयोग
भाषा सीखने के लिए, वाक् पहचान दूसरी भाषा सीखने के लिए उपयोगी हो सकती है। यह किसी व्यक्ति को उनके बोलने के कौशल के साथ प्रवाह विकसित करने में सहायता करने के अतिरिक्त, उचित उच्चारण सिखा सकता है।[94] जो छात्र अंधे हैं (दृष्टिहीनता और शिक्षा देखें) या बहुत कम दृष्टि वाले शब्दों को संप्रेषित करने के लिए प्रौद्योगिकी का उपयोग करने से लाभ उठा सकते हैं और फिर कंप्यूटर को उन्हें सुनाते हुए सुन सकते हैं, साथ ही अपनी ध्वनि के साथ कमांड करके देखने के अतिरिक्त स्क्रीन और कीबोर्ड का कंप्यूटर में उपयोग कर सकते हैं।[95]
जो छात्र शारीरिक रूप से अक्षम हैं, जिन्हें दोहरावदार तनाव की चोट/ऊपरी अंगों में अन्य चोटें हैं, उन्हें भाषण-से-पाठ कार्यक्रमों का उपयोग करके लिखावट, टाइपिंग, या स्कूल असाइनमेंट पर मुंशी के साथ कार्य करने की चिंता से मुक्त किया जा सकता है। वे माउस और कीबोर्ड को शारीरिक रूप से संचालित किए बिना इंटरनेट पर खोज करने या घर पर कंप्यूटर का उपयोग करने का आनंद लेने के लिए वाक् पहचान विधि का भी उपयोग कर सकते हैं।[95]
भाषण मान्यता सीखने की अक्षमता वाले छात्रों को उत्कृष्ट लेखक बनने की अनुमति दे सकती है। शब्दों को जोर से बोलकर, वे अपने लेखन की तरलता बढ़ा सकते हैं, और वर्तनी, विराम चिह्न और लेखन के अन्य यांत्रिकी के बारे में चिंताओं को दूर कर सकते हैं।[96] इसके लिए सीखने की अक्षमता भी देखें।
डिजिटल ऑडियो रिकॉर्डर और व्यक्तिगत कंप्यूटर चलाने वाले वर्ड-प्रोसेसिंग सॉफ़्टवेयर के संयोजन के साथ ध्वनि पहचान सॉफ़्टवेयर का उपयोग स्ट्रोक और क्रैनियोटॉमी व्यक्तियों में क्षतिग्रस्त शॉर्ट-टर्म मेमोरी क्षमता को निकालने के लिए धनात्मक सिद्ध हुआ है।
विकलांग लोग
विकलांग लोग वाक् पहचान कार्यक्रमों से लाभान्वित हो सकते हैं। ऐसे व्यक्तियों के लिए जो बधिर हैं या सुनने में मुश्किल हैं, वाक् पहचान सॉफ़्टवेयर का उपयोग स्वचालित रूप से वार्तालापों का बंद-शीर्षक उत्पन्न करने के लिए किया जाता है जैसे सम्मेलन कक्ष, कक्षा व्याख्यान, और/या धार्मिक सेवाओं में चर्चा।[97] वाक् पहचान उन लोगों के लिए भी बहुत उपयोगी है, जिन्हें अपने हाथों का उपयोग करने में कठिनाई होती है, हल्के दोहराव वाले तनाव की चोटों से लेकर ऐसी अक्षमताएं सम्मलित हैं जो पारंपरिक कंप्यूटर इनपुट उपकरणों का उपयोग करने से रोकती हैं। वास्तव में, जिन लोगों ने कीबोर्ड का बहुत उपयोग किया और दोहरावदार तनाव की चोट विकसित की, वे वाक् पहचान के लिए तत्काल प्रारंभिक बाजार बन गए।[98][99] वाक् पहचान का उपयोग बधिर टेलीफोनी में किया जाता है, जैसे कि ध्वनि मेल से पाठ, रिले सेवाएं और दूरसंचार रिले सेवा कैप्शन वाला टेलीफोन। सीखने की अक्षमता वाले व्यक्ति जिन्हें विचार-टू-पेपर संचार में समस्या है (अनिवार्य रूप से वे विचार के बारे में सोचते हैं लेकिन इसे गलत विधि से संसाधित किया जाता है जिससे यह कागज पर अलग तरह से समाप्त हो जाता है) संभवतः सॉफ्टवेयर से लाभान्वित हो सकते हैं लेकिन विधि बग प्रूफ नहीं है।[100] इसके अतिरिक्त पाठ से बात करने का पूरा विचार बौद्धिक रूप से अक्षम व्यक्ति के लिए कठिन हो सकता है क्योंकि ऐसा बहुत कम होता है कि कोई विकलांग व्यक्ति को पढ़ाने के लिए विधि सीखने का प्रयास करता है।[101] इस प्रकार की विधि डिस्लेक्सिया वाले लोगों की सहायता कर सकती है लेकिन अन्य विकलांग अभी भी सवालों के घेरे में हैं। उत्पाद की प्रभावशीलता वह समस्या है जो इसे प्रभावी होने से रोक रही है। चूंकि बच्चा शब्द कहने में सक्षम हो सकता है, यह इस बात पर निर्भर करता है कि वे इसे कितना स्पष्ट कहते हैं, विधि सोच सकती है कि वे और शब्द कह रहे हैं और गलत इनपुट कर सकते हैं। उन्हें ठीक करने के लिए और अधिक कार्य देना, जिससे उन्हें गलत शब्द को ठीक करने में अधिक समय लगना पड़ता है।[102]
आगे के आवेदन
- एयरोस्पेस (उदाहरण के लिए अंतरिक्ष अन्वेषण, अंतरिक्ष यान, आदि) नासा के मंगल ध्रुवीय लैंडर ने लैंडर पर मंगल माइक्रोफोन में संवेदी, इंक. से वाक् पहचान विधि का उपयोग किया[103]
- वाक् पहचान के साथ स्वचालित समान भाषा उपशीर्षक
- स्वचालित भावना पहचान[104]
- स्वचालित शॉट (फिल्म निर्माण) ऑडियोविजुअल प्रोडक्शन में लिस्टिंग
- स्वचालित अनुवाद
- न्यायालय रिपोर्टिंग (वास्तविक समय भाषण लेखन)
- ई खोज (कानूनी खोज)
- हाथों से मुक्त कंप्यूटिंग: वाक् पहचान कंप्यूटर प्रयोक्ता इंटरफ़ेस
- घर स्वचालन
- इंटरएक्टिव वॉयस रिस्पांस
- मोबाइल टेलीफोनी, मोबाइल ईमेल सहित
- मल्टीमॉडल इंटरेक्शन[55]*कंप्यूटर-सहायता प्राप्त भाषा सीखने के अनुप्रयोगों में उच्चारण मूल्यांकन
- रियल टाइम अनुशीर्षक[105]
- रोबोटिक्स
- बहु-कारक प्रमाणीकरण के लिए अन्य बायोमेट्रिक स्कैनर के साथ उपयोग सहित सुरक्षा[106]
- भाषण से पाठ (पाठ में भाषण का प्रतिलेखन, वास्तविक समय वीडियो कैप्शनिंग, कोर्ट रिपोर्टिंग)
- टेलीमैटिक्स (जैसे वाहन नेविगेशन प्रणाली)
- प्रतिलेखन (भाषाविज्ञान) (डिजिटल भाषण-से-पाठ)
- कार्य के उदाहरण के रूप में टॉम क्लेन्सी के एंडवार और लाइफलाइन (वीडियो गेम) के साथ वीडियो गेम
- आभासी सहायक (आर्टिफिशियल इंटेलिजेंस) (उदाहरण के लिए एप्पल सिरी)
प्रदर्शन
वाक् पहचान प्रणाली के प्रदर्शन का मूल्यांकन सामान्यतः सटीकता और गति के संदर्भ में किया जाता है।[107][108] सटीकता को सामान्यतः शब्द त्रुटि दर (डब्ल्यूआर) के साथ आंका जाता है, जबकि गति को वास्तविक समय कारक के साथ मापा जाता है। सटीकता के अन्य उपायों में एकल शब्द त्रुटि दर (एसडब्ल्यूईआर) और कमान सफलता दर (सीएसआर) सम्मलित हैं।
चूंकि, मशीन द्वारा वाक् पहचान बहुत ही जटिल समस्या है। लहजे, उच्चारण, मुखरता, खुरदरापन, अनुनासिकता, पिच, मात्रा और गति के संदर्भ में स्वर अलग-अलग होते हैं। भाषण पृष्ठभूमि शोर और गूँज, विद्युत विशेषताओं से विकृत है। वाक् पहचान की सटीकता निम्न के साथ भिन्न हो सकती है:[109][citation needed]
- शब्दावली का आकार और भ्रम
- वक्ता निर्भरता बनाम स्वतंत्रता
- पृथक, असंतत या निरंतर वाणी
- कार्य और भाषा की कमी
- बनाम सहज भाषण पढ़ें
- प्रतिकूल परिस्थितियां
सटीकता
जैसा कि इस लेख में पहले उल्लेख किया गया है, वाक् पहचान की सटीकता निम्नलिखित कारकों के आधार पर भिन्न हो सकती है:
- शब्दावली का आकार बढ़ने पर त्रुटि दर बढ़ती है:
- जैसे शून्य से नौ तक के 10 अंकों को अनिवार्य रूप से पूरी तरह से पहचाना जा सकता है, लेकिन 200, 5000 या 100000 के शब्दावली आकार में क्रमशः 3%, 7% या 45% की त्रुटि दर हो सकती है।
- शब्दावली को पहचानना मुश्किल है यदि इसमें भ्रमित करने वाले शब्द हैं:
- जैसे अंग्रेजी वर्णमाला के 26 अक्षरों में अंतर करना मुश्किल है क्योंकि वे भ्रमित करने वाले शब्द हैं (सबसे कुख्यात, ई-सेट: बी, सी, डी, ई, जी, पी, टी, वी, जेड - जब जेड का उच्चारण ज़ी के अतिरिक्त किया जाता है) जेड अंग्रेजी क्षेत्र के आधार पर); इस शब्दावली के लिए 8% त्रुटि दर अच्छी मानी जाती है।[citation needed]
- वक्ता निर्भरता बनाम स्वतंत्रता:
- एक स्पीकर-निर्भर प्रणाली स्पीकर द्वारा उपयोग के लिए अभिप्रेत है।
- एक स्पीकर-स्वतंत्र प्रणाली किसी भी स्पीकर (अधिक कठिन) द्वारा उपयोग के लिए अभिप्रेत है।
- पृथक, विच्छिन्न या निरंतर वाणी
- एकाकी वाणी में शब्द का प्रयोग होता है, इसलिए वाणी को पहचानना आसान हो जाता है।
विच्छिन्न वाक् में मौन द्वारा अलग किए गए पूर्ण वाक्यों का प्रयोग किया जाता है, इसलिए वाक् के साथ-साथ विलग वाक् को पहचानना आसान हो जाता है।
निरंतर भाषण के साथ स्वाभाविक रूप से बोले जाने वाले वाक्यों का उपयोग किया जाता है, इसलिए भाषण को पहचानना कठिन हो जाता है, अलग-अलग और असंतत भाषण दोनों से अलग।
- कार्य और भाषा की कमी
- उदा. पूछताछ आवेदन परिकल्पना को खारिज कर सकता है सेब लाल है।
- उदा. बाधाएं शब्दार्थ हो सकती हैं; अस्वीकार सेब नाराज है।
- उदा. सिंटैक्टिक; लाल को अस्वीकार करना सेब है।
बाधाओं को अधिकांशतः व्याकरण द्वारा दर्शाया जाता है।
- पढ़ें बनाम सहज भाषण - जब कोई व्यक्ति पढ़ता है तो यह सामान्यतः पहले से तैयार किए गए संदर्भ में होता है, लेकिन जब कोई व्यक्ति सहज भाषण का उपयोग करता है, तो भाषण को पहचानना मुश्किल होता है क्योंकि भाषण (जैसे उह और उम, झूठी प्रारंभिक, अधूरे वाक्य, हकलाना, खाँसी और हँसी) और सीमित शब्दावली।
- प्रतिकूल परिस्थितियाँ - पर्यावरणीय शोर (जैसे कार या कारखाने में शोर)। ध्वनिक विकृतियाँ (जैसे गूँज, कक्ष ध्वनिकी)
वाक् पहचान बहु-स्तरीय स्वरूप पहचान कार्य है।
- ध्वनिक संकेतों को इकाइयों के पदानुक्रम में संरचित किया जाता है, उदा। स्वर, शब्द, वाक्यांश और वाक्य;
- प्रत्येक स्तर अतिरिक्त प्रतिबंध प्रदान करता है;
उदा. ज्ञात शब्द उच्चारण या शब्द क्रम के नियम, जो निचले स्तर पर त्रुटियों या अनिश्चितताओं की भरपाई कर सकता है;
- बाधाओं के इस पदानुक्रम का शोषण किया जाता है। सभी निचले स्तरों पर संभाव्य रूप से निर्णयों को संयोजित करके, और केवल उच्चतम स्तर पर अधिक नियतात्मक निर्णय लेने से, मशीन द्वारा वाक् पहचान कई चरणों में विभाजित प्रक्रिया है। कम्प्यूटरीकृत रूप से, यह समस्या है जिसमें ध्वनि स्वरूप को पहचाना जाना चाहिए या श्रेणी में वर्गीकृत किया जाना चाहिए जो मानव के लिए अर्थ का प्रतिनिधित्व करता है। प्रत्येक ध्वनिक संकेत को छोटे और अधिक मौलिक उप-संकेतों में तोड़ा जा सकता है। जैसे-जैसे अधिक जटिल ध्वनि संकेत छोटे उप-ध्वनियों में टूटते हैं, विभिन्न स्तरों का निर्माण होता है, जहाँ शीर्ष स्तर पर हमारे पास जटिल ध्वनियाँ होती हैं, जो निचले स्तर पर सरल ध्वनियों से बनी होती हैं, और निचले स्तरों तक जाती हैं, और भी अधिक, हम अधिक मौलिक और छोटी और सरल ध्वनियाँ बनाते हैं। निम्नतम स्तर पर, जहाँ ध्वनियाँ सबसे मौलिक हैं, मशीन सरल और अधिक संभाव्य नियमों की जाँच करेगी कि किस ध्वनि का प्रतिनिधित्व करना चाहिए। बार जब इन ध्वनियों को ऊपरी स्तर पर अधिक जटिल ध्वनियों में साथ रखा जाता है, तो अधिक नियतात्मक नियमों के नए सेट को भविष्यवाणी करनी चाहिए कि नई जटिल ध्वनि को क्या प्रदर्शित करना चाहिए। नियतात्मक नियम के सबसे ऊपरी स्तर को जटिल भावों के अर्थ का पता लगाना चाहिए। वाक् पहचान के बारे में अपने ज्ञान का विस्तार करने के लिए, हमें तंत्रिका नेटवर्क पर विचार करने की आवश्यकता है। तंत्रिका नेटवर्क दृष्टिकोण के चार चरण हैं:
- उस भाषण को डिजिटाइज़ करें जिसे हम पहचानना चाहते हैं
टेलीफोन भाषण के लिए नमूनाकरण दर प्रति सेकंड 8000 नमूने हैं;
- भाषण के वर्णक्रमीय-डोमेन की गणना सुविधाएँ (फूरियर रूपांतरण के साथ);
प्रत्येक 10 मिलीसेकंड पर गणना की जाती है, जिसमें 10 मिलीमीटर का भाग होता है जिसे फ़्रेम कहा जाता है;
फोर-स्टेप न्यूरल नेटवर्क एप्रोच का विश्लेषण आगे की जानकारी द्वारा समझाया जा सकता है। ध्वनि हवा (या किसी अन्य माध्यम) के कंपन से उत्पन्न होती है, जिसे हम कानों द्वारा रिकॉर्ड करते हैं, लेकिन रिसीवर द्वारा मशीनें। मूल ध्वनि तरंग बनाती है जिसके दो विवरण होते हैं: आयाम (यह कितना मजबूत है), और आवृत्ति (यह प्रति सेकंड कितनी बार कंपन करती है)। सटीकता की गणना शब्द त्रुटि दर (WER) की सहायता से की जा सकती है। शब्द त्रुटि दर की गणना गतिशील स्ट्रिंग संरेखण का उपयोग करके मान्यता प्राप्त शब्द और संदर्भित शब्द को संरेखित करके की जा सकती हैएनटी। मान्यता प्राप्त शब्द और संदर्भित शब्द की अनुक्रम लंबाई के बीच अंतर के कारण शब्द त्रुटि दर की गणना करते समय समस्या हो सकती है। होने देना
S प्रतिस्थापन की संख्या हो, D विलोपन की संख्या हो, I सम्मिलन की संख्या हो, N शब्द संदर्भों की संख्या हो।
शब्द त्रुटि दर (WER) की गणना करने का सूत्र है
WR = (S+D+I)÷N
शब्द पहचान दर (WRR) की गणना करते समय शब्द त्रुटि दर (WER) का उपयोग किया जाता है और सूत्र है
WRR = 1- WER = (N-S-D-I)÷ N = (H-I)÷N
यहाँ H सही ढंग से पहचाने जाने वाले शब्दों की संख्या है। H = N- (S + D)।
सुरक्षा चिंताएं
वाक् पहचान हमले से चोरी या आकस्मिक ऑपरेशन का साधन बना सकती है। उदाहरण के लिए, ऑडियो या वीडियो प्रसारण में बोले जाने वाले एलेक्सा जैसे सक्रियण शब्द घरों और कार्यालयों में उपकरणों को अनुचित विधि से इनपुट के लिए सुनना शुरू कर सकते हैं, या संभवतः अवांछित कार्रवाई कर सकते हैं।[110] ध्वनि-नियंत्रित उपकरण भवन के आगंतुकों के लिए या भवन के बाहर के लोगों के लिए भी सुलभ हैं यदि उन्हें अंदर सुना जा सकता है। हमलावर व्यक्तिगत जानकारी, जैसे कैलेंडर, पता पुस्तिका सामग्री, निजी संदेश और दस्तावेजों तक पहुंच प्राप्त करने में सक्षम हो सकते हैं। वे संदेश भेजने या ऑनलाइन खरीदारी करने के लिए उपयोगकर्ता का प्रतिरूपण करने में भी सक्षम हो सकते हैं।
कृत्रिम ध्वनियों का उपयोग करने वाले दो हमलों का प्रदर्शन किया गया है। अल्ट्रासाउंड प्रसारित करता है और आस-पास के लोगों को नोटिस किए बिना कमांड भेजने का प्रयास करता है।[111] दूसरा अन्य भाषण या संगीत के लिए छोटे, अश्रव्य विकृतियों को जोड़ता है जो विशेष रूप से विशिष्ट भाषण मान्यता प्रणाली को संगीत को भाषण के रूप में पहचानने में भ्रमित करने के लिए तैयार किए जाते हैं, या प्रणाली के लिए अलग कमांड की तरह मानव ध्वनि के लिए कमांड की तरह लगता है।[112]
अधिक जानकारी
सम्मेलन और पत्रिकाएँ
हर साल या दो साल में आयोजित लोकप्रिय भाषण मान्यता सम्मेलनों में स्पीचटेक और स्पीचटेक यूरोप, ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग पर अंतर्राष्ट्रीय सम्मेलन, इंटरस्पीच/यूरोस्पीच और आईईईई एएसआरयू सम्मलित हैं। कम्प्यूटरीकृत भाषाविज्ञान के लिए एसोसिएशन, कम्प्यूटरीकृत भाषाविज्ञान के लिए एसोसिएशन के उत्तर अमेरिकी अध्याय, ईएमएनएलपी, और एचएलटी जैसे प्राकृतिक भाषा प्रसंस्करण के क्षेत्र में सम्मेलनों में भाषण प्रसंस्करण पर पेपर सम्मलित होने लगे हैं। महत्वपूर्ण पत्रिकाओं में भाषण और ऑडियो प्रसंस्करण पर आईईईई लेनदेन सम्मलित हैं (बाद में ऑडियो, भाषण और भाषा प्रसंस्करण पर आईईईई लेनदेन का नाम बदल दिया गया और सितंबर 2014 से ऑडियो, भाषण और भाषा प्रसंस्करण पर आईईईई / एसीएम लेनदेन का नाम बदल दिया गया - एसीएम प्रकाशन के साथ विलय के पश्चात), कंप्यूटर भाषण और भाषा, और भाषण संचार को परिवर्तित कर दिया गया।
किताबें
लॉरेंस रैबिनर द्वारा लिखित मौलिक ज्ञान की वाक् पहचान जैसी पुस्तकें मौलिक ज्ञान प्राप्त करने के लिए उपयोगी हो सकती हैं लेकिन पूरी तरह से अद्यतित नहीं हो सकती हैं (1993)। अन्य अच्छा स्रोत हो सकता है, फ्रेडरिक जेलिनेक द्वारा भाषण मान्यता के लिए सांख्यिकीय विधि और जुडोंग हुआंग द्वारा स्पोकन लैंग्वेज प्रोसेसिंग (2001), कंप्यूटर भाषण, मैनफ्रेड आर श्रोएडर द्वारा, 2004 में प्रकाशित दूसरा संस्करण, और भाषण प्रसंस्करण: गतिशील और अनुकूलन- ओरिएंटेड एप्रोच 2003 में ली डेंग और डौग ओ'शॉघनेसी द्वारा प्रकाशित किया। डेनियल जुराफस्की और मार्टिन द्वारा अद्यतन पाठ्यपुस्तक भाषण और भाषा प्रसंस्करण (2008) एएसआर के लिए मूल बातें और कला की स्थिति प्रस्तुत करती है। स्पीकर की पहचान भी उन्हीं विशेषताओं का उपयोग करती है, जिनमें से अधिकांश समान फ्रंट-एंड प्रोसेसिंग और वर्गीकरण विधिों का उपयोग करती हैं जैसा कि भाषण मान्यता में किया जाता है। व्यापक पाठ्यपुस्तक, स्पीकर रिकॉग्निशन के फंडामेंटल्स सिद्धांत और व्यवहार पर अद्यतन विवरण के लिए गहन स्रोत है।[113] सर्वोत्तम आधुनिक प्रणालियों में उपयोग की जाने वाली विधिों में अच्छी अंतर्दृष्टि सरकारी प्रायोजित मूल्यांकनों पर ध्यान देकर प्राप्त की जा सकती है जैसे कि डारपा द्वारा आयोजित 2007 तक चलने वाली सबसे बड़ी वाक् पहचान-संबंधित परियोजना गेल परियोजना है, जिसमें वाक् पहचान दोनों सम्मलित हैं और अनुवाद घटक हैं।
वाक् पहचान प्रौद्योगिकी और इसके इतिहास का अच्छा और सुलभ परिचय सामान्य दर्शकों की पुस्तक द वॉयस इन द मशीन द्वारा बिल्डिंग कंप्यूटर्स दैट अंडरस्टैंडिंग स्पीच रॉबर्ट पिएरासिनी (2012) के द्वारा प्रदान किया गया है।
वाक् पहचान पर स्वचालित वाक् पहचान ए डीप लर्निंग एप्रोच (प्रकाशक: स्प्रिंगर) जो माइक्रोसॉफ्ट के शोधकर्ताओं डी यू और एल या डीएनएन सबसे हालिया किताब है और संबंधित गहन शिक्षण विधियों के आधार पर आधुनिक वाक् पहचान प्रणालियों में विधियों को व्युत्पन्न और कार्यान्वित किया जाता है।[74] संबंधित पुस्तक, जो पहले 2014 में प्रकाशित हुई थी, डीप लर्निंग: मेथड्स एंड एप्लीकेशन बाय एल डेंग और डी. यू 2009-2014 के समय डीएनएन-आधारित वाक् पहचान का कम विधिी लेकिन अधिक कार्यप्रणाली-केंद्रित अवलोकन प्रदान करती है, जिसे अधिक सामान्य संदर्भ में रखा गया है। इसमें न केवल भाषण मान्यता बल्कि छवि पहचान, प्राकृतिक भाषा प्रसंस्करण, सूचना पुनर्प्राप्ति, मल्टीमॉडल प्रसंस्करण और मल्टीटास्क सीखने सहित गहन शिक्षण अनुप्रयोगों किया गया हैं।[70]
सॉफ्टवेयर
स्वतंत्र रूप से उपलब्ध संसाधनों के संदर्भ में, कार्नेगी मेलन विश्वविद्यालय का सीएमयू स्फिंक्स टूलकिट वाक् पहचान के बारे में सीखने और प्रयोग शुरू करने के लिए जगह है। अन्य संसाधन (मुफ्त लेकिन कॉपीराइट) एचटीके (सॉफ्टवेयर) किताब (और साथ में एचटीके टूलकिट) है। अधिक नवीनतम और अत्याधुनिक विधिों के लिए, कलदी (सॉफ्टवेयर) टूलकिट का उपयोग किया जा सकता है।[114] 2017 में मौजिला ने साधारण ध्वनि नामक ओपन सोर्स प्रोजेक्ट लॉन्च किया[115] ध्वनिों के बड़े डेटाबेस को इकट्ठा करने के लिए जो मुफ्त वाक् पहचान परियोजना डीप स्पीच (GitHub पर मुफ्त उपलब्ध) बनाने में सहायता करेगा,[116] गूगल के ओपन सोर्स प्लेटफॉर्म टेंसर फ्लो का उपयोग करना।[117] जब मोज़िला ने 2020 में परियोजना से फंडिंग को पुनर्निर्देशित किया, तो इसे इसके मूल डेवलपर्स द्वारा कोक्यू एसटीटी के रूप में फोर्क किया गया था।[118] उसी ओपन-सोर्स लाइसेंस का उपयोग करना।[119][120] व्यावसायिक क्लाउड आधारित वाक् पहचान एपीआई अधिकांशतः उपलब्ध हैं। अधिक सॉफ़्टवेयर संसाधनों के लिए, वाक् पहचान सॉफ़्टवेयर की सूची देखें।
यह भी देखें
- एआई प्रभाव
- अल्पाक
- कृत्रिम बुद्धिमत्ता के अनुप्रयोग
- कलात्मक भाषण मान्यता
- ऑडियो खनन
- ऑडियो-विजुअल भाषण मान्यता
- स्वचालित भाषा अनुवादक
- ऑटोमोटिव हेड यूनिट
- कैश भाषा मॉडल
- ड्रैगन नेचुरलीस्पीकिंग
- प्रवाह आवाज प्रौद्योगिकी
- गूगल वॉइस सर्च
- आईबीएम वाया वॉयस
- कीवर्ड स्पॉटिंग
- किनेक्ट
- मॉन्डग्रीन
- मल्टीमीडिया सूचना पुनर्प्राप्ति
- भाषण की उत्पत्ति
- ध्वन्यात्मक खोज तकनीक
- स्पीकर डायरीकरण
- वक्ता पहचान
- भाषण विश्लेषण
- भाषण इंटरफ़ेस दिशानिर्देश
- लिनक्स के लिए वाक् पहचान सॉफ्टवेयर
- भाषा संकलन
- भाषण सत्यापन
- उपशीर्षक (कैप्शनिंग)
- वायसएक्सएमएल
- वोक्सफोर्ज
- विंडोज वाक् पहचान
- सूचियों
संदर्भ
- ↑ "स्पीकर इंडिपेंडेंट कनेक्टेड स्पीच रिकग्निशन- फिफ्थ जनरेशन कंप्यूटर कॉर्पोरेशन". Fifthgen.com. Archived from the original on 11 November 2013. Retrieved 15 June 2013.
- ↑ P. Nguyen (2010). "Automatic classification of speaker characteristics". संचार और इलेक्ट्रॉनिक्स 2010 पर अंतर्राष्ट्रीय सम्मेलन. pp. 147–152. doi:10.1109/ICCE.2010.5670700. ISBN 978-1-4244-7055-6. S2CID 13482115.
- ↑ "वॉइस रिकग्निशन की ब्रिटिश अंग्रेजी मे मीनिंग". Macmillan Publishers Limited. Archived from the original on 16 September 2011. Retrieved 21 February 2012.
- ↑ "आवाज पहचान, की परिभाषा". WebFinance, Inc. Archived from the original on 3 December 2011. Retrieved 21 February 2012.
- ↑ "मेलबैग एलजी #114". Linuxgazette.net. Archived from the original on 19 February 2013. Retrieved 15 June 2013.
- ↑ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (September 2020). "स्वचालित स्पीकर सत्यापन के लिए डेटा-संचालित फ़िल्टरबैंक का अनुकूलन". Digital Signal Processing. 104: 102795. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795. S2CID 220665533.
- ↑ Reynolds, Douglas; Rose, Richard (January 1995). "गॉसियन मिश्रण स्पीकर मॉडल का उपयोग करके मजबूत पाठ-स्वतंत्र वक्ता पहचान" (PDF). IEEE Transactions on Speech and Audio Processing. 3 (1): 72–83. doi:10.1109/89.365379. ISSN 1063-6676. OCLC 26108901. Archived (PDF) from the original on 8 March 2014. Retrieved 21 February 2014.
- ↑ "वक्ता पहचान (व्हिस्परआईडी)". Microsoft Research. Microsoft. Archived from the original on 25 February 2014. Retrieved 21 February 2014.
जब आप किसी से बात करते हैं, तो वे केवल यह नहीं पहचानते कि आप क्या कहते हैं: वे पहचानते हैं कि आप कौन हैं। WhisperID कंप्यूटर को वह भी करने देगा, यह पता लगाने के लिए कि आप किस तरह से ध्वनि करते हैं।
- ↑ "मृत्युलेख: स्टीफन बालाशेक". The Star-Ledger. 22 July 2012.
- ↑ "IBM-Shoebox-front.jpg". androidauthority.net. Retrieved 4 April 2019.
- ↑ Juang, B. H.; Rabiner, Lawrence R. "स्वचालित भाषण पहचान-प्रौद्योगिकी विकास का एक संक्षिप्त इतिहास" (PDF): 6. Archived (PDF) from the original on 17 August 2014. Retrieved 17 January 2015.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ 12.0 12.1 Melanie Pinola (2 November 2011). "दशक के माध्यम से वाक् पहचान: हम सिरी के साथ कैसे समाप्त हुए". PC World. Retrieved 22 October 2018.
- ↑ Gray, Robert M. (2010). "पैकेट नेटवर्क पर रीयलटाइम डिजिटल भाषण का इतिहास: लीनियर प्रेडिक्टिव कोडिंग और इंटरनेट प्रोटोकॉल का भाग II" (PDF). Found. Trends Signal Process. 3 (4): 203–303. doi:10.1561/2000000036. ISSN 1932-8346.
- ↑ John R. Pierce (1969). "कहाँ वाक् पहचान?". Journal of the Acoustical Society of America. 46 (48): 1049–1051. Bibcode:1969ASAJ...46.1049P. doi:10.1121/1.1911801.
- ↑ Benesty, Jacob; Sondhi, M. M.; Huang, Yiteng (2008). स्पीच प्रोसेसिंग की स्प्रिंगर हैंडबुक. Springer Science & Business Media. ISBN 978-3540491255.
- ↑ John Makhoul. "आईएससीए पदक विजेता: भाषण और भाषा प्रसंस्करण में नेतृत्व और व्यापक योगदान के लिए". Archived from the original on 24 January 2018. Retrieved 23 January 2018.
- ↑ Blechman, R. O.; Blechman, Nicholas (23 June 2008). "हैलो, हैल". The New Yorker. Archived from the original on 20 January 2015. Retrieved 17 January 2015.
- ↑ Klatt, Dennis H. (1977). "ARPA भाषण समझ परियोजना की समीक्षा". The Journal of the Acoustical Society of America. 62 (6): 1345–1366. Bibcode:1977ASAJ...62.1345K. doi:10.1121/1.381666.
- ↑ Rabiner (1984). "ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग सोसायटी। एक ऐतिहासिक परिप्रेक्ष्य" (PDF). Archived (PDF) from the original on 9 August 2017. Retrieved 23 January 2018.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ "फर्स्ट-हैंड: द हिडन मार्कोव मॉडल - इंजीनियरिंग एंड टेक्नोलॉजी हिस्ट्री विकी". ethw.org. 12 January 2015. Archived from the original on 3 April 2018. Retrieved 1 May 2018.
- ↑ 21.0 21.1 "जेम्स बेकर साक्षात्कार". Archived from the original on 28 August 2017. Retrieved 9 February 2017.
- ↑ "अग्रणी भाषण मान्यता". 7 March 2012. Archived from the original on 19 February 2015. Retrieved 18 January 2015.
- ↑ 23.0 23.1 23.2 Xuedong Huang; James Baker; Raj Reddy. "भाषण मान्यता का एक ऐतिहासिक परिप्रेक्ष्य". Communications of the ACM. Archived from the original on 20 January 2015. Retrieved 20 January 2015.
- ↑ Juang, B. H.; Rabiner, Lawrence R. "स्वचालित भाषण पहचान-प्रौद्योगिकी विकास का एक संक्षिप्त इतिहास" (PDF): 10. Archived (PDF) from the original on 17 August 2014. Retrieved 17 January 2015.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ "भाषण मान्यता का इतिहास". Dragon Medical Transcription. Archived from the original on 13 August 2015. Retrieved 17 January 2015.
- ↑ Billi, Roberto; Canavesio, Franco; Ciaramella, Alberto; Nebbia, Luciano (1 November 1995). "काम पर इंटरएक्टिव आवाज प्रौद्योगिकी: सीएसईएलटी अनुभव". Speech Communication. 17 (3): 263–271. doi:10.1016/0167-6393(95)00030-R.
- ↑ Kevin McKean (8 April 1980). "जब कोल बात करता है, तो कंप्यूटर सुनते हैं". Sarasota Journal. AP. Retrieved 23 November 2015.
- ↑ "अधिनियम/खुबानी - खुबानी इतिहास". actapricot.org. Retrieved 2016-02-02.
- ↑ Melanie Pinola (2 November 2011). "दशक के माध्यम से वाक् पहचान: हम सिरी के साथ कैसे समाप्त हुए". PC World. Archived from the original on 13 January 2017. Retrieved 28 July 2017.
- ↑ "रे कुर्ज़वील जीवनी". KurzweilAINetwork. Archived from the original on 5 February 2014. Retrieved 25 September 2014.
- ↑ Juang, B.H.; Rabiner, Lawrence. "स्वचालित भाषण मान्यता - प्रौद्योगिकी विकास का एक संक्षिप्त इतिहास" (PDF). Archived (PDF) from the original on 9 August 2017. Retrieved 28 July 2017.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ "iPhone 4S, सिरी, और भाषण के भविष्य पर बारीकियों का निष्पादन". Tech.pinions. 10 October 2011. Archived from the original on 19 November 2011. Retrieved 23 November 2011.
- ↑ "स्विचबोर्ड -1 रिलीज 2". Archived from the original on 11 July 2017. Retrieved 26 July 2017.
- ↑ Jason Kincaid (13 February 2011). "आवाज की शक्ति: Google की भाषण प्रौद्योगिकी के प्रमुख के साथ बातचीत". Tech Crunch. Archived from the original on 21 July 2015. Retrieved 21 July 2015.
- ↑ Froomkin, Dan (5 May 2015). "कंप्यूटर सुन रहे हैं". The Intercept. Archived from the original on 27 June 2015. Retrieved 20 June 2015.
- ↑ Herve Bourlard and Nelson Morgan, Connectionist Speech Recognition: A Hybrid Approach, The Kluwer International Series in Engineering and Computer Science; v. 247, Boston: Kluwer Academic Publishers, 1994.
- ↑ 37.0 37.1 Sepp Hochreiter; J. Schmidhuber (1997). "लॉन्ग शॉर्ट-टर्म मेमोरी". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
- ↑ Schmidhuber, Jürgen (2015). "तंत्रिका नेटवर्क में गहन शिक्षा: एक सिंहावलोकन". Neural Networks. 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
- ↑ Alex Graves, Santiago Fernandez, Faustino Gomez, and Jürgen Schmidhuber (2006). Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural nets. Proceedings of ICML'06, pp. 369–376.
- ↑ Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). An application of recurrent neural networks to discriminative keyword spotting. Proceedings of ICANN (2), pp. 220–229.
- ↑ 41.0 41.1 Haşim Sak, Andrew Senior, Kanishka Rao, Françoise Beaufays and Johan Schalkwyk (September 2015): "Google voice search: faster and more accurate." Archived 9 March 2016 at the Wayback Machine
- ↑ "ढक्कन इंजी". ढक्कन इंजीSite.
- ↑ NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D. Yu).
- ↑ 44.0 44.1 44.2 Hinton, Geoffrey; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-Rahman; Jaitly, Navdeep; Senior, Andrew; Vanhoucke, Vincent; Nguyen, Patrick; Sainath, Tara; Kingsbury, Brian (2012). "वाक् पहचान में ध्वनिक मॉडलिंग के लिए डीप न्यूरल नेटवर्क: चार शोध समूहों के साझा विचार". IEEE Signal Processing Magazine. 29 (6): 82–97. Bibcode:2012ISPM...29...82H. doi:10.1109/MSP.2012.2205597. S2CID 206485943.
- ↑ 45.0 45.1 Deng, L.; Hinton, G.; Kingsbury, B. (2013). "New types of deep neural network learning for speech recognition and related applications: An overview". ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग पर 2013 IEEE अंतर्राष्ट्रीय सम्मेलन: वाक् पहचान और संबंधित अनुप्रयोगों के लिए नए प्रकार के गहरे तंत्रिका नेटवर्क सीखना: एक सिंहावलोकन. p. 8599. doi:10.1109/ICASSP.2013.6639344. ISBN 978-1-4799-0356-6. S2CID 13953660.
- ↑ 46.0 46.1 Markoff, John (23 November 2012). "डीप-लर्निंग प्रोग्राम में वैज्ञानिक संभावनाओं को देखते हैं". New York Times. Archived from the original on 30 November 2012. Retrieved 20 January 2015.
- ↑ Morgan, Bourlard, Renals, Cohen, Franco (1993) "Hybrid neural network/hidden Markov model systems for continuous speech recognition. ICASSP/IJPRAI"
- ↑ T. Robinson (1992). "A real-time recurrent error propagation network word recognition system". [कार्यवाही] ICASSP-92: 1992 ध्वनिकी, भाषण और सिग्नल प्रोसेसिंग पर IEEE अंतर्राष्ट्रीय सम्मेलन. pp. 617–620 vol.1. doi:10.1109/ICASSP.1992.225833. ISBN 0-7803-0532-9. S2CID 62446313.
- ↑ Waibel, Hanazawa, Hinton, Shikano, Lang. (1989) "Phoneme recognition using time-delay neural networks. IEEE Transactions on Acoustics, Speech, and Signal Processing."
- ↑ Baker, J.; Li Deng; Glass, J.; Khudanpur, S.; Chin-Hui Lee; Morgan, N.; O'Shaughnessy, D. (2009). "वाक् पहचान और समझ में विकास और दिशाएं, भाग 1". IEEE Signal Processing Magazine. 26 (3): 75–80. Bibcode:2009ISPM...26...75B. doi:10.1109/MSP.2009.932166. hdl:1721.1/51891. S2CID 357467.
- ↑ Sepp Hochreiter (1991), Untersuchungen zu dynamischen neuronalen Netzen Archived 6 March 2015 at the Wayback Machine, Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber.
- ↑ Bengio, Y. (1991). कृत्रिम तंत्रिका नेटवर्क और भाषण/अनुक्रम पहचान के लिए उनका अनुप्रयोग (Ph.D.). McGill University.
- ↑ Deng, L.; Hassanein, K.; Elmasry, M. (1994). "भाषण मान्यता के लिए आवेदन के साथ एक तंत्रिका भविष्य कहनेवाला मॉडल के लिए सहसंबंध संरचना का विश्लेषण". Neural Networks. 7 (2): 331–339. doi:10.1016/0893-6080(94)90027-2.
- ↑ Keynote talk: Recent Developments in Deep Neural Networks. ICASSP, 2013 (by Geoff Hinton).
- ↑ 55.0 55.1 Keynote talk: "Achievements and Challenges of Deep Learning: From Speech Analysis and Recognition To Language and Multimodal Processing," Interspeech, September 2014 (by Li Deng).
- ↑ "वॉयस रिकग्निशन सॉफ्टवेयर में सुधार बढ़ा है". TechRepublic.com. 27 August 2002.
मैनर्स ने कहा कि IBM ने वाक् पहचान को आगे बढ़ाने पर काम किया है ... या शोर-शराबे वाले ट्रेड शो में काम किया है।
- ↑ "यात्रा बुकिंग को आसान बनाने के लिए आवाज की पहचान: व्यापार यात्रा समाचार". BusinessTravelNews.com. 3 March 1997.
वाक् पहचान सॉफ़्टवेयर के शुरुआती अनुप्रयोग डिक्टेशन थे ... चार महीने पहले, IBM ने एक 'निरंतर श्रुतलेख उत्पाद' प्रस्तुत किया जिसे ... के लिए डिज़ाइन किया गया था ... जिसे 1994 में नेशनल बिज़नेस ट्रैवेल एसोसिएशन ट्रेड शो में प्रदर्शित किया गया था।
- ↑ Ellis Booker (14 March 1994). "आवाज पहचान मुख्यधारा में प्रवेश करती है". Computerworld. p. 45.
कुछ साल पहले, वाक् पहचान ...
- ↑ "Microsoft शोधकर्ताओं ने नई संवादी वाक् पहचान मील का पत्थर हासिल किया". Microsoft. 21 August 2017.
- ↑ Goel, Vaibhava; Byrne, William J. (2000). "Minimum Bayes-risk automatic speech recognition". Computer Speech & Language. 14 (2): 115–135. doi:10.1006/csla.2000.0138. Archived from the original on 25 July 2011. Retrieved 28 March 2011.
- ↑ Mohri, M. (2002). "Edit-Distance of Weighted Automata: General Definitions and Algorithms" (PDF). International Journal of Foundations of Computer Science. 14 (6): 957–982. doi:10.1142/S0129054103002114. Archived (PDF) from the original on 18 March 2012. Retrieved 28 March 2011.
- ↑ Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. (1989). "समय-विलंब तंत्रिका नेटवर्क का उपयोग करके फ़ोनीमी पहचान". IEEE Transactions on Acoustics, Speech, and Signal Processing. 37 (3): 328–339. doi:10.1109/29.21701. hdl:10338.dmlcz/135496.
- ↑ Bird, Jordan J.; Wanner, Elizabeth; Ekárt, Anikó; Faria, Diego R. (2020). "बहुउद्देश्यीय विकासवादी एल्गोरिदम के माध्यम से ध्वन्यात्मक जागरूक वाक् पहचान का अनुकूलन" (PDF). Expert Systems with Applications. Elsevier BV. 153: 113402. doi:10.1016/j.eswa.2020.113402. ISSN 0957-4174. S2CID 216472225.</रेफरी> पृथक शब्द पहचान, रेफरी>Wu, J.; Chan, C. (1993). "भाषण गतिशीलता के लिए क्रॉस-सहसंबंध गुणांक वाले तंत्रिका नेटवर्क मॉडल द्वारा पृथक शब्द पहचान". IEEE Transactions on Pattern Analysis and Machine Intelligence. 15 (11): 1174–1185. doi:10.1109/34.244678.
- ↑ एस। ए. ज़होरियन, ए.एम. ज़िमर, और एफ. मेंग, (2002) श्रवणबाधित लोगों के लिए प्रशिक्षण, ICSLP 2002
- ↑ Hu, Hongbing; Zahorian, Stephen A. (2010). "Dimensionality Reduction Methods for HMM Phonetic Recognition" (PDF). आईसीएएसएसपी 2010. Archived (PDF) from the original on 6 July 2012.
- ↑ Fernandez, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Sequence labelling in structured domains with hierarchical recurrent neural networks" (PDF). आईजेसीएआई की कार्यवाही. Archived (PDF) from the original on 15 August 2017.
- ↑ Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (2013). "गहरे आवर्तक तंत्रिका नेटवर्क के साथ वाक् पहचान". arXiv:1303.5778 [cs.NE]. ICASSP 2013.
- ↑ Waibel, Alex (1989). "भाषण मान्यता के लिए समय-विलंब तंत्रिका नेटवर्क का मॉड्यूलर निर्माण" (PDF). Neural Computation. 1 (1): 39–46. doi:10.1162/neco.1989.1.1.39. S2CID 236321. Archived (PDF) from the original on 29 June 2016.
- ↑ Maas, Andrew L.; Le, Quoc V.; O'Neil, Tyler M.; Vinyals, Oriol; Nguyen, Patrick; Ng, Andrew Y. (2012). "Recurrent Neural Networks for Noise Reduction in Robust ASR". इंटरस्पीच 2012 की कार्यवाही.
- ↑ 70.0 70.1 Deng, Li; Yu, Dong (2014). "डीप लर्निंग: तरीके और अनुप्रयोग" (PDF). Foundations and Trends in Signal Processing. 7 (3–4): 197–387. CiteSeerX 10.1.1.691.3679. doi:10.1561/2000000039. Archived (PDF) from the original on 22 October 2014.
- ↑ Yu, D.; Deng, L.; Dahl, G. (2010). "वास्तविक-विश्व भाषण मान्यता के लिए संदर्भ-निर्भर DBN-HMMs में पूर्व-प्रशिक्षण और फ़ाइन-ट्यूनिंग की भूमिकाएँ" (PDF). NIPS Workshop on Deep Learning and Unsupervised Feature Learning.
- ↑ Dahl, George E.; Yu, Dong; Deng, Li; Acero, Alex (2012). "बड़े-शब्दावली भाषण मान्यता के लिए संदर्भ-निर्भर पूर्व-प्रशिक्षित गहन तंत्रिका नेटवर्क". IEEE Transactions on Audio, Speech, and Language Processing. 20 (1): 30–42. doi:10.1109/TASL.2011.2134090. S2CID 14862572.
- ↑ Deng L., Li, J., Huang, J., Yao, K., Yu, D., Seide, F. et al. Recent Advances in Deep Learning for Speech Research at Microsoft. ICASSP, 2013.
- ↑ 74.0 74.1 Yu, D.; Deng, L. (2014). "स्वचालित भाषण मान्यता: एक गहन शिक्षण दृष्टिकोण (प्रकाशक: स्प्रिंगर)".
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Deng, L.; Li, Xiao (2013). "वाक् पहचान के लिए मशीन लर्निंग प्रतिमान: एक सिंहावलोकन" (PDF). IEEE Transactions on Audio, Speech, and Language Processing. 21 (5): 1060–1089. doi:10.1109/TASL.2013.2244083. S2CID 16585863.
- ↑ Schmidhuber, Jürgen (2015). "ध्यान लगा के पढ़ना या सीखना". Scholarpedia. 10 (11): 32832. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832.
- ↑ L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed, and G. Hinton (2010) Binary Coding of Speech Spectrograms Using a Deep Auto-encoder. Interspeech.
- ↑ Tüske, Zoltán; Golik, Pavel; Schlüter, Ralf; Ney, Hermann (2014). "Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR" (PDF). इंटरस्पीच 2014. Archived (PDF) from the original on 21 December 2016.
- ↑ Jurafsky, Daniel (2016). भाषण और भाषा प्रसंस्करण.
- ↑ Graves, Alex (2014). "आवर्तक तंत्रिका नेटवर्क के साथ एंड-टू-एंड स्पीच रिकग्निशन की ओर" (PDF). ICML.
- ↑ Amodei, Dario (2016). "डीप स्पीच 2: अंग्रेजी और मंदारिन में एंड-टू-एंड स्पीच रिकग्निशन". arXiv:1512.02595 [cs.CL].
- ↑ "लिपनेट: आपको क्या लगता है कि लिप पढ़ना कितना आसान है?". YouTube. Archived from the original on 27 April 2017. Retrieved 5 May 2017.
- ↑ Assael, Yannis; Shillingford, Brendan; Whiteson, Shimon; de Freitas, Nando (5 November 2016). "लिपनेट: एंड-टू-एंड सेंटेंस-लेवल लिपरीडिंग". arXiv:1611.01599 [cs.CV].
- ↑ Shillingford, Brendan; Assael, Yannis; Hoffman, Matthew W.; Paine, Thomas; Hughes, Cían; Prabhu, Utsav; Liao, Hank; Sak, Hasim; Rao, Kanishka (2018-07-13). "बड़े पैमाने पर दृश्य वाक् पहचान". arXiv:1807.05162 [cs.CV].
- ↑ Chan, William; Jaitly, Navdeep; Le, Quoc; Vinyals, Oriol (2016). "सुनो, उपस्थित रहो और जादू करो: बड़ी शब्दावली संवादी वाक् पहचान के लिए एक तंत्रिका नेटवर्क" (PDF). ICASSP.
- ↑ Bahdanau, Dzmitry (2016). "एंड-टू-एंड ध्यान-आधारित बड़ी शब्दावली वाक् पहचान". arXiv:1508.04395 [cs.CL].
- ↑ Chorowski, Jan; Jaitly, Navdeep (8 December 2016). "अनुक्रम मॉडल के क्रम में बेहतर डिकोडिंग और भाषा मॉडल एकीकरण की ओर". arXiv:1612.02695 [cs.NE].
- ↑ Chan, William; Zhang, Yu; Le, Quoc; Jaitly, Navdeep (10 October 2016). "अव्यक्त अनुक्रम अपघटन". arXiv:1610.03035 [stat.ML].
- ↑ Chung, Joon Son; Senior, Andrew; Vinyals, Oriol; Zisserman, Andrew (16 November 2016). "Lip Reading Sentences in the Wild". कंप्यूटर विजन और पैटर्न पहचान (सीवीपीआर) पर 2017 आईईईई सम्मेलन. pp. 3444–3453. arXiv:1611.05358. doi:10.1109/CVPR.2017.367. ISBN 978-1-5386-0457-1. S2CID 1662180.
- ↑ Englund, Christine (2004). JAS 39 ग्रिपेन विमान में वाक् पहचान: विभिन्न G-लोड पर वाणी के लिए अनुकूलन (PDF) (Masters thesis). Stockholm Royal Institute of Technology. Archived (PDF) from the original on 2 October 2008.
{{cite thesis}}
: no-break space character in|title=
at position 4 (help) - ↑ "कॉकपिट". Eurofighter Typhoon. Archived from the original on 1 March 2017.
- ↑ "यूरोफाइटर टाइफून - दुनिया का सबसे उन्नत लड़ाकू विमान". www.eurofighter.com. Archived from the original on 11 May 2013. Retrieved 1 May 2018.
- ↑ Schutte, John (15 October 2007). "शोधकर्ताओं ने F-35 पायलट-एयरक्राफ्ट स्पीच सिस्टम को फाइन-ट्यून किया". United States Air Force. Archived from the original on 20 October 2007.
- ↑ Cerf, Vinton; Wrubel, Rob; Sherwood, Susan. "क्या भाषण-पहचान सॉफ्टवेयर शैक्षिक भाषा बाधाओं को तोड़ सकता है?". Curiosity.com. Discovery Communications. Archived from the original on 7 April 2014. Retrieved 26 March 2014.
- ↑ 95.0 95.1 "सीखने के लिए भाषण मान्यता". National Center for Technology Innovation. 2010. Archived from the original on 13 April 2014. Retrieved 26 March 2014.
- ↑ Follensbee, Bob; McCloskey-Dale, Susan (2000). "स्कूलों में वाक् पहचान: क्षेत्र से एक अद्यतन". Technology And Persons With Disabilities Conference 2000. Archived from the original on 21 August 2006. Retrieved 26 March 2014.
- ↑ "कक्षा में संचार बाधाओं पर काबू पाना". MassMATCH. 18 March 2010. Archived from the original on 25 July 2013. Retrieved 15 June 2013.
- ↑ "विकलांग लोगों के लिए भाषण मान्यता". Archived from the original on 4 April 2008.
- ↑ Friends International Support Group
- ↑ Garrett, Jennifer Tumlin; et al. (2011). "शारीरिक अक्षमताओं वाले व्यक्तियों के लिए लेखन प्रवाह बढ़ाने के लिए वाक् पहचान सॉफ़्टवेयर का उपयोग करना". Journal of Special Education Technology. 26 (1): 25–41. doi:10.1177/016264341102600104. S2CID 142730664.
- ↑ Forgrave, Karen E. "Assistive Technology: Empowering Students with Disabilities." Clearing House 75.3 (2002): 122–6. Web.
- ↑ Tang, K. W.; Kamoua, Ridha; Sutan, Victor (2004). "विकलांग शिक्षा के लिए भाषण मान्यता प्रौद्योगिकी". Journal of Educational Technology Systems. 33 (2): 173–84. CiteSeerX 10.1.1.631.3736. doi:10.2190/K6K8-78K2-59Y7-R9R2. S2CID 143159997.
- ↑ "प्रोजेक्ट्स: प्लेनेटरी माइक्रोफ़ोन". The Planetary Society. Archived from the original on 27 January 2012.
- ↑ Caridakis, George; Castellano, Ginevra; Kessous, Loic; Raouzaiou, Amaryllis; Malatesta, Lori; Asteriadis, Stelios; Karpouzis, Kostas (19 September 2007). अभिव्यंजक चेहरों, शरीर के इशारों और भाषण से मल्टीमॉडल इमोशन रिकग्निशन. pp. 375–388. doi:10.1007/978-0-387-74161-1_41. ISBN 978-0-387-74160-4.
{{cite book}}
:|journal=
ignored (help) - ↑ "रीयल-टाइम कैप्शनिंग क्या है? | कर दो". www.washington.edu. Retrieved 2021-04-11.
- ↑ Zheng, Thomas Fang; Li, Lantian (2017). रोबस्टनेस-रिलेटेड इश्यूज इन स्पीकर रिकग्निशन. SpringerBriefs in Electrical and Computer Engineering. Singapore: Springer Singapore. doi:10.1007/978-981-10-3238-7. ISBN 978-981-10-3237-0.
- ↑ Ciaramella, Alberto. "A prototype performance evaluation report." Sundial workpackage 8000 (1993).
- ↑ Gerbino, E.; Baggia, P.; Ciaramella, A.; Rullent, C. (1993). "Test and evaluation of a spoken dialogue system". ध्वनिकी भाषण और सिग्नल प्रोसेसिंग पर IEEE अंतर्राष्ट्रीय सम्मेलन. pp. 135–138 vol.2. doi:10.1109/ICASSP.1993.319250. ISBN 0-7803-0946-4. S2CID 57374050.
- ↑ National Institute of Standards and Technology. "The History of Automatic Speech Recognition Evaluation at NIST Archived 8 October 2013 at the Wayback Machine".
- ↑ "सुनो: आपका एआई सहायक एनपीआर के लिए भी पागल हो गया है". NPR. 6 March 2016. Archived from the original on 23 July 2017.
- ↑ Claburn, Thomas (25 August 2017). "क्या अश्रव्य आदेशों का उपयोग करके अमेज़न एलेक्सा, Google नाओ को नियंत्रित करना संभव है? बिल्कुल". The Register. Archived from the original on 2 September 2017.
- ↑ "अटैक टारगेट ऑटोमैटिक स्पीच रिकॉग्निशन सिस्टम". vice.com. 31 January 2018. Archived from the original on 3 March 2018. Retrieved 1 May 2018.
- ↑ Beigi, Homayoon (2011). स्पीकर मान्यता की बुनियादी बातों. New York: Springer. ISBN 978-0-387-77591-3. Archived from the original on 31 January 2018.
- ↑ Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Vesely, K. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society.
- ↑ "मोज़िला द्वारा कॉमन वॉइस". voice.mozilla.org.
- ↑ "Baidu के डीपस्पीच आर्किटेक्चर का एक टेंसरफ्लो कार्यान्वयन: मोज़िला/डीपस्पीच". 9 November 2019 – via GitHub.
- ↑ "गिटहब - टेंसरफ़्लो/डॉक्स: टेंसरफ़्लो दस्तावेज़ीकरण". 9 November 2019 – via GitHub.
- ↑ "Coqui, सभी के लिए ओपन स्पीच तकनीक प्रदान करने वाला एक स्टार्टअप". GitHub. Retrieved 2022-03-07.
- ↑ Coffey, Donavyn (2021-04-28). "माओरी अपनी भाषा को बिग टेक से बचाने की कोशिश कर रहे हैं". Wired UK (in British English). ISSN 1357-0978. Retrieved 2021-10-16.
- ↑ "आपको डीपस्पीच से coqui.ai पर क्यों जाना चाहिए". Mozilla Discourse (in English). 2021-07-07. Retrieved 2021-10-16.
आगे की पढाई
- Pieraccini, Roberto (2012). The Voice in the Machine. Building Computers That Understand Speech. The MIT Press. ISBN 978-0262016858.
- Woelfel, Matthias; McDonough, John (2009-05-26). Distant Speech Recognition. Wiley. ISBN 978-0470517048.
- Karat, Clare-Marie; Vergo, John; Nahamoo, David (2007). "Conversational Interface Technologies". In Sears, Andrew; Jacko, Julie A. (eds.). The Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies, and Emerging Applications (Human Factors and Ergonomics). Lawrence Erlbaum Associates Inc. ISBN 978-0-8058-5870-9.
- Cole, Ronald; Mariani, Joseph; Uszkoreit, Hans; Varile, Giovanni Battista; Zaenen, Annie; Zampolli; Zue, Victor, eds. (1997). Survey of the state of the art in human language technology. Cambridge Studies in Natural Language Processing. Vol. XII–XIII. Cambridge University Press. ISBN 978-0-521-59277-2.
- Junqua, J.-C.; Haton, J.-P. (1995). Robustness in Automatic Speech Recognition: Fundamentals and Applications. Kluwer Academic Publishers. ISBN 978-0-7923-9646-8.
- Pirani, Giancarlo, ed. (2013). Advanced algorithms and architectures for speech understanding. Springer Science & Business Media. ISBN 978-3-642-84341-9.
बाहरी कड़ियाँ
- Signer, Beat and Hoste, Lode: SpeeG2: A Speech- and Gesture-based Interface for Efficient Controller-free Text Entry, In Proceedings of ICMI 2013, 15th International Conference on Multimodal Interaction, Sydney, Australia, December 2013
- Speech Technology at Curlie