वॉइस-यूज़र इंटरफ़ेस: Difference between revisions
No edit summary |
(→इतिहास) |
||
Line 5: | Line 5: | ||
नए वॉयस कमांड डिवाइस स्पीकर-स्वतंत्र हैं, इसलिए वे उच्चारण या बोली संबंधी प्रभावों की परवाह किए बिना कई आवाजों पर प्रतिक्रिया दे सकते हैं। वे एक साथ कई आदेशों का जवाब देने, मौखिक संदेशों को अलग करने और प्राकृतिक बातचीत का सटीक अनुकरण करते हुए उचित प्रतिक्रिया प्रदान करने में भी सक्षम हैं।<ref name=appliance>{{cite web|title=वॉशिंग मशीन आवाज नियंत्रण|work=Appliance Magazine|url=http://www.appliancemagazine.com/news.php?article=4514&zone=0&first=1}}</ref> | नए वॉयस कमांड डिवाइस स्पीकर-स्वतंत्र हैं, इसलिए वे उच्चारण या बोली संबंधी प्रभावों की परवाह किए बिना कई आवाजों पर प्रतिक्रिया दे सकते हैं। वे एक साथ कई आदेशों का जवाब देने, मौखिक संदेशों को अलग करने और प्राकृतिक बातचीत का सटीक अनुकरण करते हुए उचित प्रतिक्रिया प्रदान करने में भी सक्षम हैं।<ref name=appliance>{{cite web|title=वॉशिंग मशीन आवाज नियंत्रण|work=Appliance Magazine|url=http://www.appliancemagazine.com/news.php?article=4514&zone=0&first=1}}</ref> | ||
==अवलोकन== | ==अवलोकन== | ||
Line 14: | Line 13: | ||
सामान्य जनता के लिए डिज़ाइन किए गए VUI को उपयोग में आसानी पर जोर देना चाहिए और पहली बार कॉल करने वालों के लिए बहुत अधिक सहायता और मार्गदर्शन प्रदान करना चाहिए। इसके विपरीत, [[बिजली उपयोगकर्ता]]ओं के एक छोटे समूह (फ़ील्ड सेवा श्रमिकों सहित) के लिए डिज़ाइन किए गए VUI को उत्पादकता पर अधिक और सहायता और मार्गदर्शन पर कम ध्यान केंद्रित करना चाहिए। ऐसे अनुप्रयोगों को कॉल प्रवाह को सुव्यवस्थित, संकेतों को कम, अनावश्यक पुनरावृत्तियों को समाप्त करना चाहिए और विस्तृत मिश्रित पहल [[संवाद प्रणाली]] की अनुमति देनी चाहिए, जो कॉल करने वालों को एक ही उच्चारण में और किसी भी क्रम या संयोजन में जानकारी के कई टुकड़े प्रविष्ट करने में सक्षम बनाती है। संक्षेप में, स्वचालित होने वाली विशिष्ट व्यावसायिक प्रक्रिया के लिए भाषण अनुप्रयोगों को सावधानीपूर्वक तैयार किया जाना चाहिए। | सामान्य जनता के लिए डिज़ाइन किए गए VUI को उपयोग में आसानी पर जोर देना चाहिए और पहली बार कॉल करने वालों के लिए बहुत अधिक सहायता और मार्गदर्शन प्रदान करना चाहिए। इसके विपरीत, [[बिजली उपयोगकर्ता]]ओं के एक छोटे समूह (फ़ील्ड सेवा श्रमिकों सहित) के लिए डिज़ाइन किए गए VUI को उत्पादकता पर अधिक और सहायता और मार्गदर्शन पर कम ध्यान केंद्रित करना चाहिए। ऐसे अनुप्रयोगों को कॉल प्रवाह को सुव्यवस्थित, संकेतों को कम, अनावश्यक पुनरावृत्तियों को समाप्त करना चाहिए और विस्तृत मिश्रित पहल [[संवाद प्रणाली]] की अनुमति देनी चाहिए, जो कॉल करने वालों को एक ही उच्चारण में और किसी भी क्रम या संयोजन में जानकारी के कई टुकड़े प्रविष्ट करने में सक्षम बनाती है। संक्षेप में, स्वचालित होने वाली विशिष्ट व्यावसायिक प्रक्रिया के लिए भाषण अनुप्रयोगों को सावधानीपूर्वक तैयार किया जाना चाहिए। | ||
सभी व्यावसायिक प्रक्रियाएँ वाक् स्वचालन के लिए स्वयं को समान रूप से प्रस्तुत नहीं करती हैं। सामान्यतः, पूछताछ और लेनदेन जितने अधिक जटिल होंगे, उन्हें स्वचालित करना उतना ही अधिक चुनौतीपूर्ण होगा, और सामान्य जनता के साथ उनके विफल होने की संभावना उतनी ही अधिक होगी। कुछ परिदृश्यों में, स्वचालन बिल्कुल लागू नहीं होता है, इसलिए लाइव एजेंट सहायता ही एकमात्र विकल्प है। उदाहरण के लिए, कानूनी सलाह हॉटलाइन को स्वचालित करना बहुत कठिन होगा। दूसरी ओर, भाषण त्वरित और नियमित लेनदेन को संभालने के लिए एकदम सही है, जैसे कार्य ऑर्डर की स्थिति बदलना, समय या व्यय प्रविष्टि को पूरा करना, या खातों के बीच धन स्थानांतरित | सभी व्यावसायिक प्रक्रियाएँ वाक् स्वचालन के लिए स्वयं को समान रूप से प्रस्तुत नहीं करती हैं। सामान्यतः, पूछताछ और लेनदेन जितने अधिक जटिल होंगे, उन्हें स्वचालित करना उतना ही अधिक चुनौतीपूर्ण होगा, और सामान्य जनता के साथ उनके विफल होने की संभावना उतनी ही अधिक होगी। कुछ परिदृश्यों में, स्वचालन बिल्कुल लागू नहीं होता है, इसलिए लाइव एजेंट सहायता ही एकमात्र विकल्प है। उदाहरण के लिए, कानूनी सलाह हॉटलाइन को स्वचालित करना बहुत कठिन होगा। दूसरी ओर, भाषण त्वरित और नियमित लेनदेन को संभालने के लिए एकदम सही है, जैसे कार्य ऑर्डर की स्थिति बदलना, समय या व्यय प्रविष्टि को पूरा करना, या खातों के बीच धन स्थानांतरित करना हैं। | ||
==इतिहास== | ==इतिहास== | ||
Line 21: | Line 20: | ||
2007 में, [[सीएनएन मनी|CNN मनी]] बिजनेस लेख में बताया गया कि वॉयस कमांड एक अरब डॉलर से अधिक का उद्योग था और गूगल और Apple Inc. जैसी कंपनियां वाक् पहचान सुविधाओं को बनाने की कोशिश कर रही थीं।<ref>{{cite news|title=अब आप बात कर रहे हैं|url=https://money.cnn.com/magazines/business2/business2_archive/2007/02/01/8398978/index.htm|publisher=CNN Money|access-date=25 April 2012|first=Jeanette|last=Borzo|date=8 February 2007}}</ref> लेख को प्रकाशित हुए कई साल हो गए हैं, और तब से दुनिया ने विभिन्न प्रकार के वॉयस कमांड डिवाइस देखे हैं। इसके अतिरिक्त, गूगल ने Pico TTS नामक एक वाक् पहचान इंजन बनाया और Apple ने Siri जारी किया है। वॉयस कमांड डिवाइस अधिक व्यापक रूप से उपलब्ध हो रहे हैं, और मानव आवाज का उपयोग करने के लिए हमेशा नए तरीके बनाए जा रहे हैं। उदाहरण के लिए, बिजनेस वीक सुझाव देता है कि भविष्य का रिमोट कंट्रोलर इंसान की आवाज बनने जा रहा है। वर्तमान में [[Xbox Live]] ऐसी सुविधाओं की अनुमति देता है और [[स्टीव जॉब्स]] ने नए [[Apple TV]] पर ऐसी सुविधा का संकेत दिया है।<ref>{{cite news|title=Voice Control, the End of the TV Remote?|newspaper=Bloomberg.com|date=9 December 2011|url=http://www.businessweek.com/magazine/voice-control-the-end-of-the-tv-remote-12082011.html|archive-url=https://web.archive.org/web/20111208224714/http://www.businessweek.com/magazine/voice-control-the-end-of-the-tv-remote-12082011.html|url-status=dead|archive-date=December 8, 2011|publisher=Business Week|access-date=1 May 2012}}</ref> | 2007 में, [[सीएनएन मनी|CNN मनी]] बिजनेस लेख में बताया गया कि वॉयस कमांड एक अरब डॉलर से अधिक का उद्योग था और गूगल और Apple Inc. जैसी कंपनियां वाक् पहचान सुविधाओं को बनाने की कोशिश कर रही थीं।<ref>{{cite news|title=अब आप बात कर रहे हैं|url=https://money.cnn.com/magazines/business2/business2_archive/2007/02/01/8398978/index.htm|publisher=CNN Money|access-date=25 April 2012|first=Jeanette|last=Borzo|date=8 February 2007}}</ref> लेख को प्रकाशित हुए कई साल हो गए हैं, और तब से दुनिया ने विभिन्न प्रकार के वॉयस कमांड डिवाइस देखे हैं। इसके अतिरिक्त, गूगल ने Pico TTS नामक एक वाक् पहचान इंजन बनाया और Apple ने Siri जारी किया है। वॉयस कमांड डिवाइस अधिक व्यापक रूप से उपलब्ध हो रहे हैं, और मानव आवाज का उपयोग करने के लिए हमेशा नए तरीके बनाए जा रहे हैं। उदाहरण के लिए, बिजनेस वीक सुझाव देता है कि भविष्य का रिमोट कंट्रोलर इंसान की आवाज बनने जा रहा है। वर्तमान में [[Xbox Live]] ऐसी सुविधाओं की अनुमति देता है और [[स्टीव जॉब्स]] ने नए [[Apple TV]] पर ऐसी सुविधा का संकेत दिया है।<ref>{{cite news|title=Voice Control, the End of the TV Remote?|newspaper=Bloomberg.com|date=9 December 2011|url=http://www.businessweek.com/magazine/voice-control-the-end-of-the-tv-remote-12082011.html|archive-url=https://web.archive.org/web/20111208224714/http://www.businessweek.com/magazine/voice-control-the-end-of-the-tv-remote-12082011.html|url-status=dead|archive-date=December 8, 2011|publisher=Business Week|access-date=1 May 2012}}</ref> | ||
==कंप्यूटिंग उपकरणों पर वॉयस कमांड सॉफ्टवेयर उत्पाद== | ==कंप्यूटिंग उपकरणों पर वॉयस कमांड सॉफ्टवेयर उत्पाद== | ||
ऐप्पल [[एप्पल मैकिंटोश]] और [[ खिड़कियाँ | विंडोज PC]][[ निजी कंप्यूटर ]]दोनों अपने नवीनतम [[ऑपरेटिंग सिस्टम]] के लिए अंतर्निहित वाक् पहचान सुविधाएँ प्रदान करते हैं। | ऐप्पल [[एप्पल मैकिंटोश]] और [[ खिड़कियाँ | विंडोज PC]][[ निजी कंप्यूटर ]]दोनों अपने नवीनतम [[ऑपरेटिंग सिस्टम]] के लिए अंतर्निहित वाक् पहचान सुविधाएँ प्रदान करते हैं। | ||
Line 34: | Line 31: | ||
विंडोज विस्टा वॉयस कंट्रोल के साथ, उपयोगकर्ता मुख्यधारा के अनुप्रयोगों में दस्तावेजों और ईमेल को निर्देशित कर सकता है, अनुप्रयोगों के बीच शुरू और स्विच कर सकता है, ऑपरेटिंग सिस्टम को नियंत्रित, दस्तावेजों को प्रारूपित और सहेज, फाइलों को संपादित, त्रुटियों को कुशलतापूर्वक ठीक और [[इंटरनेट]] पर फॉर्म भर सकता है। जब भी कोई उपयोगकर्ता इसका उपयोग करता है तो वाक् पहचान सॉफ्टवेयर स्वचालित रूप से सीखता है, और वाक् पहचान अंग्रेजी (U.S.), अंग्रेजी (U.K.), जर्मन (जर्मनी), फ्रेंच (फ्रांस), स्पेनिश (स्पेन), जापानी, चीनी (पारंपरिक) में उपलब्ध है। इसके अतिरिक्त, सॉफ्टवेयर एक इंटरैक्टिव ट्यूटोरियल के साथ आता है, जिसका उपयोग उपयोगकर्ता और वाक् पहचान इंजन दोनों को प्रशिक्षित करने के लिए किया जा सकता है।<ref>{{cite web|title=विस्टा पर भाषण संचालन|url=http://windows.microsoft.com/en-US/windows-vista/Use-Speech-Recognition-to-operate-windows-and-programs|publisher=Microsoft}}</ref> | विंडोज विस्टा वॉयस कंट्रोल के साथ, उपयोगकर्ता मुख्यधारा के अनुप्रयोगों में दस्तावेजों और ईमेल को निर्देशित कर सकता है, अनुप्रयोगों के बीच शुरू और स्विच कर सकता है, ऑपरेटिंग सिस्टम को नियंत्रित, दस्तावेजों को प्रारूपित और सहेज, फाइलों को संपादित, त्रुटियों को कुशलतापूर्वक ठीक और [[इंटरनेट]] पर फॉर्म भर सकता है। जब भी कोई उपयोगकर्ता इसका उपयोग करता है तो वाक् पहचान सॉफ्टवेयर स्वचालित रूप से सीखता है, और वाक् पहचान अंग्रेजी (U.S.), अंग्रेजी (U.K.), जर्मन (जर्मनी), फ्रेंच (फ्रांस), स्पेनिश (स्पेन), जापानी, चीनी (पारंपरिक) में उपलब्ध है। इसके अतिरिक्त, सॉफ्टवेयर एक इंटरैक्टिव ट्यूटोरियल के साथ आता है, जिसका उपयोग उपयोगकर्ता और वाक् पहचान इंजन दोनों को प्रशिक्षित करने के लिए किया जा सकता है।<ref>{{cite web|title=विस्टा पर भाषण संचालन|url=http://windows.microsoft.com/en-US/windows-vista/Use-Speech-Recognition-to-operate-windows-and-programs|publisher=Microsoft}}</ref> | ||
====विंडोज़ 7==== | ====विंडोज़ 7==== | ||
विंडोज विस्टा में प्रदान की गई सभी सुविधाओं के अतिरिक्त, विंडोज 7 माइक्रोफ़ोन सेट करने के लिए एक विज़ार्ड और सुविधा का उपयोग करने के तरीके पर एक ट्यूटोरियल प्रदान करता है।<ref>{{cite web|title=वाक् पहचान सेट अप|url=http://windows.microsoft.com/en-US/windows7/Set-up-Speech-Recognition|publisher=Microsoft}}</ref> | विंडोज विस्टा में प्रदान की गई सभी सुविधाओं के अतिरिक्त, विंडोज 7 माइक्रोफ़ोन सेट करने के लिए एक विज़ार्ड और सुविधा का उपयोग करने के तरीके पर एक ट्यूटोरियल प्रदान करता है।<ref>{{cite web|title=वाक् पहचान सेट अप|url=http://windows.microsoft.com/en-US/windows7/Set-up-Speech-Recognition|publisher=Microsoft}}</ref> | ||
====[[ Mac OS X ]]==== | ====[[ Mac OS X ]]==== | ||
सभी Mac OS सॉफ़्टवेयर उपयोगकर्ता-स्वतंत्र है, और यह उपयोगकर्ता को मेनू नेविगेट करने और कीबोर्ड शॉर्टकट दर्ज करने की अनुमति देता है; चेकबॉक्स नाम, रेडियो बटन नाम, सूची आइटम और बटन नाम बोलें; और अनुप्रयोगों के बीच खोलें, बंद करें, नियंत्रित करें और स्विच करें।<ref name = Y>{{cite web|title=शारीरिक और मोटर कौशल|url=https://www.apple.com/accessibility/macosx/physical.html|publisher=Apple}}</ref> यद्यपि, Apple वेबसाइट उपयोगकर्ता को [[MacSpeech Dictate]] नामक एक वाणिज्यिक उत्पाद खरीदने की सलाह देती है।<ref name=Y /> | सभी Mac OS सॉफ़्टवेयर उपयोगकर्ता-स्वतंत्र है, और यह उपयोगकर्ता को मेनू नेविगेट करने और कीबोर्ड शॉर्टकट दर्ज करने की अनुमति देता है; चेकबॉक्स नाम, रेडियो बटन नाम, सूची आइटम और बटन नाम बोलें; और अनुप्रयोगों के बीच खोलें, बंद करें, नियंत्रित करें और स्विच करें।<ref name = Y>{{cite web|title=शारीरिक और मोटर कौशल|url=https://www.apple.com/accessibility/macosx/physical.html|publisher=Apple}}</ref> यद्यपि, Apple वेबसाइट उपयोगकर्ता को [[MacSpeech Dictate]] नामक एक वाणिज्यिक उत्पाद खरीदने की सलाह देती है।<ref name=Y /> | ||
===वाणिज्यिक उत्पाद=== | ===वाणिज्यिक उत्पाद=== | ||
यदि कोई उपयोगकर्ता अंतर्निहित वाक् पहचान सॉफ़्टवेयर से संतुष्ट नहीं है या किसी उपयोगकर्ता के पास अपने OS के लिए निर्मित वाक् पहचान सॉफ़्टवेयर नहीं है, तो उपयोगकर्ता विंडोज़ पीसी के लिए [[ Braina ]] या [[स्वाभाविक रूप से बोलना]] जैसे व्यावसायिक उत्पाद के साथ प्रयोग कर सकता है।<ref>{{cite web|title=ड्रैगननेचरलीस्पीकिंग पीसी|url=http://www.nuance.com/for-individuals/by-product/dragon-for-pc/index.htm|publisher=Nuance}}</ref> डिक्टेट, मैक OS के लिए एक ही सॉफ्टवेयर का नाम है।<ref>{{cite web|title=ड्रैगननैचरलीस्पीकिंग मैक|url=http://www.nuance.com/for-individuals/by-product/dragon-for-mac/index.htm|publisher=Nuance}}</ref> | यदि कोई उपयोगकर्ता अंतर्निहित वाक् पहचान सॉफ़्टवेयर से संतुष्ट नहीं है या किसी उपयोगकर्ता के पास अपने OS के लिए निर्मित वाक् पहचान सॉफ़्टवेयर नहीं है, तो उपयोगकर्ता विंडोज़ पीसी के लिए [[ Braina ]] या [[स्वाभाविक रूप से बोलना]] जैसे व्यावसायिक उत्पाद के साथ प्रयोग कर सकता है।<ref>{{cite web|title=ड्रैगननेचरलीस्पीकिंग पीसी|url=http://www.nuance.com/for-individuals/by-product/dragon-for-pc/index.htm|publisher=Nuance}}</ref> डिक्टेट, मैक OS के लिए एक ही सॉफ्टवेयर का नाम है।<ref>{{cite web|title=ड्रैगननैचरलीस्पीकिंग मैक|url=http://www.nuance.com/for-individuals/by-product/dragon-for-mac/index.htm|publisher=Nuance}}</ref> | ||
==वॉइस कमांड मोबाइल डिवाइस== | ==वॉइस कमांड मोबाइल डिवाइस== | ||
Line 67: | Line 58: | ||
===iOS=== | ===iOS=== | ||
[[आवाज नियंत्रण (एप्पल)|एप्पल]] ने [[iPhone OS 3]] की एक नई सुविधा के रूप में iOS उपकरणों की अपनी सूची में [[आवाज नियंत्रण (एप्पल)]] को जोड़ा। [[iPhone 4S]], iPad (तीसरी पीढ़ी), iPad Mini (पहली पीढ़ी), [[iPad Air]], [[iPad Pro]], iPod Touch (5वीं पीढ़ी) ) और बाद में, सभी [[ महोदय मै ]] नामक एक अधिक उन्नत वॉयस असिस्टेंट के साथ आते हैं। नए उपकरणों के सेटिंग मेनू के माध्यम से ध्वनि नियंत्रण को अभी भी सक्षम किया जा सकता है। सिरी एक उपयोगकर्ता स्वतंत्र अंतर्निहित वाक् पहचान सुविधा है जो उपयोगकर्ता को वॉयस कमांड जारी करने की अनुमति देती है। सिरी की सहायता से उपयोगकर्ता कमांड जारी कर सकता है, जैसे टेक्स्ट संदेश भेजना, मौसम की जांच करना, अनुस्मारक सेट करना, जानकारी ढूंढना, मीटिंग शेड्यूल करना, ईमेल भेजना, संपर्क ढूंढना, अलार्म सेट करना, दिशा-निर्देश प्राप्त करना, अपने स्टॉक को ट्रैक करना, एक टाइमर सेट करें, और नमूना वॉयस कमांड प्रश्नों के उदाहरण पूछें।<ref>{{cite web|title=Siri, The iPhone 3GS & 4, iPod 3 & 4, have voice control like an express Siri, it plays music, pauses music, suffle, Facetime, and calling Features|url=https://www.apple.com/iphone/features/siri.html|publisher=Apple|access-date=27 April 2012}}</ref> इसके अतिरिक्त, सिरी ब्लूटूथ और वायर्ड हेडफ़ोन के साथ काम करता है।<ref>{{cite web|title=सिरी अक्सर पूछे जाने वाले प्रश्न|url=https://www.apple.com/iphone/features/siri-faq.html|publisher=Apple}}</ref> | [[आवाज नियंत्रण (एप्पल)|एप्पल]] ने [[iPhone OS 3]] की एक नई सुविधा के रूप में iOS उपकरणों की अपनी सूची में [[आवाज नियंत्रण (एप्पल)]] को जोड़ा। [[iPhone 4S]], iPad (तीसरी पीढ़ी), iPad Mini (पहली पीढ़ी), [[iPad Air]], [[iPad Pro]], iPod Touch (5वीं पीढ़ी) ) और बाद में, सभी [[ महोदय मै ]] नामक एक अधिक उन्नत वॉयस असिस्टेंट के साथ आते हैं। नए उपकरणों के सेटिंग मेनू के माध्यम से ध्वनि नियंत्रण को अभी भी सक्षम किया जा सकता है। सिरी एक उपयोगकर्ता स्वतंत्र अंतर्निहित वाक् पहचान सुविधा है जो उपयोगकर्ता को वॉयस कमांड जारी करने की अनुमति देती है। सिरी की सहायता से उपयोगकर्ता कमांड जारी कर सकता है, जैसे टेक्स्ट संदेश भेजना, मौसम की जांच करना, अनुस्मारक सेट करना, जानकारी ढूंढना, मीटिंग शेड्यूल करना, ईमेल भेजना, संपर्क ढूंढना, अलार्म सेट करना, दिशा-निर्देश प्राप्त करना, अपने स्टॉक को ट्रैक करना, एक टाइमर सेट करें, और नमूना वॉयस कमांड प्रश्नों के उदाहरण पूछें।<ref>{{cite web|title=Siri, The iPhone 3GS & 4, iPod 3 & 4, have voice control like an express Siri, it plays music, pauses music, suffle, Facetime, and calling Features|url=https://www.apple.com/iphone/features/siri.html|publisher=Apple|access-date=27 April 2012}}</ref> इसके अतिरिक्त, सिरी ब्लूटूथ और वायर्ड हेडफ़ोन के साथ काम करता है।<ref>{{cite web|title=सिरी अक्सर पूछे जाने वाले प्रश्न|url=https://www.apple.com/iphone/features/siri-faq.html|publisher=Apple}}</ref> | ||
===अमेज़ॅन एलेक्सा=== | ===अमेज़ॅन एलेक्सा=== | ||
2014 में अमेज़न ने [[अमेज़न एलेक्सा]] प्रस्तुत किया। इसका मुख्य उद्देश्य सिर्फ एक स्मार्ट स्पीकर था, जो उपभोक्ता को अपनी आवाज से डिवाइस को नियंत्रित करने की अनुमति देता था। अंततः, यह एक नवीन उपकरण में बदल गया जिसमें आवाज से घरेलू उपकरण को नियंत्रित करने की क्षमता थी। अब प्रकाश बल्ब और तापमान सहित लगभग सभी उपकरण एलेक्सा से नियंत्रित किए जा सकते हैं। आवाज नियंत्रण की अनुमति देकर, एलेक्सा स्मार्ट होम तकनीक से जुड़ सकता है जिससे आप अपने घर को बंद कर सकते हैं, तापमान को नियंत्रित कर सकते हैं और विभिन्न उपकरणों को सक्रिय कर सकते हैं। A.I का यह रूप किसी को केवल एक प्रश्न पूछने की अनुमति देता है, और जवाब में एलेक्सा उत्तर खोजती है, ढूंढती है और आपको जवाब सुनाती है।<ref>{{Cite web|url=https://www.businessinsider.com/amazon-echo-and-alexa-history-from-speaker-to-smart-home-hub-2017-5|title=अमेज़ॅन का इको एक स्मार्ट स्पीकर से आपके घर के केंद्र तक कैसे पहुंच गया|website=[[Business Insider]]}}</ref> | 2014 में अमेज़न ने [[अमेज़न एलेक्सा]] प्रस्तुत किया। इसका मुख्य उद्देश्य सिर्फ एक स्मार्ट स्पीकर था, जो उपभोक्ता को अपनी आवाज से डिवाइस को नियंत्रित करने की अनुमति देता था। अंततः, यह एक नवीन उपकरण में बदल गया जिसमें आवाज से घरेलू उपकरण को नियंत्रित करने की क्षमता थी। अब प्रकाश बल्ब और तापमान सहित लगभग सभी उपकरण एलेक्सा से नियंत्रित किए जा सकते हैं। आवाज नियंत्रण की अनुमति देकर, एलेक्सा स्मार्ट होम तकनीक से जुड़ सकता है जिससे आप अपने घर को बंद कर सकते हैं, तापमान को नियंत्रित कर सकते हैं और विभिन्न उपकरणों को सक्रिय कर सकते हैं। A.I का यह रूप किसी को केवल एक प्रश्न पूछने की अनुमति देता है, और जवाब में एलेक्सा उत्तर खोजती है, ढूंढती है और आपको जवाब सुनाती है।<ref>{{Cite web|url=https://www.businessinsider.com/amazon-echo-and-alexa-history-from-speaker-to-smart-home-hub-2017-5|title=अमेज़ॅन का इको एक स्मार्ट स्पीकर से आपके घर के केंद्र तक कैसे पहुंच गया|website=[[Business Insider]]}}</ref> | ||
==कारों में वाक् पहचान== | ==कारों में वाक् पहचान== | ||
जैसे-जैसे कार प्रौद्योगिकी में सुधार होगा, कारों में और अधिक सुविधाएँ जोड़ी जाएंगी और ये सुविधाएँ ड्राइवर का ध्यान भटका देंगी। [[सीएनईटी|CNET]] के अनुसार, कारों के लिए वॉयस कमांड से ड्राइवर को कमांड जारी करने की अनुमति मिलनी चाहिए और उसका ध्यान नहीं भटकना चाहिए। CNET ने कहा कि नुअंस सुझाव दे रहा था कि भविष्य में वे एक ऐसा सॉफ्टवेयर बनाएंगे जो सिरी जैसा होगा, लेकिन कारों के लिए।<ref name=C>{{cite web|title=सिरी जैसी आवाज|url=http://reviews.cnet.com/8301-13746_7-57321094-48/siri-like-voice-recognition-coming-to-cars/|publisher=CNET}}</ref> 2011 में बाज़ार में अधिकांश वाक् पहचान सॉफ़्टवेयर में केवल 50 से 60 वॉइस कमांड थे, लेकिन फोर्ड सिंक में 10,000 थे।<ref name=C /> यद्यपि, CNET ने सुझाव दिया कि 10,000 वॉयस कमांड भी जटिलता और उपयोगकर्ता द्वारा ड्राइविंग के दौरान किए जाने वाले कार्यों की विविधता को देखते हुए पर्याप्त नहीं थे।<ref name=C /> कारों के लिए वॉयस कमांड मोबाइल फोन और कंप्यूटर के लिए वॉयस कमांड से अलग है क्योंकि ड्राइवर इस सुविधा का उपयोग आस-पास के रेस्तरां, गैस, ड्राइविंग निर्देश, सड़क की स्थिति और निकटतम होटल के स्थान को देखने के लिए कर सकता है।<ref name=C /> वर्तमान में, प्रौद्योगिकी ड्राइवर को [[गार्मिन]] जैसे पोर्टेबल [[जीपीएस नेविगेशन डिवाइस]] और कार निर्माता नेविगेशन सिस्टम दोनों पर वॉयस कमांड जारी करने की अनुमति देती है।<ref>{{cite web|title=आवाज के साथ पोर्टेबल जीपीएस|url=http://reviews.cnet.com/4321-3430_7-6604366.html|publisher=CNET}}</ref> | जैसे-जैसे कार प्रौद्योगिकी में सुधार होगा, कारों में और अधिक सुविधाएँ जोड़ी जाएंगी और ये सुविधाएँ ड्राइवर का ध्यान भटका देंगी। [[सीएनईटी|CNET]] के अनुसार, कारों के लिए वॉयस कमांड से ड्राइवर को कमांड जारी करने की अनुमति मिलनी चाहिए और उसका ध्यान नहीं भटकना चाहिए। CNET ने कहा कि नुअंस सुझाव दे रहा था कि भविष्य में वे एक ऐसा सॉफ्टवेयर बनाएंगे जो सिरी जैसा होगा, लेकिन कारों के लिए।<ref name=C>{{cite web|title=सिरी जैसी आवाज|url=http://reviews.cnet.com/8301-13746_7-57321094-48/siri-like-voice-recognition-coming-to-cars/|publisher=CNET}}</ref> 2011 में बाज़ार में अधिकांश वाक् पहचान सॉफ़्टवेयर में केवल 50 से 60 वॉइस कमांड थे, लेकिन फोर्ड सिंक में 10,000 थे।<ref name=C /> यद्यपि, CNET ने सुझाव दिया कि 10,000 वॉयस कमांड भी जटिलता और उपयोगकर्ता द्वारा ड्राइविंग के दौरान किए जाने वाले कार्यों की विविधता को देखते हुए पर्याप्त नहीं थे।<ref name=C /> कारों के लिए वॉयस कमांड मोबाइल फोन और कंप्यूटर के लिए वॉयस कमांड से अलग है क्योंकि ड्राइवर इस सुविधा का उपयोग आस-पास के रेस्तरां, गैस, ड्राइविंग निर्देश, सड़क की स्थिति और निकटतम होटल के स्थान को देखने के लिए कर सकता है।<ref name=C /> वर्तमान में, प्रौद्योगिकी ड्राइवर को [[गार्मिन]] जैसे पोर्टेबल [[जीपीएस नेविगेशन डिवाइस]] और कार निर्माता नेविगेशन सिस्टम दोनों पर वॉयस कमांड जारी करने की अनुमति देती है।<ref>{{cite web|title=आवाज के साथ पोर्टेबल जीपीएस|url=http://reviews.cnet.com/4321-3430_7-6604366.html|publisher=CNET}}</ref> | ||
Line 96: | Line 83: | ||
अन्य तरीकों में नए प्रकार के इशारों का समर्थन करने के लिए स्पर्श-आधारित इंटरफेस (उदाहरण के लिए मोबाइल फोन पर) को बढ़ाने के लिए अशाब्दिक ध्वनियों को अपनाना सम्मिलित है जो अकेले उंगली इनपुट के साथ संभव नहीं होगा।<ref name="dlnext.acm.org"/> | अन्य तरीकों में नए प्रकार के इशारों का समर्थन करने के लिए स्पर्श-आधारित इंटरफेस (उदाहरण के लिए मोबाइल फोन पर) को बढ़ाने के लिए अशाब्दिक ध्वनियों को अपनाना सम्मिलित है जो अकेले उंगली इनपुट के साथ संभव नहीं होगा।<ref name="dlnext.acm.org"/> | ||
== डिज़ाइन चुनौतियाँ == | == डिज़ाइन चुनौतियाँ == | ||
वॉयस इंटरफेस प्रयोज्यता के लिए पर्याप्त संख्या में चुनौतियाँ प्रस्तुत करता है। ग्राफिकल यूजर इंटरफेस (GUIs) के विपरीत, वॉयस इंटरफेस डिजाइन के लिए सर्वोत्तम प्रथाएं अभी भी उभर रही हैं।<ref name=":0">{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/3236112.3236149|title=Design guidelines for hands-free speech interaction {{!}} Proceedings of the 20th International Conference on Human-Computer Interaction with Mobile Devices and Services Adjunct|website=dlnext.acm.org|language=EN|doi=10.1145/3236112.3236149|s2cid=52099112|access-date=2019-02-27}}</ref> | वॉयस इंटरफेस प्रयोज्यता के लिए पर्याप्त संख्या में चुनौतियाँ प्रस्तुत करता है। ग्राफिकल यूजर इंटरफेस (GUIs) के विपरीत, वॉयस इंटरफेस डिजाइन के लिए सर्वोत्तम प्रथाएं अभी भी उभर रही हैं।<ref name=":0">{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/3236112.3236149|title=Design guidelines for hands-free speech interaction {{!}} Proceedings of the 20th International Conference on Human-Computer Interaction with Mobile Devices and Services Adjunct|website=dlnext.acm.org|language=EN|doi=10.1145/3236112.3236149|s2cid=52099112|access-date=2019-02-27}}</ref> | ||
=== खोज योग्यता === | === खोज योग्यता === | ||
पूरी तरह से ऑडियो-आधारित इंटरैक्शन के साथ, वॉयस यूजर इंटरफेस कम खोज क्षमता से ग्रस्त होते हैं:<ref name=":0" /> उपयोगकर्ताओं के लिए सिस्टम की क्षमताओं के दायरे को समझना मुश्किल है। सिस्टम को यह बताने के लिए कि दृश्य प्रदर्शन के बिना क्या संभव है, उसे उपलब्ध विकल्पों की गणना करने की आवश्यकता होगी, जो थकाऊ या असंभव हो सकते हैं। कम खोज योग्यता के परिणामस्वरूप प्रायः उपयोगकर्ता इस बात को लेकर भ्रम की स्थिति में होते हैं कि उन्हें क्या कहने की अनुमति है, या सिस्टम की समझ की चौड़ाई के बारे में अपेक्षाओं में बेमेल है।<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/223904.223952|title=Designing SpeechActs {{!}} Proceedings of the SIGCHI Conference on Human Factors in Computing Systems|website=dlnext.acm.org|language=EN|doi=10.1145/223904.223952|s2cid=9313029|access-date=2019-02-27}}</ref><ref>{{Cite journal|title=What can I say? {{!}} Proceedings of the 18th International Conference on Human-Computer Interaction with Mobile Devices and Services|language=EN|doi=10.1145/2935334.2935386|s2cid=6246618|doi-access=free}}</ref> | पूरी तरह से ऑडियो-आधारित इंटरैक्शन के साथ, वॉयस यूजर इंटरफेस कम खोज क्षमता से ग्रस्त होते हैं:<ref name=":0" /> उपयोगकर्ताओं के लिए सिस्टम की क्षमताओं के दायरे को समझना मुश्किल है। सिस्टम को यह बताने के लिए कि दृश्य प्रदर्शन के बिना क्या संभव है, उसे उपलब्ध विकल्पों की गणना करने की आवश्यकता होगी, जो थकाऊ या असंभव हो सकते हैं। कम खोज योग्यता के परिणामस्वरूप प्रायः उपयोगकर्ता इस बात को लेकर भ्रम की स्थिति में होते हैं कि उन्हें क्या कहने की अनुमति है, या सिस्टम की समझ की चौड़ाई के बारे में अपेक्षाओं में बेमेल है।<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/223904.223952|title=Designing SpeechActs {{!}} Proceedings of the SIGCHI Conference on Human Factors in Computing Systems|website=dlnext.acm.org|language=EN|doi=10.1145/223904.223952|s2cid=9313029|access-date=2019-02-27}}</ref><ref>{{Cite journal|title=What can I say? {{!}} Proceedings of the 18th International Conference on Human-Computer Interaction with Mobile Devices and Services|language=EN|doi=10.1145/2935334.2935386|s2cid=6246618|doi-access=free}}</ref> | ||
=== प्रतिलेखन === | === प्रतिलेखन === | ||
यद्यपि हाल के वर्षों में वाक् पहचान तकनीक में काफी सुधार हुआ है, फिर भी ध्वनि उपयोगकर्ता इंटरफ़ेस अभी भी पार्सिंग या ट्रांसक्रिप्शन त्रुटियों से ग्रस्त है जिसमें उपयोगकर्ता के भाषण की सही ढंग से व्याख्या नहीं की जाती है।<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/3173574.3173580|title=Patterns for How Users Overcome Obstacles in Voice User Interfaces {{!}} Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems|website=dlnext.acm.org|language=EN|doi=10.1145/3173574.3173580|s2cid=5041672|access-date=2019-02-27}}</ref> ये त्रुटियाँ विशेष रूप से तब प्रचलित होती हैं जब भाषण सामग्री तकनीकी शब्दावली (जैसे चिकित्सा शब्दावली) या अपरंपरागत वर्तनी जैसे संगीत कलाकार या गीत के नाम का उपयोग करती है।<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/3173574.3173870|title="Play PRBLMS" {{!}} Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems|website=dlnext.acm.org|language=EN|doi=10.1145/3173574.3173870|s2cid=5050837|access-date=2019-02-27}}</ref> | यद्यपि हाल के वर्षों में वाक् पहचान तकनीक में काफी सुधार हुआ है, फिर भी ध्वनि उपयोगकर्ता इंटरफ़ेस अभी भी पार्सिंग या ट्रांसक्रिप्शन त्रुटियों से ग्रस्त है जिसमें उपयोगकर्ता के भाषण की सही ढंग से व्याख्या नहीं की जाती है।<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/3173574.3173580|title=Patterns for How Users Overcome Obstacles in Voice User Interfaces {{!}} Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems|website=dlnext.acm.org|language=EN|doi=10.1145/3173574.3173580|s2cid=5041672|access-date=2019-02-27}}</ref> ये त्रुटियाँ विशेष रूप से तब प्रचलित होती हैं जब भाषण सामग्री तकनीकी शब्दावली (जैसे चिकित्सा शब्दावली) या अपरंपरागत वर्तनी जैसे संगीत कलाकार या गीत के नाम का उपयोग करती है।<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/3173574.3173870|title="Play PRBLMS" {{!}} Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems|website=dlnext.acm.org|language=EN|doi=10.1145/3173574.3173870|s2cid=5050837|access-date=2019-02-27}}</ref> | ||
=== समझ === | === समझ === | ||
प्राकृतिक-भाषा की समझ को अधिकतम करने के लिए प्रभावी सिस्टम डिज़ाइन अनुसंधान का एक खुला क्षेत्र बना हुआ है। वॉयस यूजर इंटरफेस जो बातचीत की स्थिति की व्याख्या और प्रबंधन करते हैं, [[संदर्भ]], [[नामित-इकाई पहचान]], सूचना पुनर्प्राप्ति और [[ संवाद प्रबंधक ]] जैसे जटिल [[प्राकृतिक भाषा प्रसंस्करण]] कार्यों को एकीकृत करने की अंतर्निहित कठिनाई के कारण डिजाइन करना चुनौतीपूर्ण है।<ref>{{cite book|last=Galitsky|first=Boris|title=Developing Enterprise Chatbots: Learning Linguistic Structures|publisher=Springer|edition=1st|date=2019|location=Cham, Switzerland|language=en|isbn=978-3-030-04298-1|doi=10.1007/978-3-030-04299-8|pages=13–24|s2cid=102486666}}</ref> अधिकांश वॉयस असिस्टेंट आज एकल कमांड को बहुत अच्छी तरह से निष्पादित करने में सक्षम हैं, लेकिन एक संकीर्ण कार्य या बातचीत में कुछ बदलावों से परे संवाद को प्रबंधित करने की उनकी क्षमता सीमित है।<ref>{{cite book|last=Pearl|first=Cathy|title=Designing Voice User Interfaces: Principles of Conversational Experiences|publisher=O'Reilly Media|edition=1st|date=2016-12-06|location=Sebastopol, CA|language=en|isbn=978-1-491-95541-3|pages=16–19}}</ref> | प्राकृतिक-भाषा की समझ को अधिकतम करने के लिए प्रभावी सिस्टम डिज़ाइन अनुसंधान का एक खुला क्षेत्र बना हुआ है। वॉयस यूजर इंटरफेस जो बातचीत की स्थिति की व्याख्या और प्रबंधन करते हैं, [[संदर्भ]], [[नामित-इकाई पहचान]], सूचना पुनर्प्राप्ति और [[ संवाद प्रबंधक ]] जैसे जटिल [[प्राकृतिक भाषा प्रसंस्करण]] कार्यों को एकीकृत करने की अंतर्निहित कठिनाई के कारण डिजाइन करना चुनौतीपूर्ण है।<ref>{{cite book|last=Galitsky|first=Boris|title=Developing Enterprise Chatbots: Learning Linguistic Structures|publisher=Springer|edition=1st|date=2019|location=Cham, Switzerland|language=en|isbn=978-3-030-04298-1|doi=10.1007/978-3-030-04299-8|pages=13–24|s2cid=102486666}}</ref> अधिकांश वॉयस असिस्टेंट आज एकल कमांड को बहुत अच्छी तरह से निष्पादित करने में सक्षम हैं, लेकिन एक संकीर्ण कार्य या बातचीत में कुछ बदलावों से परे संवाद को प्रबंधित करने की उनकी क्षमता सीमित है।<ref>{{cite book|last=Pearl|first=Cathy|title=Designing Voice User Interfaces: Principles of Conversational Experiences|publisher=O'Reilly Media|edition=1st|date=2016-12-06|location=Sebastopol, CA|language=en|isbn=978-1-491-95541-3|pages=16–19}}</ref> | ||
== भविष्य में उपयोग == | == भविष्य में उपयोग == | ||
पॉकेट-आकार के उपकरण, जैसे व्यक्तिगत डिजिटल सहायक या [[ चल दूरभाष ]], वर्तमान में उपयोगकर्ता इनपुट के लिए छोटे बटन पर निर्भर हैं। ये या तो डिवाइस में निर्मित होते हैं या टच-स्क्रीन इंटरफ़ेस का हिस्सा होते हैं, जैसे कि Apple [[iPod Touch]] और [[iPhone]] Siri एप्लिकेशन। ऐसे छोटे बटन वाले उपकरणों पर व्यापक बटन दबाना थकाऊ और गलत हो सकता है, इसलिए उपयोग में आसान, सटीक और विश्वसनीय VUI संभावित रूप से उनके उपयोग की आसानी में एक बड़ी सफलता होगी। बहरहाल, इस तरह के VUI से लैपटॉप और डेस्कटॉप आकार के कंप्यूटर के उपयोगकर्ताओं को भी लाभ होगा, क्योंकि यह वर्तमान में कीबोर्ड और [[माउस (कंप्यूटिंग)]] के उपयोग से जुड़ी कई समस्याओं का समाधान करेगा, जिसमें [[कार्पल टनल सिंड्रोम]] जैसी दोहराव-तनाव की चोटें सम्मिलित हैं। दृष्टिबाधितों द्वारा डिजिटल इंटरफेस के भीतर नेविगेट करने और टेक्स्ट इनपुट करने की चुनौतियाँ,<ref>{{Cite journal |last1=Messaoudi |first1=Mohamed Dhiaeddine |last2=Menelas |first2=Bob-Antoine J. |last3=Mcheick |first3=Hamid |date=2022-10-17 |title=दृष्टिबाधित लोगों के लिए नेविगेशन सहायक उपकरण और प्रौद्योगिकियों की समीक्षा|journal=Sensors |language=en |volume=22 |issue=20 |pages=7888 |doi=10.3390/s22207888 |issn=1424-8220 |pmc=9606951 |pmid=36298237 |doi-access=free }}</ref> और अनुभवहीन कीबोर्ड उपयोगकर्ताओं की टाइपिंग गति धीमी है। इसके अतिरिक्त, कीबोर्ड का उपयोग सामान्यतः कनेक्टेड डिस्प्ले के सामने बैठकर या खड़े होकर किया जाता है; इसके विपरीत, एक VUI उपयोगकर्ता को अधिक मोबाइल होने के लिए मुक्त कर देगा, क्योंकि भाषण इनपुट कीबोर्ड को देखने की आवश्यकता को समाप्त कर देता है। | पॉकेट-आकार के उपकरण, जैसे व्यक्तिगत डिजिटल सहायक या [[ चल दूरभाष ]], वर्तमान में उपयोगकर्ता इनपुट के लिए छोटे बटन पर निर्भर हैं। ये या तो डिवाइस में निर्मित होते हैं या टच-स्क्रीन इंटरफ़ेस का हिस्सा होते हैं, जैसे कि Apple [[iPod Touch]] और [[iPhone]] Siri एप्लिकेशन। ऐसे छोटे बटन वाले उपकरणों पर व्यापक बटन दबाना थकाऊ और गलत हो सकता है, इसलिए उपयोग में आसान, सटीक और विश्वसनीय VUI संभावित रूप से उनके उपयोग की आसानी में एक बड़ी सफलता होगी। बहरहाल, इस तरह के VUI से लैपटॉप और डेस्कटॉप आकार के कंप्यूटर के उपयोगकर्ताओं को भी लाभ होगा, क्योंकि यह वर्तमान में कीबोर्ड और [[माउस (कंप्यूटिंग)]] के उपयोग से जुड़ी कई समस्याओं का समाधान करेगा, जिसमें [[कार्पल टनल सिंड्रोम]] जैसी दोहराव-तनाव की चोटें सम्मिलित हैं। दृष्टिबाधितों द्वारा डिजिटल इंटरफेस के भीतर नेविगेट करने और टेक्स्ट इनपुट करने की चुनौतियाँ,<ref>{{Cite journal |last1=Messaoudi |first1=Mohamed Dhiaeddine |last2=Menelas |first2=Bob-Antoine J. |last3=Mcheick |first3=Hamid |date=2022-10-17 |title=दृष्टिबाधित लोगों के लिए नेविगेशन सहायक उपकरण और प्रौद्योगिकियों की समीक्षा|journal=Sensors |language=en |volume=22 |issue=20 |pages=7888 |doi=10.3390/s22207888 |issn=1424-8220 |pmc=9606951 |pmid=36298237 |doi-access=free }}</ref> और अनुभवहीन कीबोर्ड उपयोगकर्ताओं की टाइपिंग गति धीमी है। इसके अतिरिक्त, कीबोर्ड का उपयोग सामान्यतः कनेक्टेड डिस्प्ले के सामने बैठकर या खड़े होकर किया जाता है; इसके विपरीत, एक VUI उपयोगकर्ता को अधिक मोबाइल होने के लिए मुक्त कर देगा, क्योंकि भाषण इनपुट कीबोर्ड को देखने की आवश्यकता को समाप्त कर देता है। | ||
Line 148: | Line 125: | ||
*[http://www.witlingo.com/voice-first-glossary-of-terms/ Voice First Glossary of Terms] | *[http://www.witlingo.com/voice-first-glossary-of-terms/ Voice First Glossary of Terms] | ||
*[http://www.witlingo.com/voice-first-books/ Voice First A Reading List] | *[http://www.witlingo.com/voice-first-books/ Voice First A Reading List] | ||
[[Category: यूजर इंटरफ़ेस तकनीक]] [[Category: आवाज तकनीक]] [[Category: वाक् पहचान]] [[Category: मानव-कंप्यूटर संपर्क का इतिहास]] | [[Category: यूजर इंटरफ़ेस तकनीक]] [[Category: आवाज तकनीक]] [[Category: वाक् पहचान]] [[Category: मानव-कंप्यूटर संपर्क का इतिहास]] | ||
Revision as of 12:17, 26 September 2023
एक वॉइस-यूज़र इंटरफ़ेस (VUI) कंप्यूटर के साथ बोली जाने वाली मानवीय बातचीत को संभव बनाता है, बोले गए आदेशों और प्रश्नों के उत्तर को समझने के लिए वाक् पहचान का उपयोग करता है, और सामान्यतः उत्तर को चलाने के लिए पाठ से वाक् तक का उपयोग करता है। वॉयस कमांड डिवाइस एक वॉयस यूजर इंटरफेस से नियंत्रित डिवाइस है।
वॉयस यूजर इंटरफेस को ऑटोमोबाइल, होम ऑटोमेशन सिस्टम, कंप्यूटर ऑपरेटिंग सिस्टम, वॉशिंग मशीन और माइक्रोवेव ओवन जैसे घरेलू उपकरणो और टेलीविजन रिमोट कंट्रोल में जोड़ा गया है। वे स्मार्टफोन्स और स्मार्ट स्पीकर पर वर्चुअल सहायकों के साथ बातचीत करने का प्राथमिक तरीका हैं। पुराने स्वचालित परिचारकों (जो फोन कॉल को सही एक्सटेंशन पर रूट करते हैं) और इंटरएक्टिव वॉयस रिस्पांस सिस्टम (जो फोन पर अधिक जटिल ट्रैन्ज़ैक्शन्ज़ करते हैं) DTMF टोन के माध्यम से कीपैड बटन दबाने पर प्रतिक्रिया दे सकते हैं, लेकिन पूर्ण वॉयस यूजर इंटरफेस वाले कॉलर्स को बिना किसी बटन दबाने के अनुरोध और जवाब बोलने की अनुमति देते हैं।
नए वॉयस कमांड डिवाइस स्पीकर-स्वतंत्र हैं, इसलिए वे उच्चारण या बोली संबंधी प्रभावों की परवाह किए बिना कई आवाजों पर प्रतिक्रिया दे सकते हैं। वे एक साथ कई आदेशों का जवाब देने, मौखिक संदेशों को अलग करने और प्राकृतिक बातचीत का सटीक अनुकरण करते हुए उचित प्रतिक्रिया प्रदान करने में भी सक्षम हैं।[1]
अवलोकन
VUI किसी भी स्पीच एप्लिकेशन का इंटरफ़ेस (कंप्यूटिंग) है। किसी मशीन को केवल बात करके नियंत्रित करना कुछ समय पहले तक विज्ञान कथा थी। कुछ समय पहले तक इस क्षेत्र को कृत्रिम बुद्धिमत्ता माना जाता था। यद्यपि, टेक्स्ट-टू-स्पीच, स्पीच-टू-टेक्स्ट, नेचुरल लैंग्वेज प्रोसेसिंग और क्लाउड सेवाओं जैसी प्रौद्योगिकियों में प्रगति ने, सामान्यतः इस प्रकार के इंटरफेस को बड़े पैमाने पर अपनाने में योगदान दिया है। VUI अधिक सामान्य हो गए हैं, और लोग कई स्थितियों में ये हैंड्स-फ्री, आई-फ्री इंटरफेस द्वारा प्रदान किए जाने वाले मूल्य का लाभ उठा रहे हैं।
VUI को इनपुट पर विश्वसनीय रूप से प्रतिक्रिया देने की आवश्यकता है, अन्यथा उन्हें अस्वीकार कर दिया जाएगा और प्रायः उनके उपयोगकर्ताओं द्वारा उनका उपहास किया जाएगा। एक अच्छे VUI को डिज़ाइन करने के लिए कंप्यूटर विज्ञान, भाषा विज्ञान और मानव कारक मनोविज्ञान की अंतःविषय प्रतिभाओं की आवश्यकता होती है - ये सभी ऐसे कौशल हैं जो महंगे हैं और इन्हें प्राप्त करना कठिन है। उन्नत विकास उपकरणों के साथ भी, एक प्रभावी VUI के निर्माण के लिए निष्पादित किए जाने वाले कार्यों के साथ-साथ अंतिम प्रणाली का उपयोग करने वाले लक्षित दर्शकों की गहन समझ की आवश्यकता होती है। VUI कार्य के उपयोगकर्ता के मानसिक मॉडल से जितना करीब से अनुकूल है, कम या बिना प्रशिक्षण के इसका उपयोग करना उतना ही आसान होगा, जिसके परिणामस्वरूप उच्च दक्षता और उच्च उपयोगकर्ता संतुष्टि दोनों होगी।
सामान्य जनता के लिए डिज़ाइन किए गए VUI को उपयोग में आसानी पर जोर देना चाहिए और पहली बार कॉल करने वालों के लिए बहुत अधिक सहायता और मार्गदर्शन प्रदान करना चाहिए। इसके विपरीत, बिजली उपयोगकर्ताओं के एक छोटे समूह (फ़ील्ड सेवा श्रमिकों सहित) के लिए डिज़ाइन किए गए VUI को उत्पादकता पर अधिक और सहायता और मार्गदर्शन पर कम ध्यान केंद्रित करना चाहिए। ऐसे अनुप्रयोगों को कॉल प्रवाह को सुव्यवस्थित, संकेतों को कम, अनावश्यक पुनरावृत्तियों को समाप्त करना चाहिए और विस्तृत मिश्रित पहल संवाद प्रणाली की अनुमति देनी चाहिए, जो कॉल करने वालों को एक ही उच्चारण में और किसी भी क्रम या संयोजन में जानकारी के कई टुकड़े प्रविष्ट करने में सक्षम बनाती है। संक्षेप में, स्वचालित होने वाली विशिष्ट व्यावसायिक प्रक्रिया के लिए भाषण अनुप्रयोगों को सावधानीपूर्वक तैयार किया जाना चाहिए।
सभी व्यावसायिक प्रक्रियाएँ वाक् स्वचालन के लिए स्वयं को समान रूप से प्रस्तुत नहीं करती हैं। सामान्यतः, पूछताछ और लेनदेन जितने अधिक जटिल होंगे, उन्हें स्वचालित करना उतना ही अधिक चुनौतीपूर्ण होगा, और सामान्य जनता के साथ उनके विफल होने की संभावना उतनी ही अधिक होगी। कुछ परिदृश्यों में, स्वचालन बिल्कुल लागू नहीं होता है, इसलिए लाइव एजेंट सहायता ही एकमात्र विकल्प है। उदाहरण के लिए, कानूनी सलाह हॉटलाइन को स्वचालित करना बहुत कठिन होगा। दूसरी ओर, भाषण त्वरित और नियमित लेनदेन को संभालने के लिए एकदम सही है, जैसे कार्य ऑर्डर की स्थिति बदलना, समय या व्यय प्रविष्टि को पूरा करना, या खातों के बीच धन स्थानांतरित करना हैं।
इतिहास
VUI के प्रारंभी अनुप्रयोगों में सीधे या (सामान्यतः ब्लूटूथ) हेडसेट या वाहन ऑडियो सिस्टम के माध्यम से फोन की आवाज-सक्रिय डायलिंग (टेलीफोनी) सम्मिलित थी।
2007 में, CNN मनी बिजनेस लेख में बताया गया कि वॉयस कमांड एक अरब डॉलर से अधिक का उद्योग था और गूगल और Apple Inc. जैसी कंपनियां वाक् पहचान सुविधाओं को बनाने की कोशिश कर रही थीं।[2] लेख को प्रकाशित हुए कई साल हो गए हैं, और तब से दुनिया ने विभिन्न प्रकार के वॉयस कमांड डिवाइस देखे हैं। इसके अतिरिक्त, गूगल ने Pico TTS नामक एक वाक् पहचान इंजन बनाया और Apple ने Siri जारी किया है। वॉयस कमांड डिवाइस अधिक व्यापक रूप से उपलब्ध हो रहे हैं, और मानव आवाज का उपयोग करने के लिए हमेशा नए तरीके बनाए जा रहे हैं। उदाहरण के लिए, बिजनेस वीक सुझाव देता है कि भविष्य का रिमोट कंट्रोलर इंसान की आवाज बनने जा रहा है। वर्तमान में Xbox Live ऐसी सुविधाओं की अनुमति देता है और स्टीव जॉब्स ने नए Apple TV पर ऐसी सुविधा का संकेत दिया है।[3]
कंप्यूटिंग उपकरणों पर वॉयस कमांड सॉफ्टवेयर उत्पाद
ऐप्पल एप्पल मैकिंटोश और विंडोज PCनिजी कंप्यूटर दोनों अपने नवीनतम ऑपरेटिंग सिस्टम के लिए अंतर्निहित वाक् पहचान सुविधाएँ प्रदान करते हैं।
माइक्रोसॉफ्ट विंडोज़
दो माइक्रोसॉफ्ट ऑपरेटिंग सिस्टम, विंडोज 7 और विंडोज़ विस्टा, वाक् पहचान क्षमताएँ प्रदान करते हैं। माइक्रोसॉफ्ट ने उन लोगों के लिए एक तंत्र प्रदान करने के लिए अपने ऑपरेटिंग सिस्टम में वॉयस कमांड को एकीकृत किया है जो माउस और कीबोर्ड के उपयोग को सीमित करना चाहते हैं, लेकिन फिर भी अपनी समग्र उत्पादकता को बनाए रखना या बढ़ाना चाहते हैं।[4]
विंडोज विस्टा
विंडोज विस्टा वॉयस कंट्रोल के साथ, उपयोगकर्ता मुख्यधारा के अनुप्रयोगों में दस्तावेजों और ईमेल को निर्देशित कर सकता है, अनुप्रयोगों के बीच शुरू और स्विच कर सकता है, ऑपरेटिंग सिस्टम को नियंत्रित, दस्तावेजों को प्रारूपित और सहेज, फाइलों को संपादित, त्रुटियों को कुशलतापूर्वक ठीक और इंटरनेट पर फॉर्म भर सकता है। जब भी कोई उपयोगकर्ता इसका उपयोग करता है तो वाक् पहचान सॉफ्टवेयर स्वचालित रूप से सीखता है, और वाक् पहचान अंग्रेजी (U.S.), अंग्रेजी (U.K.), जर्मन (जर्मनी), फ्रेंच (फ्रांस), स्पेनिश (स्पेन), जापानी, चीनी (पारंपरिक) में उपलब्ध है। इसके अतिरिक्त, सॉफ्टवेयर एक इंटरैक्टिव ट्यूटोरियल के साथ आता है, जिसका उपयोग उपयोगकर्ता और वाक् पहचान इंजन दोनों को प्रशिक्षित करने के लिए किया जा सकता है।[5]
विंडोज़ 7
विंडोज विस्टा में प्रदान की गई सभी सुविधाओं के अतिरिक्त, विंडोज 7 माइक्रोफ़ोन सेट करने के लिए एक विज़ार्ड और सुविधा का उपयोग करने के तरीके पर एक ट्यूटोरियल प्रदान करता है।[6]
Mac OS X
सभी Mac OS सॉफ़्टवेयर उपयोगकर्ता-स्वतंत्र है, और यह उपयोगकर्ता को मेनू नेविगेट करने और कीबोर्ड शॉर्टकट दर्ज करने की अनुमति देता है; चेकबॉक्स नाम, रेडियो बटन नाम, सूची आइटम और बटन नाम बोलें; और अनुप्रयोगों के बीच खोलें, बंद करें, नियंत्रित करें और स्विच करें।[7] यद्यपि, Apple वेबसाइट उपयोगकर्ता को MacSpeech Dictate नामक एक वाणिज्यिक उत्पाद खरीदने की सलाह देती है।[7]
वाणिज्यिक उत्पाद
यदि कोई उपयोगकर्ता अंतर्निहित वाक् पहचान सॉफ़्टवेयर से संतुष्ट नहीं है या किसी उपयोगकर्ता के पास अपने OS के लिए निर्मित वाक् पहचान सॉफ़्टवेयर नहीं है, तो उपयोगकर्ता विंडोज़ पीसी के लिए Braina या स्वाभाविक रूप से बोलना जैसे व्यावसायिक उत्पाद के साथ प्रयोग कर सकता है।[8] डिक्टेट, मैक OS के लिए एक ही सॉफ्टवेयर का नाम है।[9]
वॉइस कमांड मोबाइल डिवाइस
एंड्रॉइड OS, माइक्रोसॉफ्ट विंडोज फोन, iOS 9 या उसके बाद का संस्करण या ब्लैकबेरी OS चलाने वाला कोई भी मोबाइल डिवाइस वॉयस कमांड क्षमताएं प्रदान करता है। प्रत्येक मोबाइल फोन के ऑपरेटिंग सिस्टम के लिए निर्मित वाक् पहचान सॉफ्टवेयर के अतिरिक्त, एक उपयोगकर्ता प्रत्येक ऑपरेटिंग सिस्टम के एप्लिकेशन स्टोर से थर्ड पार्टी वॉयस कमांड एप्लिकेशन डाउनलोड कर सकता है: ऐप स्टोर (iOS), गूगल प्ले, विंडोज फोन मार्केटप्लेस (प्रारंभ में मोबाइल के लिए विंडोज़ मार्केटप्लेस) , या ब्लैकबेरी ऐप वर्ल्ड।
एंड्रॉइड OS
गूगल ने एंड्रॉइड (ऑपरेटिंग सिस्टम) नामक एक ओपन सोर्स ऑपरेटिंग सिस्टम विकसित किया है, जो उपयोगकर्ता को वॉयस कमांड करने की अनुमति देता है जैसे: टेक्स्ट संदेश भेजना, संगीत सुनना, दिशानिर्देश प्राप्त करना, व्यवसायों को कॉल करना, संपर्कों को कॉल करना, ईमेल भेजना, मानचित्र देखना, वेबसाइटों पर जाएँ, एक नोट लिखें और गूगल पर खोजें।[10] वाक् पहचान सॉफ़्टवेयर एंड्रॉइड Froyo|एंड्रॉइड 2.2 Froyo के बाद से सभी उपकरणों के लिए उपलब्ध है, लेकिन सेटिंग्स को अंग्रेजी पर सेट किया जाना चाहिए।[10] गूगल उपयोगकर्ता को भाषा बदलने की अनुमति देता है, और जब उपयोगकर्ता पहली बार वाक् पहचान सुविधा का उपयोग करता है तो उसे संकेत दिया जाता है कि क्या वह चाहता है कि उसका ध्वनि डेटा उसके गूगल खाते से जुड़ा हो। यदि कोई उपयोगकर्ता इस सेवा को चुनने का निर्णय लेता है, तो यह गूगल को सॉफ़्टवेयर को उपयोगकर्ता की आवाज़ के अनुसार प्रशिक्षित करने की अनुमति देता है।[11]
गूगल ने गूगल असिस्टेंट को एंड्रॉयड 7.0 Nougat के साथ प्रस्तुत किया। यह पुराने वर्जन से कहीं ज्यादा एडवांस है।
अमेजन.कॉम के पास अमेजन इको है जो वॉयस इंटरफ़ेस प्रदान करने के लिए अमेजन के एंड्रॉइड के कस्टम संस्करण का उपयोग करता है।
माइक्रोसॉफ्ट विंडोज़
विंडोज़ फोन माइक्रोसॉफ्ट के मोबाइल डिवाइस का ऑपरेटिंग सिस्टम है। विंडोज फोन 7.5 पर, स्पीच ऐप उपयोगकर्ता के लिए स्वतंत्र है और इसका उपयोग किया जा सकता है: अपनी संपर्क सूची से किसी को कॉल करें, किसी भी फोन नंबर पर कॉल करें, अंतिम नंबर को फिर से डायल करें, एक टेक्स्ट संदेश भेजें, अपने वॉयस मेल पर कॉल करें, एक एप्लिकेशन खोलें, अपॉइंटमेंट पढ़ें, फ़ोन की स्थिति पूछें, और वेब पर खोजें।[12][13] इसके अतिरिक्त, फोन कॉल के दौरान भाषण का भी उपयोग किया जा सकता है, और फोन कॉल के दौरान निम्नलिखित क्रियाएं संभव हैं: एक नंबर दबाएं, स्पीकर फोन चालू करें, या किसी को कॉल करें, जो वर्तमान कॉल को रोक देता है।[13]
विंडोज 10 ने कॉर्टाना (सॉफ्टवेयर) प्रस्तुत किया है, जो एक आवाज नियंत्रण प्रणाली है जो विंडोज फोन पर पहले उपयोग किए गए आवाज नियंत्रण को प्रतिस्थापित करती है।
iOS
एप्पल ने iPhone OS 3 की एक नई सुविधा के रूप में iOS उपकरणों की अपनी सूची में आवाज नियंत्रण (एप्पल) को जोड़ा। iPhone 4S, iPad (तीसरी पीढ़ी), iPad Mini (पहली पीढ़ी), iPad Air, iPad Pro, iPod Touch (5वीं पीढ़ी) ) और बाद में, सभी महोदय मै नामक एक अधिक उन्नत वॉयस असिस्टेंट के साथ आते हैं। नए उपकरणों के सेटिंग मेनू के माध्यम से ध्वनि नियंत्रण को अभी भी सक्षम किया जा सकता है। सिरी एक उपयोगकर्ता स्वतंत्र अंतर्निहित वाक् पहचान सुविधा है जो उपयोगकर्ता को वॉयस कमांड जारी करने की अनुमति देती है। सिरी की सहायता से उपयोगकर्ता कमांड जारी कर सकता है, जैसे टेक्स्ट संदेश भेजना, मौसम की जांच करना, अनुस्मारक सेट करना, जानकारी ढूंढना, मीटिंग शेड्यूल करना, ईमेल भेजना, संपर्क ढूंढना, अलार्म सेट करना, दिशा-निर्देश प्राप्त करना, अपने स्टॉक को ट्रैक करना, एक टाइमर सेट करें, और नमूना वॉयस कमांड प्रश्नों के उदाहरण पूछें।[14] इसके अतिरिक्त, सिरी ब्लूटूथ और वायर्ड हेडफ़ोन के साथ काम करता है।[15]
अमेज़ॅन एलेक्सा
2014 में अमेज़न ने अमेज़न एलेक्सा प्रस्तुत किया। इसका मुख्य उद्देश्य सिर्फ एक स्मार्ट स्पीकर था, जो उपभोक्ता को अपनी आवाज से डिवाइस को नियंत्रित करने की अनुमति देता था। अंततः, यह एक नवीन उपकरण में बदल गया जिसमें आवाज से घरेलू उपकरण को नियंत्रित करने की क्षमता थी। अब प्रकाश बल्ब और तापमान सहित लगभग सभी उपकरण एलेक्सा से नियंत्रित किए जा सकते हैं। आवाज नियंत्रण की अनुमति देकर, एलेक्सा स्मार्ट होम तकनीक से जुड़ सकता है जिससे आप अपने घर को बंद कर सकते हैं, तापमान को नियंत्रित कर सकते हैं और विभिन्न उपकरणों को सक्रिय कर सकते हैं। A.I का यह रूप किसी को केवल एक प्रश्न पूछने की अनुमति देता है, और जवाब में एलेक्सा उत्तर खोजती है, ढूंढती है और आपको जवाब सुनाती है।[16]
कारों में वाक् पहचान
जैसे-जैसे कार प्रौद्योगिकी में सुधार होगा, कारों में और अधिक सुविधाएँ जोड़ी जाएंगी और ये सुविधाएँ ड्राइवर का ध्यान भटका देंगी। CNET के अनुसार, कारों के लिए वॉयस कमांड से ड्राइवर को कमांड जारी करने की अनुमति मिलनी चाहिए और उसका ध्यान नहीं भटकना चाहिए। CNET ने कहा कि नुअंस सुझाव दे रहा था कि भविष्य में वे एक ऐसा सॉफ्टवेयर बनाएंगे जो सिरी जैसा होगा, लेकिन कारों के लिए।[17] 2011 में बाज़ार में अधिकांश वाक् पहचान सॉफ़्टवेयर में केवल 50 से 60 वॉइस कमांड थे, लेकिन फोर्ड सिंक में 10,000 थे।[17] यद्यपि, CNET ने सुझाव दिया कि 10,000 वॉयस कमांड भी जटिलता और उपयोगकर्ता द्वारा ड्राइविंग के दौरान किए जाने वाले कार्यों की विविधता को देखते हुए पर्याप्त नहीं थे।[17] कारों के लिए वॉयस कमांड मोबाइल फोन और कंप्यूटर के लिए वॉयस कमांड से अलग है क्योंकि ड्राइवर इस सुविधा का उपयोग आस-पास के रेस्तरां, गैस, ड्राइविंग निर्देश, सड़क की स्थिति और निकटतम होटल के स्थान को देखने के लिए कर सकता है।[17] वर्तमान में, प्रौद्योगिकी ड्राइवर को गार्मिन जैसे पोर्टेबल जीपीएस नेविगेशन डिवाइस और कार निर्माता नेविगेशन सिस्टम दोनों पर वॉयस कमांड जारी करने की अनुमति देती है।[18]
मोटर निर्माताओं द्वारा उपलब्ध कराए गए वॉयस कमांड सिस्टम की सूची:
- फोर्ड सिंक
- लेक्सस वॉयस कमांड
- क्रिसलर यूकनेक्ट
- होंडा एकॉर्ड
- GM इंटेलीलिंक
- बीएमडब्लू
- मर्सिडीज
- पाइअनिर
- हरमन
- हुंडई
अशाब्दिक इनपुट
जबकि अधिकांश ध्वनि उपयोगकर्ता इंटरफ़ेस मौखिक मानव भाषा के माध्यम से बातचीत का समर्थन करने के लिए डिज़ाइन किए गए हैं, इंटरफ़ेस डिज़ाइन करने में हाल ही में अन्वेषण अशाब्दिक मानव ध्वनियों को इनपुट के रूप में लेते हैं। इन प्रणालियों में, उपयोगकर्ता गैर-वाक् ध्वनियाँ जैसे गुनगुनाना, सीटी बजाना या माइक्रोफ़ोन में फूंक मारकर इंटरफ़ेस को नियंत्रित करता है।[19]
अशाब्दिक ध्वनि उपयोगकर्ता इंटरफ़ेस का ऐसा एक उदाहरण ब्लेंडी है,[20][21] केली डॉब्सन द्वारा निर्मित एक इंटरैक्टिव आर्ट इंस्टॉलेशन। इस टुकड़े में 1950 के दशक का एक क्लासिक ब्लेंडर सम्मिलित था जिसे माइक्रोफ़ोन इनपुट पर प्रतिक्रिया देने के लिए रेट्रोफिट किया गया था। ब्लेंडर को नियंत्रित करने के लिए, उपयोगकर्ता को उन घूमने वाली यांत्रिक ध्वनियों की नकल करनी चाहिए जो एक ब्लेंडर सामान्यतः बनाता है: उपयोगकर्ता की कम आवाज वाली गुर्राहट के जवाब में ब्लेंडर धीरे-धीरे घूमेगा, और जैसे-जैसे उपयोगकर्ता उच्च स्वर वाली ध्वनि बनाता है, गति में वृद्धि होगी।
एक अन्य उदाहरण वॉइसड्रॉ है,[22] एक अनुसंधान प्रणाली जो सीमित मोटर क्षमताओं वाले व्यक्तियों के लिए डिजिटल ड्राइंग को सक्षम बनाती है। वॉयसड्रा उपयोगकर्ताओं को स्वर ध्वनियों को संशोधित करके डिजिटल कैनवास पर स्ट्रोक पेंट करने की अनुमति देता है, जिन्हें ब्रश दिशाओं में मैप किया जाता है। अन्य पारभाषिक विशेषताओं (उदाहरण के लिए उनकी आवाज की तीव्रता) को संशोधित करने से उपयोगकर्ता को ड्राइंग की विभिन्न विशेषताओं को नियंत्रित करने की अनुमति मिलती है, जैसे ब्रश स्ट्रोक की मोटाई।
अन्य तरीकों में नए प्रकार के इशारों का समर्थन करने के लिए स्पर्श-आधारित इंटरफेस (उदाहरण के लिए मोबाइल फोन पर) को बढ़ाने के लिए अशाब्दिक ध्वनियों को अपनाना सम्मिलित है जो अकेले उंगली इनपुट के साथ संभव नहीं होगा।[19]
डिज़ाइन चुनौतियाँ
वॉयस इंटरफेस प्रयोज्यता के लिए पर्याप्त संख्या में चुनौतियाँ प्रस्तुत करता है। ग्राफिकल यूजर इंटरफेस (GUIs) के विपरीत, वॉयस इंटरफेस डिजाइन के लिए सर्वोत्तम प्रथाएं अभी भी उभर रही हैं।[23]
खोज योग्यता
पूरी तरह से ऑडियो-आधारित इंटरैक्शन के साथ, वॉयस यूजर इंटरफेस कम खोज क्षमता से ग्रस्त होते हैं:[23] उपयोगकर्ताओं के लिए सिस्टम की क्षमताओं के दायरे को समझना मुश्किल है। सिस्टम को यह बताने के लिए कि दृश्य प्रदर्शन के बिना क्या संभव है, उसे उपलब्ध विकल्पों की गणना करने की आवश्यकता होगी, जो थकाऊ या असंभव हो सकते हैं। कम खोज योग्यता के परिणामस्वरूप प्रायः उपयोगकर्ता इस बात को लेकर भ्रम की स्थिति में होते हैं कि उन्हें क्या कहने की अनुमति है, या सिस्टम की समझ की चौड़ाई के बारे में अपेक्षाओं में बेमेल है।[24][25]
प्रतिलेखन
यद्यपि हाल के वर्षों में वाक् पहचान तकनीक में काफी सुधार हुआ है, फिर भी ध्वनि उपयोगकर्ता इंटरफ़ेस अभी भी पार्सिंग या ट्रांसक्रिप्शन त्रुटियों से ग्रस्त है जिसमें उपयोगकर्ता के भाषण की सही ढंग से व्याख्या नहीं की जाती है।[26] ये त्रुटियाँ विशेष रूप से तब प्रचलित होती हैं जब भाषण सामग्री तकनीकी शब्दावली (जैसे चिकित्सा शब्दावली) या अपरंपरागत वर्तनी जैसे संगीत कलाकार या गीत के नाम का उपयोग करती है।[27]
समझ
प्राकृतिक-भाषा की समझ को अधिकतम करने के लिए प्रभावी सिस्टम डिज़ाइन अनुसंधान का एक खुला क्षेत्र बना हुआ है। वॉयस यूजर इंटरफेस जो बातचीत की स्थिति की व्याख्या और प्रबंधन करते हैं, संदर्भ, नामित-इकाई पहचान, सूचना पुनर्प्राप्ति और संवाद प्रबंधक जैसे जटिल प्राकृतिक भाषा प्रसंस्करण कार्यों को एकीकृत करने की अंतर्निहित कठिनाई के कारण डिजाइन करना चुनौतीपूर्ण है।[28] अधिकांश वॉयस असिस्टेंट आज एकल कमांड को बहुत अच्छी तरह से निष्पादित करने में सक्षम हैं, लेकिन एक संकीर्ण कार्य या बातचीत में कुछ बदलावों से परे संवाद को प्रबंधित करने की उनकी क्षमता सीमित है।[29]
भविष्य में उपयोग
पॉकेट-आकार के उपकरण, जैसे व्यक्तिगत डिजिटल सहायक या चल दूरभाष , वर्तमान में उपयोगकर्ता इनपुट के लिए छोटे बटन पर निर्भर हैं। ये या तो डिवाइस में निर्मित होते हैं या टच-स्क्रीन इंटरफ़ेस का हिस्सा होते हैं, जैसे कि Apple iPod Touch और iPhone Siri एप्लिकेशन। ऐसे छोटे बटन वाले उपकरणों पर व्यापक बटन दबाना थकाऊ और गलत हो सकता है, इसलिए उपयोग में आसान, सटीक और विश्वसनीय VUI संभावित रूप से उनके उपयोग की आसानी में एक बड़ी सफलता होगी। बहरहाल, इस तरह के VUI से लैपटॉप और डेस्कटॉप आकार के कंप्यूटर के उपयोगकर्ताओं को भी लाभ होगा, क्योंकि यह वर्तमान में कीबोर्ड और माउस (कंप्यूटिंग) के उपयोग से जुड़ी कई समस्याओं का समाधान करेगा, जिसमें कार्पल टनल सिंड्रोम जैसी दोहराव-तनाव की चोटें सम्मिलित हैं। दृष्टिबाधितों द्वारा डिजिटल इंटरफेस के भीतर नेविगेट करने और टेक्स्ट इनपुट करने की चुनौतियाँ,[30] और अनुभवहीन कीबोर्ड उपयोगकर्ताओं की टाइपिंग गति धीमी है। इसके अतिरिक्त, कीबोर्ड का उपयोग सामान्यतः कनेक्टेड डिस्प्ले के सामने बैठकर या खड़े होकर किया जाता है; इसके विपरीत, एक VUI उपयोगकर्ता को अधिक मोबाइल होने के लिए मुक्त कर देगा, क्योंकि भाषण इनपुट कीबोर्ड को देखने की आवश्यकता को समाप्त कर देता है।
इस तरह के विकास वस्तुतः वर्तमान मशीनों का चेहरा बदल सकते हैं और उपयोगकर्ता उनके साथ कैसे बातचीत करते हैं, इस पर दूरगामी प्रभाव पड़ सकता है। हाथ से पकड़े जाने वाले उपकरणों को बड़े, देखने में आसान स्क्रीन के साथ डिज़ाइन किया जाएगा, क्योंकि किसी कीबोर्ड की आवश्यकता नहीं होगी। टच-स्क्रीन उपकरणों को अब सामग्री और ऑन-स्क्रीन कीबोर्ड के बीच डिस्प्ले को विभाजित करने की आवश्यकता नहीं होगी, इस प्रकार सामग्री को पूर्ण-स्क्रीन देखने की सुविधा मिलेगी। लैपटॉप कंप्यूटर को आकार के आधार पर अनिवार्य रूप से आधा किया जा सकता है, क्योंकि कीबोर्ड का आधा हिस्सा हटा दिया जाएगा और सभी आंतरिक घटकों को डिस्प्ले के पीछे एकीकृत किया जाएगा, जिसके परिणामस्वरूप प्रभावी रूप से एक साधारण टैबलेट कंप्यूटर बनेगा। डेस्कटॉप कंप्यूटर में एक सीपीयू और स्क्रीन सम्मिलित होगी, जिससे डेस्कटॉप पर कीबोर्ड द्वारा कब्जा कर लिया गया स्थान बच जाएगा और डेस्क की सतह के नीचे बने स्लाइडिंग कीबोर्ड रेस्ट को खत्म कर दिया जाएगा। माइक्रोवेव ओवन से लेकर फोटोकॉपियर तक दर्जनों अन्य उपकरणों पर टेलीविजन रिमोट कंट्रोल और कीपैड को भी खत्म किया जा सकता है।
यद्यपि, इस तरह के विकास के लिए कई चुनौतियों से पार पाना होगा। सबसे पहले, VUI को इनपुट, जैसे कमांड और पृष्ठभूमि वार्तालाप के बीच अंतर करने के लिए पर्याप्त परिष्कृत होना होगा; अन्यथा, गलत इनपुट दर्ज किया जाएगा और कनेक्टेड डिवाइस गलत व्यवहार करेगा। एक मानक प्रॉम्प्ट, जैसे कि प्रसिद्ध कंप्यूटर! साइंस फिक्शन टीवी शो और स्टार ट्रेक जैसी फिल्मों में पात्रों द्वारा कॉल, VUI को सक्रिय कर सकता है और इसे उसी स्पीकर द्वारा आगे इनपुट प्राप्त करने के लिए तैयार कर सकता है। संभवतः, VUI में मानव जैसा प्रतिनिधित्व भी सम्मिलित हो सकता है: उदाहरण के लिए, एक आवाज या यहां तक कि एक ऑन-स्क्रीन चरित्र, जो वापस प्रतिक्रिया करता है (उदाहरण के लिए, "हां, वामशी"?) और उपयोगकर्ता के साथ आगे और पीछे संवाद करना जारी रखता है। प्राप्त इनपुट को स्पष्ट करें और सटीकता सुनिश्चित करें।
दूसरा, VUI को जानकारी को सटीक रूप से संसाधित करने और खोजने/पुनर्प्राप्त करने या विशेष उपयोगकर्ता की प्राथमिकताओं के अनुसार कार्रवाई करने के लिए अत्यधिक परिष्कृत सॉफ़्टवेयर के साथ मिलकर काम करना होगा। उदाहरण के लिए, यदि सामंथा किसी विशेष समाचार पत्र से जानकारी पसंद करती है, और यदि वह चाहती है कि जानकारी को बिंदु-रूप में संक्षेपित किया जाए, तो वह कह सकती है, "कंप्यूटर, मुझे कल रात दक्षिणी चीन में आई बाढ़ के बारे में कुछ जानकारी ढूंढो"; जवाब में, VUI जो उसकी प्राथमिकताओं से परिचित है, उस स्रोत से "दक्षिणी चीन" में बाढ़ के बारे में तथ्य ढूंढेगा, इसे बिंदु-रूप में परिवर्तित करेगा, और इसे स्क्रीन पर और/या आवाज के रूप में, एक उद्धरण के साथ उसे वितरित करेगा। इसलिए, VUI से जुड़ी मशीन के हिस्से पर कुछ हद तक कृत्रिम बुद्धिमत्ता के साथ-साथ सटीक वाक् पहचान|वाक्-पहचान सॉफ्टवेयर की आवश्यकता होगी।
गोपनीयता निहितार्थ
गोपनीयता संबंधी चिंताएँ इस तथ्य से उत्पन्न होती हैं कि वॉयस कमांड वॉयस-यूजर इंटरफेस के प्रदाताओं के लिए अनएन्क्रिप्टेड रूप में उपलब्ध हैं, और इस प्रकार इसे तीसरे पक्ष के साथ साझा किया जा सकता है और अनधिकृत या अप्रत्याशित तरीके से संसाधित किया जा सकता है।[31][32] रिकॉर्ड किए गए भाषण की भाषाई सामग्री के अतिरिक्त, उपयोगकर्ता की अभिव्यक्ति के तरीके और आवाज की विशेषताओं में उसकी बायोमेट्रिक पहचान, व्यक्तित्व लक्षण, शरीर का आकार, शारीरिक और मानसिक स्वास्थ्य स्थिति, लिंग, मूड और भावनाओं, सामाजिक आर्थिक स्थिति और भौगोलिक मूल के बारे में जानकारी निहित हो सकती है।[33]
यह भी देखें
- वाक् पहचान
- भाषा संकलन
- वाक् पहचान सॉफ़्टवेयर की सूची
- प्राकृतिक भाषा उपयोगकर्ता इंटरफ़ेस
- यूजर इंटरफ़ेस डिज़ाइन
- ध्वनि ब्राउज़र
- आवाज़ से आदेश
- लिनक्स में वाक् पहचान
- लिंगुआट्रोनिक
- घर स्वचालन
- ध्वनि कंप्यूटिंग
संदर्भ
- ↑ "वॉशिंग मशीन आवाज नियंत्रण". Appliance Magazine.
- ↑ Borzo, Jeanette (8 February 2007). "अब आप बात कर रहे हैं". CNN Money. Retrieved 25 April 2012.
- ↑ "Voice Control, the End of the TV Remote?". Bloomberg.com. Business Week. 9 December 2011. Archived from the original on December 8, 2011. Retrieved 1 May 2012.
- ↑ "विंडोज़ विस्टा बिल्ट इन स्पीच". Windows Vista. Retrieved 25 April 2012.
- ↑ "विस्टा पर भाषण संचालन". Microsoft.
- ↑ "वाक् पहचान सेट अप". Microsoft.
- ↑ 7.0 7.1 "शारीरिक और मोटर कौशल". Apple.
- ↑ "ड्रैगननेचरलीस्पीकिंग पीसी". Nuance.
- ↑ "ड्रैगननैचरलीस्पीकिंग मैक". Nuance.
- ↑ 10.0 10.1 "ध्वनि क्रियाएँ".
- ↑ "एंड्रॉइड के लिए Google Voice खोज अब आपकी आवाज़ के लिए "प्रशिक्षित" हो सकती है". 14 December 2010. Retrieved 24 April 2012.
- ↑ "वॉइस कमांड का उपयोग करना". Microsoft. Retrieved 24 April 2012.
- ↑ 13.0 13.1 "वॉइस कमांड का उपयोग करना". Microsoft. Retrieved 27 April 2012.
- ↑ "Siri, The iPhone 3GS & 4, iPod 3 & 4, have voice control like an express Siri, it plays music, pauses music, suffle, Facetime, and calling Features". Apple. Retrieved 27 April 2012.
- ↑ "सिरी अक्सर पूछे जाने वाले प्रश्न". Apple.
- ↑ "अमेज़ॅन का इको एक स्मार्ट स्पीकर से आपके घर के केंद्र तक कैसे पहुंच गया". Business Insider.
- ↑ 17.0 17.1 17.2 17.3 "सिरी जैसी आवाज". CNET.
- ↑ "आवाज के साथ पोर्टेबल जीपीएस". CNET.
- ↑ 19.0 19.1 "Voice augmented manipulation | Proceedings of the 15th international conference on Human-computer interaction with mobile devices and services". dlnext.acm.org (in English). doi:10.1145/2493190.2493244. S2CID 6251400. Retrieved 2019-02-27.
- ↑ "Blendie | Proceedings of the 5th conference on Designing interactive systems: processes, practices, methods, and techniques". dlnext.acm.org (in English). doi:10.1145/1013115.1013159. Retrieved 2019-02-27.
- ↑ "Kelly Dobson: Blendie". web.media.mit.edu. Retrieved 2019-02-27.
- ↑ "Voicedraw | Proceedings of the 9th international ACM SIGACCESS conference on Computers and accessibility". dlnext.acm.org (in English). doi:10.1145/1296843.1296850. S2CID 218338. Retrieved 2019-02-27.
- ↑ 23.0 23.1 "Design guidelines for hands-free speech interaction | Proceedings of the 20th International Conference on Human-Computer Interaction with Mobile Devices and Services Adjunct". dlnext.acm.org (in English). doi:10.1145/3236112.3236149. S2CID 52099112. Retrieved 2019-02-27.
- ↑ "Designing SpeechActs | Proceedings of the SIGCHI Conference on Human Factors in Computing Systems". dlnext.acm.org (in English). doi:10.1145/223904.223952. S2CID 9313029. Retrieved 2019-02-27.
- ↑ "What can I say? | Proceedings of the 18th International Conference on Human-Computer Interaction with Mobile Devices and Services" (in English). doi:10.1145/2935334.2935386. S2CID 6246618.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ "Patterns for How Users Overcome Obstacles in Voice User Interfaces | Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems". dlnext.acm.org (in English). doi:10.1145/3173574.3173580. S2CID 5041672. Retrieved 2019-02-27.
- ↑ ""Play PRBLMS" | Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems". dlnext.acm.org (in English). doi:10.1145/3173574.3173870. S2CID 5050837. Retrieved 2019-02-27.
- ↑ Galitsky, Boris (2019). Developing Enterprise Chatbots: Learning Linguistic Structures (in English) (1st ed.). Cham, Switzerland: Springer. pp. 13–24. doi:10.1007/978-3-030-04299-8. ISBN 978-3-030-04298-1. S2CID 102486666.
- ↑ Pearl, Cathy (2016-12-06). Designing Voice User Interfaces: Principles of Conversational Experiences (in English) (1st ed.). Sebastopol, CA: O'Reilly Media. pp. 16–19. ISBN 978-1-491-95541-3.
- ↑ Messaoudi, Mohamed Dhiaeddine; Menelas, Bob-Antoine J.; Mcheick, Hamid (2022-10-17). "दृष्टिबाधित लोगों के लिए नेविगेशन सहायक उपकरण और प्रौद्योगिकियों की समीक्षा". Sensors (in English). 22 (20): 7888. doi:10.3390/s22207888. ISSN 1424-8220. PMC 9606951. PMID 36298237.
- ↑ "Apple, Google और Amazon ने डिजिटल असिस्टेंट कमांड की समीक्षा करके आपकी गोपनीयता का उल्लंघन किया हो सकता है". Fortune. 2019-08-05. Retrieved 2020-05-13.
- ↑ Hern, Alex (2019-04-11). "रिपोर्ट में कहा गया है कि अमेज़ॅन कर्मचारी ग्राहकों की एलेक्सा रिकॉर्डिंग सुनते हैं". the Guardian. Retrieved 2020-05-21.
- ↑ Kröger, Jacob Leon; Lutz, Otto Hans-Martin; Raschke, Philip (2020). "Privacy Implications of Voice and Speech Analysis – Information Disclosure by Inference". गोपनीयता और पहचान प्रबंधन. बेहतर जीवन के लिए डेटा: एआई और गोपनीयता. IFIP Advances in Information and Communication Technology. Vol. 576. pp. 242–258. doi:10.1007/978-3-030-42504-3_16. ISBN 978-3-030-42503-6. ISSN 1868-4238.