वॉइस-यूज़र इंटरफ़ेस: Difference between revisions
No edit summary |
m (9 revisions imported from alpha:वॉइस-यूज़र_इंटरफ़ेस) |
||
(7 intermediate revisions by 3 users not shown) | |||
Line 5: | Line 5: | ||
नए वॉयस कमांड डिवाइस स्पीकर-स्वतंत्र हैं, इसलिए वे उच्चारण या बोली संबंधी प्रभावों की परवाह किए बिना कई आवाजों पर प्रतिक्रिया दे सकते हैं। वे एक साथ कई आदेशों का जवाब देने, मौखिक संदेशों को अलग करने और प्राकृतिक बातचीत का सटीक अनुकरण करते हुए उचित प्रतिक्रिया प्रदान करने में भी सक्षम हैं।<ref name=appliance>{{cite web|title=वॉशिंग मशीन आवाज नियंत्रण|work=Appliance Magazine|url=http://www.appliancemagazine.com/news.php?article=4514&zone=0&first=1}}</ref> | नए वॉयस कमांड डिवाइस स्पीकर-स्वतंत्र हैं, इसलिए वे उच्चारण या बोली संबंधी प्रभावों की परवाह किए बिना कई आवाजों पर प्रतिक्रिया दे सकते हैं। वे एक साथ कई आदेशों का जवाब देने, मौखिक संदेशों को अलग करने और प्राकृतिक बातचीत का सटीक अनुकरण करते हुए उचित प्रतिक्रिया प्रदान करने में भी सक्षम हैं।<ref name=appliance>{{cite web|title=वॉशिंग मशीन आवाज नियंत्रण|work=Appliance Magazine|url=http://www.appliancemagazine.com/news.php?article=4514&zone=0&first=1}}</ref> | ||
==अवलोकन== | ==अवलोकन== | ||
VUI किसी भी स्पीच एप्लिकेशन का [[इंटरफ़ेस (कंप्यूटिंग)]] है। किसी मशीन को केवल बात करके नियंत्रित करना कुछ समय पहले तक विज्ञान कथा थी। कुछ समय पहले तक इस क्षेत्र को कृत्रिम बुद्धिमत्ता माना जाता था। यद्यपि, टेक्स्ट-टू-स्पीच, स्पीच-टू-टेक्स्ट, नेचुरल लैंग्वेज प्रोसेसिंग और क्लाउड सेवाओं जैसी प्रौद्योगिकियों में प्रगति ने, सामान्यतः इस प्रकार के इंटरफेस को बड़े पैमाने पर अपनाने में योगदान दिया है। VUI अधिक सामान्य हो गए हैं, और लोग कई स्थितियों में ये हैंड्स-फ्री, आई-फ्री इंटरफेस द्वारा प्रदान किए जाने वाले मूल्य का लाभ उठा रहे हैं। | VUI किसी भी स्पीच एप्लिकेशन का [[इंटरफ़ेस (कंप्यूटिंग)]] है। किसी मशीन को केवल बात करके नियंत्रित करना कुछ समय पहले तक विज्ञान कथा थी। कुछ समय पहले तक इस क्षेत्र को कृत्रिम बुद्धिमत्ता माना जाता था। यद्यपि, टेक्स्ट-टू-स्पीच, स्पीच-टू-टेक्स्ट, नेचुरल लैंग्वेज प्रोसेसिंग और क्लाउड सेवाओं जैसी प्रौद्योगिकियों में प्रगति ने, सामान्यतः इस प्रकार के इंटरफेस को बड़े पैमाने पर अपनाने में योगदान दिया है। VUI अधिक सामान्य हो गए हैं, और लोग कई स्थितियों में ये हैंड्स-फ्री, आई-फ्री इंटरफेस द्वारा प्रदान किए जाने वाले मूल्य का लाभ उठा रहे हैं। | ||
VUI को इनपुट पर विश्वसनीय रूप से प्रतिक्रिया देने की आवश्यकता है, अन्यथा उन्हें अस्वीकार कर दिया जाएगा और प्रायः उनके उपयोगकर्ताओं द्वारा उनका उपहास किया जाएगा। एक अच्छे VUI को डिज़ाइन करने के लिए [[कंप्यूटर विज्ञान]], [[भाषा विज्ञान]] और मानव कारक [[मनोविज्ञान]] की अंतःविषय प्रतिभाओं की आवश्यकता होती है - ये सभी ऐसे कौशल हैं जो महंगे हैं और इन्हें प्राप्त करना कठिन है। उन्नत विकास उपकरणों के साथ भी, एक प्रभावी VUI के निर्माण के लिए निष्पादित किए जाने वाले कार्यों के साथ-साथ अंतिम प्रणाली का उपयोग करने वाले लक्षित दर्शकों की गहन समझ की आवश्यकता होती है। VUI कार्य के उपयोगकर्ता के मानसिक मॉडल से जितना | VUI को इनपुट पर विश्वसनीय रूप से प्रतिक्रिया देने की आवश्यकता है, अन्यथा उन्हें अस्वीकार कर दिया जाएगा और प्रायः उनके उपयोगकर्ताओं द्वारा उनका उपहास किया जाएगा। एक अच्छे VUI को डिज़ाइन करने के लिए [[कंप्यूटर विज्ञान]], [[भाषा विज्ञान]] और मानव कारक [[मनोविज्ञान]] की अंतःविषय प्रतिभाओं की आवश्यकता होती है - ये सभी ऐसे कौशल हैं जो महंगे हैं और इन्हें प्राप्त करना कठिन है। उन्नत विकास उपकरणों के साथ भी, एक प्रभावी VUI के निर्माण के लिए निष्पादित किए जाने वाले कार्यों के साथ-साथ अंतिम प्रणाली का उपयोग करने वाले लक्षित दर्शकों की गहन समझ की आवश्यकता होती है। VUI कार्य के उपयोगकर्ता के मानसिक मॉडल से जितना नज़दीक से अनुकूल है, कम या बिना प्रशिक्षण के इसका उपयोग करना उतना ही आसान होगा, जिसके परिणामस्वरूप उच्च दक्षता और उच्च उपयोगकर्ता संतुष्टि दोनों होगी। | ||
सामान्य जनता के लिए डिज़ाइन किए गए VUI को उपयोग में आसानी पर जोर देना चाहिए और पहली बार कॉल करने वालों के लिए बहुत अधिक सहायता और मार्गदर्शन प्रदान करना चाहिए। इसके विपरीत, [[बिजली उपयोगकर्ता]]ओं के एक छोटे समूह (फ़ील्ड सेवा श्रमिकों सहित) के लिए डिज़ाइन किए गए VUI को उत्पादकता पर अधिक और सहायता और मार्गदर्शन पर कम ध्यान केंद्रित करना चाहिए। ऐसे अनुप्रयोगों को कॉल प्रवाह को सुव्यवस्थित, संकेतों को कम, अनावश्यक पुनरावृत्तियों को समाप्त करना चाहिए और विस्तृत मिश्रित पहल [[संवाद प्रणाली]] की अनुमति देनी चाहिए, जो कॉल करने वालों को एक ही उच्चारण में और किसी भी क्रम या संयोजन में जानकारी के कई टुकड़े प्रविष्ट करने में सक्षम बनाती है। संक्षेप में, स्वचालित होने वाली विशिष्ट व्यावसायिक प्रक्रिया के लिए भाषण अनुप्रयोगों को सावधानीपूर्वक तैयार किया जाना चाहिए। | सामान्य जनता के लिए डिज़ाइन किए गए VUI को उपयोग में आसानी पर जोर देना चाहिए और पहली बार कॉल करने वालों के लिए बहुत अधिक सहायता और मार्गदर्शन प्रदान करना चाहिए। इसके विपरीत, [[बिजली उपयोगकर्ता]]ओं के एक छोटे समूह (फ़ील्ड सेवा श्रमिकों सहित) के लिए डिज़ाइन किए गए VUI को उत्पादकता पर अधिक और सहायता और मार्गदर्शन पर कम ध्यान केंद्रित करना चाहिए। ऐसे अनुप्रयोगों को कॉल प्रवाह को सुव्यवस्थित, संकेतों को कम, अनावश्यक पुनरावृत्तियों को समाप्त करना चाहिए और विस्तृत मिश्रित पहल [[संवाद प्रणाली]] की अनुमति देनी चाहिए, जो कॉल करने वालों को एक ही उच्चारण में और किसी भी क्रम या संयोजन में जानकारी के कई टुकड़े प्रविष्ट करने में सक्षम बनाती है। संक्षेप में, स्वचालित होने वाली विशिष्ट व्यावसायिक प्रक्रिया के लिए भाषण अनुप्रयोगों को सावधानीपूर्वक तैयार किया जाना चाहिए। | ||
Line 18: | Line 16: | ||
==इतिहास== | ==इतिहास== | ||
VUI के | VUI के प्रारंभी अनुप्रयोगों में सीधे या (सामान्यतः [[ब्लूटूथ]]) हेडसेट या वाहन ऑडियो सिस्टम के माध्यम से फोन की आवाज-सक्रिय [[डायलिंग (टेलीफोनी)]] सम्मिलित थी। | ||
2007 में, [[सीएनएन मनी|CNN मनी]] बिजनेस लेख में बताया गया कि वॉयस कमांड एक अरब डॉलर से अधिक का उद्योग था और गूगल और Apple Inc. जैसी कंपनियां वाक् पहचान सुविधाओं को बनाने की कोशिश कर रही थीं।<ref>{{cite news|title=अब आप बात कर रहे हैं|url=https://money.cnn.com/magazines/business2/business2_archive/2007/02/01/8398978/index.htm|publisher=CNN Money|access-date=25 April 2012|first=Jeanette|last=Borzo|date=8 February 2007}}</ref> लेख को प्रकाशित हुए कई साल हो गए हैं, और तब से दुनिया ने विभिन्न प्रकार के वॉयस कमांड डिवाइस देखे हैं। इसके अतिरिक्त, गूगल ने Pico TTS नामक एक वाक् पहचान इंजन बनाया और Apple ने Siri जारी किया है। वॉयस कमांड डिवाइस अधिक व्यापक रूप से उपलब्ध हो रहे हैं, और मानव आवाज का उपयोग करने के लिए हमेशा नए तरीके बनाए जा रहे हैं। उदाहरण के लिए, बिजनेस वीक सुझाव देता है कि भविष्य का रिमोट कंट्रोलर इंसान की आवाज बनने जा रहा है। वर्तमान में [[Xbox Live]] ऐसी सुविधाओं की अनुमति देता है और [[स्टीव जॉब्स]] ने नए [[Apple TV]] पर ऐसी सुविधा का संकेत दिया है।<ref>{{cite news|title=Voice Control, the End of the TV Remote?|newspaper=Bloomberg.com|date=9 December 2011|url=http://www.businessweek.com/magazine/voice-control-the-end-of-the-tv-remote-12082011.html|archive-url=https://web.archive.org/web/20111208224714/http://www.businessweek.com/magazine/voice-control-the-end-of-the-tv-remote-12082011.html|url-status=dead|archive-date=December 8, 2011|publisher=Business Week|access-date=1 May 2012}}</ref> | |||
==कंप्यूटिंग उपकरणों पर वॉयस कमांड सॉफ्टवेयर उत्पाद== | ==कंप्यूटिंग उपकरणों पर वॉयस कमांड सॉफ्टवेयर उत्पाद== | ||
ऐप्पल [[एप्पल मैकिंटोश]] और [[ खिड़कियाँ | विंडोज PC]][[ निजी कंप्यूटर ]]दोनों अपने नवीनतम [[ऑपरेटिंग सिस्टम]] के लिए अंतर्निहित वाक् पहचान सुविधाएँ प्रदान करते हैं। | ऐप्पल [[एप्पल मैकिंटोश]] और [[ खिड़कियाँ | विंडोज PC]][[ निजी कंप्यूटर ]]दोनों अपने नवीनतम [[ऑपरेटिंग सिस्टम]] के लिए अंतर्निहित वाक् पहचान सुविधाएँ प्रदान करते हैं। | ||
Line 29: | Line 25: | ||
दो माइक्रोसॉफ्ट ऑपरेटिंग सिस्टम, [[Windows 7|विंडोज]] [[Windows 7|7]] और [[Windows Vista|विंडोज़ विस्टा]], वाक् पहचान क्षमताएँ प्रदान करते हैं। माइक्रोसॉफ्ट ने उन लोगों के लिए एक तंत्र प्रदान करने के लिए अपने ऑपरेटिंग सिस्टम में वॉयस कमांड को एकीकृत किया है जो माउस और कीबोर्ड के उपयोग को सीमित करना चाहते हैं, लेकिन फिर भी अपनी समग्र उत्पादकता को बनाए रखना या बढ़ाना चाहते हैं।<ref>{{cite web|title=विंडोज़ विस्टा बिल्ट इन स्पीच|url=http://www.microsoft.com/enable/products/windowsvista/speech.aspx|publisher=Windows Vista|access-date=25 April 2012}}</ref> | दो माइक्रोसॉफ्ट ऑपरेटिंग सिस्टम, [[Windows 7|विंडोज]] [[Windows 7|7]] और [[Windows Vista|विंडोज़ विस्टा]], वाक् पहचान क्षमताएँ प्रदान करते हैं। माइक्रोसॉफ्ट ने उन लोगों के लिए एक तंत्र प्रदान करने के लिए अपने ऑपरेटिंग सिस्टम में वॉयस कमांड को एकीकृत किया है जो माउस और कीबोर्ड के उपयोग को सीमित करना चाहते हैं, लेकिन फिर भी अपनी समग्र उत्पादकता को बनाए रखना या बढ़ाना चाहते हैं।<ref>{{cite web|title=विंडोज़ विस्टा बिल्ट इन स्पीच|url=http://www.microsoft.com/enable/products/windowsvista/speech.aspx|publisher=Windows Vista|access-date=25 April 2012}}</ref> | ||
====विंडोज विस्टा==== | ====विंडोज विस्टा==== | ||
विंडोज विस्टा वॉयस कंट्रोल के साथ, उपयोगकर्ता मुख्यधारा के अनुप्रयोगों में दस्तावेजों और ईमेल को निर्देशित कर सकता है, अनुप्रयोगों के बीच शुरू और स्विच कर सकता है, ऑपरेटिंग सिस्टम को नियंत्रित | विंडोज विस्टा वॉयस कंट्रोल के साथ, उपयोगकर्ता मुख्यधारा के अनुप्रयोगों में दस्तावेजों और ईमेल को निर्देशित कर सकता है, अनुप्रयोगों के बीच शुरू और स्विच कर सकता है, ऑपरेटिंग सिस्टम को नियंत्रित, दस्तावेजों को प्रारूपित और सहेज, फाइलों को संपादित, त्रुटियों को कुशलतापूर्वक ठीक और [[इंटरनेट]] पर फॉर्म भर सकता है। जब भी कोई उपयोगकर्ता इसका उपयोग करता है तो वाक् पहचान सॉफ्टवेयर स्वचालित रूप से सीखता है, और वाक् पहचान अंग्रेजी (U.S.), अंग्रेजी (U.K.), जर्मन (जर्मनी), फ्रेंच (फ्रांस), स्पेनिश (स्पेन), जापानी, चीनी (पारंपरिक) में उपलब्ध है। इसके अतिरिक्त, सॉफ्टवेयर एक इंटरैक्टिव ट्यूटोरियल के साथ आता है, जिसका उपयोग उपयोगकर्ता और वाक् पहचान इंजन दोनों को प्रशिक्षित करने के लिए किया जा सकता है।<ref>{{cite web|title=विस्टा पर भाषण संचालन|url=http://windows.microsoft.com/en-US/windows-vista/Use-Speech-Recognition-to-operate-windows-and-programs|publisher=Microsoft}}</ref> | ||
====विंडोज़ 7==== | ====विंडोज़ 7==== | ||
विंडोज विस्टा में प्रदान की गई सभी सुविधाओं के अतिरिक्त, | विंडोज विस्टा में प्रदान की गई सभी सुविधाओं के अतिरिक्त, विंडोज 7 माइक्रोफ़ोन सेट करने के लिए एक विज़ार्ड और सुविधा का उपयोग करने के तरीके पर एक ट्यूटोरियल प्रदान करता है।<ref>{{cite web|title=वाक् पहचान सेट अप|url=http://windows.microsoft.com/en-US/windows7/Set-up-Speech-Recognition|publisher=Microsoft}}</ref> | ||
====[[ Mac OS X |Mac OS X]]==== | |||
====[[ Mac OS X ]]==== | |||
सभी Mac OS सॉफ़्टवेयर उपयोगकर्ता-स्वतंत्र है, और यह उपयोगकर्ता को मेनू नेविगेट करने और कीबोर्ड शॉर्टकट दर्ज करने की अनुमति देता है; चेकबॉक्स नाम, रेडियो बटन नाम, सूची आइटम और बटन नाम बोलें; और अनुप्रयोगों के बीच खोलें, बंद करें, नियंत्रित करें और स्विच करें।<ref name = Y>{{cite web|title=शारीरिक और मोटर कौशल|url=https://www.apple.com/accessibility/macosx/physical.html|publisher=Apple}}</ref> यद्यपि, Apple वेबसाइट उपयोगकर्ता को [[MacSpeech Dictate]] नामक एक वाणिज्यिक उत्पाद खरीदने की सलाह देती है।<ref name=Y /> | सभी Mac OS सॉफ़्टवेयर उपयोगकर्ता-स्वतंत्र है, और यह उपयोगकर्ता को मेनू नेविगेट करने और कीबोर्ड शॉर्टकट दर्ज करने की अनुमति देता है; चेकबॉक्स नाम, रेडियो बटन नाम, सूची आइटम और बटन नाम बोलें; और अनुप्रयोगों के बीच खोलें, बंद करें, नियंत्रित करें और स्विच करें।<ref name = Y>{{cite web|title=शारीरिक और मोटर कौशल|url=https://www.apple.com/accessibility/macosx/physical.html|publisher=Apple}}</ref> यद्यपि, Apple वेबसाइट उपयोगकर्ता को [[MacSpeech Dictate]] नामक एक वाणिज्यिक उत्पाद खरीदने की सलाह देती है।<ref name=Y /> | ||
===वाणिज्यिक उत्पाद=== | ===वाणिज्यिक उत्पाद=== | ||
यदि कोई उपयोगकर्ता अंतर्निहित वाक् पहचान सॉफ़्टवेयर से संतुष्ट नहीं है या किसी उपयोगकर्ता के पास अपने | यदि कोई उपयोगकर्ता अंतर्निहित वाक् पहचान सॉफ़्टवेयर से संतुष्ट नहीं है या किसी उपयोगकर्ता के पास अपने OS के लिए निर्मित वाक् पहचान सॉफ़्टवेयर नहीं है, तो उपयोगकर्ता विंडोज़ पीसी के लिए [[ Braina ]] या [[स्वाभाविक रूप से बोलना]] जैसे व्यावसायिक उत्पाद के साथ प्रयोग कर सकता है।<ref>{{cite web|title=ड्रैगननेचरलीस्पीकिंग पीसी|url=http://www.nuance.com/for-individuals/by-product/dragon-for-pc/index.htm|publisher=Nuance}}</ref> डिक्टेट, मैक OS के लिए एक ही सॉफ्टवेयर का नाम है।<ref>{{cite web|title=ड्रैगननैचरलीस्पीकिंग मैक|url=http://www.nuance.com/for-individuals/by-product/dragon-for-mac/index.htm|publisher=Nuance}}</ref> | ||
==वॉइस कमांड मोबाइल डिवाइस== | |||
एंड्रॉइड OS, माइक्रोसॉफ्ट विंडोज फोन, iOS 9 या उसके बाद का संस्करण या ब्लैकबेरी OS चलाने वाला कोई भी मोबाइल डिवाइस वॉयस कमांड क्षमताएं प्रदान करता है। प्रत्येक मोबाइल फोन के ऑपरेटिंग सिस्टम के लिए निर्मित वाक् पहचान सॉफ्टवेयर के अतिरिक्त, एक उपयोगकर्ता प्रत्येक ऑपरेटिंग सिस्टम के एप्लिकेशन स्टोर से थर्ड पार्टी वॉयस कमांड एप्लिकेशन डाउनलोड कर सकता है: [[ऐप स्टोर (आईओएस)|ऐप स्टोर (iOS)]], [[गूगल प्ले]], [[ विंडोज़ फ़ोन बाज़ार | विंडोज फोन मार्केटप्लेस]] (प्रारंभ में [[मोबाइल के लिए विंडोज़ मार्केटप्लेस]]) , या [[ब्लैकबेरी ऐप वर्ल्ड]]। | |||
== | ===एंड्रॉइड OS=== | ||
एंड्रॉइड | गूगल ने [[एंड्रॉइड (ऑपरेटिंग सिस्टम)]] नामक एक ओपन सोर्स ऑपरेटिंग सिस्टम विकसित किया है, जो उपयोगकर्ता को वॉयस कमांड करने की अनुमति देता है जैसे: टेक्स्ट संदेश भेजना, संगीत सुनना, दिशानिर्देश प्राप्त करना, व्यवसायों को कॉल करना, संपर्कों को कॉल करना, ईमेल भेजना, मानचित्र देखना, वेबसाइटों पर जाएँ, एक नोट लिखें और गूगल पर खोजें।<ref name =v>{{cite web|title=ध्वनि क्रियाएँ|url=http://www.google.com/mobile/voice-actions/}}</ref> | ||
वाक् पहचान सॉफ़्टवेयर एंड्रॉइड Froyo|एंड्रॉइड 2.2 Froyo के बाद से सभी उपकरणों के लिए उपलब्ध है, लेकिन सेटिंग्स को अंग्रेजी पर सेट किया जाना चाहिए।<ref name=v /> गूगल उपयोगकर्ता को भाषा बदलने की अनुमति देता है, और जब उपयोगकर्ता पहली बार वाक् पहचान सुविधा का उपयोग करता है तो उसे संकेत दिया जाता है कि क्या वह चाहता है कि उसका ध्वनि डेटा उसके गूगल खाते से जुड़ा हो। यदि कोई उपयोगकर्ता इस सेवा को चुनने का निर्णय लेता है, तो यह गूगल को सॉफ़्टवेयर को उपयोगकर्ता की आवाज़ के अनुसार प्रशिक्षित करने की अनुमति देता है।<ref>{{cite web|title = एंड्रॉइड के लिए Google Voice खोज अब आपकी आवाज़ के लिए "प्रशिक्षित" हो सकती है| date=14 December 2010| url=https://techcrunch.com/2010/12/14/google-voice-search-for-android-can-now-be-trained-to-your-voice/|access-date=24 April 2012}}</ref> | |||
गूगल ने [[Google Assistant|गूगल असिस्टेंट]] को एंड्रॉयड 7.0 Nougat के साथ प्रस्तुत किया। यह पुराने वर्जन से कहीं ज्यादा एडवांस है। | |||
Amazon.com के पास [[Amazon Echo]] है जो वॉयस इंटरफ़ेस प्रदान करने के लिए | Amazon.com के पास [[Amazon Echo]] है जो वॉयस इंटरफ़ेस प्रदान करने के लिए अमेजन के एंड्रॉइड के कस्टम संस्करण का उपयोग करता है। | ||
===[[माइक्रोसॉफ्ट]] विंडोज़=== | ===[[माइक्रोसॉफ्ट]] विंडोज़=== | ||
विंडोज़ फोन माइक्रोसॉफ्ट के मोबाइल डिवाइस का ऑपरेटिंग सिस्टम है। [[विंडोज फोन]] 7.5 पर, स्पीच ऐप उपयोगकर्ता के लिए स्वतंत्र है और इसका उपयोग किया जा सकता है: अपनी संपर्क सूची से किसी को कॉल करें, किसी भी फोन नंबर पर कॉल करें, अंतिम नंबर को फिर से डायल करें, एक टेक्स्ट संदेश भेजें, अपने वॉयस मेल पर कॉल करें, एक एप्लिकेशन खोलें, अपॉइंटमेंट पढ़ें , फ़ोन की स्थिति पूछें, और वेब पर खोजें।<ref>{{cite web|title = वॉइस कमांड का उपयोग करना| url=http://msdn.microsoft.com/en-us/library/bb446163.aspx|publisher=Microsoft|access-date=24 April 2012}}</ref><ref name = win>{{cite web|title=वॉइस कमांड का उपयोग करना|url=http://www.microsoft.com/windowsphone/en-us/howto/wp7/basics/use-speech-on-my-phone.aspx|publisher=Microsoft|access-date=27 April 2012}}</ref> | विंडोज़ फोन माइक्रोसॉफ्ट के मोबाइल डिवाइस का ऑपरेटिंग सिस्टम है। [[विंडोज फोन]] 7.5 पर, स्पीच ऐप उपयोगकर्ता के लिए स्वतंत्र है और इसका उपयोग किया जा सकता है: अपनी संपर्क सूची से किसी को कॉल करें, किसी भी फोन नंबर पर कॉल करें, अंतिम नंबर को फिर से डायल करें, एक टेक्स्ट संदेश भेजें, अपने वॉयस मेल पर कॉल करें, एक एप्लिकेशन खोलें, अपॉइंटमेंट पढ़ें, फ़ोन की स्थिति पूछें, और वेब पर खोजें।<ref>{{cite web|title = वॉइस कमांड का उपयोग करना| url=http://msdn.microsoft.com/en-us/library/bb446163.aspx|publisher=Microsoft|access-date=24 April 2012}}</ref><ref name = win>{{cite web|title=वॉइस कमांड का उपयोग करना|url=http://www.microsoft.com/windowsphone/en-us/howto/wp7/basics/use-speech-on-my-phone.aspx|publisher=Microsoft|access-date=27 April 2012}}</ref> इसके अतिरिक्त, फोन कॉल के दौरान भाषण का भी उपयोग किया जा सकता है, और फोन कॉल के दौरान निम्नलिखित क्रियाएं संभव हैं: एक नंबर दबाएं, स्पीकर फोन चालू करें, या किसी को कॉल करें, जो वर्तमान कॉल को रोक देता है।<ref name=win/> | ||
इसके अतिरिक्त, फोन कॉल के दौरान भाषण का भी उपयोग किया जा सकता है, और फोन कॉल के दौरान निम्नलिखित क्रियाएं संभव हैं: एक नंबर दबाएं, स्पीकर फोन चालू करें, या किसी को कॉल करें, जो वर्तमान कॉल को रोक देता है।<ref name=win/ | |||
विंडोज 10 ने [[कॉर्टाना (सॉफ्टवेयर)]] प्रस्तुत किया है, जो एक आवाज नियंत्रण प्रणाली है जो विंडोज फोन पर पहले उपयोग किए गए आवाज नियंत्रण को प्रतिस्थापित करती है। | |||
===iOS=== | |||
[[आवाज नियंत्रण (एप्पल)|एप्पल]] ने [[iPhone OS 3]] की एक नई सुविधा के रूप में iOS उपकरणों की अपनी सूची में [[आवाज नियंत्रण (एप्पल)]] को जोड़ा। [[iPhone 4S]], iPad (तीसरी पीढ़ी), iPad Mini (पहली पीढ़ी), [[iPad Air]], [[iPad Pro]], iPod Touch (5वीं पीढ़ी) ) और बाद में, सभी [[ महोदय मै ]] नामक एक अधिक उन्नत वॉयस असिस्टेंट के साथ आते हैं। नए उपकरणों के सेटिंग मेनू के माध्यम से ध्वनि नियंत्रण को अभी भी सक्षम किया जा सकता है। सिरी एक उपयोगकर्ता स्वतंत्र अंतर्निहित वाक् पहचान सुविधा है जो उपयोगकर्ता को वॉयस कमांड जारी करने की अनुमति देती है। सिरी की सहायता से उपयोगकर्ता कमांड जारी कर सकता है, जैसे टेक्स्ट संदेश भेजना, मौसम की जांच करना, अनुस्मारक सेट करना, जानकारी ढूंढना, मीटिंग शेड्यूल करना, ईमेल भेजना, संपर्क ढूंढना, अलार्म सेट करना, दिशा-निर्देश प्राप्त करना, अपने स्टॉक को ट्रैक करना, एक टाइमर सेट करें, और नमूना वॉयस कमांड प्रश्नों के उदाहरण पूछें।<ref>{{cite web|title=Siri, The iPhone 3GS & 4, iPod 3 & 4, have voice control like an express Siri, it plays music, pauses music, suffle, Facetime, and calling Features|url=https://www.apple.com/iphone/features/siri.html|publisher=Apple|access-date=27 April 2012}}</ref> इसके अतिरिक्त, सिरी ब्लूटूथ और वायर्ड हेडफ़ोन के साथ काम करता है।<ref>{{cite web|title=सिरी अक्सर पूछे जाने वाले प्रश्न|url=https://www.apple.com/iphone/features/siri-faq.html|publisher=Apple}}</ref> | |||
===अमेज़ॅन एलेक्सा=== | ===अमेज़ॅन एलेक्सा=== | ||
2014 में अमेज़न ने [[अमेज़न एलेक्सा]] | 2014 में अमेज़न ने [[अमेज़न एलेक्सा]] प्रस्तुत किया। इसका मुख्य उद्देश्य सिर्फ एक स्मार्ट स्पीकर था, जो उपभोक्ता को अपनी आवाज से डिवाइस को नियंत्रित करने की अनुमति देता था। अंततः, यह एक नवीन उपकरण में बदल गया जिसमें आवाज से घरेलू उपकरण को नियंत्रित करने की क्षमता थी। अब प्रकाश बल्ब और तापमान सहित लगभग सभी उपकरण एलेक्सा से नियंत्रित किए जा सकते हैं। आवाज नियंत्रण की अनुमति देकर, एलेक्सा स्मार्ट होम तकनीक से जुड़ सकता है जिससे आप अपने घर को बंद कर सकते हैं, तापमान को नियंत्रित कर सकते हैं और विभिन्न उपकरणों को सक्रिय कर सकते हैं। A.I का यह रूप किसी को केवल एक प्रश्न पूछने की अनुमति देता है, और जवाब में एलेक्सा उत्तर खोजती है, ढूंढती है और आपको जवाब सुनाती है।<ref>{{Cite web|url=https://www.businessinsider.com/amazon-echo-and-alexa-history-from-speaker-to-smart-home-hub-2017-5|title=अमेज़ॅन का इको एक स्मार्ट स्पीकर से आपके घर के केंद्र तक कैसे पहुंच गया|website=[[Business Insider]]}}</ref> | ||
==कारों में वाक् पहचान== | |||
जैसे-जैसे कार प्रौद्योगिकी में सुधार होगा, कारों में और अधिक सुविधाएँ जोड़ी जाएंगी और ये सुविधाएँ ड्राइवर का ध्यान भटका देंगी। [[सीएनईटी|CNET]] के अनुसार, कारों के लिए वॉयस कमांड से ड्राइवर को कमांड जारी करने की अनुमति मिलनी चाहिए और उसका ध्यान नहीं भटकना चाहिए। CNET ने कहा कि नुअंस सुझाव दे रहा था कि भविष्य में वे एक ऐसा सॉफ्टवेयर बनाएंगे जो सिरी जैसा होगा, लेकिन कारों के लिए।<ref name=C>{{cite web|title=सिरी जैसी आवाज|url=http://reviews.cnet.com/8301-13746_7-57321094-48/siri-like-voice-recognition-coming-to-cars/|publisher=CNET}}</ref> 2011 में बाज़ार में अधिकांश वाक् पहचान सॉफ़्टवेयर में केवल 50 से 60 वॉइस कमांड थे, लेकिन फोर्ड सिंक में 10,000 थे।<ref name=C /> यद्यपि, CNET ने सुझाव दिया कि 10,000 वॉयस कमांड भी जटिलता और उपयोगकर्ता द्वारा ड्राइविंग के दौरान किए जाने वाले कार्यों की विविधता को देखते हुए पर्याप्त नहीं थे।<ref name=C /> कारों के लिए वॉयस कमांड मोबाइल फोन और कंप्यूटर के लिए वॉयस कमांड से अलग है क्योंकि ड्राइवर इस सुविधा का उपयोग आस-पास के रेस्तरां, गैस, ड्राइविंग निर्देश, सड़क की स्थिति और निकटतम होटल के स्थान को देखने के लिए कर सकता है।<ref name=C /> वर्तमान में, प्रौद्योगिकी ड्राइवर को [[गार्मिन]] जैसे पोर्टेबल [[जीपीएस नेविगेशन डिवाइस]] और कार निर्माता नेविगेशन सिस्टम दोनों पर वॉयस कमांड जारी करने की अनुमति देती है।<ref>{{cite web|title=आवाज के साथ पोर्टेबल जीपीएस|url=http://reviews.cnet.com/4321-3430_7-6604366.html|publisher=CNET}}</ref> | |||
मोटर निर्माताओं द्वारा उपलब्ध कराए गए वॉयस कमांड सिस्टम की सूची: | मोटर निर्माताओं द्वारा उपलब्ध कराए गए वॉयस कमांड सिस्टम की सूची: | ||
*[[फोर्ड सिंक]] | *[[फोर्ड सिंक]] | ||
Line 81: | Line 65: | ||
* [[क्रिसलर यूकनेक्ट]] | * [[क्रिसलर यूकनेक्ट]] | ||
* [[होंडा एकॉर्ड]] | * [[होंडा एकॉर्ड]] | ||
* [[ Intellilink ]] | * GM [[ Intellilink |इंटेलीलिंक]] | ||
*बीएमडब्लू | *बीएमडब्लू | ||
*मर्सिडीज | *मर्सिडीज | ||
* | * पाइअनिर | ||
* हरमन | * हरमन | ||
*हुंडई | *हुंडई | ||
== | == अशाब्दिक इनपुट == | ||
जबकि अधिकांश ध्वनि उपयोगकर्ता इंटरफ़ेस मौखिक मानव भाषा के माध्यम से बातचीत का समर्थन करने के लिए डिज़ाइन किए गए हैं, इंटरफ़ेस डिज़ाइन करने में हाल ही में अन्वेषण | जबकि अधिकांश ध्वनि उपयोगकर्ता इंटरफ़ेस मौखिक मानव भाषा के माध्यम से बातचीत का समर्थन करने के लिए डिज़ाइन किए गए हैं, इंटरफ़ेस डिज़ाइन करने में हाल ही में अन्वेषण अशाब्दिक मानव ध्वनियों को इनपुट के रूप में लेते हैं। इन प्रणालियों में, उपयोगकर्ता गैर-वाक् ध्वनियाँ जैसे गुनगुनाना, सीटी बजाना या माइक्रोफ़ोन में फूंक मारकर इंटरफ़ेस को नियंत्रित करता है।<ref name="dlnext.acm.org">{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/2493190.2493244|title=Voice augmented manipulation {{!}} Proceedings of the 15th international conference on Human-computer interaction with mobile devices and services|website=dlnext.acm.org|language=EN|doi=10.1145/2493190.2493244|s2cid=6251400|access-date=2019-02-27}}</ref> | ||
अशाब्दिक ध्वनि उपयोगकर्ता इंटरफ़ेस का ऐसा एक उदाहरण ब्लेंडी है,<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/1013115.1013159|title=Blendie {{!}} Proceedings of the 5th conference on Designing interactive systems: processes, practices, methods, and techniques|website=dlnext.acm.org|language=EN|doi=10.1145/1013115.1013159|access-date=2019-02-27}}</ref><ref>{{Cite web|url=https://web.media.mit.edu/~monster/blendie/|title=Kelly Dobson: Blendie|website=web.media.mit.edu|access-date=2019-02-27}}</ref> केली डॉब्सन द्वारा निर्मित एक इंटरैक्टिव आर्ट इंस्टॉलेशन। इस टुकड़े में 1950 के दशक का एक क्लासिक ब्लेंडर सम्मिलित था जिसे माइक्रोफ़ोन इनपुट पर प्रतिक्रिया देने के लिए रेट्रोफिट किया गया था। ब्लेंडर को नियंत्रित करने के लिए, उपयोगकर्ता को उन घूमने वाली यांत्रिक ध्वनियों की नकल करनी चाहिए जो एक ब्लेंडर सामान्यतः बनाता है: उपयोगकर्ता की कम आवाज वाली गुर्राहट के जवाब में ब्लेंडर धीरे-धीरे घूमेगा, और जैसे-जैसे उपयोगकर्ता उच्च स्वर वाली ध्वनि बनाता है, गति में वृद्धि होगी। | |||
एक अन्य उदाहरण वॉइसड्रॉ है,<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/1296843.1296850|title=Voicedraw {{!}} Proceedings of the 9th international ACM SIGACCESS conference on Computers and accessibility|website=dlnext.acm.org|language=EN|doi=10.1145/1296843.1296850|s2cid=218338|access-date=2019-02-27}}</ref> एक अनुसंधान प्रणाली जो सीमित मोटर क्षमताओं वाले व्यक्तियों के लिए डिजिटल ड्राइंग को सक्षम बनाती है। वॉयसड्रा उपयोगकर्ताओं को स्वर ध्वनियों को संशोधित करके डिजिटल कैनवास पर स्ट्रोक पेंट करने की अनुमति देता है, जिन्हें ब्रश दिशाओं में मैप किया जाता है। अन्य पारभाषिक विशेषताओं (उदाहरण के लिए उनकी आवाज की तीव्रता) को संशोधित करने से उपयोगकर्ता को ड्राइंग की विभिन्न विशेषताओं को नियंत्रित करने की अनुमति मिलती है, जैसे ब्रश स्ट्रोक की मोटाई। | एक अन्य उदाहरण वॉइसड्रॉ है,<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/1296843.1296850|title=Voicedraw {{!}} Proceedings of the 9th international ACM SIGACCESS conference on Computers and accessibility|website=dlnext.acm.org|language=EN|doi=10.1145/1296843.1296850|s2cid=218338|access-date=2019-02-27}}</ref> एक अनुसंधान प्रणाली जो सीमित मोटर क्षमताओं वाले व्यक्तियों के लिए डिजिटल ड्राइंग को सक्षम बनाती है। वॉयसड्रा उपयोगकर्ताओं को स्वर ध्वनियों को संशोधित करके डिजिटल कैनवास पर स्ट्रोक पेंट करने की अनुमति देता है, जिन्हें ब्रश दिशाओं में मैप किया जाता है। अन्य पारभाषिक विशेषताओं (उदाहरण के लिए उनकी आवाज की तीव्रता) को संशोधित करने से उपयोगकर्ता को ड्राइंग की विभिन्न विशेषताओं को नियंत्रित करने की अनुमति मिलती है, जैसे ब्रश स्ट्रोक की मोटाई। | ||
अन्य तरीकों में नए प्रकार के इशारों का समर्थन करने के लिए स्पर्श-आधारित इंटरफेस (उदाहरण के लिए मोबाइल फोन पर) को बढ़ाने के लिए | अन्य तरीकों में नए प्रकार के इशारों का समर्थन करने के लिए स्पर्श-आधारित इंटरफेस (उदाहरण के लिए मोबाइल फोन पर) को बढ़ाने के लिए अशाब्दिक ध्वनियों को अपनाना सम्मिलित है जो अकेले उंगली इनपुट के साथ संभव नहीं होगा।<ref name="dlnext.acm.org"/> | ||
== डिज़ाइन चुनौतियाँ == | == डिज़ाइन चुनौतियाँ == | ||
वॉयस इंटरफेस प्रयोज्यता के लिए पर्याप्त संख्या में चुनौतियाँ | वॉयस इंटरफेस प्रयोज्यता के लिए पर्याप्त संख्या में चुनौतियाँ प्रस्तुत करता है। ग्राफिकल यूजर इंटरफेस (GUIs) के विपरीत, वॉयस इंटरफेस डिजाइन के लिए सर्वोत्तम प्रथाएं अभी भी उभर रही हैं।<ref name=":0">{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/3236112.3236149|title=Design guidelines for hands-free speech interaction {{!}} Proceedings of the 20th International Conference on Human-Computer Interaction with Mobile Devices and Services Adjunct|website=dlnext.acm.org|language=EN|doi=10.1145/3236112.3236149|s2cid=52099112|access-date=2019-02-27}}</ref> | ||
=== खोज योग्यता === | === खोज योग्यता === | ||
पूरी तरह से ऑडियो-आधारित इंटरैक्शन के साथ, वॉयस यूजर इंटरफेस कम खोज क्षमता से ग्रस्त होते हैं:<ref name=":0" />उपयोगकर्ताओं के लिए सिस्टम की क्षमताओं के दायरे को समझना मुश्किल है। सिस्टम को यह बताने के लिए कि दृश्य प्रदर्शन के बिना क्या संभव है, उसे उपलब्ध विकल्पों की गणना करने की आवश्यकता होगी, जो थकाऊ या असंभव हो सकते हैं। कम खोज योग्यता के परिणामस्वरूप प्रायः उपयोगकर्ता इस बात को लेकर भ्रम की स्थिति में होते हैं कि उन्हें क्या कहने की अनुमति है, या सिस्टम की समझ की चौड़ाई के बारे में अपेक्षाओं में बेमेल है।<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/223904.223952|title=Designing SpeechActs {{!}} Proceedings of the SIGCHI Conference on Human Factors in Computing Systems|website=dlnext.acm.org|language=EN|doi=10.1145/223904.223952|s2cid=9313029|access-date=2019-02-27}}</ref><ref>{{Cite journal|title=What can I say? {{!}} Proceedings of the 18th International Conference on Human-Computer Interaction with Mobile Devices and Services|language=EN|doi=10.1145/2935334.2935386|s2cid=6246618|doi-access=free}}</ref> | पूरी तरह से ऑडियो-आधारित इंटरैक्शन के साथ, वॉयस यूजर इंटरफेस कम खोज क्षमता से ग्रस्त होते हैं:<ref name=":0" /> उपयोगकर्ताओं के लिए सिस्टम की क्षमताओं के दायरे को समझना मुश्किल है। सिस्टम को यह बताने के लिए कि दृश्य प्रदर्शन के बिना क्या संभव है, उसे उपलब्ध विकल्पों की गणना करने की आवश्यकता होगी, जो थकाऊ या असंभव हो सकते हैं। कम खोज योग्यता के परिणामस्वरूप प्रायः उपयोगकर्ता इस बात को लेकर भ्रम की स्थिति में होते हैं कि उन्हें क्या कहने की अनुमति है, या सिस्टम की समझ की चौड़ाई के बारे में अपेक्षाओं में बेमेल है।<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/223904.223952|title=Designing SpeechActs {{!}} Proceedings of the SIGCHI Conference on Human Factors in Computing Systems|website=dlnext.acm.org|language=EN|doi=10.1145/223904.223952|s2cid=9313029|access-date=2019-02-27}}</ref><ref>{{Cite journal|title=What can I say? {{!}} Proceedings of the 18th International Conference on Human-Computer Interaction with Mobile Devices and Services|language=EN|doi=10.1145/2935334.2935386|s2cid=6246618|doi-access=free}}</ref> | ||
=== प्रतिलेखन === | === प्रतिलेखन === | ||
यद्यपि हाल के वर्षों में वाक् पहचान तकनीक में काफी सुधार हुआ है, फिर भी ध्वनि उपयोगकर्ता इंटरफ़ेस अभी भी पार्सिंग या ट्रांसक्रिप्शन त्रुटियों से ग्रस्त है जिसमें उपयोगकर्ता के भाषण की सही ढंग से व्याख्या नहीं की जाती है।<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/3173574.3173580|title=Patterns for How Users Overcome Obstacles in Voice User Interfaces {{!}} Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems|website=dlnext.acm.org|language=EN|doi=10.1145/3173574.3173580|s2cid=5041672|access-date=2019-02-27}}</ref> ये त्रुटियाँ विशेष रूप से तब प्रचलित होती हैं जब भाषण सामग्री तकनीकी शब्दावली (जैसे चिकित्सा शब्दावली) या अपरंपरागत वर्तनी जैसे संगीत कलाकार या गीत के नाम का उपयोग करती है।<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/3173574.3173870|title="Play PRBLMS" {{!}} Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems|website=dlnext.acm.org|language=EN|doi=10.1145/3173574.3173870|s2cid=5050837|access-date=2019-02-27}}</ref> | यद्यपि हाल के वर्षों में वाक् पहचान तकनीक में काफी सुधार हुआ है, फिर भी ध्वनि उपयोगकर्ता इंटरफ़ेस अभी भी पार्सिंग या ट्रांसक्रिप्शन त्रुटियों से ग्रस्त है जिसमें उपयोगकर्ता के भाषण की सही ढंग से व्याख्या नहीं की जाती है।<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/3173574.3173580|title=Patterns for How Users Overcome Obstacles in Voice User Interfaces {{!}} Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems|website=dlnext.acm.org|language=EN|doi=10.1145/3173574.3173580|s2cid=5041672|access-date=2019-02-27}}</ref> ये त्रुटियाँ विशेष रूप से तब प्रचलित होती हैं जब भाषण सामग्री तकनीकी शब्दावली (जैसे चिकित्सा शब्दावली) या अपरंपरागत वर्तनी जैसे संगीत कलाकार या गीत के नाम का उपयोग करती है।<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/3173574.3173870|title="Play PRBLMS" {{!}} Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems|website=dlnext.acm.org|language=EN|doi=10.1145/3173574.3173870|s2cid=5050837|access-date=2019-02-27}}</ref> | ||
=== समझ === | === समझ === | ||
प्राकृतिक-भाषा की समझ को अधिकतम करने के लिए प्रभावी सिस्टम डिज़ाइन अनुसंधान का एक खुला क्षेत्र बना हुआ है। वॉयस यूजर इंटरफेस जो बातचीत की स्थिति की व्याख्या और प्रबंधन करते हैं, [[संदर्भ]], [[नामित-इकाई पहचान]], सूचना पुनर्प्राप्ति और [[ संवाद प्रबंधक ]] जैसे जटिल [[प्राकृतिक भाषा प्रसंस्करण]] कार्यों को एकीकृत करने की अंतर्निहित कठिनाई के कारण डिजाइन करना चुनौतीपूर्ण है।<ref>{{cite book|last=Galitsky|first=Boris|title=Developing Enterprise Chatbots: Learning Linguistic Structures|publisher=Springer|edition=1st|date=2019|location=Cham, Switzerland|language=en|isbn=978-3-030-04298-1|doi=10.1007/978-3-030-04299-8|pages=13–24|s2cid=102486666}}</ref> अधिकांश वॉयस असिस्टेंट आज एकल कमांड को बहुत अच्छी तरह से निष्पादित करने में सक्षम हैं, लेकिन एक संकीर्ण कार्य या बातचीत में कुछ बदलावों से परे संवाद को प्रबंधित करने की उनकी क्षमता सीमित है।<ref>{{cite book|last=Pearl|first=Cathy|title=Designing Voice User Interfaces: Principles of Conversational Experiences|publisher=O'Reilly Media|edition=1st|date=2016-12-06|location=Sebastopol, CA|language=en|isbn=978-1-491-95541-3|pages=16–19}}</ref> | प्राकृतिक-भाषा की समझ को अधिकतम करने के लिए प्रभावी सिस्टम डिज़ाइन अनुसंधान का एक खुला क्षेत्र बना हुआ है। वॉयस यूजर इंटरफेस जो बातचीत की स्थिति की व्याख्या और प्रबंधन करते हैं, [[संदर्भ]], [[नामित-इकाई पहचान]], सूचना पुनर्प्राप्ति और [[ संवाद प्रबंधक ]] जैसे जटिल [[प्राकृतिक भाषा प्रसंस्करण]] कार्यों को एकीकृत करने की अंतर्निहित कठिनाई के कारण डिजाइन करना चुनौतीपूर्ण है।<ref>{{cite book|last=Galitsky|first=Boris|title=Developing Enterprise Chatbots: Learning Linguistic Structures|publisher=Springer|edition=1st|date=2019|location=Cham, Switzerland|language=en|isbn=978-3-030-04298-1|doi=10.1007/978-3-030-04299-8|pages=13–24|s2cid=102486666}}</ref> अधिकांश वॉयस असिस्टेंट आज एकल कमांड को बहुत अच्छी तरह से निष्पादित करने में सक्षम हैं, लेकिन एक संकीर्ण कार्य या बातचीत में कुछ बदलावों से परे संवाद को प्रबंधित करने की उनकी क्षमता सीमित है।<ref>{{cite book|last=Pearl|first=Cathy|title=Designing Voice User Interfaces: Principles of Conversational Experiences|publisher=O'Reilly Media|edition=1st|date=2016-12-06|location=Sebastopol, CA|language=en|isbn=978-1-491-95541-3|pages=16–19}}</ref> | ||
== भविष्य में उपयोग == | == भविष्य में उपयोग == | ||
पॉकेट-आकार के उपकरण, जैसे व्यक्तिगत डिजिटल सहायक या [[ चल दूरभाष ]], वर्तमान में उपयोगकर्ता इनपुट के लिए छोटे बटन पर निर्भर हैं। ये या तो डिवाइस में निर्मित होते हैं या टच-स्क्रीन इंटरफ़ेस का हिस्सा होते हैं, जैसे कि Apple [[iPod Touch]] और [[iPhone]] Siri एप्लिकेशन। ऐसे छोटे बटन वाले उपकरणों पर व्यापक बटन दबाना थकाऊ और गलत हो सकता है, इसलिए उपयोग में आसान, सटीक और विश्वसनीय VUI संभावित रूप से उनके उपयोग की आसानी में एक बड़ी सफलता होगी। बहरहाल, इस तरह के VUI से लैपटॉप और डेस्कटॉप आकार के कंप्यूटर के उपयोगकर्ताओं को भी लाभ होगा, क्योंकि यह वर्तमान में कीबोर्ड और [[माउस (कंप्यूटिंग)]] के उपयोग से जुड़ी कई समस्याओं का समाधान करेगा, जिसमें [[कार्पल टनल सिंड्रोम]] जैसी दोहराव-तनाव की चोटें सम्मिलित हैं। दृष्टिबाधितों द्वारा डिजिटल इंटरफेस के भीतर नेविगेट करने और टेक्स्ट इनपुट करने की चुनौतियाँ,<ref>{{Cite journal |last1=Messaoudi |first1=Mohamed Dhiaeddine |last2=Menelas |first2=Bob-Antoine J. |last3=Mcheick |first3=Hamid |date=2022-10-17 |title=दृष्टिबाधित लोगों के लिए नेविगेशन सहायक उपकरण और प्रौद्योगिकियों की समीक्षा|journal=Sensors |language=en |volume=22 |issue=20 |pages=7888 |doi=10.3390/s22207888 |issn=1424-8220 |pmc=9606951 |pmid=36298237 |doi-access=free }}</ref> और अनुभवहीन कीबोर्ड उपयोगकर्ताओं की टाइपिंग गति धीमी है। इसके अतिरिक्त, कीबोर्ड का उपयोग सामान्यतः कनेक्टेड डिस्प्ले के सामने बैठकर या खड़े होकर किया जाता है; इसके विपरीत, एक VUI उपयोगकर्ता को अधिक मोबाइल होने के लिए मुक्त कर देगा, क्योंकि भाषण इनपुट कीबोर्ड को देखने की आवश्यकता को समाप्त कर देता है। | पॉकेट-आकार के उपकरण, जैसे व्यक्तिगत डिजिटल सहायक या [[ चल दूरभाष ]], वर्तमान में उपयोगकर्ता इनपुट के लिए छोटे बटन पर निर्भर हैं। ये या तो डिवाइस में निर्मित होते हैं या टच-स्क्रीन इंटरफ़ेस का हिस्सा होते हैं, जैसे कि Apple [[iPod Touch]] और [[iPhone]] Siri एप्लिकेशन। ऐसे छोटे बटन वाले उपकरणों पर व्यापक बटन दबाना थकाऊ और गलत हो सकता है, इसलिए उपयोग में आसान, सटीक और विश्वसनीय VUI संभावित रूप से उनके उपयोग की आसानी में एक बड़ी सफलता होगी। बहरहाल, इस तरह के VUI से लैपटॉप और डेस्कटॉप आकार के कंप्यूटर के उपयोगकर्ताओं को भी लाभ होगा, क्योंकि यह वर्तमान में कीबोर्ड और [[माउस (कंप्यूटिंग)]] के उपयोग से जुड़ी कई समस्याओं का समाधान करेगा, जिसमें [[कार्पल टनल सिंड्रोम]] जैसी दोहराव-तनाव की चोटें सम्मिलित हैं। दृष्टिबाधितों द्वारा डिजिटल इंटरफेस के भीतर नेविगेट करने और टेक्स्ट इनपुट करने की चुनौतियाँ,<ref>{{Cite journal |last1=Messaoudi |first1=Mohamed Dhiaeddine |last2=Menelas |first2=Bob-Antoine J. |last3=Mcheick |first3=Hamid |date=2022-10-17 |title=दृष्टिबाधित लोगों के लिए नेविगेशन सहायक उपकरण और प्रौद्योगिकियों की समीक्षा|journal=Sensors |language=en |volume=22 |issue=20 |pages=7888 |doi=10.3390/s22207888 |issn=1424-8220 |pmc=9606951 |pmid=36298237 |doi-access=free }}</ref> और अनुभवहीन कीबोर्ड उपयोगकर्ताओं की टाइपिंग गति धीमी है। इसके अतिरिक्त, कीबोर्ड का उपयोग सामान्यतः कनेक्टेड डिस्प्ले के सामने बैठकर या खड़े होकर किया जाता है; इसके विपरीत, एक VUI उपयोगकर्ता को अधिक मोबाइल होने के लिए मुक्त कर देगा, क्योंकि भाषण इनपुट कीबोर्ड को देखने की आवश्यकता को समाप्त कर देता है। | ||
Line 118: | Line 93: | ||
इस तरह के विकास वस्तुतः वर्तमान मशीनों का चेहरा बदल सकते हैं और उपयोगकर्ता उनके साथ कैसे बातचीत करते हैं, इस पर दूरगामी प्रभाव पड़ सकता है। हाथ से पकड़े जाने वाले उपकरणों को बड़े, देखने में आसान स्क्रीन के साथ डिज़ाइन किया जाएगा, क्योंकि किसी कीबोर्ड की आवश्यकता नहीं होगी। टच-स्क्रीन उपकरणों को अब सामग्री और ऑन-स्क्रीन कीबोर्ड के बीच डिस्प्ले को विभाजित करने की आवश्यकता नहीं होगी, इस प्रकार सामग्री को पूर्ण-स्क्रीन देखने की सुविधा मिलेगी। लैपटॉप कंप्यूटर को आकार के आधार पर अनिवार्य रूप से आधा किया जा सकता है, क्योंकि कीबोर्ड का आधा हिस्सा हटा दिया जाएगा और सभी आंतरिक घटकों को डिस्प्ले के पीछे एकीकृत किया जाएगा, जिसके परिणामस्वरूप प्रभावी रूप से एक साधारण [[टैबलेट कंप्यूटर]] बनेगा। डेस्कटॉप कंप्यूटर में एक सीपीयू और स्क्रीन सम्मिलित होगी, जिससे डेस्कटॉप पर कीबोर्ड द्वारा कब्जा कर लिया गया स्थान बच जाएगा और डेस्क की सतह के नीचे बने स्लाइडिंग कीबोर्ड रेस्ट को खत्म कर दिया जाएगा। माइक्रोवेव ओवन से लेकर फोटोकॉपियर तक दर्जनों अन्य उपकरणों पर टेलीविजन रिमोट कंट्रोल और कीपैड को भी खत्म किया जा सकता है। | इस तरह के विकास वस्तुतः वर्तमान मशीनों का चेहरा बदल सकते हैं और उपयोगकर्ता उनके साथ कैसे बातचीत करते हैं, इस पर दूरगामी प्रभाव पड़ सकता है। हाथ से पकड़े जाने वाले उपकरणों को बड़े, देखने में आसान स्क्रीन के साथ डिज़ाइन किया जाएगा, क्योंकि किसी कीबोर्ड की आवश्यकता नहीं होगी। टच-स्क्रीन उपकरणों को अब सामग्री और ऑन-स्क्रीन कीबोर्ड के बीच डिस्प्ले को विभाजित करने की आवश्यकता नहीं होगी, इस प्रकार सामग्री को पूर्ण-स्क्रीन देखने की सुविधा मिलेगी। लैपटॉप कंप्यूटर को आकार के आधार पर अनिवार्य रूप से आधा किया जा सकता है, क्योंकि कीबोर्ड का आधा हिस्सा हटा दिया जाएगा और सभी आंतरिक घटकों को डिस्प्ले के पीछे एकीकृत किया जाएगा, जिसके परिणामस्वरूप प्रभावी रूप से एक साधारण [[टैबलेट कंप्यूटर]] बनेगा। डेस्कटॉप कंप्यूटर में एक सीपीयू और स्क्रीन सम्मिलित होगी, जिससे डेस्कटॉप पर कीबोर्ड द्वारा कब्जा कर लिया गया स्थान बच जाएगा और डेस्क की सतह के नीचे बने स्लाइडिंग कीबोर्ड रेस्ट को खत्म कर दिया जाएगा। माइक्रोवेव ओवन से लेकर फोटोकॉपियर तक दर्जनों अन्य उपकरणों पर टेलीविजन रिमोट कंट्रोल और कीपैड को भी खत्म किया जा सकता है। | ||
यद्यपि, इस तरह के विकास के लिए कई चुनौतियों से पार पाना होगा। सबसे पहले, VUI को इनपुट, जैसे कमांड और पृष्ठभूमि वार्तालाप के बीच अंतर करने के लिए पर्याप्त परिष्कृत होना होगा; अन्यथा, गलत इनपुट दर्ज किया जाएगा और कनेक्टेड डिवाइस गलत व्यवहार करेगा। एक मानक प्रॉम्प्ट, जैसे कि प्रसिद्ध कंप्यूटर! साइंस फिक्शन टीवी शो और [[स्टार ट्रेक]] जैसी फिल्मों में पात्रों द्वारा कॉल, VUI को सक्रिय कर सकता है और इसे उसी स्पीकर द्वारा आगे इनपुट प्राप्त करने के लिए तैयार कर सकता है। संभवतः, VUI में मानव जैसा प्रतिनिधित्व भी सम्मिलित हो सकता है: उदाहरण के लिए, एक आवाज या यहां तक कि एक ऑन-स्क्रीन चरित्र, जो वापस प्रतिक्रिया करता है (उदाहरण के लिए, हां, वामशी?) और उपयोगकर्ता के साथ आगे और पीछे संवाद करना जारी रखता है। प्राप्त इनपुट को स्पष्ट करें और सटीकता सुनिश्चित करें। | यद्यपि, इस तरह के विकास के लिए कई चुनौतियों से पार पाना होगा। सबसे पहले, VUI को इनपुट, जैसे कमांड और पृष्ठभूमि वार्तालाप के बीच अंतर करने के लिए पर्याप्त परिष्कृत होना होगा; अन्यथा, गलत इनपुट दर्ज किया जाएगा और कनेक्टेड डिवाइस गलत व्यवहार करेगा। एक मानक प्रॉम्प्ट, जैसे कि प्रसिद्ध कंप्यूटर! साइंस फिक्शन टीवी शो और [[स्टार ट्रेक]] जैसी फिल्मों में पात्रों द्वारा कॉल, VUI को सक्रिय कर सकता है और इसे उसी स्पीकर द्वारा आगे इनपुट प्राप्त करने के लिए तैयार कर सकता है। संभवतः, VUI में मानव जैसा प्रतिनिधित्व भी सम्मिलित हो सकता है: उदाहरण के लिए, एक आवाज या यहां तक कि एक ऑन-स्क्रीन चरित्र, जो वापस प्रतिक्रिया करता है (उदाहरण के लिए, "हां, वामशी"?) और उपयोगकर्ता के साथ आगे और पीछे संवाद करना जारी रखता है। प्राप्त इनपुट को स्पष्ट करें और सटीकता सुनिश्चित करें। | ||
दूसरा, VUI को जानकारी को सटीक रूप से संसाधित करने और खोजने/पुनर्प्राप्त करने या विशेष उपयोगकर्ता की प्राथमिकताओं के अनुसार कार्रवाई करने के लिए अत्यधिक परिष्कृत सॉफ़्टवेयर के साथ मिलकर काम करना होगा। उदाहरण के लिए, यदि सामंथा किसी विशेष समाचार पत्र से जानकारी पसंद करती है, और यदि वह चाहती है कि जानकारी को बिंदु-रूप में संक्षेपित किया जाए, तो वह कह सकती है, कंप्यूटर, मुझे कल रात दक्षिणी चीन में आई बाढ़ के बारे में कुछ जानकारी ढूंढो; जवाब में, VUI जो उसकी प्राथमिकताओं से परिचित है, उस स्रोत से दक्षिणी चीन में बाढ़ के बारे में तथ्य ढूंढेगा, इसे बिंदु-रूप में परिवर्तित करेगा, और इसे स्क्रीन पर और/या आवाज के रूप में, एक उद्धरण के साथ उसे वितरित करेगा। इसलिए, VUI से जुड़ी मशीन के हिस्से पर कुछ हद तक कृत्रिम बुद्धिमत्ता के साथ-साथ सटीक | दूसरा, VUI को जानकारी को सटीक रूप से संसाधित करने और खोजने/पुनर्प्राप्त करने या विशेष उपयोगकर्ता की प्राथमिकताओं के अनुसार कार्रवाई करने के लिए अत्यधिक परिष्कृत सॉफ़्टवेयर के साथ मिलकर काम करना होगा। उदाहरण के लिए, यदि सामंथा किसी विशेष समाचार पत्र से जानकारी पसंद करती है, और यदि वह चाहती है कि जानकारी को बिंदु-रूप में संक्षेपित किया जाए, तो वह कह सकती है, "कंप्यूटर, मुझे कल रात दक्षिणी चीन में आई बाढ़ के बारे में कुछ जानकारी ढूंढो"; जवाब में, VUI जो उसकी प्राथमिकताओं से परिचित है, उस स्रोत से "दक्षिणी चीन" में बाढ़ के बारे में तथ्य ढूंढेगा, इसे बिंदु-रूप में परिवर्तित करेगा, और इसे स्क्रीन पर और/या आवाज के रूप में, एक उद्धरण के साथ उसे वितरित करेगा। इसलिए, VUI से जुड़ी मशीन के हिस्से पर कुछ हद तक कृत्रिम बुद्धिमत्ता के साथ-साथ सटीक वाक्-पहचान सॉफ्टवेयर की आवश्यकता होगी। | ||
== गोपनीयता निहितार्थ == | == गोपनीयता निहितार्थ == | ||
गोपनीयता संबंधी चिंताएँ इस तथ्य से उत्पन्न होती हैं कि वॉयस कमांड वॉयस-यूजर इंटरफेस के प्रदाताओं के लिए अनएन्क्रिप्टेड रूप में उपलब्ध हैं, और इस प्रकार इसे तीसरे पक्ष के साथ साझा किया जा सकता है और अनधिकृत या अप्रत्याशित तरीके से संसाधित किया जा सकता है।<ref name="Fortune 2019">{{cite web|title=Apple, Google और Amazon ने डिजिटल असिस्टेंट कमांड की समीक्षा करके आपकी गोपनीयता का उल्लंघन किया हो सकता है|url=https://fortune.com/2019/08/05/google-apple-amazon-digital-assistants/|date=2019-08-05|website=Fortune|access-date=2020-05-13}}</ref><ref name="Hern 2019">{{cite web|title=रिपोर्ट में कहा गया है कि अमेज़ॅन कर्मचारी ग्राहकों की एलेक्सा रिकॉर्डिंग सुनते हैं|url=http://www.theguardian.com/technology/2019/apr/11/amazon-staff-listen-to-customers-alexa-recordings-report-says|last=Hern|first=Alex|date=2019-04-11|website=the Guardian|access-date=2020-05-21}}</ref> रिकॉर्ड किए गए भाषण की भाषाई सामग्री के अतिरिक्त, उपयोगकर्ता की अभिव्यक्ति के तरीके और आवाज की विशेषताओं में उसकी बायोमेट्रिक पहचान, व्यक्तित्व लक्षण, शरीर का आकार, शारीरिक और मानसिक स्वास्थ्य स्थिति | गोपनीयता संबंधी चिंताएँ इस तथ्य से उत्पन्न होती हैं कि वॉयस कमांड वॉयस-यूजर इंटरफेस के प्रदाताओं के लिए अनएन्क्रिप्टेड रूप में उपलब्ध हैं, और इस प्रकार इसे तीसरे पक्ष के साथ साझा किया जा सकता है और अनधिकृत या अप्रत्याशित तरीके से संसाधित किया जा सकता है।<ref name="Fortune 2019">{{cite web|title=Apple, Google और Amazon ने डिजिटल असिस्टेंट कमांड की समीक्षा करके आपकी गोपनीयता का उल्लंघन किया हो सकता है|url=https://fortune.com/2019/08/05/google-apple-amazon-digital-assistants/|date=2019-08-05|website=Fortune|access-date=2020-05-13}}</ref><ref name="Hern 2019">{{cite web|title=रिपोर्ट में कहा गया है कि अमेज़ॅन कर्मचारी ग्राहकों की एलेक्सा रिकॉर्डिंग सुनते हैं|url=http://www.theguardian.com/technology/2019/apr/11/amazon-staff-listen-to-customers-alexa-recordings-report-says|last=Hern|first=Alex|date=2019-04-11|website=the Guardian|access-date=2020-05-21}}</ref> रिकॉर्ड किए गए भाषण की भाषाई सामग्री के अतिरिक्त, उपयोगकर्ता की अभिव्यक्ति के तरीके और आवाज की विशेषताओं में उसकी बायोमेट्रिक पहचान, व्यक्तित्व लक्षण, शरीर का आकार, शारीरिक और मानसिक स्वास्थ्य स्थिति, लिंग, [[भाषण भावना पहचान|मूड और भावनाओं]], सामाजिक आर्थिक स्थिति और भौगोलिक मूल के बारे में जानकारी निहित हो सकती है।<ref name="KrögerLutz2020">{{cite book|last1=Kröger|first1=Jacob Leon|last2=Lutz|first2=Otto Hans-Martin|last3=Raschke|first3=Philip|title=गोपनीयता और पहचान प्रबंधन. बेहतर जीवन के लिए डेटा: एआई और गोपनीयता|year=2020|chapter=Privacy Implications of Voice and Speech Analysis – Information Disclosure by Inference|series=IFIP Advances in Information and Communication Technology|volume=576|pages=242–258|doi=10.1007/978-3-030-42504-3_16|isbn=978-3-030-42503-6|issn=1868-4238|doi-access=free}}</ref> | ||
== यह भी देखें == | == यह भी देखें == | ||
Line 140: | Line 115: | ||
==संदर्भ== | ==संदर्भ== | ||
{{Reflist}} | {{Reflist}} | ||
== बाहरी संबंध == | == बाहरी संबंध == | ||
*[http://www.useit.com/alertbox/20030127.html Voice Interfaces: Assessing the Potential] by Jakob Nielsen | *[http://www.useit.com/alertbox/20030127.html Voice Interfaces: Assessing the Potential] by Jakob Nielsen | ||
Line 147: | Line 120: | ||
*[http://www.witlingo.com/voice-first-glossary-of-terms/ Voice First Glossary of Terms] | *[http://www.witlingo.com/voice-first-glossary-of-terms/ Voice First Glossary of Terms] | ||
*[http://www.witlingo.com/voice-first-books/ Voice First A Reading List] | *[http://www.witlingo.com/voice-first-books/ Voice First A Reading List] | ||
[[Category: यूजर इंटरफ़ेस तकनीक]] [[Category: आवाज तकनीक]] [[Category: वाक् पहचान]] [[Category: मानव-कंप्यूटर संपर्क का इतिहास]] | [[Category: यूजर इंटरफ़ेस तकनीक]] [[Category: आवाज तकनीक]] [[Category: वाक् पहचान]] [[Category: मानव-कंप्यूटर संपर्क का इतिहास]] | ||
Line 156: | Line 126: | ||
[[Category: Machine Translated Page]] | [[Category: Machine Translated Page]] | ||
[[Category:Created On 09/08/2023]] | [[Category:Created On 09/08/2023]] | ||
[[Category:Vigyan Ready]] |
Latest revision as of 23:00, 10 October 2023
एक वॉइस-यूज़र इंटरफ़ेस (VUI) कंप्यूटर के साथ बोली जाने वाली मानवीय बातचीत को संभव बनाता है, बोले गए आदेशों और प्रश्नों के उत्तर को समझने के लिए वाक् पहचान का उपयोग करता है, और सामान्यतः उत्तर को चलाने के लिए पाठ से वाक् तक का उपयोग करता है। वॉयस कमांड डिवाइस एक वॉयस यूजर इंटरफेस से नियंत्रित डिवाइस है।
वॉयस यूजर इंटरफेस को ऑटोमोबाइल, होम ऑटोमेशन सिस्टम, कंप्यूटर ऑपरेटिंग सिस्टम, वॉशिंग मशीन और माइक्रोवेव ओवन जैसे घरेलू उपकरणो और टेलीविजन रिमोट कंट्रोल में जोड़ा गया है। वे स्मार्टफोन्स और स्मार्ट स्पीकर पर वर्चुअल सहायकों के साथ बातचीत करने का प्राथमिक तरीका हैं। पुराने स्वचालित परिचारकों (जो फोन कॉल को सही एक्सटेंशन पर रूट करते हैं) और इंटरएक्टिव वॉयस रिस्पांस सिस्टम (जो फोन पर अधिक जटिल ट्रैन्ज़ैक्शन्ज़ करते हैं) DTMF टोन के माध्यम से कीपैड बटन दबाने पर प्रतिक्रिया दे सकते हैं, लेकिन पूर्ण वॉयस यूजर इंटरफेस वाले कॉलर्स को बिना किसी बटन दबाने के अनुरोध और जवाब बोलने की अनुमति देते हैं।
नए वॉयस कमांड डिवाइस स्पीकर-स्वतंत्र हैं, इसलिए वे उच्चारण या बोली संबंधी प्रभावों की परवाह किए बिना कई आवाजों पर प्रतिक्रिया दे सकते हैं। वे एक साथ कई आदेशों का जवाब देने, मौखिक संदेशों को अलग करने और प्राकृतिक बातचीत का सटीक अनुकरण करते हुए उचित प्रतिक्रिया प्रदान करने में भी सक्षम हैं।[1]
अवलोकन
VUI किसी भी स्पीच एप्लिकेशन का इंटरफ़ेस (कंप्यूटिंग) है। किसी मशीन को केवल बात करके नियंत्रित करना कुछ समय पहले तक विज्ञान कथा थी। कुछ समय पहले तक इस क्षेत्र को कृत्रिम बुद्धिमत्ता माना जाता था। यद्यपि, टेक्स्ट-टू-स्पीच, स्पीच-टू-टेक्स्ट, नेचुरल लैंग्वेज प्रोसेसिंग और क्लाउड सेवाओं जैसी प्रौद्योगिकियों में प्रगति ने, सामान्यतः इस प्रकार के इंटरफेस को बड़े पैमाने पर अपनाने में योगदान दिया है। VUI अधिक सामान्य हो गए हैं, और लोग कई स्थितियों में ये हैंड्स-फ्री, आई-फ्री इंटरफेस द्वारा प्रदान किए जाने वाले मूल्य का लाभ उठा रहे हैं।
VUI को इनपुट पर विश्वसनीय रूप से प्रतिक्रिया देने की आवश्यकता है, अन्यथा उन्हें अस्वीकार कर दिया जाएगा और प्रायः उनके उपयोगकर्ताओं द्वारा उनका उपहास किया जाएगा। एक अच्छे VUI को डिज़ाइन करने के लिए कंप्यूटर विज्ञान, भाषा विज्ञान और मानव कारक मनोविज्ञान की अंतःविषय प्रतिभाओं की आवश्यकता होती है - ये सभी ऐसे कौशल हैं जो महंगे हैं और इन्हें प्राप्त करना कठिन है। उन्नत विकास उपकरणों के साथ भी, एक प्रभावी VUI के निर्माण के लिए निष्पादित किए जाने वाले कार्यों के साथ-साथ अंतिम प्रणाली का उपयोग करने वाले लक्षित दर्शकों की गहन समझ की आवश्यकता होती है। VUI कार्य के उपयोगकर्ता के मानसिक मॉडल से जितना नज़दीक से अनुकूल है, कम या बिना प्रशिक्षण के इसका उपयोग करना उतना ही आसान होगा, जिसके परिणामस्वरूप उच्च दक्षता और उच्च उपयोगकर्ता संतुष्टि दोनों होगी।
सामान्य जनता के लिए डिज़ाइन किए गए VUI को उपयोग में आसानी पर जोर देना चाहिए और पहली बार कॉल करने वालों के लिए बहुत अधिक सहायता और मार्गदर्शन प्रदान करना चाहिए। इसके विपरीत, बिजली उपयोगकर्ताओं के एक छोटे समूह (फ़ील्ड सेवा श्रमिकों सहित) के लिए डिज़ाइन किए गए VUI को उत्पादकता पर अधिक और सहायता और मार्गदर्शन पर कम ध्यान केंद्रित करना चाहिए। ऐसे अनुप्रयोगों को कॉल प्रवाह को सुव्यवस्थित, संकेतों को कम, अनावश्यक पुनरावृत्तियों को समाप्त करना चाहिए और विस्तृत मिश्रित पहल संवाद प्रणाली की अनुमति देनी चाहिए, जो कॉल करने वालों को एक ही उच्चारण में और किसी भी क्रम या संयोजन में जानकारी के कई टुकड़े प्रविष्ट करने में सक्षम बनाती है। संक्षेप में, स्वचालित होने वाली विशिष्ट व्यावसायिक प्रक्रिया के लिए भाषण अनुप्रयोगों को सावधानीपूर्वक तैयार किया जाना चाहिए।
सभी व्यावसायिक प्रक्रियाएँ वाक् स्वचालन के लिए स्वयं को समान रूप से प्रस्तुत नहीं करती हैं। सामान्यतः, पूछताछ और लेनदेन जितने अधिक जटिल होंगे, उन्हें स्वचालित करना उतना ही अधिक चुनौतीपूर्ण होगा, और सामान्य जनता के साथ उनके विफल होने की संभावना उतनी ही अधिक होगी। कुछ परिदृश्यों में, स्वचालन बिल्कुल लागू नहीं होता है, इसलिए लाइव एजेंट सहायता ही एकमात्र विकल्प है। उदाहरण के लिए, कानूनी सलाह हॉटलाइन को स्वचालित करना बहुत कठिन होगा। दूसरी ओर, भाषण त्वरित और नियमित लेनदेन को संभालने के लिए एकदम सही है, जैसे कार्य ऑर्डर की स्थिति बदलना, समय या व्यय प्रविष्टि को पूरा करना, या खातों के बीच धन स्थानांतरित करना।
इतिहास
VUI के प्रारंभी अनुप्रयोगों में सीधे या (सामान्यतः ब्लूटूथ) हेडसेट या वाहन ऑडियो सिस्टम के माध्यम से फोन की आवाज-सक्रिय डायलिंग (टेलीफोनी) सम्मिलित थी।
2007 में, CNN मनी बिजनेस लेख में बताया गया कि वॉयस कमांड एक अरब डॉलर से अधिक का उद्योग था और गूगल और Apple Inc. जैसी कंपनियां वाक् पहचान सुविधाओं को बनाने की कोशिश कर रही थीं।[2] लेख को प्रकाशित हुए कई साल हो गए हैं, और तब से दुनिया ने विभिन्न प्रकार के वॉयस कमांड डिवाइस देखे हैं। इसके अतिरिक्त, गूगल ने Pico TTS नामक एक वाक् पहचान इंजन बनाया और Apple ने Siri जारी किया है। वॉयस कमांड डिवाइस अधिक व्यापक रूप से उपलब्ध हो रहे हैं, और मानव आवाज का उपयोग करने के लिए हमेशा नए तरीके बनाए जा रहे हैं। उदाहरण के लिए, बिजनेस वीक सुझाव देता है कि भविष्य का रिमोट कंट्रोलर इंसान की आवाज बनने जा रहा है। वर्तमान में Xbox Live ऐसी सुविधाओं की अनुमति देता है और स्टीव जॉब्स ने नए Apple TV पर ऐसी सुविधा का संकेत दिया है।[3]
कंप्यूटिंग उपकरणों पर वॉयस कमांड सॉफ्टवेयर उत्पाद
ऐप्पल एप्पल मैकिंटोश और विंडोज PCनिजी कंप्यूटर दोनों अपने नवीनतम ऑपरेटिंग सिस्टम के लिए अंतर्निहित वाक् पहचान सुविधाएँ प्रदान करते हैं।
माइक्रोसॉफ्ट विंडोज़
दो माइक्रोसॉफ्ट ऑपरेटिंग सिस्टम, विंडोज 7 और विंडोज़ विस्टा, वाक् पहचान क्षमताएँ प्रदान करते हैं। माइक्रोसॉफ्ट ने उन लोगों के लिए एक तंत्र प्रदान करने के लिए अपने ऑपरेटिंग सिस्टम में वॉयस कमांड को एकीकृत किया है जो माउस और कीबोर्ड के उपयोग को सीमित करना चाहते हैं, लेकिन फिर भी अपनी समग्र उत्पादकता को बनाए रखना या बढ़ाना चाहते हैं।[4]
विंडोज विस्टा
विंडोज विस्टा वॉयस कंट्रोल के साथ, उपयोगकर्ता मुख्यधारा के अनुप्रयोगों में दस्तावेजों और ईमेल को निर्देशित कर सकता है, अनुप्रयोगों के बीच शुरू और स्विच कर सकता है, ऑपरेटिंग सिस्टम को नियंत्रित, दस्तावेजों को प्रारूपित और सहेज, फाइलों को संपादित, त्रुटियों को कुशलतापूर्वक ठीक और इंटरनेट पर फॉर्म भर सकता है। जब भी कोई उपयोगकर्ता इसका उपयोग करता है तो वाक् पहचान सॉफ्टवेयर स्वचालित रूप से सीखता है, और वाक् पहचान अंग्रेजी (U.S.), अंग्रेजी (U.K.), जर्मन (जर्मनी), फ्रेंच (फ्रांस), स्पेनिश (स्पेन), जापानी, चीनी (पारंपरिक) में उपलब्ध है। इसके अतिरिक्त, सॉफ्टवेयर एक इंटरैक्टिव ट्यूटोरियल के साथ आता है, जिसका उपयोग उपयोगकर्ता और वाक् पहचान इंजन दोनों को प्रशिक्षित करने के लिए किया जा सकता है।[5]
विंडोज़ 7
विंडोज विस्टा में प्रदान की गई सभी सुविधाओं के अतिरिक्त, विंडोज 7 माइक्रोफ़ोन सेट करने के लिए एक विज़ार्ड और सुविधा का उपयोग करने के तरीके पर एक ट्यूटोरियल प्रदान करता है।[6]
Mac OS X
सभी Mac OS सॉफ़्टवेयर उपयोगकर्ता-स्वतंत्र है, और यह उपयोगकर्ता को मेनू नेविगेट करने और कीबोर्ड शॉर्टकट दर्ज करने की अनुमति देता है; चेकबॉक्स नाम, रेडियो बटन नाम, सूची आइटम और बटन नाम बोलें; और अनुप्रयोगों के बीच खोलें, बंद करें, नियंत्रित करें और स्विच करें।[7] यद्यपि, Apple वेबसाइट उपयोगकर्ता को MacSpeech Dictate नामक एक वाणिज्यिक उत्पाद खरीदने की सलाह देती है।[7]
वाणिज्यिक उत्पाद
यदि कोई उपयोगकर्ता अंतर्निहित वाक् पहचान सॉफ़्टवेयर से संतुष्ट नहीं है या किसी उपयोगकर्ता के पास अपने OS के लिए निर्मित वाक् पहचान सॉफ़्टवेयर नहीं है, तो उपयोगकर्ता विंडोज़ पीसी के लिए Braina या स्वाभाविक रूप से बोलना जैसे व्यावसायिक उत्पाद के साथ प्रयोग कर सकता है।[8] डिक्टेट, मैक OS के लिए एक ही सॉफ्टवेयर का नाम है।[9]
वॉइस कमांड मोबाइल डिवाइस
एंड्रॉइड OS, माइक्रोसॉफ्ट विंडोज फोन, iOS 9 या उसके बाद का संस्करण या ब्लैकबेरी OS चलाने वाला कोई भी मोबाइल डिवाइस वॉयस कमांड क्षमताएं प्रदान करता है। प्रत्येक मोबाइल फोन के ऑपरेटिंग सिस्टम के लिए निर्मित वाक् पहचान सॉफ्टवेयर के अतिरिक्त, एक उपयोगकर्ता प्रत्येक ऑपरेटिंग सिस्टम के एप्लिकेशन स्टोर से थर्ड पार्टी वॉयस कमांड एप्लिकेशन डाउनलोड कर सकता है: ऐप स्टोर (iOS), गूगल प्ले, विंडोज फोन मार्केटप्लेस (प्रारंभ में मोबाइल के लिए विंडोज़ मार्केटप्लेस) , या ब्लैकबेरी ऐप वर्ल्ड।
एंड्रॉइड OS
गूगल ने एंड्रॉइड (ऑपरेटिंग सिस्टम) नामक एक ओपन सोर्स ऑपरेटिंग सिस्टम विकसित किया है, जो उपयोगकर्ता को वॉयस कमांड करने की अनुमति देता है जैसे: टेक्स्ट संदेश भेजना, संगीत सुनना, दिशानिर्देश प्राप्त करना, व्यवसायों को कॉल करना, संपर्कों को कॉल करना, ईमेल भेजना, मानचित्र देखना, वेबसाइटों पर जाएँ, एक नोट लिखें और गूगल पर खोजें।[10] वाक् पहचान सॉफ़्टवेयर एंड्रॉइड Froyo|एंड्रॉइड 2.2 Froyo के बाद से सभी उपकरणों के लिए उपलब्ध है, लेकिन सेटिंग्स को अंग्रेजी पर सेट किया जाना चाहिए।[10] गूगल उपयोगकर्ता को भाषा बदलने की अनुमति देता है, और जब उपयोगकर्ता पहली बार वाक् पहचान सुविधा का उपयोग करता है तो उसे संकेत दिया जाता है कि क्या वह चाहता है कि उसका ध्वनि डेटा उसके गूगल खाते से जुड़ा हो। यदि कोई उपयोगकर्ता इस सेवा को चुनने का निर्णय लेता है, तो यह गूगल को सॉफ़्टवेयर को उपयोगकर्ता की आवाज़ के अनुसार प्रशिक्षित करने की अनुमति देता है।[11]
गूगल ने गूगल असिस्टेंट को एंड्रॉयड 7.0 Nougat के साथ प्रस्तुत किया। यह पुराने वर्जन से कहीं ज्यादा एडवांस है।
Amazon.com के पास Amazon Echo है जो वॉयस इंटरफ़ेस प्रदान करने के लिए अमेजन के एंड्रॉइड के कस्टम संस्करण का उपयोग करता है।
माइक्रोसॉफ्ट विंडोज़
विंडोज़ फोन माइक्रोसॉफ्ट के मोबाइल डिवाइस का ऑपरेटिंग सिस्टम है। विंडोज फोन 7.5 पर, स्पीच ऐप उपयोगकर्ता के लिए स्वतंत्र है और इसका उपयोग किया जा सकता है: अपनी संपर्क सूची से किसी को कॉल करें, किसी भी फोन नंबर पर कॉल करें, अंतिम नंबर को फिर से डायल करें, एक टेक्स्ट संदेश भेजें, अपने वॉयस मेल पर कॉल करें, एक एप्लिकेशन खोलें, अपॉइंटमेंट पढ़ें, फ़ोन की स्थिति पूछें, और वेब पर खोजें।[12][13] इसके अतिरिक्त, फोन कॉल के दौरान भाषण का भी उपयोग किया जा सकता है, और फोन कॉल के दौरान निम्नलिखित क्रियाएं संभव हैं: एक नंबर दबाएं, स्पीकर फोन चालू करें, या किसी को कॉल करें, जो वर्तमान कॉल को रोक देता है।[13]
विंडोज 10 ने कॉर्टाना (सॉफ्टवेयर) प्रस्तुत किया है, जो एक आवाज नियंत्रण प्रणाली है जो विंडोज फोन पर पहले उपयोग किए गए आवाज नियंत्रण को प्रतिस्थापित करती है।
iOS
एप्पल ने iPhone OS 3 की एक नई सुविधा के रूप में iOS उपकरणों की अपनी सूची में आवाज नियंत्रण (एप्पल) को जोड़ा। iPhone 4S, iPad (तीसरी पीढ़ी), iPad Mini (पहली पीढ़ी), iPad Air, iPad Pro, iPod Touch (5वीं पीढ़ी) ) और बाद में, सभी महोदय मै नामक एक अधिक उन्नत वॉयस असिस्टेंट के साथ आते हैं। नए उपकरणों के सेटिंग मेनू के माध्यम से ध्वनि नियंत्रण को अभी भी सक्षम किया जा सकता है। सिरी एक उपयोगकर्ता स्वतंत्र अंतर्निहित वाक् पहचान सुविधा है जो उपयोगकर्ता को वॉयस कमांड जारी करने की अनुमति देती है। सिरी की सहायता से उपयोगकर्ता कमांड जारी कर सकता है, जैसे टेक्स्ट संदेश भेजना, मौसम की जांच करना, अनुस्मारक सेट करना, जानकारी ढूंढना, मीटिंग शेड्यूल करना, ईमेल भेजना, संपर्क ढूंढना, अलार्म सेट करना, दिशा-निर्देश प्राप्त करना, अपने स्टॉक को ट्रैक करना, एक टाइमर सेट करें, और नमूना वॉयस कमांड प्रश्नों के उदाहरण पूछें।[14] इसके अतिरिक्त, सिरी ब्लूटूथ और वायर्ड हेडफ़ोन के साथ काम करता है।[15]
अमेज़ॅन एलेक्सा
2014 में अमेज़न ने अमेज़न एलेक्सा प्रस्तुत किया। इसका मुख्य उद्देश्य सिर्फ एक स्मार्ट स्पीकर था, जो उपभोक्ता को अपनी आवाज से डिवाइस को नियंत्रित करने की अनुमति देता था। अंततः, यह एक नवीन उपकरण में बदल गया जिसमें आवाज से घरेलू उपकरण को नियंत्रित करने की क्षमता थी। अब प्रकाश बल्ब और तापमान सहित लगभग सभी उपकरण एलेक्सा से नियंत्रित किए जा सकते हैं। आवाज नियंत्रण की अनुमति देकर, एलेक्सा स्मार्ट होम तकनीक से जुड़ सकता है जिससे आप अपने घर को बंद कर सकते हैं, तापमान को नियंत्रित कर सकते हैं और विभिन्न उपकरणों को सक्रिय कर सकते हैं। A.I का यह रूप किसी को केवल एक प्रश्न पूछने की अनुमति देता है, और जवाब में एलेक्सा उत्तर खोजती है, ढूंढती है और आपको जवाब सुनाती है।[16]
कारों में वाक् पहचान
जैसे-जैसे कार प्रौद्योगिकी में सुधार होगा, कारों में और अधिक सुविधाएँ जोड़ी जाएंगी और ये सुविधाएँ ड्राइवर का ध्यान भटका देंगी। CNET के अनुसार, कारों के लिए वॉयस कमांड से ड्राइवर को कमांड जारी करने की अनुमति मिलनी चाहिए और उसका ध्यान नहीं भटकना चाहिए। CNET ने कहा कि नुअंस सुझाव दे रहा था कि भविष्य में वे एक ऐसा सॉफ्टवेयर बनाएंगे जो सिरी जैसा होगा, लेकिन कारों के लिए।[17] 2011 में बाज़ार में अधिकांश वाक् पहचान सॉफ़्टवेयर में केवल 50 से 60 वॉइस कमांड थे, लेकिन फोर्ड सिंक में 10,000 थे।[17] यद्यपि, CNET ने सुझाव दिया कि 10,000 वॉयस कमांड भी जटिलता और उपयोगकर्ता द्वारा ड्राइविंग के दौरान किए जाने वाले कार्यों की विविधता को देखते हुए पर्याप्त नहीं थे।[17] कारों के लिए वॉयस कमांड मोबाइल फोन और कंप्यूटर के लिए वॉयस कमांड से अलग है क्योंकि ड्राइवर इस सुविधा का उपयोग आस-पास के रेस्तरां, गैस, ड्राइविंग निर्देश, सड़क की स्थिति और निकटतम होटल के स्थान को देखने के लिए कर सकता है।[17] वर्तमान में, प्रौद्योगिकी ड्राइवर को गार्मिन जैसे पोर्टेबल जीपीएस नेविगेशन डिवाइस और कार निर्माता नेविगेशन सिस्टम दोनों पर वॉयस कमांड जारी करने की अनुमति देती है।[18]
मोटर निर्माताओं द्वारा उपलब्ध कराए गए वॉयस कमांड सिस्टम की सूची:
- फोर्ड सिंक
- लेक्सस वॉयस कमांड
- क्रिसलर यूकनेक्ट
- होंडा एकॉर्ड
- GM इंटेलीलिंक
- बीएमडब्लू
- मर्सिडीज
- पाइअनिर
- हरमन
- हुंडई
अशाब्दिक इनपुट
जबकि अधिकांश ध्वनि उपयोगकर्ता इंटरफ़ेस मौखिक मानव भाषा के माध्यम से बातचीत का समर्थन करने के लिए डिज़ाइन किए गए हैं, इंटरफ़ेस डिज़ाइन करने में हाल ही में अन्वेषण अशाब्दिक मानव ध्वनियों को इनपुट के रूप में लेते हैं। इन प्रणालियों में, उपयोगकर्ता गैर-वाक् ध्वनियाँ जैसे गुनगुनाना, सीटी बजाना या माइक्रोफ़ोन में फूंक मारकर इंटरफ़ेस को नियंत्रित करता है।[19]
अशाब्दिक ध्वनि उपयोगकर्ता इंटरफ़ेस का ऐसा एक उदाहरण ब्लेंडी है,[20][21] केली डॉब्सन द्वारा निर्मित एक इंटरैक्टिव आर्ट इंस्टॉलेशन। इस टुकड़े में 1950 के दशक का एक क्लासिक ब्लेंडर सम्मिलित था जिसे माइक्रोफ़ोन इनपुट पर प्रतिक्रिया देने के लिए रेट्रोफिट किया गया था। ब्लेंडर को नियंत्रित करने के लिए, उपयोगकर्ता को उन घूमने वाली यांत्रिक ध्वनियों की नकल करनी चाहिए जो एक ब्लेंडर सामान्यतः बनाता है: उपयोगकर्ता की कम आवाज वाली गुर्राहट के जवाब में ब्लेंडर धीरे-धीरे घूमेगा, और जैसे-जैसे उपयोगकर्ता उच्च स्वर वाली ध्वनि बनाता है, गति में वृद्धि होगी।
एक अन्य उदाहरण वॉइसड्रॉ है,[22] एक अनुसंधान प्रणाली जो सीमित मोटर क्षमताओं वाले व्यक्तियों के लिए डिजिटल ड्राइंग को सक्षम बनाती है। वॉयसड्रा उपयोगकर्ताओं को स्वर ध्वनियों को संशोधित करके डिजिटल कैनवास पर स्ट्रोक पेंट करने की अनुमति देता है, जिन्हें ब्रश दिशाओं में मैप किया जाता है। अन्य पारभाषिक विशेषताओं (उदाहरण के लिए उनकी आवाज की तीव्रता) को संशोधित करने से उपयोगकर्ता को ड्राइंग की विभिन्न विशेषताओं को नियंत्रित करने की अनुमति मिलती है, जैसे ब्रश स्ट्रोक की मोटाई।
अन्य तरीकों में नए प्रकार के इशारों का समर्थन करने के लिए स्पर्श-आधारित इंटरफेस (उदाहरण के लिए मोबाइल फोन पर) को बढ़ाने के लिए अशाब्दिक ध्वनियों को अपनाना सम्मिलित है जो अकेले उंगली इनपुट के साथ संभव नहीं होगा।[19]
डिज़ाइन चुनौतियाँ
वॉयस इंटरफेस प्रयोज्यता के लिए पर्याप्त संख्या में चुनौतियाँ प्रस्तुत करता है। ग्राफिकल यूजर इंटरफेस (GUIs) के विपरीत, वॉयस इंटरफेस डिजाइन के लिए सर्वोत्तम प्रथाएं अभी भी उभर रही हैं।[23]
खोज योग्यता
पूरी तरह से ऑडियो-आधारित इंटरैक्शन के साथ, वॉयस यूजर इंटरफेस कम खोज क्षमता से ग्रस्त होते हैं:[23] उपयोगकर्ताओं के लिए सिस्टम की क्षमताओं के दायरे को समझना मुश्किल है। सिस्टम को यह बताने के लिए कि दृश्य प्रदर्शन के बिना क्या संभव है, उसे उपलब्ध विकल्पों की गणना करने की आवश्यकता होगी, जो थकाऊ या असंभव हो सकते हैं। कम खोज योग्यता के परिणामस्वरूप प्रायः उपयोगकर्ता इस बात को लेकर भ्रम की स्थिति में होते हैं कि उन्हें क्या कहने की अनुमति है, या सिस्टम की समझ की चौड़ाई के बारे में अपेक्षाओं में बेमेल है।[24][25]
प्रतिलेखन
यद्यपि हाल के वर्षों में वाक् पहचान तकनीक में काफी सुधार हुआ है, फिर भी ध्वनि उपयोगकर्ता इंटरफ़ेस अभी भी पार्सिंग या ट्रांसक्रिप्शन त्रुटियों से ग्रस्त है जिसमें उपयोगकर्ता के भाषण की सही ढंग से व्याख्या नहीं की जाती है।[26] ये त्रुटियाँ विशेष रूप से तब प्रचलित होती हैं जब भाषण सामग्री तकनीकी शब्दावली (जैसे चिकित्सा शब्दावली) या अपरंपरागत वर्तनी जैसे संगीत कलाकार या गीत के नाम का उपयोग करती है।[27]
समझ
प्राकृतिक-भाषा की समझ को अधिकतम करने के लिए प्रभावी सिस्टम डिज़ाइन अनुसंधान का एक खुला क्षेत्र बना हुआ है। वॉयस यूजर इंटरफेस जो बातचीत की स्थिति की व्याख्या और प्रबंधन करते हैं, संदर्भ, नामित-इकाई पहचान, सूचना पुनर्प्राप्ति और संवाद प्रबंधक जैसे जटिल प्राकृतिक भाषा प्रसंस्करण कार्यों को एकीकृत करने की अंतर्निहित कठिनाई के कारण डिजाइन करना चुनौतीपूर्ण है।[28] अधिकांश वॉयस असिस्टेंट आज एकल कमांड को बहुत अच्छी तरह से निष्पादित करने में सक्षम हैं, लेकिन एक संकीर्ण कार्य या बातचीत में कुछ बदलावों से परे संवाद को प्रबंधित करने की उनकी क्षमता सीमित है।[29]
भविष्य में उपयोग
पॉकेट-आकार के उपकरण, जैसे व्यक्तिगत डिजिटल सहायक या चल दूरभाष , वर्तमान में उपयोगकर्ता इनपुट के लिए छोटे बटन पर निर्भर हैं। ये या तो डिवाइस में निर्मित होते हैं या टच-स्क्रीन इंटरफ़ेस का हिस्सा होते हैं, जैसे कि Apple iPod Touch और iPhone Siri एप्लिकेशन। ऐसे छोटे बटन वाले उपकरणों पर व्यापक बटन दबाना थकाऊ और गलत हो सकता है, इसलिए उपयोग में आसान, सटीक और विश्वसनीय VUI संभावित रूप से उनके उपयोग की आसानी में एक बड़ी सफलता होगी। बहरहाल, इस तरह के VUI से लैपटॉप और डेस्कटॉप आकार के कंप्यूटर के उपयोगकर्ताओं को भी लाभ होगा, क्योंकि यह वर्तमान में कीबोर्ड और माउस (कंप्यूटिंग) के उपयोग से जुड़ी कई समस्याओं का समाधान करेगा, जिसमें कार्पल टनल सिंड्रोम जैसी दोहराव-तनाव की चोटें सम्मिलित हैं। दृष्टिबाधितों द्वारा डिजिटल इंटरफेस के भीतर नेविगेट करने और टेक्स्ट इनपुट करने की चुनौतियाँ,[30] और अनुभवहीन कीबोर्ड उपयोगकर्ताओं की टाइपिंग गति धीमी है। इसके अतिरिक्त, कीबोर्ड का उपयोग सामान्यतः कनेक्टेड डिस्प्ले के सामने बैठकर या खड़े होकर किया जाता है; इसके विपरीत, एक VUI उपयोगकर्ता को अधिक मोबाइल होने के लिए मुक्त कर देगा, क्योंकि भाषण इनपुट कीबोर्ड को देखने की आवश्यकता को समाप्त कर देता है।
इस तरह के विकास वस्तुतः वर्तमान मशीनों का चेहरा बदल सकते हैं और उपयोगकर्ता उनके साथ कैसे बातचीत करते हैं, इस पर दूरगामी प्रभाव पड़ सकता है। हाथ से पकड़े जाने वाले उपकरणों को बड़े, देखने में आसान स्क्रीन के साथ डिज़ाइन किया जाएगा, क्योंकि किसी कीबोर्ड की आवश्यकता नहीं होगी। टच-स्क्रीन उपकरणों को अब सामग्री और ऑन-स्क्रीन कीबोर्ड के बीच डिस्प्ले को विभाजित करने की आवश्यकता नहीं होगी, इस प्रकार सामग्री को पूर्ण-स्क्रीन देखने की सुविधा मिलेगी। लैपटॉप कंप्यूटर को आकार के आधार पर अनिवार्य रूप से आधा किया जा सकता है, क्योंकि कीबोर्ड का आधा हिस्सा हटा दिया जाएगा और सभी आंतरिक घटकों को डिस्प्ले के पीछे एकीकृत किया जाएगा, जिसके परिणामस्वरूप प्रभावी रूप से एक साधारण टैबलेट कंप्यूटर बनेगा। डेस्कटॉप कंप्यूटर में एक सीपीयू और स्क्रीन सम्मिलित होगी, जिससे डेस्कटॉप पर कीबोर्ड द्वारा कब्जा कर लिया गया स्थान बच जाएगा और डेस्क की सतह के नीचे बने स्लाइडिंग कीबोर्ड रेस्ट को खत्म कर दिया जाएगा। माइक्रोवेव ओवन से लेकर फोटोकॉपियर तक दर्जनों अन्य उपकरणों पर टेलीविजन रिमोट कंट्रोल और कीपैड को भी खत्म किया जा सकता है।
यद्यपि, इस तरह के विकास के लिए कई चुनौतियों से पार पाना होगा। सबसे पहले, VUI को इनपुट, जैसे कमांड और पृष्ठभूमि वार्तालाप के बीच अंतर करने के लिए पर्याप्त परिष्कृत होना होगा; अन्यथा, गलत इनपुट दर्ज किया जाएगा और कनेक्टेड डिवाइस गलत व्यवहार करेगा। एक मानक प्रॉम्प्ट, जैसे कि प्रसिद्ध कंप्यूटर! साइंस फिक्शन टीवी शो और स्टार ट्रेक जैसी फिल्मों में पात्रों द्वारा कॉल, VUI को सक्रिय कर सकता है और इसे उसी स्पीकर द्वारा आगे इनपुट प्राप्त करने के लिए तैयार कर सकता है। संभवतः, VUI में मानव जैसा प्रतिनिधित्व भी सम्मिलित हो सकता है: उदाहरण के लिए, एक आवाज या यहां तक कि एक ऑन-स्क्रीन चरित्र, जो वापस प्रतिक्रिया करता है (उदाहरण के लिए, "हां, वामशी"?) और उपयोगकर्ता के साथ आगे और पीछे संवाद करना जारी रखता है। प्राप्त इनपुट को स्पष्ट करें और सटीकता सुनिश्चित करें।
दूसरा, VUI को जानकारी को सटीक रूप से संसाधित करने और खोजने/पुनर्प्राप्त करने या विशेष उपयोगकर्ता की प्राथमिकताओं के अनुसार कार्रवाई करने के लिए अत्यधिक परिष्कृत सॉफ़्टवेयर के साथ मिलकर काम करना होगा। उदाहरण के लिए, यदि सामंथा किसी विशेष समाचार पत्र से जानकारी पसंद करती है, और यदि वह चाहती है कि जानकारी को बिंदु-रूप में संक्षेपित किया जाए, तो वह कह सकती है, "कंप्यूटर, मुझे कल रात दक्षिणी चीन में आई बाढ़ के बारे में कुछ जानकारी ढूंढो"; जवाब में, VUI जो उसकी प्राथमिकताओं से परिचित है, उस स्रोत से "दक्षिणी चीन" में बाढ़ के बारे में तथ्य ढूंढेगा, इसे बिंदु-रूप में परिवर्तित करेगा, और इसे स्क्रीन पर और/या आवाज के रूप में, एक उद्धरण के साथ उसे वितरित करेगा। इसलिए, VUI से जुड़ी मशीन के हिस्से पर कुछ हद तक कृत्रिम बुद्धिमत्ता के साथ-साथ सटीक वाक्-पहचान सॉफ्टवेयर की आवश्यकता होगी।
गोपनीयता निहितार्थ
गोपनीयता संबंधी चिंताएँ इस तथ्य से उत्पन्न होती हैं कि वॉयस कमांड वॉयस-यूजर इंटरफेस के प्रदाताओं के लिए अनएन्क्रिप्टेड रूप में उपलब्ध हैं, और इस प्रकार इसे तीसरे पक्ष के साथ साझा किया जा सकता है और अनधिकृत या अप्रत्याशित तरीके से संसाधित किया जा सकता है।[31][32] रिकॉर्ड किए गए भाषण की भाषाई सामग्री के अतिरिक्त, उपयोगकर्ता की अभिव्यक्ति के तरीके और आवाज की विशेषताओं में उसकी बायोमेट्रिक पहचान, व्यक्तित्व लक्षण, शरीर का आकार, शारीरिक और मानसिक स्वास्थ्य स्थिति, लिंग, मूड और भावनाओं, सामाजिक आर्थिक स्थिति और भौगोलिक मूल के बारे में जानकारी निहित हो सकती है।[33]
यह भी देखें
- वाक् पहचान
- भाषा संकलन
- वाक् पहचान सॉफ़्टवेयर की सूची
- प्राकृतिक भाषा उपयोगकर्ता इंटरफ़ेस
- यूजर इंटरफ़ेस डिज़ाइन
- ध्वनि ब्राउज़र
- आवाज़ से आदेश
- लिनक्स में वाक् पहचान
- लिंगुआट्रोनिक
- घर स्वचालन
- ध्वनि कंप्यूटिंग
संदर्भ
- ↑ "वॉशिंग मशीन आवाज नियंत्रण". Appliance Magazine.
- ↑ Borzo, Jeanette (8 February 2007). "अब आप बात कर रहे हैं". CNN Money. Retrieved 25 April 2012.
- ↑ "Voice Control, the End of the TV Remote?". Bloomberg.com. Business Week. 9 December 2011. Archived from the original on December 8, 2011. Retrieved 1 May 2012.
- ↑ "विंडोज़ विस्टा बिल्ट इन स्पीच". Windows Vista. Retrieved 25 April 2012.
- ↑ "विस्टा पर भाषण संचालन". Microsoft.
- ↑ "वाक् पहचान सेट अप". Microsoft.
- ↑ 7.0 7.1 "शारीरिक और मोटर कौशल". Apple.
- ↑ "ड्रैगननेचरलीस्पीकिंग पीसी". Nuance.
- ↑ "ड्रैगननैचरलीस्पीकिंग मैक". Nuance.
- ↑ 10.0 10.1 "ध्वनि क्रियाएँ".
- ↑ "एंड्रॉइड के लिए Google Voice खोज अब आपकी आवाज़ के लिए "प्रशिक्षित" हो सकती है". 14 December 2010. Retrieved 24 April 2012.
- ↑ "वॉइस कमांड का उपयोग करना". Microsoft. Retrieved 24 April 2012.
- ↑ 13.0 13.1 "वॉइस कमांड का उपयोग करना". Microsoft. Retrieved 27 April 2012.
- ↑ "Siri, The iPhone 3GS & 4, iPod 3 & 4, have voice control like an express Siri, it plays music, pauses music, suffle, Facetime, and calling Features". Apple. Retrieved 27 April 2012.
- ↑ "सिरी अक्सर पूछे जाने वाले प्रश्न". Apple.
- ↑ "अमेज़ॅन का इको एक स्मार्ट स्पीकर से आपके घर के केंद्र तक कैसे पहुंच गया". Business Insider.
- ↑ 17.0 17.1 17.2 17.3 "सिरी जैसी आवाज". CNET.
- ↑ "आवाज के साथ पोर्टेबल जीपीएस". CNET.
- ↑ 19.0 19.1 "Voice augmented manipulation | Proceedings of the 15th international conference on Human-computer interaction with mobile devices and services". dlnext.acm.org (in English). doi:10.1145/2493190.2493244. S2CID 6251400. Retrieved 2019-02-27.
- ↑ "Blendie | Proceedings of the 5th conference on Designing interactive systems: processes, practices, methods, and techniques". dlnext.acm.org (in English). doi:10.1145/1013115.1013159. Retrieved 2019-02-27.
- ↑ "Kelly Dobson: Blendie". web.media.mit.edu. Retrieved 2019-02-27.
- ↑ "Voicedraw | Proceedings of the 9th international ACM SIGACCESS conference on Computers and accessibility". dlnext.acm.org (in English). doi:10.1145/1296843.1296850. S2CID 218338. Retrieved 2019-02-27.
- ↑ 23.0 23.1 "Design guidelines for hands-free speech interaction | Proceedings of the 20th International Conference on Human-Computer Interaction with Mobile Devices and Services Adjunct". dlnext.acm.org (in English). doi:10.1145/3236112.3236149. S2CID 52099112. Retrieved 2019-02-27.
- ↑ "Designing SpeechActs | Proceedings of the SIGCHI Conference on Human Factors in Computing Systems". dlnext.acm.org (in English). doi:10.1145/223904.223952. S2CID 9313029. Retrieved 2019-02-27.
- ↑ "What can I say? | Proceedings of the 18th International Conference on Human-Computer Interaction with Mobile Devices and Services" (in English). doi:10.1145/2935334.2935386. S2CID 6246618.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ "Patterns for How Users Overcome Obstacles in Voice User Interfaces | Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems". dlnext.acm.org (in English). doi:10.1145/3173574.3173580. S2CID 5041672. Retrieved 2019-02-27.
- ↑ ""Play PRBLMS" | Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems". dlnext.acm.org (in English). doi:10.1145/3173574.3173870. S2CID 5050837. Retrieved 2019-02-27.
- ↑ Galitsky, Boris (2019). Developing Enterprise Chatbots: Learning Linguistic Structures (in English) (1st ed.). Cham, Switzerland: Springer. pp. 13–24. doi:10.1007/978-3-030-04299-8. ISBN 978-3-030-04298-1. S2CID 102486666.
- ↑ Pearl, Cathy (2016-12-06). Designing Voice User Interfaces: Principles of Conversational Experiences (in English) (1st ed.). Sebastopol, CA: O'Reilly Media. pp. 16–19. ISBN 978-1-491-95541-3.
- ↑ Messaoudi, Mohamed Dhiaeddine; Menelas, Bob-Antoine J.; Mcheick, Hamid (2022-10-17). "दृष्टिबाधित लोगों के लिए नेविगेशन सहायक उपकरण और प्रौद्योगिकियों की समीक्षा". Sensors (in English). 22 (20): 7888. doi:10.3390/s22207888. ISSN 1424-8220. PMC 9606951. PMID 36298237.
- ↑ "Apple, Google और Amazon ने डिजिटल असिस्टेंट कमांड की समीक्षा करके आपकी गोपनीयता का उल्लंघन किया हो सकता है". Fortune. 2019-08-05. Retrieved 2020-05-13.
- ↑ Hern, Alex (2019-04-11). "रिपोर्ट में कहा गया है कि अमेज़ॅन कर्मचारी ग्राहकों की एलेक्सा रिकॉर्डिंग सुनते हैं". the Guardian. Retrieved 2020-05-21.
- ↑ Kröger, Jacob Leon; Lutz, Otto Hans-Martin; Raschke, Philip (2020). "Privacy Implications of Voice and Speech Analysis – Information Disclosure by Inference". गोपनीयता और पहचान प्रबंधन. बेहतर जीवन के लिए डेटा: एआई और गोपनीयता. IFIP Advances in Information and Communication Technology. Vol. 576. pp. 242–258. doi:10.1007/978-3-030-42504-3_16. ISBN 978-3-030-42503-6. ISSN 1868-4238.