वॉइस-यूज़र इंटरफ़ेस: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 20: Line 20:
VUI के प्रारंभी अनुप्रयोगों में सीधे या (सामान्यतः [[ब्लूटूथ]]) हेडसेट या वाहन ऑडियो सिस्टम के माध्यम से फोन की आवाज-सक्रिय [[डायलिंग (टेलीफोनी)]] सम्मिलित थी।
VUI के प्रारंभी अनुप्रयोगों में सीधे या (सामान्यतः [[ब्लूटूथ]]) हेडसेट या वाहन ऑडियो सिस्टम के माध्यम से फोन की आवाज-सक्रिय [[डायलिंग (टेलीफोनी)]] सम्मिलित थी।


2007 में, [[सीएनएन मनी|CNN मनी]] बिजनेस लेख में बताया गया कि वॉयस कमांड एक अरब डॉलर से अधिक का उद्योग था और Google और Apple Inc. जैसी कंपनियां वाक् पहचान सुविधाओं को बनाने की कोशिश कर रही थीं।<ref>{{cite news|title=अब आप बात कर रहे हैं|url=https://money.cnn.com/magazines/business2/business2_archive/2007/02/01/8398978/index.htm|publisher=CNN Money|access-date=25 April 2012|first=Jeanette|last=Borzo|date=8 February 2007}}</ref> लेख को प्रकाशित हुए कई साल हो गए हैं, और तब से दुनिया ने विभिन्न प्रकार के वॉयस कमांड डिवाइस देखे हैं। इसके अतिरिक्त, Google ने Pico TTS नामक एक वाक् पहचान इंजन बनाया और Apple ने Siri जारी किया है। वॉयस कमांड डिवाइस अधिक व्यापक रूप से उपलब्ध हो रहे हैं, और मानव आवाज का उपयोग करने के लिए हमेशा नए तरीके बनाए जा रहे हैं। उदाहरण के लिए, बिजनेस वीक सुझाव देता है कि भविष्य का रिमोट कंट्रोलर इंसान की आवाज बनने जा रहा है। वर्तमान में [[Xbox Live]] ऐसी सुविधाओं की अनुमति देता है और [[स्टीव जॉब्स]] ने नए [[Apple TV]] पर ऐसी सुविधा का संकेत दिया है।<ref>{{cite news|title=Voice Control, the End of the TV Remote?|newspaper=Bloomberg.com|date=9 December 2011|url=http://www.businessweek.com/magazine/voice-control-the-end-of-the-tv-remote-12082011.html|archive-url=https://web.archive.org/web/20111208224714/http://www.businessweek.com/magazine/voice-control-the-end-of-the-tv-remote-12082011.html|url-status=dead|archive-date=December 8, 2011|publisher=Business Week|access-date=1 May 2012}}</ref>
2007 में, [[सीएनएन मनी|CNN मनी]] बिजनेस लेख में बताया गया कि वॉयस कमांड एक अरब डॉलर से अधिक का उद्योग था और गूगल और Apple Inc. जैसी कंपनियां वाक् पहचान सुविधाओं को बनाने की कोशिश कर रही थीं।<ref>{{cite news|title=अब आप बात कर रहे हैं|url=https://money.cnn.com/magazines/business2/business2_archive/2007/02/01/8398978/index.htm|publisher=CNN Money|access-date=25 April 2012|first=Jeanette|last=Borzo|date=8 February 2007}}</ref> लेख को प्रकाशित हुए कई साल हो गए हैं, और तब से दुनिया ने विभिन्न प्रकार के वॉयस कमांड डिवाइस देखे हैं। इसके अतिरिक्त, गूगल ने Pico TTS नामक एक वाक् पहचान इंजन बनाया और Apple ने Siri जारी किया है। वॉयस कमांड डिवाइस अधिक व्यापक रूप से उपलब्ध हो रहे हैं, और मानव आवाज का उपयोग करने के लिए हमेशा नए तरीके बनाए जा रहे हैं। उदाहरण के लिए, बिजनेस वीक सुझाव देता है कि भविष्य का रिमोट कंट्रोलर इंसान की आवाज बनने जा रहा है। वर्तमान में [[Xbox Live]] ऐसी सुविधाओं की अनुमति देता है और [[स्टीव जॉब्स]] ने नए [[Apple TV]] पर ऐसी सुविधा का संकेत दिया है।<ref>{{cite news|title=Voice Control, the End of the TV Remote?|newspaper=Bloomberg.com|date=9 December 2011|url=http://www.businessweek.com/magazine/voice-control-the-end-of-the-tv-remote-12082011.html|archive-url=https://web.archive.org/web/20111208224714/http://www.businessweek.com/magazine/voice-control-the-end-of-the-tv-remote-12082011.html|url-status=dead|archive-date=December 8, 2011|publisher=Business Week|access-date=1 May 2012}}</ref>




Line 53: Line 53:


===एंड्रॉइड OS===
===एंड्रॉइड OS===
Google ने [[एंड्रॉइड (ऑपरेटिंग सिस्टम)]] नामक एक ओपन सोर्स ऑपरेटिंग सिस्टम विकसित किया है, जो उपयोगकर्ता को वॉयस कमांड करने की अनुमति देता है जैसे: टेक्स्ट संदेश भेजना, संगीत सुनना, दिशानिर्देश प्राप्त करना, व्यवसायों को कॉल करना, संपर्कों को कॉल करना, ईमेल भेजना, मानचित्र देखना, वेबसाइटों पर जाएँ, एक नोट लिखें और Google पर खोजें।<ref name =v>{{cite web|title=ध्वनि क्रियाएँ|url=http://www.google.com/mobile/voice-actions/}}</ref>
गूगल ने [[एंड्रॉइड (ऑपरेटिंग सिस्टम)]] नामक एक ओपन सोर्स ऑपरेटिंग सिस्टम विकसित किया है, जो उपयोगकर्ता को वॉयस कमांड करने की अनुमति देता है जैसे: टेक्स्ट संदेश भेजना, संगीत सुनना, दिशानिर्देश प्राप्त करना, व्यवसायों को कॉल करना, संपर्कों को कॉल करना, ईमेल भेजना, मानचित्र देखना, वेबसाइटों पर जाएँ, एक नोट लिखें और गूगल पर खोजें।<ref name =v>{{cite web|title=ध्वनि क्रियाएँ|url=http://www.google.com/mobile/voice-actions/}}</ref>
वाक् पहचान सॉफ़्टवेयर Android Froyo|Android 2.2 Froyo के बाद से सभी उपकरणों के लिए उपलब्ध है, लेकिन सेटिंग्स को अंग्रेजी पर सेट किया जाना चाहिए।<ref name=v />  Google उपयोगकर्ता को भाषा बदलने की अनुमति देता है, और जब उपयोगकर्ता पहली बार वाक् पहचान सुविधा का उपयोग करता है तो उसे संकेत दिया जाता है कि क्या वह चाहता है कि उसका ध्वनि डेटा उसके Google खाते से जुड़ा हो। यदि कोई उपयोगकर्ता इस सेवा को चुनने का निर्णय लेता है, तो यह Google को सॉफ़्टवेयर को उपयोगकर्ता की आवाज़ के अनुसार प्रशिक्षित करने की अनुमति देता है।<ref>{{cite web|title = एंड्रॉइड के लिए Google Voice खोज अब आपकी आवाज़ के लिए "प्रशिक्षित" हो सकती है| date=14 December 2010| url=https://techcrunch.com/2010/12/14/google-voice-search-for-android-can-now-be-trained-to-your-voice/|access-date=24 April 2012}}</ref>
वाक् पहचान सॉफ़्टवेयर एंड्रॉइड Froyo|एंड्रॉइड 2.2 Froyo के बाद से सभी उपकरणों के लिए उपलब्ध है, लेकिन सेटिंग्स को अंग्रेजी पर सेट किया जाना चाहिए।<ref name=v />  गूगल उपयोगकर्ता को भाषा बदलने की अनुमति देता है, और जब उपयोगकर्ता पहली बार वाक् पहचान सुविधा का उपयोग करता है तो उसे संकेत दिया जाता है कि क्या वह चाहता है कि उसका ध्वनि डेटा उसके गूगल खाते से जुड़ा हो। यदि कोई उपयोगकर्ता इस सेवा को चुनने का निर्णय लेता है, तो यह गूगल को सॉफ़्टवेयर को उपयोगकर्ता की आवाज़ के अनुसार प्रशिक्षित करने की अनुमति देता है।<ref>{{cite web|title = एंड्रॉइड के लिए Google Voice खोज अब आपकी आवाज़ के लिए "प्रशिक्षित" हो सकती है| date=14 December 2010| url=https://techcrunch.com/2010/12/14/google-voice-search-for-android-can-now-be-trained-to-your-voice/|access-date=24 April 2012}}</ref>
Google ने [[Google Assistant]] को Android Nougat|Android 7.0 Nougat के साथ पेश किया। यह पुराने वर्जन से कहीं ज्यादा एडवांस है।


Amazon.com के पास [[Amazon Echo]] है जो वॉयस इंटरफ़ेस प्रदान करने के लिए Amazon के Android के कस्टम संस्करण का उपयोग करता है।
गूगल ने [[Google Assistant|गूगल असिस्टेंट]] को एंड्रॉयड 7.0 Nougat के साथ प्रस्तुत किया। यह पुराने वर्जन से कहीं ज्यादा एडवांस है।
 
अमेजन.कॉम के पास [[Amazon Echo|अमेजन इको]] है जो वॉयस इंटरफ़ेस प्रदान करने के लिए अमेजन के एंड्रॉइड के कस्टम संस्करण का उपयोग करता है।


===[[माइक्रोसॉफ्ट]] विंडोज़===
===[[माइक्रोसॉफ्ट]] विंडोज़===
विंडोज़ फोन माइक्रोसॉफ्ट के मोबाइल डिवाइस का ऑपरेटिंग सिस्टम है। [[विंडोज फोन]] 7.5 पर, स्पीच ऐप उपयोगकर्ता के लिए स्वतंत्र है और इसका उपयोग किया जा सकता है: अपनी संपर्क सूची से किसी को कॉल करें, किसी भी फोन नंबर पर कॉल करें, अंतिम नंबर को फिर से डायल करें, एक टेक्स्ट संदेश भेजें, अपने वॉयस मेल पर कॉल करें, एक एप्लिकेशन खोलें, अपॉइंटमेंट पढ़ें , फ़ोन की स्थिति पूछें, और वेब पर खोजें।<ref>{{cite web|title = वॉइस कमांड का उपयोग करना| url=http://msdn.microsoft.com/en-us/library/bb446163.aspx|publisher=Microsoft|access-date=24 April 2012}}</ref><ref name = win>{{cite web|title=वॉइस कमांड का उपयोग करना|url=http://www.microsoft.com/windowsphone/en-us/howto/wp7/basics/use-speech-on-my-phone.aspx|publisher=Microsoft|access-date=27 April 2012}}</ref>
विंडोज़ फोन माइक्रोसॉफ्ट के मोबाइल डिवाइस का ऑपरेटिंग सिस्टम है। [[विंडोज फोन]] 7.5 पर, स्पीच ऐप उपयोगकर्ता के लिए स्वतंत्र है और इसका उपयोग किया जा सकता है: अपनी संपर्क सूची से किसी को कॉल करें, किसी भी फोन नंबर पर कॉल करें, अंतिम नंबर को फिर से डायल करें, एक टेक्स्ट संदेश भेजें, अपने वॉयस मेल पर कॉल करें, एक एप्लिकेशन खोलें, अपॉइंटमेंट पढ़ें, फ़ोन की स्थिति पूछें, और वेब पर खोजें।<ref>{{cite web|title = वॉइस कमांड का उपयोग करना| url=http://msdn.microsoft.com/en-us/library/bb446163.aspx|publisher=Microsoft|access-date=24 April 2012}}</ref><ref name = win>{{cite web|title=वॉइस कमांड का उपयोग करना|url=http://www.microsoft.com/windowsphone/en-us/howto/wp7/basics/use-speech-on-my-phone.aspx|publisher=Microsoft|access-date=27 April 2012}}</ref> इसके अतिरिक्त, फोन कॉल के दौरान भाषण का भी उपयोग किया जा सकता है, और फोन कॉल के दौरान निम्नलिखित क्रियाएं संभव हैं: एक नंबर दबाएं, स्पीकर फोन चालू करें, या किसी को कॉल करें, जो वर्तमान कॉल को रोक देता है।<ref name=win/>
इसके अतिरिक्त, फोन कॉल के दौरान भाषण का भी उपयोग किया जा सकता है, और फोन कॉल के दौरान निम्नलिखित क्रियाएं संभव हैं: एक नंबर दबाएं, स्पीकर फोन चालू करें, या किसी को कॉल करें, जो वर्तमान कॉल को रोक देता है।<ref name=win/>


विंडोज 10 ने [[कॉर्टाना (सॉफ्टवेयर)]] पेश किया है, जो एक आवाज नियंत्रण प्रणाली है जो विंडोज फोन पर पहले इस्तेमाल किए गए आवाज नियंत्रण को प्रतिस्थापित करती है।
विंडोज 10 ने [[कॉर्टाना (सॉफ्टवेयर)]] प्रस्तुत किया है, जो एक आवाज नियंत्रण प्रणाली है जो विंडोज फोन पर पहले उपयोग किए गए आवाज नियंत्रण को प्रतिस्थापित करती है।


===आईOS===
===iOS===
Apple ने [[iPhone OS 3]] की एक नई सुविधा के रूप में iOS उपकरणों की अपनी सूची में [[आवाज नियंत्रण (एप्पल)]]Apple) को जोड़ा। [[iPhone 4S]], iPad (तीसरी पीढ़ी), iPad Mini (पहली पीढ़ी), [[iPad Air]], [[iPad Pro]], iPod Touch (5वीं पीढ़ी) ) और बाद में, सभी [[ महोदय मै ]] नामक एक अधिक उन्नत वॉयस असिस्टेंट के साथ आते हैं। नए उपकरणों के सेटिंग मेनू के माध्यम से ध्वनि नियंत्रण को अभी भी सक्षम किया जा सकता है। सिरी एक उपयोगकर्ता स्वतंत्र अंतर्निहित वाक् पहचान सुविधा है जो उपयोगकर्ता को वॉयस कमांड जारी करने की अनुमति देती है। सिरी की सहायता से उपयोगकर्ता कमांड जारी कर सकता है, जैसे टेक्स्ट संदेश भेजना, मौसम की जांच करना, अनुस्मारक सेट करना, जानकारी ढूंढना, मीटिंग शेड्यूल करना, ईमेल भेजना, संपर्क ढूंढना, अलार्म सेट करना, दिशा-निर्देश प्राप्त करना, अपने स्टॉक को ट्रैक करना, एक टाइमर सेट करें, और नमूना वॉयस कमांड प्रश्नों के उदाहरण पूछें।<ref>{{cite web|title=Siri, The iPhone 3GS & 4, iPod 3 & 4, have voice control like an express Siri, it plays music, pauses music, suffle, Facetime, and calling Features|url=https://www.apple.com/iphone/features/siri.html|publisher=Apple|access-date=27 April 2012}}</ref> इसके अतिरिक्त, सिरी ब्लूटूथ और वायर्ड हेडफ़ोन के साथ काम करता है।<ref>{{cite web|title=सिरी अक्सर पूछे जाने वाले प्रश्न|url=https://www.apple.com/iphone/features/siri-faq.html|publisher=Apple}}</ref>
[[आवाज नियंत्रण (एप्पल)|एप्पल]] ने [[iPhone OS 3]] की एक नई सुविधा के रूप में iOS उपकरणों की अपनी सूची में [[आवाज नियंत्रण (एप्पल)]] को जोड़ा। [[iPhone 4S]], iPad (तीसरी पीढ़ी), iPad Mini (पहली पीढ़ी), [[iPad Air]], [[iPad Pro]], iPod Touch (5वीं पीढ़ी) ) और बाद में, सभी [[ महोदय मै ]] नामक एक अधिक उन्नत वॉयस असिस्टेंट के साथ आते हैं। नए उपकरणों के सेटिंग मेनू के माध्यम से ध्वनि नियंत्रण को अभी भी सक्षम किया जा सकता है। सिरी एक उपयोगकर्ता स्वतंत्र अंतर्निहित वाक् पहचान सुविधा है जो उपयोगकर्ता को वॉयस कमांड जारी करने की अनुमति देती है। सिरी की सहायता से उपयोगकर्ता कमांड जारी कर सकता है, जैसे टेक्स्ट संदेश भेजना, मौसम की जांच करना, अनुस्मारक सेट करना, जानकारी ढूंढना, मीटिंग शेड्यूल करना, ईमेल भेजना, संपर्क ढूंढना, अलार्म सेट करना, दिशा-निर्देश प्राप्त करना, अपने स्टॉक को ट्रैक करना, एक टाइमर सेट करें, और नमूना वॉयस कमांड प्रश्नों के उदाहरण पूछें।<ref>{{cite web|title=Siri, The iPhone 3GS & 4, iPod 3 & 4, have voice control like an express Siri, it plays music, pauses music, suffle, Facetime, and calling Features|url=https://www.apple.com/iphone/features/siri.html|publisher=Apple|access-date=27 April 2012}}</ref> इसके अतिरिक्त, सिरी ब्लूटूथ और वायर्ड हेडफ़ोन के साथ काम करता है।<ref>{{cite web|title=सिरी अक्सर पूछे जाने वाले प्रश्न|url=https://www.apple.com/iphone/features/siri-faq.html|publisher=Apple}}</ref>




===अमेज़ॅन एलेक्सा===
===अमेज़ॅन एलेक्सा===
2014 में अमेज़न ने [[अमेज़न एलेक्सा]] पेश किया। इसका मुख्य उद्देश्य सिर्फ एक स्मार्ट स्पीकर था, जो उपभोक्ता को अपनी आवाज से डिवाइस को नियंत्रित करने की अनुमति देता था। अंततः, यह एक नवीन उपकरण में बदल गया जिसमें आवाज से घरेलू उपकरण को नियंत्रित करने की क्षमता थी। अब प्रकाश बल्ब और तापमान सहित लगभग सभी उपकरण एलेक्सा से नियंत्रित किए जा सकते हैं। आवाज नियंत्रण की अनुमति देकर, एलेक्सा स्मार्ट होम तकनीक से जुड़ सकता है जिससे आप अपने घर को बंद कर सकते हैं, तापमान को नियंत्रित कर सकते हैं और विभिन्न उपकरणों को सक्रिय कर सकते हैं। A.I का यह रूप किसी को केवल एक प्रश्न पूछने की अनुमति देता है, और जवाब में एलेक्सा उत्तर खोजती है, ढूंढती है और आपको जवाब सुनाती है।<ref>{{Cite web|url=https://www.businessinsider.com/amazon-echo-and-alexa-history-from-speaker-to-smart-home-hub-2017-5|title=अमेज़ॅन का इको एक स्मार्ट स्पीकर से आपके घर के केंद्र तक कैसे पहुंच गया|website=[[Business Insider]]}}</ref>
2014 में अमेज़न ने [[अमेज़न एलेक्सा]] प्रस्तुत किया। इसका मुख्य उद्देश्य सिर्फ एक स्मार्ट स्पीकर था, जो उपभोक्ता को अपनी आवाज से डिवाइस को नियंत्रित करने की अनुमति देता था। अंततः, यह एक नवीन उपकरण में बदल गया जिसमें आवाज से घरेलू उपकरण को नियंत्रित करने की क्षमता थी। अब प्रकाश बल्ब और तापमान सहित लगभग सभी उपकरण एलेक्सा से नियंत्रित किए जा सकते हैं। आवाज नियंत्रण की अनुमति देकर, एलेक्सा स्मार्ट होम तकनीक से जुड़ सकता है जिससे आप अपने घर को बंद कर सकते हैं, तापमान को नियंत्रित कर सकते हैं और विभिन्न उपकरणों को सक्रिय कर सकते हैं। A.I का यह रूप किसी को केवल एक प्रश्न पूछने की अनुमति देता है, और जवाब में एलेक्सा उत्तर खोजती है, ढूंढती है और आपको जवाब सुनाती है।<ref>{{Cite web|url=https://www.businessinsider.com/amazon-echo-and-alexa-history-from-speaker-to-smart-home-hub-2017-5|title=अमेज़ॅन का इको एक स्मार्ट स्पीकर से आपके घर के केंद्र तक कैसे पहुंच गया|website=[[Business Insider]]}}</ref>




==कारों में वाक् पहचान==
==कारों में वाक् पहचान==
जैसे-जैसे कार प्रौद्योगिकी में सुधार होगा, कारों में और अधिक सुविधाएँ जोड़ी जाएंगी और ये सुविधाएँ ड्राइवर का ध्यान भटका देंगी। [[सीएनईटी]] के अनुसार, कारों के लिए वॉयस कमांड से ड्राइवर को कमांड जारी करने की अनुमति मिलनी चाहिए और उसका ध्यान नहीं भटकना चाहिए। सीएनईटी ने कहा कि नुअंस सुझाव दे रहा था कि भविष्य में वे एक ऐसा सॉफ्टवेयर बनाएंगे जो सिरी जैसा होगा, लेकिन कारों के लिए।<ref name=C>{{cite web|title=सिरी जैसी आवाज|url=http://reviews.cnet.com/8301-13746_7-57321094-48/siri-like-voice-recognition-coming-to-cars/|publisher=CNET}}</ref> 2011 में बाज़ार में अधिकांश वाक् पहचान सॉफ़्टवेयर में केवल 50 से 60 वॉइस कमांड थे, लेकिन फोर्ड सिंक में 10,000 थे।<ref name=C />यद्यपि, CNET ने सुझाव दिया कि 10,000 वॉयस कमांड भी जटिलता और उपयोगकर्ता द्वारा ड्राइविंग के दौरान किए जाने वाले कार्यों की विविधता को देखते हुए पर्याप्त नहीं थे।<ref name=C />कारों के लिए वॉयस कमांड मोबाइल फोन और कंप्यूटर के लिए वॉयस कमांड से अलग है क्योंकि ड्राइवर इस सुविधा का उपयोग आस-पास के रेस्तरां, गैस, ड्राइविंग निर्देश, सड़क की स्थिति और निकटतम होटल के स्थान को देखने के लिए कर सकता है।<ref name=C />वर्तमान में, प्रौद्योगिकी ड्राइवर को [[गार्मिन]] जैसे पोर्टेबल [[जीपीएस नेविगेशन डिवाइस]] और कार निर्माता नेविगेशन सिस्टम दोनों पर वॉयस कमांड जारी करने की अनुमति देती है।<ref>{{cite web|title=आवाज के साथ पोर्टेबल जीपीएस|url=http://reviews.cnet.com/4321-3430_7-6604366.html|publisher=CNET}}</ref>
जैसे-जैसे कार प्रौद्योगिकी में सुधार होगा, कारों में और अधिक सुविधाएँ जोड़ी जाएंगी और ये सुविधाएँ ड्राइवर का ध्यान भटका देंगी। [[सीएनईटी|CNET]] के अनुसार, कारों के लिए वॉयस कमांड से ड्राइवर को कमांड जारी करने की अनुमति मिलनी चाहिए और उसका ध्यान नहीं भटकना चाहिए। CNET ने कहा कि नुअंस सुझाव दे रहा था कि भविष्य में वे एक ऐसा सॉफ्टवेयर बनाएंगे जो सिरी जैसा होगा, लेकिन कारों के लिए।<ref name=C>{{cite web|title=सिरी जैसी आवाज|url=http://reviews.cnet.com/8301-13746_7-57321094-48/siri-like-voice-recognition-coming-to-cars/|publisher=CNET}}</ref> 2011 में बाज़ार में अधिकांश वाक् पहचान सॉफ़्टवेयर में केवल 50 से 60 वॉइस कमांड थे, लेकिन फोर्ड सिंक में 10,000 थे।<ref name=C /> यद्यपि, CNET ने सुझाव दिया कि 10,000 वॉयस कमांड भी जटिलता और उपयोगकर्ता द्वारा ड्राइविंग के दौरान किए जाने वाले कार्यों की विविधता को देखते हुए पर्याप्त नहीं थे।<ref name=C /> कारों के लिए वॉयस कमांड मोबाइल फोन और कंप्यूटर के लिए वॉयस कमांड से अलग है क्योंकि ड्राइवर इस सुविधा का उपयोग आस-पास के रेस्तरां, गैस, ड्राइविंग निर्देश, सड़क की स्थिति और निकटतम होटल के स्थान को देखने के लिए कर सकता है।<ref name=C /> वर्तमान में, प्रौद्योगिकी ड्राइवर को [[गार्मिन]] जैसे पोर्टेबल [[जीपीएस नेविगेशन डिवाइस]] और कार निर्माता नेविगेशन सिस्टम दोनों पर वॉयस कमांड जारी करने की अनुमति देती है।<ref>{{cite web|title=आवाज के साथ पोर्टेबल जीपीएस|url=http://reviews.cnet.com/4321-3430_7-6604366.html|publisher=CNET}}</ref>
 
मोटर निर्माताओं द्वारा उपलब्ध कराए गए वॉयस कमांड सिस्टम की सूची:
मोटर निर्माताओं द्वारा उपलब्ध कराए गए वॉयस कमांड सिस्टम की सूची:
*[[फोर्ड सिंक]]
*[[फोर्ड सिंक]]
Line 80: Line 81:
* [[क्रिसलर यूकनेक्ट]]
* [[क्रिसलर यूकनेक्ट]]
* [[होंडा एकॉर्ड]]
* [[होंडा एकॉर्ड]]
* [[ Intellilink ]]
* GM [[ Intellilink |इंटेलीलिंक]]
*बीएमडब्लू
*बीएमडब्लू
*मर्सिडीज
*मर्सिडीज
* प्रथम अन्वेषक
* पाइअनिर
* हरमन
* हरमन
*हुंडई
*हुंडई


== गैर-मौखिक इनपुट ==
== अशाब्दिक इनपुट ==
जबकि अधिकांश ध्वनि उपयोगकर्ता इंटरफ़ेस मौखिक मानव भाषा के माध्यम से बातचीत का समर्थन करने के लिए डिज़ाइन किए गए हैं, इंटरफ़ेस डिज़ाइन करने में हाल ही में अन्वेषण गैर-मौखिक मानव ध्वनियों को इनपुट के रूप में लेते हैं। इन प्रणालियों में, उपयोगकर्ता गैर-वाक् ध्वनियाँ जैसे गुनगुनाना, सीटी बजाना या माइक्रोफ़ोन में फूंक मारकर इंटरफ़ेस को नियंत्रित करता है।<ref name="dlnext.acm.org">{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/2493190.2493244|title=Voice augmented manipulation {{!}} Proceedings of the 15th international conference on Human-computer interaction with mobile devices and services|website=dlnext.acm.org|language=EN|doi=10.1145/2493190.2493244|s2cid=6251400|access-date=2019-02-27}}</ref>
जबकि अधिकांश ध्वनि उपयोगकर्ता इंटरफ़ेस मौखिक मानव भाषा के माध्यम से बातचीत का समर्थन करने के लिए डिज़ाइन किए गए हैं, इंटरफ़ेस डिज़ाइन करने में हाल ही में अन्वेषण अशाब्दिक मानव ध्वनियों को इनपुट के रूप में लेते हैं। इन प्रणालियों में, उपयोगकर्ता गैर-वाक् ध्वनियाँ जैसे गुनगुनाना, सीटी बजाना या माइक्रोफ़ोन में फूंक मारकर इंटरफ़ेस को नियंत्रित करता है।<ref name="dlnext.acm.org">{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/2493190.2493244|title=Voice augmented manipulation {{!}} Proceedings of the 15th international conference on Human-computer interaction with mobile devices and services|website=dlnext.acm.org|language=EN|doi=10.1145/2493190.2493244|s2cid=6251400|access-date=2019-02-27}}</ref>
गैर-मौखिक ध्वनि उपयोगकर्ता इंटरफ़ेस का ऐसा एक उदाहरण ब्लेंडी है,<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/1013115.1013159|title=Blendie {{!}} Proceedings of the 5th conference on Designing interactive systems: processes, practices, methods, and techniques|website=dlnext.acm.org|language=EN|doi=10.1145/1013115.1013159|access-date=2019-02-27}}</ref><ref>{{Cite web|url=https://web.media.mit.edu/~monster/blendie/|title=Kelly Dobson: Blendie|website=web.media.mit.edu|access-date=2019-02-27}}</ref> केली डॉब्सन द्वारा निर्मित एक इंटरैक्टिव आर्ट इंस्टॉलेशन। इस टुकड़े में 1950 के दशक का एक क्लासिक ब्लेंडर सम्मिलित था जिसे माइक्रोफ़ोन इनपुट पर प्रतिक्रिया देने के लिए रेट्रोफिट किया गया था। ब्लेंडर को नियंत्रित करने के लिए, उपयोगकर्ता को उन घूमने वाली यांत्रिक ध्वनियों की नकल करनी चाहिए जो एक ब्लेंडर सामान्य तौर पर बनाता है: उपयोगकर्ता की कम आवाज वाली गुर्राहट के जवाब में ब्लेंडर धीरे-धीरे घूमेगा, और जैसे-जैसे उपयोगकर्ता उच्च स्वर वाली ध्वनि बनाता है, गति में वृद्धि होगी।
 
अशाब्दिक ध्वनि उपयोगकर्ता इंटरफ़ेस का ऐसा एक उदाहरण ब्लेंडी है,<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/1013115.1013159|title=Blendie {{!}} Proceedings of the 5th conference on Designing interactive systems: processes, practices, methods, and techniques|website=dlnext.acm.org|language=EN|doi=10.1145/1013115.1013159|access-date=2019-02-27}}</ref><ref>{{Cite web|url=https://web.media.mit.edu/~monster/blendie/|title=Kelly Dobson: Blendie|website=web.media.mit.edu|access-date=2019-02-27}}</ref> केली डॉब्सन द्वारा निर्मित एक इंटरैक्टिव आर्ट इंस्टॉलेशन। इस टुकड़े में 1950 के दशक का एक क्लासिक ब्लेंडर सम्मिलित था जिसे माइक्रोफ़ोन इनपुट पर प्रतिक्रिया देने के लिए रेट्रोफिट किया गया था। ब्लेंडर को नियंत्रित करने के लिए, उपयोगकर्ता को उन घूमने वाली यांत्रिक ध्वनियों की नकल करनी चाहिए जो एक ब्लेंडर सामान्यतः बनाता है: उपयोगकर्ता की कम आवाज वाली गुर्राहट के जवाब में ब्लेंडर धीरे-धीरे घूमेगा, और जैसे-जैसे उपयोगकर्ता उच्च स्वर वाली ध्वनि बनाता है, गति में वृद्धि होगी।


एक अन्य उदाहरण वॉइसड्रॉ है,<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/1296843.1296850|title=Voicedraw {{!}} Proceedings of the 9th international ACM SIGACCESS conference on Computers and accessibility|website=dlnext.acm.org|language=EN|doi=10.1145/1296843.1296850|s2cid=218338|access-date=2019-02-27}}</ref> एक अनुसंधान प्रणाली जो सीमित मोटर क्षमताओं वाले व्यक्तियों के लिए डिजिटल ड्राइंग को सक्षम बनाती है। वॉयसड्रा उपयोगकर्ताओं को स्वर ध्वनियों को संशोधित करके डिजिटल कैनवास पर स्ट्रोक पेंट करने की अनुमति देता है, जिन्हें ब्रश दिशाओं में मैप किया जाता है। अन्य पारभाषिक विशेषताओं (उदाहरण के लिए उनकी आवाज की तीव्रता) को संशोधित करने से उपयोगकर्ता को ड्राइंग की विभिन्न विशेषताओं को नियंत्रित करने की अनुमति मिलती है, जैसे ब्रश स्ट्रोक की मोटाई।
एक अन्य उदाहरण वॉइसड्रॉ है,<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/1296843.1296850|title=Voicedraw {{!}} Proceedings of the 9th international ACM SIGACCESS conference on Computers and accessibility|website=dlnext.acm.org|language=EN|doi=10.1145/1296843.1296850|s2cid=218338|access-date=2019-02-27}}</ref> एक अनुसंधान प्रणाली जो सीमित मोटर क्षमताओं वाले व्यक्तियों के लिए डिजिटल ड्राइंग को सक्षम बनाती है। वॉयसड्रा उपयोगकर्ताओं को स्वर ध्वनियों को संशोधित करके डिजिटल कैनवास पर स्ट्रोक पेंट करने की अनुमति देता है, जिन्हें ब्रश दिशाओं में मैप किया जाता है। अन्य पारभाषिक विशेषताओं (उदाहरण के लिए उनकी आवाज की तीव्रता) को संशोधित करने से उपयोगकर्ता को ड्राइंग की विभिन्न विशेषताओं को नियंत्रित करने की अनुमति मिलती है, जैसे ब्रश स्ट्रोक की मोटाई।


अन्य तरीकों में नए प्रकार के इशारों का समर्थन करने के लिए स्पर्श-आधारित इंटरफेस (उदाहरण के लिए मोबाइल फोन पर) को बढ़ाने के लिए गैर-मौखिक ध्वनियों को अपनाना सम्मिलित है जो अकेले उंगली इनपुट के साथ संभव नहीं होगा।<ref name="dlnext.acm.org"/>
अन्य तरीकों में नए प्रकार के इशारों का समर्थन करने के लिए स्पर्श-आधारित इंटरफेस (उदाहरण के लिए मोबाइल फोन पर) को बढ़ाने के लिए अशाब्दिक ध्वनियों को अपनाना सम्मिलित है जो अकेले उंगली इनपुट के साथ संभव नहीं होगा।<ref name="dlnext.acm.org"/>




== डिज़ाइन चुनौतियाँ ==
== डिज़ाइन चुनौतियाँ ==
वॉयस इंटरफेस प्रयोज्यता के लिए पर्याप्त संख्या में चुनौतियाँ पेश करता है। ग्राफिकल यूजर इंटरफेस (जीयूआई) के विपरीत, वॉयस इंटरफेस डिजाइन के लिए सर्वोत्तम प्रथाएं अभी भी उभर रही हैं।<ref name=":0">{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/3236112.3236149|title=Design guidelines for hands-free speech interaction {{!}} Proceedings of the 20th International Conference on Human-Computer Interaction with Mobile Devices and Services Adjunct|website=dlnext.acm.org|language=EN|doi=10.1145/3236112.3236149|s2cid=52099112|access-date=2019-02-27}}</ref>
वॉयस इंटरफेस प्रयोज्यता के लिए पर्याप्त संख्या में चुनौतियाँ प्रस्तुत करता है। ग्राफिकल यूजर इंटरफेस (GUIs) के विपरीत, वॉयस इंटरफेस डिजाइन के लिए सर्वोत्तम प्रथाएं अभी भी उभर रही हैं।<ref name=":0">{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/3236112.3236149|title=Design guidelines for hands-free speech interaction {{!}} Proceedings of the 20th International Conference on Human-Computer Interaction with Mobile Devices and Services Adjunct|website=dlnext.acm.org|language=EN|doi=10.1145/3236112.3236149|s2cid=52099112|access-date=2019-02-27}}</ref>




=== खोज योग्यता ===
=== खोज योग्यता ===
पूरी तरह से ऑडियो-आधारित इंटरैक्शन के साथ, वॉयस यूजर इंटरफेस कम खोज क्षमता से ग्रस्त होते हैं:<ref name=":0" />उपयोगकर्ताओं के लिए सिस्टम की क्षमताओं के दायरे को समझना मुश्किल है। सिस्टम को यह बताने के लिए कि दृश्य प्रदर्शन के बिना क्या संभव है, उसे उपलब्ध विकल्पों की गणना करने की आवश्यकता होगी, जो थकाऊ या असंभव हो सकते हैं। कम खोज योग्यता के परिणामस्वरूप प्रायः उपयोगकर्ता इस बात को लेकर भ्रम की स्थिति में होते हैं कि उन्हें क्या कहने की अनुमति है, या सिस्टम की समझ की चौड़ाई के बारे में अपेक्षाओं में बेमेल है।<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/223904.223952|title=Designing SpeechActs {{!}} Proceedings of the SIGCHI Conference on Human Factors in Computing Systems|website=dlnext.acm.org|language=EN|doi=10.1145/223904.223952|s2cid=9313029|access-date=2019-02-27}}</ref><ref>{{Cite journal|title=What can I say? {{!}} Proceedings of the 18th International Conference on Human-Computer Interaction with Mobile Devices and Services|language=EN|doi=10.1145/2935334.2935386|s2cid=6246618|doi-access=free}}</ref>
पूरी तरह से ऑडियो-आधारित इंटरैक्शन के साथ, वॉयस यूजर इंटरफेस कम खोज क्षमता से ग्रस्त होते हैं:<ref name=":0" /> उपयोगकर्ताओं के लिए सिस्टम की क्षमताओं के दायरे को समझना मुश्किल है। सिस्टम को यह बताने के लिए कि दृश्य प्रदर्शन के बिना क्या संभव है, उसे उपलब्ध विकल्पों की गणना करने की आवश्यकता होगी, जो थकाऊ या असंभव हो सकते हैं। कम खोज योग्यता के परिणामस्वरूप प्रायः उपयोगकर्ता इस बात को लेकर भ्रम की स्थिति में होते हैं कि उन्हें क्या कहने की अनुमति है, या सिस्टम की समझ की चौड़ाई के बारे में अपेक्षाओं में बेमेल है।<ref>{{Cite journal|url=https://dlnext.acm.org/doi/abs/10.1145/223904.223952|title=Designing SpeechActs {{!}} Proceedings of the SIGCHI Conference on Human Factors in Computing Systems|website=dlnext.acm.org|language=EN|doi=10.1145/223904.223952|s2cid=9313029|access-date=2019-02-27}}</ref><ref>{{Cite journal|title=What can I say? {{!}} Proceedings of the 18th International Conference on Human-Computer Interaction with Mobile Devices and Services|language=EN|doi=10.1145/2935334.2935386|s2cid=6246618|doi-access=free}}</ref>




Line 117: Line 119:
इस तरह के विकास वस्तुतः वर्तमान मशीनों का चेहरा बदल सकते हैं और उपयोगकर्ता उनके साथ कैसे बातचीत करते हैं, इस पर दूरगामी प्रभाव पड़ सकता है। हाथ से पकड़े जाने वाले उपकरणों को बड़े, देखने में आसान स्क्रीन के साथ डिज़ाइन किया जाएगा, क्योंकि किसी कीबोर्ड की आवश्यकता नहीं होगी। टच-स्क्रीन उपकरणों को अब सामग्री और ऑन-स्क्रीन कीबोर्ड के बीच डिस्प्ले को विभाजित करने की आवश्यकता नहीं होगी, इस प्रकार सामग्री को पूर्ण-स्क्रीन देखने की सुविधा मिलेगी। लैपटॉप कंप्यूटर को आकार के आधार पर अनिवार्य रूप से आधा किया जा सकता है, क्योंकि कीबोर्ड का आधा हिस्सा हटा दिया जाएगा और सभी आंतरिक घटकों को डिस्प्ले के पीछे एकीकृत किया जाएगा, जिसके परिणामस्वरूप प्रभावी रूप से एक साधारण [[टैबलेट कंप्यूटर]] बनेगा। डेस्कटॉप कंप्यूटर में एक सीपीयू और स्क्रीन सम्मिलित होगी, जिससे डेस्कटॉप पर कीबोर्ड द्वारा कब्जा कर लिया गया स्थान बच जाएगा और डेस्क की सतह के नीचे बने स्लाइडिंग कीबोर्ड रेस्ट को खत्म कर दिया जाएगा। माइक्रोवेव ओवन से लेकर फोटोकॉपियर तक दर्जनों अन्य उपकरणों पर टेलीविजन रिमोट कंट्रोल और कीपैड को भी खत्म किया जा सकता है।
इस तरह के विकास वस्तुतः वर्तमान मशीनों का चेहरा बदल सकते हैं और उपयोगकर्ता उनके साथ कैसे बातचीत करते हैं, इस पर दूरगामी प्रभाव पड़ सकता है। हाथ से पकड़े जाने वाले उपकरणों को बड़े, देखने में आसान स्क्रीन के साथ डिज़ाइन किया जाएगा, क्योंकि किसी कीबोर्ड की आवश्यकता नहीं होगी। टच-स्क्रीन उपकरणों को अब सामग्री और ऑन-स्क्रीन कीबोर्ड के बीच डिस्प्ले को विभाजित करने की आवश्यकता नहीं होगी, इस प्रकार सामग्री को पूर्ण-स्क्रीन देखने की सुविधा मिलेगी। लैपटॉप कंप्यूटर को आकार के आधार पर अनिवार्य रूप से आधा किया जा सकता है, क्योंकि कीबोर्ड का आधा हिस्सा हटा दिया जाएगा और सभी आंतरिक घटकों को डिस्प्ले के पीछे एकीकृत किया जाएगा, जिसके परिणामस्वरूप प्रभावी रूप से एक साधारण [[टैबलेट कंप्यूटर]] बनेगा। डेस्कटॉप कंप्यूटर में एक सीपीयू और स्क्रीन सम्मिलित होगी, जिससे डेस्कटॉप पर कीबोर्ड द्वारा कब्जा कर लिया गया स्थान बच जाएगा और डेस्क की सतह के नीचे बने स्लाइडिंग कीबोर्ड रेस्ट को खत्म कर दिया जाएगा। माइक्रोवेव ओवन से लेकर फोटोकॉपियर तक दर्जनों अन्य उपकरणों पर टेलीविजन रिमोट कंट्रोल और कीपैड को भी खत्म किया जा सकता है।


यद्यपि, इस तरह के विकास के लिए कई चुनौतियों से पार पाना होगा। सबसे पहले, VUI को इनपुट, जैसे कमांड और पृष्ठभूमि वार्तालाप के बीच अंतर करने के लिए पर्याप्त परिष्कृत होना होगा; अन्यथा, गलत इनपुट दर्ज किया जाएगा और कनेक्टेड डिवाइस गलत व्यवहार करेगा। एक मानक प्रॉम्प्ट, जैसे कि प्रसिद्ध कंप्यूटर! साइंस फिक्शन टीवी शो और [[स्टार ट्रेक]] जैसी फिल्मों में पात्रों द्वारा कॉल, VUI को सक्रिय कर सकता है और इसे उसी स्पीकर द्वारा आगे इनपुट प्राप्त करने के लिए तैयार कर सकता है। संभवतः, VUI में मानव जैसा प्रतिनिधित्व भी सम्मिलित हो सकता है: उदाहरण के लिए, एक आवाज या यहां तक ​​कि एक ऑन-स्क्रीन चरित्र, जो वापस प्रतिक्रिया करता है (उदाहरण के लिए, हां, वामशी?) और उपयोगकर्ता के साथ आगे और पीछे संवाद करना जारी रखता है। प्राप्त इनपुट को स्पष्ट करें और सटीकता सुनिश्चित करें।
यद्यपि, इस तरह के विकास के लिए कई चुनौतियों से पार पाना होगा। सबसे पहले, VUI को इनपुट, जैसे कमांड और पृष्ठभूमि वार्तालाप के बीच अंतर करने के लिए पर्याप्त परिष्कृत होना होगा; अन्यथा, गलत इनपुट दर्ज किया जाएगा और कनेक्टेड डिवाइस गलत व्यवहार करेगा। एक मानक प्रॉम्प्ट, जैसे कि प्रसिद्ध कंप्यूटर! साइंस फिक्शन टीवी शो और [[स्टार ट्रेक]] जैसी फिल्मों में पात्रों द्वारा कॉल, VUI को सक्रिय कर सकता है और इसे उसी स्पीकर द्वारा आगे इनपुट प्राप्त करने के लिए तैयार कर सकता है। संभवतः, VUI में मानव जैसा प्रतिनिधित्व भी सम्मिलित हो सकता है: उदाहरण के लिए, एक आवाज या यहां तक ​​कि एक ऑन-स्क्रीन चरित्र, जो वापस प्रतिक्रिया करता है (उदाहरण के लिए, "हां, वामशी"?) और उपयोगकर्ता के साथ आगे और पीछे संवाद करना जारी रखता है। प्राप्त इनपुट को स्पष्ट करें और सटीकता सुनिश्चित करें।


दूसरा, VUI को जानकारी को सटीक रूप से संसाधित करने और खोजने/पुनर्प्राप्त करने या विशेष उपयोगकर्ता की प्राथमिकताओं के अनुसार कार्रवाई करने के लिए अत्यधिक परिष्कृत सॉफ़्टवेयर के साथ मिलकर काम करना होगा। उदाहरण के लिए, यदि सामंथा किसी विशेष समाचार पत्र से जानकारी पसंद करती है, और यदि वह चाहती है कि जानकारी को बिंदु-रूप में संक्षेपित किया जाए, तो वह कह सकती है, कंप्यूटर, मुझे कल रात दक्षिणी चीन में आई बाढ़ के बारे में कुछ जानकारी ढूंढो; जवाब में, VUI जो उसकी प्राथमिकताओं से परिचित है, उस स्रोत से दक्षिणी चीन में बाढ़ के बारे में तथ्य ढूंढेगा, इसे बिंदु-रूप में परिवर्तित करेगा, और इसे स्क्रीन पर और/या आवाज के रूप में, एक उद्धरण के साथ उसे वितरित करेगा। इसलिए, VUI से जुड़ी मशीन के हिस्से पर कुछ हद तक कृत्रिम बुद्धिमत्ता के साथ-साथ सटीक वाक् पहचान|वाक्-पहचान सॉफ्टवेयर की आवश्यकता होगी।
दूसरा, VUI को जानकारी को सटीक रूप से संसाधित करने और खोजने/पुनर्प्राप्त करने या विशेष उपयोगकर्ता की प्राथमिकताओं के अनुसार कार्रवाई करने के लिए अत्यधिक परिष्कृत सॉफ़्टवेयर के साथ मिलकर काम करना होगा। उदाहरण के लिए, यदि सामंथा किसी विशेष समाचार पत्र से जानकारी पसंद करती है, और यदि वह चाहती है कि जानकारी को बिंदु-रूप में संक्षेपित किया जाए, तो वह कह सकती है, "कंप्यूटर, मुझे कल रात दक्षिणी चीन में आई बाढ़ के बारे में कुछ जानकारी ढूंढो"; जवाब में, VUI जो उसकी प्राथमिकताओं से परिचित है, उस स्रोत से "दक्षिणी चीन" में बाढ़ के बारे में तथ्य ढूंढेगा, इसे बिंदु-रूप में परिवर्तित करेगा, और इसे स्क्रीन पर और/या आवाज के रूप में, एक उद्धरण के साथ उसे वितरित करेगा। इसलिए, VUI से जुड़ी मशीन के हिस्से पर कुछ हद तक कृत्रिम बुद्धिमत्ता के साथ-साथ सटीक वाक् पहचान|वाक्-पहचान सॉफ्टवेयर की आवश्यकता होगी।


== गोपनीयता निहितार्थ ==
== गोपनीयता निहितार्थ ==
गोपनीयता संबंधी चिंताएँ इस तथ्य से उत्पन्न होती हैं कि वॉयस कमांड वॉयस-यूजर इंटरफेस के प्रदाताओं के लिए अनएन्क्रिप्टेड रूप में उपलब्ध हैं, और इस प्रकार इसे तीसरे पक्ष के साथ साझा किया जा सकता है और अनधिकृत या अप्रत्याशित तरीके से संसाधित किया जा सकता है।<ref name="Fortune 2019">{{cite web|title=Apple, Google और Amazon ने डिजिटल असिस्टेंट कमांड की समीक्षा करके आपकी गोपनीयता का उल्लंघन किया हो सकता है|url=https://fortune.com/2019/08/05/google-apple-amazon-digital-assistants/|date=2019-08-05|website=Fortune|access-date=2020-05-13}}</ref><ref name="Hern 2019">{{cite web|title=रिपोर्ट में कहा गया है कि अमेज़ॅन कर्मचारी ग्राहकों की एलेक्सा रिकॉर्डिंग सुनते हैं|url=http://www.theguardian.com/technology/2019/apr/11/amazon-staff-listen-to-customers-alexa-recordings-report-says|last=Hern|first=Alex|date=2019-04-11|website=the Guardian|access-date=2020-05-21}}</ref> रिकॉर्ड किए गए भाषण की भाषाई सामग्री के अतिरिक्त, उपयोगकर्ता की अभिव्यक्ति के तरीके और आवाज की विशेषताओं में उसकी बायोमेट्रिक पहचान, व्यक्तित्व लक्षण, शरीर का आकार, शारीरिक और मानसिक स्वास्थ्य स्थिति, लिंग, लिंग, [[भाषण भावना पहचान]], सामाजिक आर्थिक स्थिति के बारे में जानकारी सम्मिलित हो सकती है। और भौगोलिक उत्पत्ति.<ref name="KrögerLutz2020">{{cite book|last1=Kröger|first1=Jacob Leon|last2=Lutz|first2=Otto Hans-Martin|last3=Raschke|first3=Philip|title=गोपनीयता और पहचान प्रबंधन. बेहतर जीवन के लिए डेटा: एआई और गोपनीयता|year=2020|chapter=Privacy Implications of Voice and Speech Analysis – Information Disclosure by Inference|series=IFIP Advances in Information and Communication Technology|volume=576|pages=242–258|doi=10.1007/978-3-030-42504-3_16|isbn=978-3-030-42503-6|issn=1868-4238|doi-access=free}}</ref>
गोपनीयता संबंधी चिंताएँ इस तथ्य से उत्पन्न होती हैं कि वॉयस कमांड वॉयस-यूजर इंटरफेस के प्रदाताओं के लिए अनएन्क्रिप्टेड रूप में उपलब्ध हैं, और इस प्रकार इसे तीसरे पक्ष के साथ साझा किया जा सकता है और अनधिकृत या अप्रत्याशित तरीके से संसाधित किया जा सकता है।<ref name="Fortune 2019">{{cite web|title=Apple, Google और Amazon ने डिजिटल असिस्टेंट कमांड की समीक्षा करके आपकी गोपनीयता का उल्लंघन किया हो सकता है|url=https://fortune.com/2019/08/05/google-apple-amazon-digital-assistants/|date=2019-08-05|website=Fortune|access-date=2020-05-13}}</ref><ref name="Hern 2019">{{cite web|title=रिपोर्ट में कहा गया है कि अमेज़ॅन कर्मचारी ग्राहकों की एलेक्सा रिकॉर्डिंग सुनते हैं|url=http://www.theguardian.com/technology/2019/apr/11/amazon-staff-listen-to-customers-alexa-recordings-report-says|last=Hern|first=Alex|date=2019-04-11|website=the Guardian|access-date=2020-05-21}}</ref> रिकॉर्ड किए गए भाषण की भाषाई सामग्री के अतिरिक्त, उपयोगकर्ता की अभिव्यक्ति के तरीके और आवाज की विशेषताओं में उसकी बायोमेट्रिक पहचान, व्यक्तित्व लक्षण, शरीर का आकार, शारीरिक और मानसिक स्वास्थ्य स्थिति, लिंग, [[भाषण भावना पहचान|मूड और भावनाओं]], सामाजिक आर्थिक स्थिति और भौगोलिक मूल के बारे में जानकारी निहित हो सकती है।<ref name="KrögerLutz2020">{{cite book|last1=Kröger|first1=Jacob Leon|last2=Lutz|first2=Otto Hans-Martin|last3=Raschke|first3=Philip|title=गोपनीयता और पहचान प्रबंधन. बेहतर जीवन के लिए डेटा: एआई और गोपनीयता|year=2020|chapter=Privacy Implications of Voice and Speech Analysis – Information Disclosure by Inference|series=IFIP Advances in Information and Communication Technology|volume=576|pages=242–258|doi=10.1007/978-3-030-42504-3_16|isbn=978-3-030-42503-6|issn=1868-4238|doi-access=free}}</ref>


== यह भी देखें ==
== यह भी देखें ==

Revision as of 13:10, 22 August 2023

एक वॉइस-यूज़र इंटरफ़ेस (VUI) कंप्यूटर के साथ बोली जाने वाली मानवीय बातचीत को संभव बनाता है, बोले गए आदेशों और प्रश्नों के उत्तर को समझने के लिए वाक् पहचान का उपयोग करता है, और सामान्यतः उत्तर को चलाने के लिए पाठ से वाक् तक का उपयोग करता है। वॉयस कमांड डिवाइस एक वॉयस यूजर इंटरफेस से नियंत्रित डिवाइस है।

वॉयस यूजर इंटरफेस को ऑटोमोबाइल, होम ऑटोमेशन सिस्टम, कंप्यूटर ऑपरेटिंग सिस्टम, वॉशिंग मशीन और माइक्रोवेव ओवन जैसे घरेलू उपकरणो और टेलीविजन रिमोट कंट्रोल में जोड़ा गया है। वे स्मार्टफोन्स और स्मार्ट स्पीकर पर वर्चुअल सहायकों के साथ बातचीत करने का प्राथमिक तरीका हैं। पुराने स्वचालित परिचारकों (जो फोन कॉल को सही एक्सटेंशन पर रूट करते हैं) और इंटरएक्टिव वॉयस रिस्पांस सिस्टम (जो फोन पर अधिक जटिल ट्रैन्ज़ैक्शन्ज़ करते हैं) DTMF टोन के माध्यम से कीपैड बटन दबाने पर प्रतिक्रिया दे सकते हैं, लेकिन पूर्ण वॉयस यूजर इंटरफेस वाले कॉलर्स को बिना किसी बटन दबाने के अनुरोध और जवाब बोलने की अनुमति देते हैं।

नए वॉयस कमांड डिवाइस स्पीकर-स्वतंत्र हैं, इसलिए वे उच्चारण या बोली संबंधी प्रभावों की परवाह किए बिना कई आवाजों पर प्रतिक्रिया दे सकते हैं। वे एक साथ कई आदेशों का जवाब देने, मौखिक संदेशों को अलग करने और प्राकृतिक बातचीत का सटीक अनुकरण करते हुए उचित प्रतिक्रिया प्रदान करने में भी सक्षम हैं।[1]


अवलोकन

VUI किसी भी स्पीच एप्लिकेशन का इंटरफ़ेस (कंप्यूटिंग) है। किसी मशीन को केवल बात करके नियंत्रित करना कुछ समय पहले तक विज्ञान कथा थी। कुछ समय पहले तक इस क्षेत्र को कृत्रिम बुद्धिमत्ता माना जाता था। यद्यपि, टेक्स्ट-टू-स्पीच, स्पीच-टू-टेक्स्ट, नेचुरल लैंग्वेज प्रोसेसिंग और क्लाउड सेवाओं जैसी प्रौद्योगिकियों में प्रगति ने, सामान्यतः इस प्रकार के इंटरफेस को बड़े पैमाने पर अपनाने में योगदान दिया है। VUI अधिक सामान्य हो गए हैं, और लोग कई स्थितियों में ये हैंड्स-फ्री, आई-फ्री इंटरफेस द्वारा प्रदान किए जाने वाले मूल्य का लाभ उठा रहे हैं।

VUI को इनपुट पर विश्वसनीय रूप से प्रतिक्रिया देने की आवश्यकता है, अन्यथा उन्हें अस्वीकार कर दिया जाएगा और प्रायः उनके उपयोगकर्ताओं द्वारा उनका उपहास किया जाएगा। एक अच्छे VUI को डिज़ाइन करने के लिए कंप्यूटर विज्ञान, भाषा विज्ञान और मानव कारक मनोविज्ञान की अंतःविषय प्रतिभाओं की आवश्यकता होती है - ये सभी ऐसे कौशल हैं जो महंगे हैं और इन्हें प्राप्त करना कठिन है। उन्नत विकास उपकरणों के साथ भी, एक प्रभावी VUI के निर्माण के लिए निष्पादित किए जाने वाले कार्यों के साथ-साथ अंतिम प्रणाली का उपयोग करने वाले लक्षित दर्शकों की गहन समझ की आवश्यकता होती है। VUI कार्य के उपयोगकर्ता के मानसिक मॉडल से जितना करीब से अनुकूल है, कम या बिना प्रशिक्षण के इसका उपयोग करना उतना ही आसान होगा, जिसके परिणामस्वरूप उच्च दक्षता और उच्च उपयोगकर्ता संतुष्टि दोनों होगी।

सामान्य जनता के लिए डिज़ाइन किए गए VUI को उपयोग में आसानी पर जोर देना चाहिए और पहली बार कॉल करने वालों के लिए बहुत अधिक सहायता और मार्गदर्शन प्रदान करना चाहिए। इसके विपरीत, बिजली उपयोगकर्ताओं के एक छोटे समूह (फ़ील्ड सेवा श्रमिकों सहित) के लिए डिज़ाइन किए गए VUI को उत्पादकता पर अधिक और सहायता और मार्गदर्शन पर कम ध्यान केंद्रित करना चाहिए। ऐसे अनुप्रयोगों को कॉल प्रवाह को सुव्यवस्थित, संकेतों को कम, अनावश्यक पुनरावृत्तियों को समाप्त करना चाहिए और विस्तृत मिश्रित पहल संवाद प्रणाली की अनुमति देनी चाहिए, जो कॉल करने वालों को एक ही उच्चारण में और किसी भी क्रम या संयोजन में जानकारी के कई टुकड़े प्रविष्ट करने में सक्षम बनाती है। संक्षेप में, स्वचालित होने वाली विशिष्ट व्यावसायिक प्रक्रिया के लिए भाषण अनुप्रयोगों को सावधानीपूर्वक तैयार किया जाना चाहिए।

सभी व्यावसायिक प्रक्रियाएँ वाक् स्वचालन के लिए स्वयं को समान रूप से प्रस्तुत नहीं करती हैं। सामान्यतः, पूछताछ और लेनदेन जितने अधिक जटिल होंगे, उन्हें स्वचालित करना उतना ही अधिक चुनौतीपूर्ण होगा, और सामान्य जनता के साथ उनके विफल होने की संभावना उतनी ही अधिक होगी। कुछ परिदृश्यों में, स्वचालन बिल्कुल लागू नहीं होता है, इसलिए लाइव एजेंट सहायता ही एकमात्र विकल्प है। उदाहरण के लिए, कानूनी सलाह हॉटलाइन को स्वचालित करना बहुत कठिन होगा। दूसरी ओर, भाषण त्वरित और नियमित लेनदेन को संभालने के लिए एकदम सही है, जैसे कार्य ऑर्डर की स्थिति बदलना, समय या व्यय प्रविष्टि को पूरा करना, या खातों के बीच धन स्थानांतरित करना।

इतिहास

VUI के प्रारंभी अनुप्रयोगों में सीधे या (सामान्यतः ब्लूटूथ) हेडसेट या वाहन ऑडियो सिस्टम के माध्यम से फोन की आवाज-सक्रिय डायलिंग (टेलीफोनी) सम्मिलित थी।

2007 में, CNN मनी बिजनेस लेख में बताया गया कि वॉयस कमांड एक अरब डॉलर से अधिक का उद्योग था और गूगल और Apple Inc. जैसी कंपनियां वाक् पहचान सुविधाओं को बनाने की कोशिश कर रही थीं।[2] लेख को प्रकाशित हुए कई साल हो गए हैं, और तब से दुनिया ने विभिन्न प्रकार के वॉयस कमांड डिवाइस देखे हैं। इसके अतिरिक्त, गूगल ने Pico TTS नामक एक वाक् पहचान इंजन बनाया और Apple ने Siri जारी किया है। वॉयस कमांड डिवाइस अधिक व्यापक रूप से उपलब्ध हो रहे हैं, और मानव आवाज का उपयोग करने के लिए हमेशा नए तरीके बनाए जा रहे हैं। उदाहरण के लिए, बिजनेस वीक सुझाव देता है कि भविष्य का रिमोट कंट्रोलर इंसान की आवाज बनने जा रहा है। वर्तमान में Xbox Live ऐसी सुविधाओं की अनुमति देता है और स्टीव जॉब्स ने नए Apple TV पर ऐसी सुविधा का संकेत दिया है।[3]


कंप्यूटिंग उपकरणों पर वॉयस कमांड सॉफ्टवेयर उत्पाद

ऐप्पल एप्पल मैकिंटोश और विंडोज PCनिजी कंप्यूटर दोनों अपने नवीनतम ऑपरेटिंग सिस्टम के लिए अंतर्निहित वाक् पहचान सुविधाएँ प्रदान करते हैं।

माइक्रोसॉफ्ट विंडोज़

दो माइक्रोसॉफ्ट ऑपरेटिंग सिस्टम, विंडोज 7 और विंडोज़ विस्टा, वाक् पहचान क्षमताएँ प्रदान करते हैं। माइक्रोसॉफ्ट ने उन लोगों के लिए एक तंत्र प्रदान करने के लिए अपने ऑपरेटिंग सिस्टम में वॉयस कमांड को एकीकृत किया है जो माउस और कीबोर्ड के उपयोग को सीमित करना चाहते हैं, लेकिन फिर भी अपनी समग्र उत्पादकता को बनाए रखना या बढ़ाना चाहते हैं।[4]


विंडोज विस्टा

विंडोज विस्टा वॉयस कंट्रोल के साथ, उपयोगकर्ता मुख्यधारा के अनुप्रयोगों में दस्तावेजों और ईमेल को निर्देशित कर सकता है, अनुप्रयोगों के बीच शुरू और स्विच कर सकता है, ऑपरेटिंग सिस्टम को नियंत्रित, दस्तावेजों को प्रारूपित और सहेज, फाइलों को संपादित, त्रुटियों को कुशलतापूर्वक ठीक और इंटरनेट पर फॉर्म भर सकता है। जब भी कोई उपयोगकर्ता इसका उपयोग करता है तो वाक् पहचान सॉफ्टवेयर स्वचालित रूप से सीखता है, और वाक् पहचान अंग्रेजी (U.S.), अंग्रेजी (U.K.), जर्मन (जर्मनी), फ्रेंच (फ्रांस), स्पेनिश (स्पेन), जापानी, चीनी (पारंपरिक) में उपलब्ध है। इसके अतिरिक्त, सॉफ्टवेयर एक इंटरैक्टिव ट्यूटोरियल के साथ आता है, जिसका उपयोग उपयोगकर्ता और वाक् पहचान इंजन दोनों को प्रशिक्षित करने के लिए किया जा सकता है।[5]


विंडोज़ 7

विंडोज विस्टा में प्रदान की गई सभी सुविधाओं के अतिरिक्त, विंडोज 7 माइक्रोफ़ोन सेट करने के लिए एक विज़ार्ड और सुविधा का उपयोग करने के तरीके पर एक ट्यूटोरियल प्रदान करता है।[6]


Mac OS X

सभी Mac OS सॉफ़्टवेयर उपयोगकर्ता-स्वतंत्र है, और यह उपयोगकर्ता को मेनू नेविगेट करने और कीबोर्ड शॉर्टकट दर्ज करने की अनुमति देता है; चेकबॉक्स नाम, रेडियो बटन नाम, सूची आइटम और बटन नाम बोलें; और अनुप्रयोगों के बीच खोलें, बंद करें, नियंत्रित करें और स्विच करें।[7] यद्यपि, Apple वेबसाइट उपयोगकर्ता को MacSpeech Dictate नामक एक वाणिज्यिक उत्पाद खरीदने की सलाह देती है।[7]


वाणिज्यिक उत्पाद

यदि कोई उपयोगकर्ता अंतर्निहित वाक् पहचान सॉफ़्टवेयर से संतुष्ट नहीं है या किसी उपयोगकर्ता के पास अपने OS के लिए निर्मित वाक् पहचान सॉफ़्टवेयर नहीं है, तो उपयोगकर्ता विंडोज़ पीसी के लिए Braina या स्वाभाविक रूप से बोलना जैसे व्यावसायिक उत्पाद के साथ प्रयोग कर सकता है।[8] डिक्टेट, मैक OS के लिए एक ही सॉफ्टवेयर का नाम है।[9]


वॉइस कमांड मोबाइल डिवाइस

एंड्रॉइड OS, माइक्रोसॉफ्ट विंडोज फोन, iOS 9 या उसके बाद का संस्करण या ब्लैकबेरी OS चलाने वाला कोई भी मोबाइल डिवाइस वॉयस कमांड क्षमताएं प्रदान करता है। प्रत्येक मोबाइल फोन के ऑपरेटिंग सिस्टम के लिए निर्मित वाक् पहचान सॉफ्टवेयर के अतिरिक्त, एक उपयोगकर्ता प्रत्येक ऑपरेटिंग सिस्टम के एप्लिकेशन स्टोर से थर्ड पार्टी वॉयस कमांड एप्लिकेशन डाउनलोड कर सकता है: ऐप स्टोर (iOS), गूगल प्ले, विंडोज फोन मार्केटप्लेस (प्रारंभ में मोबाइल के लिए विंडोज़ मार्केटप्लेस) , या ब्लैकबेरी ऐप वर्ल्ड

एंड्रॉइड OS

गूगल ने एंड्रॉइड (ऑपरेटिंग सिस्टम) नामक एक ओपन सोर्स ऑपरेटिंग सिस्टम विकसित किया है, जो उपयोगकर्ता को वॉयस कमांड करने की अनुमति देता है जैसे: टेक्स्ट संदेश भेजना, संगीत सुनना, दिशानिर्देश प्राप्त करना, व्यवसायों को कॉल करना, संपर्कों को कॉल करना, ईमेल भेजना, मानचित्र देखना, वेबसाइटों पर जाएँ, एक नोट लिखें और गूगल पर खोजें।[10] वाक् पहचान सॉफ़्टवेयर एंड्रॉइड Froyo|एंड्रॉइड 2.2 Froyo के बाद से सभी उपकरणों के लिए उपलब्ध है, लेकिन सेटिंग्स को अंग्रेजी पर सेट किया जाना चाहिए।[10] गूगल उपयोगकर्ता को भाषा बदलने की अनुमति देता है, और जब उपयोगकर्ता पहली बार वाक् पहचान सुविधा का उपयोग करता है तो उसे संकेत दिया जाता है कि क्या वह चाहता है कि उसका ध्वनि डेटा उसके गूगल खाते से जुड़ा हो। यदि कोई उपयोगकर्ता इस सेवा को चुनने का निर्णय लेता है, तो यह गूगल को सॉफ़्टवेयर को उपयोगकर्ता की आवाज़ के अनुसार प्रशिक्षित करने की अनुमति देता है।[11]

गूगल ने गूगल असिस्टेंट को एंड्रॉयड 7.0 Nougat के साथ प्रस्तुत किया। यह पुराने वर्जन से कहीं ज्यादा एडवांस है।

अमेजन.कॉम के पास अमेजन इको है जो वॉयस इंटरफ़ेस प्रदान करने के लिए अमेजन के एंड्रॉइड के कस्टम संस्करण का उपयोग करता है।

माइक्रोसॉफ्ट विंडोज़

विंडोज़ फोन माइक्रोसॉफ्ट के मोबाइल डिवाइस का ऑपरेटिंग सिस्टम है। विंडोज फोन 7.5 पर, स्पीच ऐप उपयोगकर्ता के लिए स्वतंत्र है और इसका उपयोग किया जा सकता है: अपनी संपर्क सूची से किसी को कॉल करें, किसी भी फोन नंबर पर कॉल करें, अंतिम नंबर को फिर से डायल करें, एक टेक्स्ट संदेश भेजें, अपने वॉयस मेल पर कॉल करें, एक एप्लिकेशन खोलें, अपॉइंटमेंट पढ़ें, फ़ोन की स्थिति पूछें, और वेब पर खोजें।[12][13] इसके अतिरिक्त, फोन कॉल के दौरान भाषण का भी उपयोग किया जा सकता है, और फोन कॉल के दौरान निम्नलिखित क्रियाएं संभव हैं: एक नंबर दबाएं, स्पीकर फोन चालू करें, या किसी को कॉल करें, जो वर्तमान कॉल को रोक देता है।[13]

विंडोज 10 ने कॉर्टाना (सॉफ्टवेयर) प्रस्तुत किया है, जो एक आवाज नियंत्रण प्रणाली है जो विंडोज फोन पर पहले उपयोग किए गए आवाज नियंत्रण को प्रतिस्थापित करती है।

iOS

एप्पल ने iPhone OS 3 की एक नई सुविधा के रूप में iOS उपकरणों की अपनी सूची में आवाज नियंत्रण (एप्पल) को जोड़ा। iPhone 4S, iPad (तीसरी पीढ़ी), iPad Mini (पहली पीढ़ी), iPad Air, iPad Pro, iPod Touch (5वीं पीढ़ी) ) और बाद में, सभी महोदय मै नामक एक अधिक उन्नत वॉयस असिस्टेंट के साथ आते हैं। नए उपकरणों के सेटिंग मेनू के माध्यम से ध्वनि नियंत्रण को अभी भी सक्षम किया जा सकता है। सिरी एक उपयोगकर्ता स्वतंत्र अंतर्निहित वाक् पहचान सुविधा है जो उपयोगकर्ता को वॉयस कमांड जारी करने की अनुमति देती है। सिरी की सहायता से उपयोगकर्ता कमांड जारी कर सकता है, जैसे टेक्स्ट संदेश भेजना, मौसम की जांच करना, अनुस्मारक सेट करना, जानकारी ढूंढना, मीटिंग शेड्यूल करना, ईमेल भेजना, संपर्क ढूंढना, अलार्म सेट करना, दिशा-निर्देश प्राप्त करना, अपने स्टॉक को ट्रैक करना, एक टाइमर सेट करें, और नमूना वॉयस कमांड प्रश्नों के उदाहरण पूछें।[14] इसके अतिरिक्त, सिरी ब्लूटूथ और वायर्ड हेडफ़ोन के साथ काम करता है।[15]


अमेज़ॅन एलेक्सा

2014 में अमेज़न ने अमेज़न एलेक्सा प्रस्तुत किया। इसका मुख्य उद्देश्य सिर्फ एक स्मार्ट स्पीकर था, जो उपभोक्ता को अपनी आवाज से डिवाइस को नियंत्रित करने की अनुमति देता था। अंततः, यह एक नवीन उपकरण में बदल गया जिसमें आवाज से घरेलू उपकरण को नियंत्रित करने की क्षमता थी। अब प्रकाश बल्ब और तापमान सहित लगभग सभी उपकरण एलेक्सा से नियंत्रित किए जा सकते हैं। आवाज नियंत्रण की अनुमति देकर, एलेक्सा स्मार्ट होम तकनीक से जुड़ सकता है जिससे आप अपने घर को बंद कर सकते हैं, तापमान को नियंत्रित कर सकते हैं और विभिन्न उपकरणों को सक्रिय कर सकते हैं। A.I का यह रूप किसी को केवल एक प्रश्न पूछने की अनुमति देता है, और जवाब में एलेक्सा उत्तर खोजती है, ढूंढती है और आपको जवाब सुनाती है।[16]


कारों में वाक् पहचान

जैसे-जैसे कार प्रौद्योगिकी में सुधार होगा, कारों में और अधिक सुविधाएँ जोड़ी जाएंगी और ये सुविधाएँ ड्राइवर का ध्यान भटका देंगी। CNET के अनुसार, कारों के लिए वॉयस कमांड से ड्राइवर को कमांड जारी करने की अनुमति मिलनी चाहिए और उसका ध्यान नहीं भटकना चाहिए। CNET ने कहा कि नुअंस सुझाव दे रहा था कि भविष्य में वे एक ऐसा सॉफ्टवेयर बनाएंगे जो सिरी जैसा होगा, लेकिन कारों के लिए।[17] 2011 में बाज़ार में अधिकांश वाक् पहचान सॉफ़्टवेयर में केवल 50 से 60 वॉइस कमांड थे, लेकिन फोर्ड सिंक में 10,000 थे।[17] यद्यपि, CNET ने सुझाव दिया कि 10,000 वॉयस कमांड भी जटिलता और उपयोगकर्ता द्वारा ड्राइविंग के दौरान किए जाने वाले कार्यों की विविधता को देखते हुए पर्याप्त नहीं थे।[17] कारों के लिए वॉयस कमांड मोबाइल फोन और कंप्यूटर के लिए वॉयस कमांड से अलग है क्योंकि ड्राइवर इस सुविधा का उपयोग आस-पास के रेस्तरां, गैस, ड्राइविंग निर्देश, सड़क की स्थिति और निकटतम होटल के स्थान को देखने के लिए कर सकता है।[17] वर्तमान में, प्रौद्योगिकी ड्राइवर को गार्मिन जैसे पोर्टेबल जीपीएस नेविगेशन डिवाइस और कार निर्माता नेविगेशन सिस्टम दोनों पर वॉयस कमांड जारी करने की अनुमति देती है।[18]

मोटर निर्माताओं द्वारा उपलब्ध कराए गए वॉयस कमांड सिस्टम की सूची:

अशाब्दिक इनपुट

जबकि अधिकांश ध्वनि उपयोगकर्ता इंटरफ़ेस मौखिक मानव भाषा के माध्यम से बातचीत का समर्थन करने के लिए डिज़ाइन किए गए हैं, इंटरफ़ेस डिज़ाइन करने में हाल ही में अन्वेषण अशाब्दिक मानव ध्वनियों को इनपुट के रूप में लेते हैं। इन प्रणालियों में, उपयोगकर्ता गैर-वाक् ध्वनियाँ जैसे गुनगुनाना, सीटी बजाना या माइक्रोफ़ोन में फूंक मारकर इंटरफ़ेस को नियंत्रित करता है।[19]

अशाब्दिक ध्वनि उपयोगकर्ता इंटरफ़ेस का ऐसा एक उदाहरण ब्लेंडी है,[20][21] केली डॉब्सन द्वारा निर्मित एक इंटरैक्टिव आर्ट इंस्टॉलेशन। इस टुकड़े में 1950 के दशक का एक क्लासिक ब्लेंडर सम्मिलित था जिसे माइक्रोफ़ोन इनपुट पर प्रतिक्रिया देने के लिए रेट्रोफिट किया गया था। ब्लेंडर को नियंत्रित करने के लिए, उपयोगकर्ता को उन घूमने वाली यांत्रिक ध्वनियों की नकल करनी चाहिए जो एक ब्लेंडर सामान्यतः बनाता है: उपयोगकर्ता की कम आवाज वाली गुर्राहट के जवाब में ब्लेंडर धीरे-धीरे घूमेगा, और जैसे-जैसे उपयोगकर्ता उच्च स्वर वाली ध्वनि बनाता है, गति में वृद्धि होगी।

एक अन्य उदाहरण वॉइसड्रॉ है,[22] एक अनुसंधान प्रणाली जो सीमित मोटर क्षमताओं वाले व्यक्तियों के लिए डिजिटल ड्राइंग को सक्षम बनाती है। वॉयसड्रा उपयोगकर्ताओं को स्वर ध्वनियों को संशोधित करके डिजिटल कैनवास पर स्ट्रोक पेंट करने की अनुमति देता है, जिन्हें ब्रश दिशाओं में मैप किया जाता है। अन्य पारभाषिक विशेषताओं (उदाहरण के लिए उनकी आवाज की तीव्रता) को संशोधित करने से उपयोगकर्ता को ड्राइंग की विभिन्न विशेषताओं को नियंत्रित करने की अनुमति मिलती है, जैसे ब्रश स्ट्रोक की मोटाई।

अन्य तरीकों में नए प्रकार के इशारों का समर्थन करने के लिए स्पर्श-आधारित इंटरफेस (उदाहरण के लिए मोबाइल फोन पर) को बढ़ाने के लिए अशाब्दिक ध्वनियों को अपनाना सम्मिलित है जो अकेले उंगली इनपुट के साथ संभव नहीं होगा।[19]


डिज़ाइन चुनौतियाँ

वॉयस इंटरफेस प्रयोज्यता के लिए पर्याप्त संख्या में चुनौतियाँ प्रस्तुत करता है। ग्राफिकल यूजर इंटरफेस (GUIs) के विपरीत, वॉयस इंटरफेस डिजाइन के लिए सर्वोत्तम प्रथाएं अभी भी उभर रही हैं।[23]


खोज योग्यता

पूरी तरह से ऑडियो-आधारित इंटरैक्शन के साथ, वॉयस यूजर इंटरफेस कम खोज क्षमता से ग्रस्त होते हैं:[23] उपयोगकर्ताओं के लिए सिस्टम की क्षमताओं के दायरे को समझना मुश्किल है। सिस्टम को यह बताने के लिए कि दृश्य प्रदर्शन के बिना क्या संभव है, उसे उपलब्ध विकल्पों की गणना करने की आवश्यकता होगी, जो थकाऊ या असंभव हो सकते हैं। कम खोज योग्यता के परिणामस्वरूप प्रायः उपयोगकर्ता इस बात को लेकर भ्रम की स्थिति में होते हैं कि उन्हें क्या कहने की अनुमति है, या सिस्टम की समझ की चौड़ाई के बारे में अपेक्षाओं में बेमेल है।[24][25]


प्रतिलेखन

यद्यपि हाल के वर्षों में वाक् पहचान तकनीक में काफी सुधार हुआ है, फिर भी ध्वनि उपयोगकर्ता इंटरफ़ेस अभी भी पार्सिंग या ट्रांसक्रिप्शन त्रुटियों से ग्रस्त है जिसमें उपयोगकर्ता के भाषण की सही ढंग से व्याख्या नहीं की जाती है।[26] ये त्रुटियाँ विशेष रूप से तब प्रचलित होती हैं जब भाषण सामग्री तकनीकी शब्दावली (जैसे चिकित्सा शब्दावली) या अपरंपरागत वर्तनी जैसे संगीत कलाकार या गीत के नाम का उपयोग करती है।[27]


समझ

प्राकृतिक-भाषा की समझ को अधिकतम करने के लिए प्रभावी सिस्टम डिज़ाइन अनुसंधान का एक खुला क्षेत्र बना हुआ है। वॉयस यूजर इंटरफेस जो बातचीत की स्थिति की व्याख्या और प्रबंधन करते हैं, संदर्भ, नामित-इकाई पहचान, सूचना पुनर्प्राप्ति और संवाद प्रबंधक जैसे जटिल प्राकृतिक भाषा प्रसंस्करण कार्यों को एकीकृत करने की अंतर्निहित कठिनाई के कारण डिजाइन करना चुनौतीपूर्ण है।[28] अधिकांश वॉयस असिस्टेंट आज एकल कमांड को बहुत अच्छी तरह से निष्पादित करने में सक्षम हैं, लेकिन एक संकीर्ण कार्य या बातचीत में कुछ बदलावों से परे संवाद को प्रबंधित करने की उनकी क्षमता सीमित है।[29]


भविष्य में उपयोग

पॉकेट-आकार के उपकरण, जैसे व्यक्तिगत डिजिटल सहायक या चल दूरभाष , वर्तमान में उपयोगकर्ता इनपुट के लिए छोटे बटन पर निर्भर हैं। ये या तो डिवाइस में निर्मित होते हैं या टच-स्क्रीन इंटरफ़ेस का हिस्सा होते हैं, जैसे कि Apple iPod Touch और iPhone Siri एप्लिकेशन। ऐसे छोटे बटन वाले उपकरणों पर व्यापक बटन दबाना थकाऊ और गलत हो सकता है, इसलिए उपयोग में आसान, सटीक और विश्वसनीय VUI संभावित रूप से उनके उपयोग की आसानी में एक बड़ी सफलता होगी। बहरहाल, इस तरह के VUI से लैपटॉप और डेस्कटॉप आकार के कंप्यूटर के उपयोगकर्ताओं को भी लाभ होगा, क्योंकि यह वर्तमान में कीबोर्ड और माउस (कंप्यूटिंग) के उपयोग से जुड़ी कई समस्याओं का समाधान करेगा, जिसमें कार्पल टनल सिंड्रोम जैसी दोहराव-तनाव की चोटें सम्मिलित हैं। दृष्टिबाधितों द्वारा डिजिटल इंटरफेस के भीतर नेविगेट करने और टेक्स्ट इनपुट करने की चुनौतियाँ,[30] और अनुभवहीन कीबोर्ड उपयोगकर्ताओं की टाइपिंग गति धीमी है। इसके अतिरिक्त, कीबोर्ड का उपयोग सामान्यतः कनेक्टेड डिस्प्ले के सामने बैठकर या खड़े होकर किया जाता है; इसके विपरीत, एक VUI उपयोगकर्ता को अधिक मोबाइल होने के लिए मुक्त कर देगा, क्योंकि भाषण इनपुट कीबोर्ड को देखने की आवश्यकता को समाप्त कर देता है।

इस तरह के विकास वस्तुतः वर्तमान मशीनों का चेहरा बदल सकते हैं और उपयोगकर्ता उनके साथ कैसे बातचीत करते हैं, इस पर दूरगामी प्रभाव पड़ सकता है। हाथ से पकड़े जाने वाले उपकरणों को बड़े, देखने में आसान स्क्रीन के साथ डिज़ाइन किया जाएगा, क्योंकि किसी कीबोर्ड की आवश्यकता नहीं होगी। टच-स्क्रीन उपकरणों को अब सामग्री और ऑन-स्क्रीन कीबोर्ड के बीच डिस्प्ले को विभाजित करने की आवश्यकता नहीं होगी, इस प्रकार सामग्री को पूर्ण-स्क्रीन देखने की सुविधा मिलेगी। लैपटॉप कंप्यूटर को आकार के आधार पर अनिवार्य रूप से आधा किया जा सकता है, क्योंकि कीबोर्ड का आधा हिस्सा हटा दिया जाएगा और सभी आंतरिक घटकों को डिस्प्ले के पीछे एकीकृत किया जाएगा, जिसके परिणामस्वरूप प्रभावी रूप से एक साधारण टैबलेट कंप्यूटर बनेगा। डेस्कटॉप कंप्यूटर में एक सीपीयू और स्क्रीन सम्मिलित होगी, जिससे डेस्कटॉप पर कीबोर्ड द्वारा कब्जा कर लिया गया स्थान बच जाएगा और डेस्क की सतह के नीचे बने स्लाइडिंग कीबोर्ड रेस्ट को खत्म कर दिया जाएगा। माइक्रोवेव ओवन से लेकर फोटोकॉपियर तक दर्जनों अन्य उपकरणों पर टेलीविजन रिमोट कंट्रोल और कीपैड को भी खत्म किया जा सकता है।

यद्यपि, इस तरह के विकास के लिए कई चुनौतियों से पार पाना होगा। सबसे पहले, VUI को इनपुट, जैसे कमांड और पृष्ठभूमि वार्तालाप के बीच अंतर करने के लिए पर्याप्त परिष्कृत होना होगा; अन्यथा, गलत इनपुट दर्ज किया जाएगा और कनेक्टेड डिवाइस गलत व्यवहार करेगा। एक मानक प्रॉम्प्ट, जैसे कि प्रसिद्ध कंप्यूटर! साइंस फिक्शन टीवी शो और स्टार ट्रेक जैसी फिल्मों में पात्रों द्वारा कॉल, VUI को सक्रिय कर सकता है और इसे उसी स्पीकर द्वारा आगे इनपुट प्राप्त करने के लिए तैयार कर सकता है। संभवतः, VUI में मानव जैसा प्रतिनिधित्व भी सम्मिलित हो सकता है: उदाहरण के लिए, एक आवाज या यहां तक ​​कि एक ऑन-स्क्रीन चरित्र, जो वापस प्रतिक्रिया करता है (उदाहरण के लिए, "हां, वामशी"?) और उपयोगकर्ता के साथ आगे और पीछे संवाद करना जारी रखता है। प्राप्त इनपुट को स्पष्ट करें और सटीकता सुनिश्चित करें।

दूसरा, VUI को जानकारी को सटीक रूप से संसाधित करने और खोजने/पुनर्प्राप्त करने या विशेष उपयोगकर्ता की प्राथमिकताओं के अनुसार कार्रवाई करने के लिए अत्यधिक परिष्कृत सॉफ़्टवेयर के साथ मिलकर काम करना होगा। उदाहरण के लिए, यदि सामंथा किसी विशेष समाचार पत्र से जानकारी पसंद करती है, और यदि वह चाहती है कि जानकारी को बिंदु-रूप में संक्षेपित किया जाए, तो वह कह सकती है, "कंप्यूटर, मुझे कल रात दक्षिणी चीन में आई बाढ़ के बारे में कुछ जानकारी ढूंढो"; जवाब में, VUI जो उसकी प्राथमिकताओं से परिचित है, उस स्रोत से "दक्षिणी चीन" में बाढ़ के बारे में तथ्य ढूंढेगा, इसे बिंदु-रूप में परिवर्तित करेगा, और इसे स्क्रीन पर और/या आवाज के रूप में, एक उद्धरण के साथ उसे वितरित करेगा। इसलिए, VUI से जुड़ी मशीन के हिस्से पर कुछ हद तक कृत्रिम बुद्धिमत्ता के साथ-साथ सटीक वाक् पहचान|वाक्-पहचान सॉफ्टवेयर की आवश्यकता होगी।

गोपनीयता निहितार्थ

गोपनीयता संबंधी चिंताएँ इस तथ्य से उत्पन्न होती हैं कि वॉयस कमांड वॉयस-यूजर इंटरफेस के प्रदाताओं के लिए अनएन्क्रिप्टेड रूप में उपलब्ध हैं, और इस प्रकार इसे तीसरे पक्ष के साथ साझा किया जा सकता है और अनधिकृत या अप्रत्याशित तरीके से संसाधित किया जा सकता है।[31][32] रिकॉर्ड किए गए भाषण की भाषाई सामग्री के अतिरिक्त, उपयोगकर्ता की अभिव्यक्ति के तरीके और आवाज की विशेषताओं में उसकी बायोमेट्रिक पहचान, व्यक्तित्व लक्षण, शरीर का आकार, शारीरिक और मानसिक स्वास्थ्य स्थिति, लिंग, मूड और भावनाओं, सामाजिक आर्थिक स्थिति और भौगोलिक मूल के बारे में जानकारी निहित हो सकती है।[33]

यह भी देखें

संदर्भ

  1. "वॉशिंग मशीन आवाज नियंत्रण". Appliance Magazine.
  2. Borzo, Jeanette (8 February 2007). "अब आप बात कर रहे हैं". CNN Money. Retrieved 25 April 2012.
  3. "Voice Control, the End of the TV Remote?". Bloomberg.com. Business Week. 9 December 2011. Archived from the original on December 8, 2011. Retrieved 1 May 2012.
  4. "विंडोज़ विस्टा बिल्ट इन स्पीच". Windows Vista. Retrieved 25 April 2012.
  5. "विस्टा पर भाषण संचालन". Microsoft.
  6. "वाक् पहचान सेट अप". Microsoft.
  7. 7.0 7.1 "शारीरिक और मोटर कौशल". Apple.
  8. "ड्रैगननेचरलीस्पीकिंग पीसी". Nuance.
  9. "ड्रैगननैचरलीस्पीकिंग मैक". Nuance.
  10. 10.0 10.1 "ध्वनि क्रियाएँ".
  11. "एंड्रॉइड के लिए Google Voice खोज अब आपकी आवाज़ के लिए "प्रशिक्षित" हो सकती है". 14 December 2010. Retrieved 24 April 2012.
  12. "वॉइस कमांड का उपयोग करना". Microsoft. Retrieved 24 April 2012.
  13. 13.0 13.1 "वॉइस कमांड का उपयोग करना". Microsoft. Retrieved 27 April 2012.
  14. "Siri, The iPhone 3GS & 4, iPod 3 & 4, have voice control like an express Siri, it plays music, pauses music, suffle, Facetime, and calling Features". Apple. Retrieved 27 April 2012.
  15. "सिरी अक्सर पूछे जाने वाले प्रश्न". Apple.
  16. "अमेज़ॅन का इको एक स्मार्ट स्पीकर से आपके घर के केंद्र तक कैसे पहुंच गया". Business Insider.
  17. 17.0 17.1 17.2 17.3 "सिरी जैसी आवाज". CNET.
  18. "आवाज के साथ पोर्टेबल जीपीएस". CNET.
  19. 19.0 19.1 "Voice augmented manipulation | Proceedings of the 15th international conference on Human-computer interaction with mobile devices and services". dlnext.acm.org (in English). doi:10.1145/2493190.2493244. S2CID 6251400. Retrieved 2019-02-27.
  20. "Blendie | Proceedings of the 5th conference on Designing interactive systems: processes, practices, methods, and techniques". dlnext.acm.org (in English). doi:10.1145/1013115.1013159. Retrieved 2019-02-27.
  21. "Kelly Dobson: Blendie". web.media.mit.edu. Retrieved 2019-02-27.
  22. "Voicedraw | Proceedings of the 9th international ACM SIGACCESS conference on Computers and accessibility". dlnext.acm.org (in English). doi:10.1145/1296843.1296850. S2CID 218338. Retrieved 2019-02-27.
  23. 23.0 23.1 "Design guidelines for hands-free speech interaction | Proceedings of the 20th International Conference on Human-Computer Interaction with Mobile Devices and Services Adjunct". dlnext.acm.org (in English). doi:10.1145/3236112.3236149. S2CID 52099112. Retrieved 2019-02-27.
  24. "Designing SpeechActs | Proceedings of the SIGCHI Conference on Human Factors in Computing Systems". dlnext.acm.org (in English). doi:10.1145/223904.223952. S2CID 9313029. Retrieved 2019-02-27.
  25. "What can I say? | Proceedings of the 18th International Conference on Human-Computer Interaction with Mobile Devices and Services" (in English). doi:10.1145/2935334.2935386. S2CID 6246618. {{cite journal}}: Cite journal requires |journal= (help)
  26. "Patterns for How Users Overcome Obstacles in Voice User Interfaces | Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems". dlnext.acm.org (in English). doi:10.1145/3173574.3173580. S2CID 5041672. Retrieved 2019-02-27.
  27. ""Play PRBLMS" | Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems". dlnext.acm.org (in English). doi:10.1145/3173574.3173870. S2CID 5050837. Retrieved 2019-02-27.
  28. Galitsky, Boris (2019). Developing Enterprise Chatbots: Learning Linguistic Structures (in English) (1st ed.). Cham, Switzerland: Springer. pp. 13–24. doi:10.1007/978-3-030-04299-8. ISBN 978-3-030-04298-1. S2CID 102486666.
  29. Pearl, Cathy (2016-12-06). Designing Voice User Interfaces: Principles of Conversational Experiences (in English) (1st ed.). Sebastopol, CA: O'Reilly Media. pp. 16–19. ISBN 978-1-491-95541-3.
  30. Messaoudi, Mohamed Dhiaeddine; Menelas, Bob-Antoine J.; Mcheick, Hamid (2022-10-17). "दृष्टिबाधित लोगों के लिए नेविगेशन सहायक उपकरण और प्रौद्योगिकियों की समीक्षा". Sensors (in English). 22 (20): 7888. doi:10.3390/s22207888. ISSN 1424-8220. PMC 9606951. PMID 36298237.
  31. "Apple, Google और Amazon ने डिजिटल असिस्टेंट कमांड की समीक्षा करके आपकी गोपनीयता का उल्लंघन किया हो सकता है". Fortune. 2019-08-05. Retrieved 2020-05-13.
  32. Hern, Alex (2019-04-11). "रिपोर्ट में कहा गया है कि अमेज़ॅन कर्मचारी ग्राहकों की एलेक्सा रिकॉर्डिंग सुनते हैं". the Guardian. Retrieved 2020-05-21.
  33. Kröger, Jacob Leon; Lutz, Otto Hans-Martin; Raschke, Philip (2020). "Privacy Implications of Voice and Speech Analysis – Information Disclosure by Inference". गोपनीयता और पहचान प्रबंधन. बेहतर जीवन के लिए डेटा: एआई और गोपनीयता. IFIP Advances in Information and Communication Technology. Vol. 576. pp. 242–258. doi:10.1007/978-3-030-42504-3_16. ISBN 978-3-030-42503-6. ISSN 1868-4238.


बाहरी संबंध