वॉइस-यूज़र इंटरफ़ेस: Difference between revisions
m (added Category:Vigyan Ready using HotCat) |
m (9 revisions imported from alpha:वॉइस-यूज़र_इंटरफ़ेस) |
(No difference)
|
Latest revision as of 23:00, 10 October 2023
एक वॉइस-यूज़र इंटरफ़ेस (VUI) कंप्यूटर के साथ बोली जाने वाली मानवीय बातचीत को संभव बनाता है, बोले गए आदेशों और प्रश्नों के उत्तर को समझने के लिए वाक् पहचान का उपयोग करता है, और सामान्यतः उत्तर को चलाने के लिए पाठ से वाक् तक का उपयोग करता है। वॉयस कमांड डिवाइस एक वॉयस यूजर इंटरफेस से नियंत्रित डिवाइस है।
वॉयस यूजर इंटरफेस को ऑटोमोबाइल, होम ऑटोमेशन सिस्टम, कंप्यूटर ऑपरेटिंग सिस्टम, वॉशिंग मशीन और माइक्रोवेव ओवन जैसे घरेलू उपकरणो और टेलीविजन रिमोट कंट्रोल में जोड़ा गया है। वे स्मार्टफोन्स और स्मार्ट स्पीकर पर वर्चुअल सहायकों के साथ बातचीत करने का प्राथमिक तरीका हैं। पुराने स्वचालित परिचारकों (जो फोन कॉल को सही एक्सटेंशन पर रूट करते हैं) और इंटरएक्टिव वॉयस रिस्पांस सिस्टम (जो फोन पर अधिक जटिल ट्रैन्ज़ैक्शन्ज़ करते हैं) DTMF टोन के माध्यम से कीपैड बटन दबाने पर प्रतिक्रिया दे सकते हैं, लेकिन पूर्ण वॉयस यूजर इंटरफेस वाले कॉलर्स को बिना किसी बटन दबाने के अनुरोध और जवाब बोलने की अनुमति देते हैं।
नए वॉयस कमांड डिवाइस स्पीकर-स्वतंत्र हैं, इसलिए वे उच्चारण या बोली संबंधी प्रभावों की परवाह किए बिना कई आवाजों पर प्रतिक्रिया दे सकते हैं। वे एक साथ कई आदेशों का जवाब देने, मौखिक संदेशों को अलग करने और प्राकृतिक बातचीत का सटीक अनुकरण करते हुए उचित प्रतिक्रिया प्रदान करने में भी सक्षम हैं।[1]
अवलोकन
VUI किसी भी स्पीच एप्लिकेशन का इंटरफ़ेस (कंप्यूटिंग) है। किसी मशीन को केवल बात करके नियंत्रित करना कुछ समय पहले तक विज्ञान कथा थी। कुछ समय पहले तक इस क्षेत्र को कृत्रिम बुद्धिमत्ता माना जाता था। यद्यपि, टेक्स्ट-टू-स्पीच, स्पीच-टू-टेक्स्ट, नेचुरल लैंग्वेज प्रोसेसिंग और क्लाउड सेवाओं जैसी प्रौद्योगिकियों में प्रगति ने, सामान्यतः इस प्रकार के इंटरफेस को बड़े पैमाने पर अपनाने में योगदान दिया है। VUI अधिक सामान्य हो गए हैं, और लोग कई स्थितियों में ये हैंड्स-फ्री, आई-फ्री इंटरफेस द्वारा प्रदान किए जाने वाले मूल्य का लाभ उठा रहे हैं।
VUI को इनपुट पर विश्वसनीय रूप से प्रतिक्रिया देने की आवश्यकता है, अन्यथा उन्हें अस्वीकार कर दिया जाएगा और प्रायः उनके उपयोगकर्ताओं द्वारा उनका उपहास किया जाएगा। एक अच्छे VUI को डिज़ाइन करने के लिए कंप्यूटर विज्ञान, भाषा विज्ञान और मानव कारक मनोविज्ञान की अंतःविषय प्रतिभाओं की आवश्यकता होती है - ये सभी ऐसे कौशल हैं जो महंगे हैं और इन्हें प्राप्त करना कठिन है। उन्नत विकास उपकरणों के साथ भी, एक प्रभावी VUI के निर्माण के लिए निष्पादित किए जाने वाले कार्यों के साथ-साथ अंतिम प्रणाली का उपयोग करने वाले लक्षित दर्शकों की गहन समझ की आवश्यकता होती है। VUI कार्य के उपयोगकर्ता के मानसिक मॉडल से जितना नज़दीक से अनुकूल है, कम या बिना प्रशिक्षण के इसका उपयोग करना उतना ही आसान होगा, जिसके परिणामस्वरूप उच्च दक्षता और उच्च उपयोगकर्ता संतुष्टि दोनों होगी।
सामान्य जनता के लिए डिज़ाइन किए गए VUI को उपयोग में आसानी पर जोर देना चाहिए और पहली बार कॉल करने वालों के लिए बहुत अधिक सहायता और मार्गदर्शन प्रदान करना चाहिए। इसके विपरीत, बिजली उपयोगकर्ताओं के एक छोटे समूह (फ़ील्ड सेवा श्रमिकों सहित) के लिए डिज़ाइन किए गए VUI को उत्पादकता पर अधिक और सहायता और मार्गदर्शन पर कम ध्यान केंद्रित करना चाहिए। ऐसे अनुप्रयोगों को कॉल प्रवाह को सुव्यवस्थित, संकेतों को कम, अनावश्यक पुनरावृत्तियों को समाप्त करना चाहिए और विस्तृत मिश्रित पहल संवाद प्रणाली की अनुमति देनी चाहिए, जो कॉल करने वालों को एक ही उच्चारण में और किसी भी क्रम या संयोजन में जानकारी के कई टुकड़े प्रविष्ट करने में सक्षम बनाती है। संक्षेप में, स्वचालित होने वाली विशिष्ट व्यावसायिक प्रक्रिया के लिए भाषण अनुप्रयोगों को सावधानीपूर्वक तैयार किया जाना चाहिए।
सभी व्यावसायिक प्रक्रियाएँ वाक् स्वचालन के लिए स्वयं को समान रूप से प्रस्तुत नहीं करती हैं। सामान्यतः, पूछताछ और लेनदेन जितने अधिक जटिल होंगे, उन्हें स्वचालित करना उतना ही अधिक चुनौतीपूर्ण होगा, और सामान्य जनता के साथ उनके विफल होने की संभावना उतनी ही अधिक होगी। कुछ परिदृश्यों में, स्वचालन बिल्कुल लागू नहीं होता है, इसलिए लाइव एजेंट सहायता ही एकमात्र विकल्प है। उदाहरण के लिए, कानूनी सलाह हॉटलाइन को स्वचालित करना बहुत कठिन होगा। दूसरी ओर, भाषण त्वरित और नियमित लेनदेन को संभालने के लिए एकदम सही है, जैसे कार्य ऑर्डर की स्थिति बदलना, समय या व्यय प्रविष्टि को पूरा करना, या खातों के बीच धन स्थानांतरित करना।
इतिहास
VUI के प्रारंभी अनुप्रयोगों में सीधे या (सामान्यतः ब्लूटूथ) हेडसेट या वाहन ऑडियो सिस्टम के माध्यम से फोन की आवाज-सक्रिय डायलिंग (टेलीफोनी) सम्मिलित थी।
2007 में, CNN मनी बिजनेस लेख में बताया गया कि वॉयस कमांड एक अरब डॉलर से अधिक का उद्योग था और गूगल और Apple Inc. जैसी कंपनियां वाक् पहचान सुविधाओं को बनाने की कोशिश कर रही थीं।[2] लेख को प्रकाशित हुए कई साल हो गए हैं, और तब से दुनिया ने विभिन्न प्रकार के वॉयस कमांड डिवाइस देखे हैं। इसके अतिरिक्त, गूगल ने Pico TTS नामक एक वाक् पहचान इंजन बनाया और Apple ने Siri जारी किया है। वॉयस कमांड डिवाइस अधिक व्यापक रूप से उपलब्ध हो रहे हैं, और मानव आवाज का उपयोग करने के लिए हमेशा नए तरीके बनाए जा रहे हैं। उदाहरण के लिए, बिजनेस वीक सुझाव देता है कि भविष्य का रिमोट कंट्रोलर इंसान की आवाज बनने जा रहा है। वर्तमान में Xbox Live ऐसी सुविधाओं की अनुमति देता है और स्टीव जॉब्स ने नए Apple TV पर ऐसी सुविधा का संकेत दिया है।[3]
कंप्यूटिंग उपकरणों पर वॉयस कमांड सॉफ्टवेयर उत्पाद
ऐप्पल एप्पल मैकिंटोश और विंडोज PCनिजी कंप्यूटर दोनों अपने नवीनतम ऑपरेटिंग सिस्टम के लिए अंतर्निहित वाक् पहचान सुविधाएँ प्रदान करते हैं।
माइक्रोसॉफ्ट विंडोज़
दो माइक्रोसॉफ्ट ऑपरेटिंग सिस्टम, विंडोज 7 और विंडोज़ विस्टा, वाक् पहचान क्षमताएँ प्रदान करते हैं। माइक्रोसॉफ्ट ने उन लोगों के लिए एक तंत्र प्रदान करने के लिए अपने ऑपरेटिंग सिस्टम में वॉयस कमांड को एकीकृत किया है जो माउस और कीबोर्ड के उपयोग को सीमित करना चाहते हैं, लेकिन फिर भी अपनी समग्र उत्पादकता को बनाए रखना या बढ़ाना चाहते हैं।[4]
विंडोज विस्टा
विंडोज विस्टा वॉयस कंट्रोल के साथ, उपयोगकर्ता मुख्यधारा के अनुप्रयोगों में दस्तावेजों और ईमेल को निर्देशित कर सकता है, अनुप्रयोगों के बीच शुरू और स्विच कर सकता है, ऑपरेटिंग सिस्टम को नियंत्रित, दस्तावेजों को प्रारूपित और सहेज, फाइलों को संपादित, त्रुटियों को कुशलतापूर्वक ठीक और इंटरनेट पर फॉर्म भर सकता है। जब भी कोई उपयोगकर्ता इसका उपयोग करता है तो वाक् पहचान सॉफ्टवेयर स्वचालित रूप से सीखता है, और वाक् पहचान अंग्रेजी (U.S.), अंग्रेजी (U.K.), जर्मन (जर्मनी), फ्रेंच (फ्रांस), स्पेनिश (स्पेन), जापानी, चीनी (पारंपरिक) में उपलब्ध है। इसके अतिरिक्त, सॉफ्टवेयर एक इंटरैक्टिव ट्यूटोरियल के साथ आता है, जिसका उपयोग उपयोगकर्ता और वाक् पहचान इंजन दोनों को प्रशिक्षित करने के लिए किया जा सकता है।[5]
विंडोज़ 7
विंडोज विस्टा में प्रदान की गई सभी सुविधाओं के अतिरिक्त, विंडोज 7 माइक्रोफ़ोन सेट करने के लिए एक विज़ार्ड और सुविधा का उपयोग करने के तरीके पर एक ट्यूटोरियल प्रदान करता है।[6]
Mac OS X
सभी Mac OS सॉफ़्टवेयर उपयोगकर्ता-स्वतंत्र है, और यह उपयोगकर्ता को मेनू नेविगेट करने और कीबोर्ड शॉर्टकट दर्ज करने की अनुमति देता है; चेकबॉक्स नाम, रेडियो बटन नाम, सूची आइटम और बटन नाम बोलें; और अनुप्रयोगों के बीच खोलें, बंद करें, नियंत्रित करें और स्विच करें।[7] यद्यपि, Apple वेबसाइट उपयोगकर्ता को MacSpeech Dictate नामक एक वाणिज्यिक उत्पाद खरीदने की सलाह देती है।[7]
वाणिज्यिक उत्पाद
यदि कोई उपयोगकर्ता अंतर्निहित वाक् पहचान सॉफ़्टवेयर से संतुष्ट नहीं है या किसी उपयोगकर्ता के पास अपने OS के लिए निर्मित वाक् पहचान सॉफ़्टवेयर नहीं है, तो उपयोगकर्ता विंडोज़ पीसी के लिए Braina या स्वाभाविक रूप से बोलना जैसे व्यावसायिक उत्पाद के साथ प्रयोग कर सकता है।[8] डिक्टेट, मैक OS के लिए एक ही सॉफ्टवेयर का नाम है।[9]
वॉइस कमांड मोबाइल डिवाइस
एंड्रॉइड OS, माइक्रोसॉफ्ट विंडोज फोन, iOS 9 या उसके बाद का संस्करण या ब्लैकबेरी OS चलाने वाला कोई भी मोबाइल डिवाइस वॉयस कमांड क्षमताएं प्रदान करता है। प्रत्येक मोबाइल फोन के ऑपरेटिंग सिस्टम के लिए निर्मित वाक् पहचान सॉफ्टवेयर के अतिरिक्त, एक उपयोगकर्ता प्रत्येक ऑपरेटिंग सिस्टम के एप्लिकेशन स्टोर से थर्ड पार्टी वॉयस कमांड एप्लिकेशन डाउनलोड कर सकता है: ऐप स्टोर (iOS), गूगल प्ले, विंडोज फोन मार्केटप्लेस (प्रारंभ में मोबाइल के लिए विंडोज़ मार्केटप्लेस) , या ब्लैकबेरी ऐप वर्ल्ड।
एंड्रॉइड OS
गूगल ने एंड्रॉइड (ऑपरेटिंग सिस्टम) नामक एक ओपन सोर्स ऑपरेटिंग सिस्टम विकसित किया है, जो उपयोगकर्ता को वॉयस कमांड करने की अनुमति देता है जैसे: टेक्स्ट संदेश भेजना, संगीत सुनना, दिशानिर्देश प्राप्त करना, व्यवसायों को कॉल करना, संपर्कों को कॉल करना, ईमेल भेजना, मानचित्र देखना, वेबसाइटों पर जाएँ, एक नोट लिखें और गूगल पर खोजें।[10] वाक् पहचान सॉफ़्टवेयर एंड्रॉइड Froyo|एंड्रॉइड 2.2 Froyo के बाद से सभी उपकरणों के लिए उपलब्ध है, लेकिन सेटिंग्स को अंग्रेजी पर सेट किया जाना चाहिए।[10] गूगल उपयोगकर्ता को भाषा बदलने की अनुमति देता है, और जब उपयोगकर्ता पहली बार वाक् पहचान सुविधा का उपयोग करता है तो उसे संकेत दिया जाता है कि क्या वह चाहता है कि उसका ध्वनि डेटा उसके गूगल खाते से जुड़ा हो। यदि कोई उपयोगकर्ता इस सेवा को चुनने का निर्णय लेता है, तो यह गूगल को सॉफ़्टवेयर को उपयोगकर्ता की आवाज़ के अनुसार प्रशिक्षित करने की अनुमति देता है।[11]
गूगल ने गूगल असिस्टेंट को एंड्रॉयड 7.0 Nougat के साथ प्रस्तुत किया। यह पुराने वर्जन से कहीं ज्यादा एडवांस है।
Amazon.com के पास Amazon Echo है जो वॉयस इंटरफ़ेस प्रदान करने के लिए अमेजन के एंड्रॉइड के कस्टम संस्करण का उपयोग करता है।
माइक्रोसॉफ्ट विंडोज़
विंडोज़ फोन माइक्रोसॉफ्ट के मोबाइल डिवाइस का ऑपरेटिंग सिस्टम है। विंडोज फोन 7.5 पर, स्पीच ऐप उपयोगकर्ता के लिए स्वतंत्र है और इसका उपयोग किया जा सकता है: अपनी संपर्क सूची से किसी को कॉल करें, किसी भी फोन नंबर पर कॉल करें, अंतिम नंबर को फिर से डायल करें, एक टेक्स्ट संदेश भेजें, अपने वॉयस मेल पर कॉल करें, एक एप्लिकेशन खोलें, अपॉइंटमेंट पढ़ें, फ़ोन की स्थिति पूछें, और वेब पर खोजें।[12][13] इसके अतिरिक्त, फोन कॉल के दौरान भाषण का भी उपयोग किया जा सकता है, और फोन कॉल के दौरान निम्नलिखित क्रियाएं संभव हैं: एक नंबर दबाएं, स्पीकर फोन चालू करें, या किसी को कॉल करें, जो वर्तमान कॉल को रोक देता है।[13]
विंडोज 10 ने कॉर्टाना (सॉफ्टवेयर) प्रस्तुत किया है, जो एक आवाज नियंत्रण प्रणाली है जो विंडोज फोन पर पहले उपयोग किए गए आवाज नियंत्रण को प्रतिस्थापित करती है।
iOS
एप्पल ने iPhone OS 3 की एक नई सुविधा के रूप में iOS उपकरणों की अपनी सूची में आवाज नियंत्रण (एप्पल) को जोड़ा। iPhone 4S, iPad (तीसरी पीढ़ी), iPad Mini (पहली पीढ़ी), iPad Air, iPad Pro, iPod Touch (5वीं पीढ़ी) ) और बाद में, सभी महोदय मै नामक एक अधिक उन्नत वॉयस असिस्टेंट के साथ आते हैं। नए उपकरणों के सेटिंग मेनू के माध्यम से ध्वनि नियंत्रण को अभी भी सक्षम किया जा सकता है। सिरी एक उपयोगकर्ता स्वतंत्र अंतर्निहित वाक् पहचान सुविधा है जो उपयोगकर्ता को वॉयस कमांड जारी करने की अनुमति देती है। सिरी की सहायता से उपयोगकर्ता कमांड जारी कर सकता है, जैसे टेक्स्ट संदेश भेजना, मौसम की जांच करना, अनुस्मारक सेट करना, जानकारी ढूंढना, मीटिंग शेड्यूल करना, ईमेल भेजना, संपर्क ढूंढना, अलार्म सेट करना, दिशा-निर्देश प्राप्त करना, अपने स्टॉक को ट्रैक करना, एक टाइमर सेट करें, और नमूना वॉयस कमांड प्रश्नों के उदाहरण पूछें।[14] इसके अतिरिक्त, सिरी ब्लूटूथ और वायर्ड हेडफ़ोन के साथ काम करता है।[15]
अमेज़ॅन एलेक्सा
2014 में अमेज़न ने अमेज़न एलेक्सा प्रस्तुत किया। इसका मुख्य उद्देश्य सिर्फ एक स्मार्ट स्पीकर था, जो उपभोक्ता को अपनी आवाज से डिवाइस को नियंत्रित करने की अनुमति देता था। अंततः, यह एक नवीन उपकरण में बदल गया जिसमें आवाज से घरेलू उपकरण को नियंत्रित करने की क्षमता थी। अब प्रकाश बल्ब और तापमान सहित लगभग सभी उपकरण एलेक्सा से नियंत्रित किए जा सकते हैं। आवाज नियंत्रण की अनुमति देकर, एलेक्सा स्मार्ट होम तकनीक से जुड़ सकता है जिससे आप अपने घर को बंद कर सकते हैं, तापमान को नियंत्रित कर सकते हैं और विभिन्न उपकरणों को सक्रिय कर सकते हैं। A.I का यह रूप किसी को केवल एक प्रश्न पूछने की अनुमति देता है, और जवाब में एलेक्सा उत्तर खोजती है, ढूंढती है और आपको जवाब सुनाती है।[16]
कारों में वाक् पहचान
जैसे-जैसे कार प्रौद्योगिकी में सुधार होगा, कारों में और अधिक सुविधाएँ जोड़ी जाएंगी और ये सुविधाएँ ड्राइवर का ध्यान भटका देंगी। CNET के अनुसार, कारों के लिए वॉयस कमांड से ड्राइवर को कमांड जारी करने की अनुमति मिलनी चाहिए और उसका ध्यान नहीं भटकना चाहिए। CNET ने कहा कि नुअंस सुझाव दे रहा था कि भविष्य में वे एक ऐसा सॉफ्टवेयर बनाएंगे जो सिरी जैसा होगा, लेकिन कारों के लिए।[17] 2011 में बाज़ार में अधिकांश वाक् पहचान सॉफ़्टवेयर में केवल 50 से 60 वॉइस कमांड थे, लेकिन फोर्ड सिंक में 10,000 थे।[17] यद्यपि, CNET ने सुझाव दिया कि 10,000 वॉयस कमांड भी जटिलता और उपयोगकर्ता द्वारा ड्राइविंग के दौरान किए जाने वाले कार्यों की विविधता को देखते हुए पर्याप्त नहीं थे।[17] कारों के लिए वॉयस कमांड मोबाइल फोन और कंप्यूटर के लिए वॉयस कमांड से अलग है क्योंकि ड्राइवर इस सुविधा का उपयोग आस-पास के रेस्तरां, गैस, ड्राइविंग निर्देश, सड़क की स्थिति और निकटतम होटल के स्थान को देखने के लिए कर सकता है।[17] वर्तमान में, प्रौद्योगिकी ड्राइवर को गार्मिन जैसे पोर्टेबल जीपीएस नेविगेशन डिवाइस और कार निर्माता नेविगेशन सिस्टम दोनों पर वॉयस कमांड जारी करने की अनुमति देती है।[18]
मोटर निर्माताओं द्वारा उपलब्ध कराए गए वॉयस कमांड सिस्टम की सूची:
- फोर्ड सिंक
- लेक्सस वॉयस कमांड
- क्रिसलर यूकनेक्ट
- होंडा एकॉर्ड
- GM इंटेलीलिंक
- बीएमडब्लू
- मर्सिडीज
- पाइअनिर
- हरमन
- हुंडई
अशाब्दिक इनपुट
जबकि अधिकांश ध्वनि उपयोगकर्ता इंटरफ़ेस मौखिक मानव भाषा के माध्यम से बातचीत का समर्थन करने के लिए डिज़ाइन किए गए हैं, इंटरफ़ेस डिज़ाइन करने में हाल ही में अन्वेषण अशाब्दिक मानव ध्वनियों को इनपुट के रूप में लेते हैं। इन प्रणालियों में, उपयोगकर्ता गैर-वाक् ध्वनियाँ जैसे गुनगुनाना, सीटी बजाना या माइक्रोफ़ोन में फूंक मारकर इंटरफ़ेस को नियंत्रित करता है।[19]
अशाब्दिक ध्वनि उपयोगकर्ता इंटरफ़ेस का ऐसा एक उदाहरण ब्लेंडी है,[20][21] केली डॉब्सन द्वारा निर्मित एक इंटरैक्टिव आर्ट इंस्टॉलेशन। इस टुकड़े में 1950 के दशक का एक क्लासिक ब्लेंडर सम्मिलित था जिसे माइक्रोफ़ोन इनपुट पर प्रतिक्रिया देने के लिए रेट्रोफिट किया गया था। ब्लेंडर को नियंत्रित करने के लिए, उपयोगकर्ता को उन घूमने वाली यांत्रिक ध्वनियों की नकल करनी चाहिए जो एक ब्लेंडर सामान्यतः बनाता है: उपयोगकर्ता की कम आवाज वाली गुर्राहट के जवाब में ब्लेंडर धीरे-धीरे घूमेगा, और जैसे-जैसे उपयोगकर्ता उच्च स्वर वाली ध्वनि बनाता है, गति में वृद्धि होगी।
एक अन्य उदाहरण वॉइसड्रॉ है,[22] एक अनुसंधान प्रणाली जो सीमित मोटर क्षमताओं वाले व्यक्तियों के लिए डिजिटल ड्राइंग को सक्षम बनाती है। वॉयसड्रा उपयोगकर्ताओं को स्वर ध्वनियों को संशोधित करके डिजिटल कैनवास पर स्ट्रोक पेंट करने की अनुमति देता है, जिन्हें ब्रश दिशाओं में मैप किया जाता है। अन्य पारभाषिक विशेषताओं (उदाहरण के लिए उनकी आवाज की तीव्रता) को संशोधित करने से उपयोगकर्ता को ड्राइंग की विभिन्न विशेषताओं को नियंत्रित करने की अनुमति मिलती है, जैसे ब्रश स्ट्रोक की मोटाई।
अन्य तरीकों में नए प्रकार के इशारों का समर्थन करने के लिए स्पर्श-आधारित इंटरफेस (उदाहरण के लिए मोबाइल फोन पर) को बढ़ाने के लिए अशाब्दिक ध्वनियों को अपनाना सम्मिलित है जो अकेले उंगली इनपुट के साथ संभव नहीं होगा।[19]
डिज़ाइन चुनौतियाँ
वॉयस इंटरफेस प्रयोज्यता के लिए पर्याप्त संख्या में चुनौतियाँ प्रस्तुत करता है। ग्राफिकल यूजर इंटरफेस (GUIs) के विपरीत, वॉयस इंटरफेस डिजाइन के लिए सर्वोत्तम प्रथाएं अभी भी उभर रही हैं।[23]
खोज योग्यता
पूरी तरह से ऑडियो-आधारित इंटरैक्शन के साथ, वॉयस यूजर इंटरफेस कम खोज क्षमता से ग्रस्त होते हैं:[23] उपयोगकर्ताओं के लिए सिस्टम की क्षमताओं के दायरे को समझना मुश्किल है। सिस्टम को यह बताने के लिए कि दृश्य प्रदर्शन के बिना क्या संभव है, उसे उपलब्ध विकल्पों की गणना करने की आवश्यकता होगी, जो थकाऊ या असंभव हो सकते हैं। कम खोज योग्यता के परिणामस्वरूप प्रायः उपयोगकर्ता इस बात को लेकर भ्रम की स्थिति में होते हैं कि उन्हें क्या कहने की अनुमति है, या सिस्टम की समझ की चौड़ाई के बारे में अपेक्षाओं में बेमेल है।[24][25]
प्रतिलेखन
यद्यपि हाल के वर्षों में वाक् पहचान तकनीक में काफी सुधार हुआ है, फिर भी ध्वनि उपयोगकर्ता इंटरफ़ेस अभी भी पार्सिंग या ट्रांसक्रिप्शन त्रुटियों से ग्रस्त है जिसमें उपयोगकर्ता के भाषण की सही ढंग से व्याख्या नहीं की जाती है।[26] ये त्रुटियाँ विशेष रूप से तब प्रचलित होती हैं जब भाषण सामग्री तकनीकी शब्दावली (जैसे चिकित्सा शब्दावली) या अपरंपरागत वर्तनी जैसे संगीत कलाकार या गीत के नाम का उपयोग करती है।[27]
समझ
प्राकृतिक-भाषा की समझ को अधिकतम करने के लिए प्रभावी सिस्टम डिज़ाइन अनुसंधान का एक खुला क्षेत्र बना हुआ है। वॉयस यूजर इंटरफेस जो बातचीत की स्थिति की व्याख्या और प्रबंधन करते हैं, संदर्भ, नामित-इकाई पहचान, सूचना पुनर्प्राप्ति और संवाद प्रबंधक जैसे जटिल प्राकृतिक भाषा प्रसंस्करण कार्यों को एकीकृत करने की अंतर्निहित कठिनाई के कारण डिजाइन करना चुनौतीपूर्ण है।[28] अधिकांश वॉयस असिस्टेंट आज एकल कमांड को बहुत अच्छी तरह से निष्पादित करने में सक्षम हैं, लेकिन एक संकीर्ण कार्य या बातचीत में कुछ बदलावों से परे संवाद को प्रबंधित करने की उनकी क्षमता सीमित है।[29]
भविष्य में उपयोग
पॉकेट-आकार के उपकरण, जैसे व्यक्तिगत डिजिटल सहायक या चल दूरभाष , वर्तमान में उपयोगकर्ता इनपुट के लिए छोटे बटन पर निर्भर हैं। ये या तो डिवाइस में निर्मित होते हैं या टच-स्क्रीन इंटरफ़ेस का हिस्सा होते हैं, जैसे कि Apple iPod Touch और iPhone Siri एप्लिकेशन। ऐसे छोटे बटन वाले उपकरणों पर व्यापक बटन दबाना थकाऊ और गलत हो सकता है, इसलिए उपयोग में आसान, सटीक और विश्वसनीय VUI संभावित रूप से उनके उपयोग की आसानी में एक बड़ी सफलता होगी। बहरहाल, इस तरह के VUI से लैपटॉप और डेस्कटॉप आकार के कंप्यूटर के उपयोगकर्ताओं को भी लाभ होगा, क्योंकि यह वर्तमान में कीबोर्ड और माउस (कंप्यूटिंग) के उपयोग से जुड़ी कई समस्याओं का समाधान करेगा, जिसमें कार्पल टनल सिंड्रोम जैसी दोहराव-तनाव की चोटें सम्मिलित हैं। दृष्टिबाधितों द्वारा डिजिटल इंटरफेस के भीतर नेविगेट करने और टेक्स्ट इनपुट करने की चुनौतियाँ,[30] और अनुभवहीन कीबोर्ड उपयोगकर्ताओं की टाइपिंग गति धीमी है। इसके अतिरिक्त, कीबोर्ड का उपयोग सामान्यतः कनेक्टेड डिस्प्ले के सामने बैठकर या खड़े होकर किया जाता है; इसके विपरीत, एक VUI उपयोगकर्ता को अधिक मोबाइल होने के लिए मुक्त कर देगा, क्योंकि भाषण इनपुट कीबोर्ड को देखने की आवश्यकता को समाप्त कर देता है।
इस तरह के विकास वस्तुतः वर्तमान मशीनों का चेहरा बदल सकते हैं और उपयोगकर्ता उनके साथ कैसे बातचीत करते हैं, इस पर दूरगामी प्रभाव पड़ सकता है। हाथ से पकड़े जाने वाले उपकरणों को बड़े, देखने में आसान स्क्रीन के साथ डिज़ाइन किया जाएगा, क्योंकि किसी कीबोर्ड की आवश्यकता नहीं होगी। टच-स्क्रीन उपकरणों को अब सामग्री और ऑन-स्क्रीन कीबोर्ड के बीच डिस्प्ले को विभाजित करने की आवश्यकता नहीं होगी, इस प्रकार सामग्री को पूर्ण-स्क्रीन देखने की सुविधा मिलेगी। लैपटॉप कंप्यूटर को आकार के आधार पर अनिवार्य रूप से आधा किया जा सकता है, क्योंकि कीबोर्ड का आधा हिस्सा हटा दिया जाएगा और सभी आंतरिक घटकों को डिस्प्ले के पीछे एकीकृत किया जाएगा, जिसके परिणामस्वरूप प्रभावी रूप से एक साधारण टैबलेट कंप्यूटर बनेगा। डेस्कटॉप कंप्यूटर में एक सीपीयू और स्क्रीन सम्मिलित होगी, जिससे डेस्कटॉप पर कीबोर्ड द्वारा कब्जा कर लिया गया स्थान बच जाएगा और डेस्क की सतह के नीचे बने स्लाइडिंग कीबोर्ड रेस्ट को खत्म कर दिया जाएगा। माइक्रोवेव ओवन से लेकर फोटोकॉपियर तक दर्जनों अन्य उपकरणों पर टेलीविजन रिमोट कंट्रोल और कीपैड को भी खत्म किया जा सकता है।
यद्यपि, इस तरह के विकास के लिए कई चुनौतियों से पार पाना होगा। सबसे पहले, VUI को इनपुट, जैसे कमांड और पृष्ठभूमि वार्तालाप के बीच अंतर करने के लिए पर्याप्त परिष्कृत होना होगा; अन्यथा, गलत इनपुट दर्ज किया जाएगा और कनेक्टेड डिवाइस गलत व्यवहार करेगा। एक मानक प्रॉम्प्ट, जैसे कि प्रसिद्ध कंप्यूटर! साइंस फिक्शन टीवी शो और स्टार ट्रेक जैसी फिल्मों में पात्रों द्वारा कॉल, VUI को सक्रिय कर सकता है और इसे उसी स्पीकर द्वारा आगे इनपुट प्राप्त करने के लिए तैयार कर सकता है। संभवतः, VUI में मानव जैसा प्रतिनिधित्व भी सम्मिलित हो सकता है: उदाहरण के लिए, एक आवाज या यहां तक कि एक ऑन-स्क्रीन चरित्र, जो वापस प्रतिक्रिया करता है (उदाहरण के लिए, "हां, वामशी"?) और उपयोगकर्ता के साथ आगे और पीछे संवाद करना जारी रखता है। प्राप्त इनपुट को स्पष्ट करें और सटीकता सुनिश्चित करें।
दूसरा, VUI को जानकारी को सटीक रूप से संसाधित करने और खोजने/पुनर्प्राप्त करने या विशेष उपयोगकर्ता की प्राथमिकताओं के अनुसार कार्रवाई करने के लिए अत्यधिक परिष्कृत सॉफ़्टवेयर के साथ मिलकर काम करना होगा। उदाहरण के लिए, यदि सामंथा किसी विशेष समाचार पत्र से जानकारी पसंद करती है, और यदि वह चाहती है कि जानकारी को बिंदु-रूप में संक्षेपित किया जाए, तो वह कह सकती है, "कंप्यूटर, मुझे कल रात दक्षिणी चीन में आई बाढ़ के बारे में कुछ जानकारी ढूंढो"; जवाब में, VUI जो उसकी प्राथमिकताओं से परिचित है, उस स्रोत से "दक्षिणी चीन" में बाढ़ के बारे में तथ्य ढूंढेगा, इसे बिंदु-रूप में परिवर्तित करेगा, और इसे स्क्रीन पर और/या आवाज के रूप में, एक उद्धरण के साथ उसे वितरित करेगा। इसलिए, VUI से जुड़ी मशीन के हिस्से पर कुछ हद तक कृत्रिम बुद्धिमत्ता के साथ-साथ सटीक वाक्-पहचान सॉफ्टवेयर की आवश्यकता होगी।
गोपनीयता निहितार्थ
गोपनीयता संबंधी चिंताएँ इस तथ्य से उत्पन्न होती हैं कि वॉयस कमांड वॉयस-यूजर इंटरफेस के प्रदाताओं के लिए अनएन्क्रिप्टेड रूप में उपलब्ध हैं, और इस प्रकार इसे तीसरे पक्ष के साथ साझा किया जा सकता है और अनधिकृत या अप्रत्याशित तरीके से संसाधित किया जा सकता है।[31][32] रिकॉर्ड किए गए भाषण की भाषाई सामग्री के अतिरिक्त, उपयोगकर्ता की अभिव्यक्ति के तरीके और आवाज की विशेषताओं में उसकी बायोमेट्रिक पहचान, व्यक्तित्व लक्षण, शरीर का आकार, शारीरिक और मानसिक स्वास्थ्य स्थिति, लिंग, मूड और भावनाओं, सामाजिक आर्थिक स्थिति और भौगोलिक मूल के बारे में जानकारी निहित हो सकती है।[33]
यह भी देखें
- वाक् पहचान
- भाषा संकलन
- वाक् पहचान सॉफ़्टवेयर की सूची
- प्राकृतिक भाषा उपयोगकर्ता इंटरफ़ेस
- यूजर इंटरफ़ेस डिज़ाइन
- ध्वनि ब्राउज़र
- आवाज़ से आदेश
- लिनक्स में वाक् पहचान
- लिंगुआट्रोनिक
- घर स्वचालन
- ध्वनि कंप्यूटिंग
संदर्भ
- ↑ "वॉशिंग मशीन आवाज नियंत्रण". Appliance Magazine.
- ↑ Borzo, Jeanette (8 February 2007). "अब आप बात कर रहे हैं". CNN Money. Retrieved 25 April 2012.
- ↑ "Voice Control, the End of the TV Remote?". Bloomberg.com. Business Week. 9 December 2011. Archived from the original on December 8, 2011. Retrieved 1 May 2012.
- ↑ "विंडोज़ विस्टा बिल्ट इन स्पीच". Windows Vista. Retrieved 25 April 2012.
- ↑ "विस्टा पर भाषण संचालन". Microsoft.
- ↑ "वाक् पहचान सेट अप". Microsoft.
- ↑ 7.0 7.1 "शारीरिक और मोटर कौशल". Apple.
- ↑ "ड्रैगननेचरलीस्पीकिंग पीसी". Nuance.
- ↑ "ड्रैगननैचरलीस्पीकिंग मैक". Nuance.
- ↑ 10.0 10.1 "ध्वनि क्रियाएँ".
- ↑ "एंड्रॉइड के लिए Google Voice खोज अब आपकी आवाज़ के लिए "प्रशिक्षित" हो सकती है". 14 December 2010. Retrieved 24 April 2012.
- ↑ "वॉइस कमांड का उपयोग करना". Microsoft. Retrieved 24 April 2012.
- ↑ 13.0 13.1 "वॉइस कमांड का उपयोग करना". Microsoft. Retrieved 27 April 2012.
- ↑ "Siri, The iPhone 3GS & 4, iPod 3 & 4, have voice control like an express Siri, it plays music, pauses music, suffle, Facetime, and calling Features". Apple. Retrieved 27 April 2012.
- ↑ "सिरी अक्सर पूछे जाने वाले प्रश्न". Apple.
- ↑ "अमेज़ॅन का इको एक स्मार्ट स्पीकर से आपके घर के केंद्र तक कैसे पहुंच गया". Business Insider.
- ↑ 17.0 17.1 17.2 17.3 "सिरी जैसी आवाज". CNET.
- ↑ "आवाज के साथ पोर्टेबल जीपीएस". CNET.
- ↑ 19.0 19.1 "Voice augmented manipulation | Proceedings of the 15th international conference on Human-computer interaction with mobile devices and services". dlnext.acm.org (in English). doi:10.1145/2493190.2493244. S2CID 6251400. Retrieved 2019-02-27.
- ↑ "Blendie | Proceedings of the 5th conference on Designing interactive systems: processes, practices, methods, and techniques". dlnext.acm.org (in English). doi:10.1145/1013115.1013159. Retrieved 2019-02-27.
- ↑ "Kelly Dobson: Blendie". web.media.mit.edu. Retrieved 2019-02-27.
- ↑ "Voicedraw | Proceedings of the 9th international ACM SIGACCESS conference on Computers and accessibility". dlnext.acm.org (in English). doi:10.1145/1296843.1296850. S2CID 218338. Retrieved 2019-02-27.
- ↑ 23.0 23.1 "Design guidelines for hands-free speech interaction | Proceedings of the 20th International Conference on Human-Computer Interaction with Mobile Devices and Services Adjunct". dlnext.acm.org (in English). doi:10.1145/3236112.3236149. S2CID 52099112. Retrieved 2019-02-27.
- ↑ "Designing SpeechActs | Proceedings of the SIGCHI Conference on Human Factors in Computing Systems". dlnext.acm.org (in English). doi:10.1145/223904.223952. S2CID 9313029. Retrieved 2019-02-27.
- ↑ "What can I say? | Proceedings of the 18th International Conference on Human-Computer Interaction with Mobile Devices and Services" (in English). doi:10.1145/2935334.2935386. S2CID 6246618.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ "Patterns for How Users Overcome Obstacles in Voice User Interfaces | Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems". dlnext.acm.org (in English). doi:10.1145/3173574.3173580. S2CID 5041672. Retrieved 2019-02-27.
- ↑ ""Play PRBLMS" | Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems". dlnext.acm.org (in English). doi:10.1145/3173574.3173870. S2CID 5050837. Retrieved 2019-02-27.
- ↑ Galitsky, Boris (2019). Developing Enterprise Chatbots: Learning Linguistic Structures (in English) (1st ed.). Cham, Switzerland: Springer. pp. 13–24. doi:10.1007/978-3-030-04299-8. ISBN 978-3-030-04298-1. S2CID 102486666.
- ↑ Pearl, Cathy (2016-12-06). Designing Voice User Interfaces: Principles of Conversational Experiences (in English) (1st ed.). Sebastopol, CA: O'Reilly Media. pp. 16–19. ISBN 978-1-491-95541-3.
- ↑ Messaoudi, Mohamed Dhiaeddine; Menelas, Bob-Antoine J.; Mcheick, Hamid (2022-10-17). "दृष्टिबाधित लोगों के लिए नेविगेशन सहायक उपकरण और प्रौद्योगिकियों की समीक्षा". Sensors (in English). 22 (20): 7888. doi:10.3390/s22207888. ISSN 1424-8220. PMC 9606951. PMID 36298237.
- ↑ "Apple, Google और Amazon ने डिजिटल असिस्टेंट कमांड की समीक्षा करके आपकी गोपनीयता का उल्लंघन किया हो सकता है". Fortune. 2019-08-05. Retrieved 2020-05-13.
- ↑ Hern, Alex (2019-04-11). "रिपोर्ट में कहा गया है कि अमेज़ॅन कर्मचारी ग्राहकों की एलेक्सा रिकॉर्डिंग सुनते हैं". the Guardian. Retrieved 2020-05-21.
- ↑ Kröger, Jacob Leon; Lutz, Otto Hans-Martin; Raschke, Philip (2020). "Privacy Implications of Voice and Speech Analysis – Information Disclosure by Inference". गोपनीयता और पहचान प्रबंधन. बेहतर जीवन के लिए डेटा: एआई और गोपनीयता. IFIP Advances in Information and Communication Technology. Vol. 576. pp. 242–258. doi:10.1007/978-3-030-42504-3_16. ISBN 978-3-030-42503-6. ISSN 1868-4238.