मल्टीमॉडल इंटरेक्शन: Difference between revisions
No edit summary |
No edit summary |
||
(3 intermediate revisions by 3 users not shown) | |||
Line 1: | Line 1: | ||
{{Distinguish| | {{Distinguish|मोड (यूजर इंटरफेस)}} | ||
'''मल्टीमॉडल इंटरैक्शन''' उपयोगकर्ता को किसी भी सिस्टम के साथ मल्टीपल मॉडेलिटी अर्ताथ मानव-कंप्यूटर इंटरैक्शन प्रदान करता है। इस प्रकार मल्टीमॉडल इंटरफ़ेस डेटा के [[इनपुट और आउटपुट]] के लिए कई अलग-अलग उपकरण प्रदान करता है। | |||
== परिचय == | == परिचय == | ||
मल्टीमॉडल मानव-कंप्यूटर इंटरैक्शन संचार के प्राकृतिक | मल्टीमॉडल मानव-कंप्यूटर इंटरैक्शन संचार के प्राकृतिक विधियों के माध्यम से आभासी और भौतिक वातावरण के साथ बातचीत को संदर्भित करता है,<ref>Bourguet, M.L. (2003). "[http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.98.1958&rep=rep1&type=pdf Designing and Prototyping Multimodal Commands]". Proceedings of Human-Computer Interaction (INTERACT'03), pp. 717-720.</ref> इस प्रकार इसका तात्पर्य यह है कि मल्टीमॉडल इंटरैक्शन अधिक स्वतंत्र और प्राकृतिक संचार को सक्षम बनाता है, जो उपयोगकर्ताओं को इनपुट और आउटपुट दोनों में स्वचालित सिस्टम से संयोजित करता है।<ref>Stivers, T., Sidnell, J. Introduction: Multimodal interaction. Semiotica, 156(1/4), pp. 1-20. 2005.</ref> इस प्रकार विशेष रूप से मल्टीमॉडल सिस्टम लचीला, कुशल और प्रयोग करने योग्य वातावरण प्रदान कर सकते हैं जो उपयोगकर्ताओं को इनपुट के लिए विभिन्न विधियों जैसे कि भाषण पहचान, लिखावट पहचान, संकेत पहचान और आंखों [[आँख ट्रैकिंग]] के माध्यम से बातचीत करने की अनुमति देता है, और सिस्टम द्वारा भाषण संश्लेषण जैसे आउटपुट विधियों के माध्यम से जानकारी प्राप्त करने की अनुमति देता है। इसके आधार पर किसी स्मार्ट ग्राफिक्स और अन्य तौर-तरीके, अवसरपूर्वक संयुक्त होती हैं। इसके आधार पर पुनः मल्टीमॉडल सिस्टम को अस्थायी और प्रासंगिक बाधाओं के अनुसार संयोजन करने वाले विभिन्न विधियों से इनपुट को पहचानना होता है<ref name="Caschera1">Caschera M. C., Ferri F., Grifoni P. (2007). "[https://dl.acm.org/citation.cfm?id=1358498 Multimodal interaction systems: information and time features]". International Journal of Web and Grid Services (IJWGS), Vol. 3 - Issue 1, pp 82-99.</ref> जिससे कि उनकी व्याख्या की जा सके। इस प्रक्रिया को मल्टीमॉडल फ़्यूज़न के रूप में जाना जाता है, और यह नब्बे के दशक से अब तक कई शोध कार्यों का उद्देश्य है।<ref name="Dulizia2">D'Ulizia, A., Ferri, F. and Grifoni, P. (2010). "Generating Multimodal Grammars for Multimodal Dialogue Processing". IEEE Transactions on Systems, Man and Cybernetics, Part A: Systems and Humans, Vol 40, no 6, pp. 1130 – 1145.</ref><ref name="Dulizia1">D'Ulizia , A. (2009). "[https://web.archive.org/web/20190220074744/http://pdfs.semanticscholar.org/20dd/37bf8c9f2f9b5e07efcf6441b2890c393192.pdf Exploring Multimodal Input Fusion Strategies]". In: Grifoni P (ed) Handbook of Research on Multimodal Human Computer Interaction and Pervasive Services: Evolutionary Techniques for Improving Accessibility. IGI Publishing, pp. 34-57.</ref><ref name="Sun">Sun, Y., Shi, Y., Chen, F. and Chung , V.(2007). "An Efficient Multimodal Language Processor for Parallel Input Strings in Multimodal Input Fusion," in Proc. of the international Conference on Semantic Computing, pp. 389-396.</ref><ref name="Russ">Russ, G., Sallans, B., Hareter, H. (2005). "[http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.94.4023&rep=rep1&type=pdf Semantic Based Information Fusion in a Multimodal Interface]". International Conference on Human-Computer Interaction (HCI'05), Las Vegas, Nevada, USA, 20–23 June, pp 94-100.</ref><ref name="Corradini">Corradini, A., Mehta M., Bernsen, N.O., Martin, J.-C. (2003). "Multimodal Input Fusion in Human-Computer Interaction on the Example of the on-going NICE Project". In Proceedings of the NATO-ASI conference on Data Fusion for Situation Monitoring, Incident Detection, Alert and Response Management, Yerevan, Armenia.</ref><ref name="Pavlovic">Pavlovic, V.I., Berry, G.A., Huang, T.S. (1997). "[https://ieeexplore.ieee.org/abstract/document/647399/ Integration of audio/visual information for use in human-computer intelligent interaction]". Proceedings of the 1997 International Conference on Image Processing (ICIP '97), Volume 1, pp. 121-124.</ref><ref name="Andre">Andre, M., Popescu, V.G., Shaikh, A., Medl, A., Marsic, I., Kulikowski, C., Flanagan J.L. (1998). "[http://www.cvauni.edu.vn/imgupload_dinhkem/file/Chuyen%20De%20HCI/11_%20Integration%20of%20Speech%20and%20Gesture%20for%20Multimodal%20HCI.pdf Integration of Speech and Gesture for Multimodal Human-Computer Interaction]". In Second International Conference on Cooperative Multimodal Communication. 28–30 January, Tilburg, The Netherlands.</ref><ref name="Vo">Vo, M.T., Wood, C. (1996). "[http://isl.anthropomatik.kit.edu/pdf/Vo1996.pdf Building an application framework for speech and pen input integration in multimodal learning interfaces]". In Proceedings of the Acoustics, Speech, and Signal Processing (ICASSP'96), May 7–10, IEEE Computer Society, Volume 06, pp. 3545-3548.</ref> फ़्यूज्ड इनपुट की व्याख्या सिस्टम द्वारा की जाती है। स्वाभाविकता और लचीलापन प्रत्येक अलग-अलग विधियों के लिए भिन्न-भिन्न चैनल और उनके साथ उपयोग के लिए से अधिक व्याख्या उत्पन्न कर सकते हैं, और इसके परिणामस्वरूप वे मल्टीमॉडल अस्पष्टता उत्पन्न कर सकते हैं<ref name="Caschera5">Caschera, M.C. , Ferri, F. , Grifoni, P. (2013). "[https://arxiv.org/abs/1704.02841 From Modal to Multimodal Ambiguities: a Classification Approach]", Journal of Next Generation Information Technology (JNIT), Vol. 4, No. 5, pp. 87 -109.</ref> सामान्यतः अशुद्धि, ध्वनि या अन्य समान कारकों के कारण हैं। इस प्रकार अस्पष्टताओं को हल करने के लिए, कई तरीके प्रस्तावित किए गए हैं।<ref name="Caschera2">Caschera, M.C. , Ferri, F. , Grifoni, P. (2013). InteSe: [https://ieeexplore.ieee.org/abstract/document/6301759/ An Integrated Model for Resolving Ambiguities in Multimodal Sentences]". IEEE Transactions on Systems, Man, and Cybernetics: Systems, Volume: 43, Issue: 4, pp. 911 - 931.18. Spilker, J., Klarner, M., Görz, G. (2000). "Processing Self Corrections in a speech to speech system". COLING 2000. pp. 1116-1120.</ref><ref name="Caschera3">Caschera M.C., Ferri F., Grifoni P., (2007). "[https://www.igi-global.com/chapter/management-ambiguities/31037 The Management of ambiguities]". In Visual Languages for Interactive Computing: Definitions and Formalizations. IGI Publishing. pp.129-140.</ref><ref name="Chai">J. Chai, P. Hong, and M. X. Zhou, (2004 )."[http://www.cse.msu.edu/~jchai/Papers/IUI04.pdf A probabilistic approach to reference resolution in multimodal user interface]" in Proc. 9th Int. Conf. Intell. User Interf., Madeira, Portugal, Jan. 2004, pp. 70–77.</ref><ref name="Dey">Dey, A. K. Mankoff , J., (2005). "[https://kilthub.cmu.edu/articles/Designing_Mediation_for_Context_Aware_Applications/6469979/files/11898533.pdf Designing mediation for context-aware applications]". ACM Trans. Comput.-Hum. Interact. 12(1), pp. 53-80.</ref><ref name="Spilker">Spilker, J., Klarner, M., Görz, G. (2000). "Processing Self Corrections in a speech to speech system". COLING 2000. pp. 1116-1120.</ref><ref name="Mank">Mankoff, J., Hudson, S.E., Abowd, G.D. (2000). "[http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.42.9386&rep=rep1&type=pdf Providing integrated toolkit-level support for ambiguity in recognition-based interfaces]". Proceedings of ACM CHI'00 Conference on Human Factors in Computing Systems. pp. 368 – 375.</ref> इसके अंत में सिस्टम सुसंगत फीडबैक (विखंडन) के अनुसार व्यवस्थित विभिन्न मोडल चैनलों (अलग-अलग) के माध्यम से उपयोगकर्ता आउटपुट पर लौटता है।<ref>Grifoni P (2009) Multimodal fission. In: Multimodal human computer interaction and pervasive services. IGI Global, pp 103–120</ref> | ||
मोबाइल उपकरणों, सेंसर और वेब प्रौद्योगिकियों का व्यापक उपयोग मल्टीमॉडल इंटरैक्शन द्वारा निहित जटिलता को प्रबंधित करने के लिए पर्याप्त कम्प्यूटेशनल संसाधन प्रदान कर सकता है। मल्टीमॉडल इंटरैक्शन की जटिलता के प्रबंधन में साझा कम्प्यूटेशनल संसाधनों को | |||
मोबाइल उपकरणों, सेंसर और वेब प्रौद्योगिकियों का व्यापक उपयोग मल्टीमॉडल इंटरैक्शन द्वारा निहित जटिलता को प्रबंधित करने के लिए पर्याप्त कम्प्यूटेशनल संसाधन प्रदान कर सकता है। इसके आधार पर मल्टीमॉडल इंटरैक्शन की जटिलता के प्रबंधन में साझा कम्प्यूटेशनल संसाधनों को सम्मिलित करने के लिए क्लाउड का उपयोग करना अवसर का प्रतिनिधित्व करता है। वास्तव में, क्लाउड कंप्यूटिंग साझा स्केलेबल, कॉन्फ़िगर करने योग्य कंप्यूटिंग संसाधनों को वितरित करने की अनुमति देता है जिन्हें गतिशील और स्वचालित रूप से प्रावधानित और प्रस्तुत किया जा सकता है।<ref>Patrizia Grifoni, Fernando Ferri, Maria Chiara Caschera, Arianna D'Ulizia, Mauro Mazzei, "MIS: Multimodal Interaction Services in a cloud perspective", JNIT: Journal of Next Generation Information Technology, Vol. 5, No. 4, pp. 01 ~ 10, 2014</ref> | |||
== मल्टीमॉडल इनपुट == | == मल्टीमॉडल इनपुट == | ||
मल्टीमॉडल इंटरफेस के दो प्रमुख समूहों का विलय हो गया है, वैकल्पिक इनपुट विधियों से संबंधित है और दूसरा संयुक्त इनपुट/आउटपुट से संबंधित है। इंटरफेस के पहले समूह ने पारंपरिक [[कंप्यूटर कीबोर्ड]] और [[माउस (कंप्यूटिंग)]] इनपुट/आउटपुट से परे विभिन्न उपयोगकर्ता इनपुट मोड को संयोजित किया, जैसे भाषण, पेन, स्पर्श, मैनुअल जेस्चर,<ref>Kettebekov, Sanshzar, and Rajeev Sharma (2001). "[https://link.springer.com/content/pdf/10.1007/3-540-45348-2_20.pdf Toward Natural Gesture/Speech Control of a Large Display]." ProceedingsEHCI '01 Proceedings of the 8th IFIP International Conference on Engineering for Human-Computer Interaction Pages 221-234</ref> | मल्टीमॉडल इंटरफेस के दो प्रमुख समूहों का विलय हो गया है, वैकल्पिक इनपुट विधियों से संबंधित है और दूसरा संयुक्त इनपुट/आउटपुट से संबंधित है। इंटरफेस के पहले समूह ने पारंपरिक [[कंप्यूटर कीबोर्ड]] और [[माउस (कंप्यूटिंग)]] इनपुट/आउटपुट से परे विभिन्न उपयोगकर्ता इनपुट मोड को संयोजित किया हैं, जैसे भाषण, पेन, स्पर्श, मैनुअल जेस्चर,<ref>Kettebekov, Sanshzar, and Rajeev Sharma (2001). "[https://link.springer.com/content/pdf/10.1007/3-540-45348-2_20.pdf Toward Natural Gesture/Speech Control of a Large Display]." ProceedingsEHCI '01 Proceedings of the 8th IFIP International Conference on Engineering for Human-Computer Interaction Pages 221-234</ref> और सिर और शरीर की हरकतें इसका प्रमुख उदाहरण हैं।<ref>Marius Vassiliou, V. Sundareswaran, S. Chen, R. Behringer, C. Tam, M. Chan, P. Bangayan, and J. McGee (2000), "Integrated Multimodal Human-Computer Interface and Augmented Reality for Interactive Display Applications," in Darrel G. Hopper (ed.) Cockpit Displays VII: Displays for Defense Applications (Proc. SPIE . 4022), 106-115. {{ISBN|0-8194-3648-8}}</ref> इसके आधार पर सबसे साधारण इंटरफ़ेस दृश्य मोडैलिटी हैं, जैसे उदाहरण के लिए डिस्प्ले, कीबोर्ड और माउस को वॉयस मोडैलिटी जैसे इनपुट के लिए भाषण पहचान, भाषण संश्लेषण और आउटपुट के लिए रिकॉर्ड किए गए ऑडियों के साथ जोड़ता है। चूंकि अन्य तौर-तरीके, जैसे पेन-आधारित इनपुट या हैप्टिक प्रौद्योगिकी इनपुट/आउटपुट का उपयोग किया जा सकता है। मल्टीमॉडल यूजर इंटरफेस मानव-कंप्यूटर इंटरैक्शन (एचसीआई) में शोध क्षेत्र है। | ||
एकाधिक इनपुट | एकाधिक इनपुट विधियों का लाभ उपयोगिता में वृद्धि है: विधियोंकी कमजोरियां दूसरे की पावर से दूर हो जाती हैं। इसके आधार पर छोटे विज़ुअल इंटरफ़ेस और कीपैड वाले मोबाइल डिवाइस पर, शब्द टाइप करना काफी कठिन हो सकता है अपितु कहना बहुत साधारण होता है, उदाहरण के लिए पॉकीप्सी, न्यूयॉर्क इसका प्रमुख उदाहरण हैं। इस पर विचार करें कि आप इन्हीं उपकरणों या सेट टॉप बॉक्स से [[ डिजीटल मीडिया |डिजीटल मीडिया]] कैटलॉग तक कैसे पहुंच और खोज करेंगे। और वास्तविक दुनिया के उदाहरण में, एंटीसेप्टिक वातावरण बनाए रखने के लिए सर्जिकल टीम के सदस्यों द्वारा ऑपरेटिंग कमरे के वातावरण में रोगी की जानकारी को मौखिक रूप से एक्सेस किया जाता है, और अधिकतम समझ के लिए वास्तविक समय में श्रवण और दृष्टि से प्रस्तुत किया जाता है। | ||
मल्टीमॉडल इनपुट यूजर इंटरफेस का [[अभिगम्यता]] पर प्रभाव पड़ता है।<ref>{{cite conference |first1=H.S. |last1=Vitense |first2=J.A. |last2=Jacko |first3=V.K. |last3=Emery |title=Multimodal feedback: establishing a performance baseline for improved access by individuals with visual impairments |book-title=ACM Conf. on Assistive Technologies |year=2002|url=https://www.researchgate.net/publication/221652357}}</ref> अच्छी तरह से डिज़ाइन किए गए मल्टीमॉडल एप्लिकेशन का उपयोग विभिन्न प्रकार की अक्षमताओं वाले लोगों द्वारा किया जा सकता है। दृष्टिबाधित उपयोगकर्ता कुछ कीपैड इनपुट के साथ आवाज के | मल्टीमॉडल इनपुट यूजर इंटरफेस का [[अभिगम्यता]] पर प्रभाव पड़ता है।<ref>{{cite conference |first1=H.S. |last1=Vitense |first2=J.A. |last2=Jacko |first3=V.K. |last3=Emery |title=Multimodal feedback: establishing a performance baseline for improved access by individuals with visual impairments |book-title=ACM Conf. on Assistive Technologies |year=2002|url=https://www.researchgate.net/publication/221652357}}</ref> इसके आधार पर अच्छी तरह से डिज़ाइन किए गए मल्टीमॉडल एप्लिकेशन का उपयोग विभिन्न प्रकार की अक्षमताओं वाले लोगों द्वारा किया जा सकता है। इस प्रकार दृष्टिबाधित उपयोगकर्ता कुछ कीपैड इनपुट के साथ आवाज के विधियों पर विश्वास करते हैं। इस प्रकार श्रवण क्रिया को बाधित करने के लिए उपयोगकर्ता कुछ भाषण इनपुट के साथ दृश्य पद्धति पर विश्वास करते हैं। इस प्रकार अन्य उपयोगकर्ता स्थितिजन्य रूप से अक्षम होंगे, जैसे उदाहरण के लिए बहुत ध्वनि वाले वातावरण में दस्ताने पहनना, गाड़ी चलाना, या सार्वजनिक स्थान पर क्रेडिट कार्ड नंबर दर्ज करने की आवश्यकता और वे इच्छानुसार उचित विधियों का उपयोग करेंगे। इसी के आधार पर दूसरी ओर, मल्टीमॉडल एप्लिकेशन जिसके लिए उपयोगकर्ताओं को सभी विधियों को संचालित करने में सक्षम होना आवश्यक है, बहुत खराब तरीके से डिज़ाइन किया गया है। | ||
बाजार में इनपुट मल्टीमॉडैलिटी का सबसे आम रूप एक्सएचटीएमएल+वॉयस (उर्फ एक्स+वी) वेब मार्कअप भाषा का उपयोग करता है, जो [[आईबीएम]], [[ MOTOROLA |MOTOROLA]] और [[ओपेरा सॉफ्टवेयर]] द्वारा विकसित खुला [[विनिर्देश]] है। [[XHTML+Voice]] | बाजार में इनपुट मल्टीमॉडैलिटी का सबसे आम रूप एक्सएचटीएमएल+वॉयस (उर्फ एक्स+वी) वेब मार्कअप भाषा का उपयोग करता है, जो [[आईबीएम]], [[ MOTOROLA |MOTOROLA]] और [[ओपेरा सॉफ्टवेयर]] द्वारा विकसित खुला [[विनिर्देश]] है। इस प्रकार [[XHTML+Voice]] या X+V वर्तमान में [[ विश्वव्यापी वेब संकाय |विश्वव्यापी वेब संकाय]] द्वारा विचाराधीन है और इसमें विज़ुअल मार्कअप के लिए [[एक्स्टेंसिबल हाइपरटेक्स्ट मार्कअप लैंग्वेज]], वॉयस मार्कअप के लिए [[VoiceXML]] और [[ एक्सटेंसिबल मार्कअप लैंग्वेज |एक्सटेंसिबल मार्कअप लैंग्वेज]] भाषाओं को एकीकृत करने के लिए मानक XML इवेंट्स सहित कई W3C अनुशंसाओं को संयोजित किया गया है। इसके आधार पर XHTML+Voice|X+V को सपोर्ट करने वाले [[मल्टीमॉडल ब्राउज़र]] में आईबीएम वेबस्फीयर एवरीप्लेस मल्टीमॉडल एनवायरनमेंट, [[ अंतः स्थापित प्रणाली |अंतः स्थापित प्रणाली]] [[लिनक्स]] और [[ माइक्रोसॉफ़्ट विंडोज़ |माइक्रोसॉफ़्ट विंडोज़]] के लिए [[ओपेरा (वेब ब्राउज़र)]], और [[ विंडोज़ मोबाइल |विंडोज़ मोबाइल]] के लिए [[ पहुंच प्रणाली |पहुंच प्रणाली]] [[नेटफ्रंट]] सम्मिलित हैं। इस प्रकार मल्टीमॉडल अनुप्रयोगों को विकसित करने के लिए, [[सॉफ्टवेयर डेवलपर|सॉफ्टवेयर डेवलपर्स]] [[ सॉफ़्टवेयर विकास किट |सॉफ़्टवेयर विकास किट]] का उपयोग कर सकते हैं, जैसे कि आईबीएम वेबस्फीयर मल्टीमॉडल टूलकिट, जो [[ खुला स्त्रोत |खुला स्त्रोत]] [[ ग्रहण (सॉफ्टवेयर) |ग्रहण (सॉफ्टवेयर)]] [[ सॉफ्टवेयर ढांचा |सॉफ्टवेयर ढांचा]] पर आधारित है, जिसमें एक्सएचटीएमएल+वॉयस या एक्स+वी [[डिबगर]], [[ स्रोत कोड संपादक |स्रोत कोड संपादक]] और [[सिम्युलेटर]] सम्मिलित है। | ||
=== मल्टीमॉडल भावना विश्लेषण === | === मल्टीमॉडल भावना विश्लेषण === | ||
=== मल्टीमॉडल भाषा मॉडल === | === मल्टीमॉडल भाषा मॉडल === | ||
== मल्टीमॉडल आउटपुट == | == मल्टीमॉडल आउटपुट == | ||
मल्टीमॉडल सिस्टम का दूसरा समूह उपयोगकर्ताओं को मल्टीमीडिया डिस्प्ले और मल्टीमॉडल आउटपुट प्रस्तुत करता है, मुख्य रूप से दृश्य और श्रवण संकेतों के रूप | मल्टीमॉडल सिस्टम का दूसरा समूह उपयोगकर्ताओं को मल्टीमीडिया डिस्प्ले और '''मल्टीमॉडल आउटपुट''' प्रस्तुत करता है, इस प्रकार मुख्य रूप से दृश्य और श्रवण संकेतों के रूप में इसका उपयोग करते हैं। इस प्रकार इंटरफ़ेस डिजाइनरों ने स्पर्श और घ्राण जैसे अन्य विधियों का भी उपयोग करना प्रारंभ कर दिया है। इस प्रकार मल्टीमॉडल आउटपुट सिस्टम के प्रस्तावित लाभों में तालमेल और अतिरेक सम्मिलित हैं। जो जानकारी कई विधियों के माध्यम से प्रस्तुत की जाती है वह विलय हो जाती है और ही प्रक्रिया के विभिन्न पहलुओं को संदर्भित करती है। बिल्कुल ही जानकारी को संसाधित करने के लिए कई विधियों का उपयोग सूचना हस्तांतरण की बढ़ी हुई बैंडविड्थ प्रदान करता है।<ref>{{Citation |first=S. |last=Oviatt |contribution=Multimodal interfaces |editor1-first=J. |editor1-last=Jacko |editor2-first=A |editor2-last=Sears |title=The Human-Computer Interaction Handbook |year=2002 |publisher=Lawrence Erlbaum |url=https://www.cogsci.msu.edu/DSS/2004-2005/Oviatt/Multimodel%20Interfaces.pdf}}</ref><ref>{{cite conference |first1=C. |last1=Bauckhage |first2=J. |last2=Fritsch |first3=K.J. |last3=Rohlfing |first4=S. |last4=Wachsmuth |first5=G. |last5=Sagerer |title=एकीकृत भाषण-और छवि समझ का मूल्यांकन करना|book-title=Int. Conf. on Multimodal Interfaces |year=2002 |doi=10.1109/ICMI.2002.1166961 }}</ref><ref>{{cite conference |first1=N.A. |last1=Ismail |first2=E.A. |last2=O'Brien |title=वेब-आधारित व्यक्तिगत डिजिटल फोटो ब्राउजिंग में मल्टीमॉडल इंटरैक्शन सक्षम करना|book-title=Int. Conf. on Computer and Communication Engineering |year=2008 |url=http://eprints.utm.my/5732/1/ICCCE2008_preprint_version_UTM_IR.pdf |access-date=2010-03-03 |archive-url=https://web.archive.org/web/20110718171351/http://eprints.utm.my/5732/1/ICCCE2008_preprint_version_UTM_IR.pdf |archive-date=2011-07-18 |url-status=dead }}</ref> | ||
वर्तमान समय में, मल्टीमॉडल आउटपुट का उपयोग मुख्य रूप से संचार माध्यम और सामग्री के बीच मैपिंग को उत्तम बनाने और डेटा-समृद्ध वातावरण में ध्यान प्रबंधन का समर्थन करने के लिए किया जाता है, जहां ऑपरेटरों को दृश्य ध्यान की काफी मांगों का सामना करना पड़ता है।<ref name="sarter">{{cite journal|first=N.B. |last=Sarter|author-link= Nadine Sarter |title=Multimodal information presentation: Design guidance and research challenges |journal=International Journal of Industrial Ergonomics |volume=36 |issue=5 |pages=439–445 |year=2006 |doi=10.1016/j.ergon.2006.01.007}}</ref> | |||
मल्टीमॉडल इंटरफ़ेस डिज़ाइन में महत्वपूर्ण कदम विधियों और सूचना और कार्यों के बीच प्राकृतिक मैपिंग का निर्माण है। इस प्रकार श्रवण चैनल कई पहलुओं में दृष्टि से भिन्न है। यह सर्वदिशात्मक, क्षणिक और सदैव आरक्षित है।<ref name="sarter" /> जिसके आधार पर भाषण आउटपुट, श्रवण जानकारी का रूप, पर अत्यधिक ध्यान दिया गया हैं। इस प्रकार भाषण के उपयोग के लिए कई दिशानिर्देश विकसित किए गए हैं। माइकलिस और विगिन्स (1982) ने सुझाव दिया कि भाषण आउटपुट का उपयोग सरल लघु संदेशों के लिए किया जाना चाहिए जिन्हें बाद में संदर्भित नहीं किया जाएगा। यह भी सिफारिश की गई कि भाषण समय पर तैयार किया जाना चाहिए और तत्काल प्रतिक्रिया की आवश्यकता होती है। | |||
स्पर्श की भावना का उपयोग पहली बार 1950 के दशक के अंत में संचार के माध्यम के रूप में किया गया था।<ref>{{cite journal|first=F.A. |last=Geldar |title=स्पर्श संबंधी साक्षरता में रोमांच|journal=American Psychologist |volume=12 |issue=3 |pages=115–124 |year=1957 |doi=10.1037/h0040416}}</ref> इस प्रकार यह न केवल आशाजनक बल्कि अनोखा संचार माध्यम भी है। इसके आधार पर दृष्टि और श्रवण के विपरीत, एचसीआई में नियोजित दो पारंपरिक इंद्रियां, स्पर्श की भावना समीपस्थ है: इस प्रकार यह उन वस्तुओं को महसूस करती है जो शरीर के संपर्क में हैं, और यह द्विदिश है क्योंकि यह पर्यावरण पर धारणा और कार्य दोनों का समर्थन करती है। | |||
सेंसर प्रौद्योगिकी का उपयोग करके अदृश्य इंटरफ़ेस स्थान उपलब्ध हो | श्रवण फीडबैक के उदाहरणों में कंप्यूटर ऑपरेटिंग सिस्टम में श्रवण चिह्न सम्मिलित हैं, जो इसके आधार पर उपयोगकर्ताओं के कार्यों को दर्शाते हैं, जैसे उदाहरण के लिए फ़ाइल हटाना, फ़ोल्डर खोलना, त्रुटि., वाहनों में नेविगेशनल मार्गदर्शन प्रस्तुत करने के लिए भाषण आउटपुट, और आधुनिक हवाई जहाज कॉकपिट पर चेतावनी पायलटों के लिए भाषण आउटपुट का उपयोग करते हैं। इस प्रकार स्पर्श संकेतों के उदाहरणों में अंधे स्थान पर कार के चालकों को चेतावनी देने के लिए टर्न-सिग्नल लीवर का कंपन, ड्राइवरों को चेतावनी के रूप में ऑटो सीट का कंपन, और आधुनिक विमान पर [[स्टिक शेकर]] पायलटों को आसन्न स्टाल के प्रति सचेत करना सम्मिलित है।<ref name="sarter" /> | ||
सेंसर प्रौद्योगिकी का उपयोग करके अदृश्य इंटरफ़ेस स्थान उपलब्ध हो गए हैं। इसके आधार पर इन्फ्रारेड, अल्ट्रासाउंड और कैमरे सभी अब आमतौर पर उपयोग किए जाते हैं।<ref>{{cite conference |first1=A. |last1=Brooks |first2=E. |last2=Petersson |title=SoundScapes: non-formal learning potentials from interactive VEs |book-title=SIGGRAPH |year=2007 |doi=10.1145/1282040.1282059 |url=http://vbn.aau.dk/ws/files/13321650/pdf }}</ref> इस प्रकार सामग्री के साथ इंटरफेसिंग की पारदर्शिता को सार्थक मैपिंग के माध्यम से तत्काल और सीधा लिंक प्रदान करके बढ़ाया जाता है, इस प्रकार उपयोगकर्ता को इनपुट पर प्रत्यक्ष और तत्काल प्रतिक्रिया मिलती है और सामग्री प्रतिक्रिया (गिब्सन 1979) इंटरफ़ेस सामर्थ्य बन जाती है। | |||
==मल्टीमॉडल फ़्यूज़न== | ==मल्टीमॉडल फ़्यूज़न== | ||
विभिन्न इनपुट | विभिन्न इनपुट विधियों से जानकारी को एकीकृत करने और उन्हें पूर्ण कमांड में संयोजित करने की प्रक्रिया को '''मल्टीमॉडल फ़्यूज़न''' कहा जाता है।<ref name=Dulizia1 /> साहित्य में, मुख्य वास्तुशिल्प स्तरों (मान्यता और निर्णय) के अनुसार, संलयन प्रक्रिया के लिए तीन मुख्य दृष्टिकोण प्रस्तावित किए गए हैं, जिस पर इनपुट संकेतों का संलयन किया जा सकता है: इसकी मान्यता पर आधारित,<ref name=Pavlovic /><ref name=Andre /><ref name="Vo2">Vo, M.T. (1998). "[https://apps.dtic.mil/dtic/tr/fulltext/u2/a352310.pdf A framework and Toolkit for the Construction of Multimodal Learning Interfaces]", PhD. Thesis, Carnegie Mellon University, Pittsburgh, USA.</ref> निर्णय आधारित,<ref name=Russ /><ref name=Corradini /><ref name=Vo /><ref name="Cohen">Cohen, P.R.; Johnston, M.; McGee, D.; Oviatt, S.L.; Pittman, J.; Smith, I.A.; Chen, L.; Clow, J. (1997). "Quickset: Multimodal interaction for distributed applications", ACM Multimedia, pp. 31-40.</ref><ref name="Johnston1">Johnston, M. (1998). "[https://www.aclweb.org/anthology/P98-1102 Unification-based Multimodal Parsing]". Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics (COLING-ACL '98), August 10–14, Université de Montréal, Montreal, Quebec, Canada. pp. 624-630.</ref><ref name="Nigay1">Nigay, L.; Coutaz, J. (1995). "[http://iihm.imag.fr/bouchet/ICARE/CHI95_Fusion.pdf A generic platform for addressing the multimodal challenge]". Proceedings of the Conference on Human Factors in Computing Systems, ACM Press.</ref><ref name="Bouchet1">Bouchet, J.; Nigay, L.; Ganille, T. (2004). "[http://iihm.imag.fr/publs/2004/ICMI04-bouchet.pdf Icare software components for rapidly developing multimodal interfaces]". ICMI '04: Proceedings of the 6th international conference on Multimodal interfaces (New York, NY, USA), ACM, pp. 251-258.</ref> और हाइब्रिड बहु-स्तरीय संलयन हैं।<ref name=Dulizia2 /><ref name=Sun /><ref name="Dulizia3">D'Ulizia, A.; Ferri, F.; Grifoni P. (2007). "[https://www.researchgate.net/profile/Arianna_DUlizia/publication/220831520_A_Hybrid_Grammar-Based_Approach_to_Multimodal_Languages_Specification/links/0fcfd5081034a1aa4f000000.pdf A Hybrid Grammar-Based Approach to Multimodal Languages Specification]", OTM 2007 Workshop Proceedings, 25–30 November 2007, Vilamoura, Portugal, Springer-Verlag, Lecture Notes in Computer Science 4805, pp. 367-376.</ref><ref name="Johnston2">Johnston, M.; Bangalore, S. (2000). "[https://www.aclweb.org/anthology/C00-1054 Finite-state Multimodal Parsing and Understanding]", In Proceedings of the International Conference on Computational Linguistics, Saarbruecken, Germany.</ref><ref name="Sun2">Sun, Y.; Chen, F.; Shi, Y.D.; Chung, V. (2006). "[https://dl.acm.org/citation.cfm?id=1228257 A novel method for multi-sensory data fusion in multimodal human computer interaction]". In Proceedings of the 20th conference of the computer-human interaction special interest group (CHISIG) of Australia on Computer-human interaction: design: activities, artefacts and environments, Sydney, Australia, pp. 401-404</ref><ref name="Shimazu">Shimazu, H.; Takashima, Y. (1995). "Multimodal Definite Clause Grammar," Systems and Computers in Japan, vol. 26, no 3, pp. 93-102.</ref><ref name="Johnston3">Johnston, M.; Bangalore, S. (2005). "[https://www.cambridge.org/core/journals/natural-language-engineering/article/finitestate-multimodal-integration-and-understanding/1C7CF3D7713704F09A81A386AADB2E67 Finite-state multimodal integration and understanding]," Nat. Lang. Eng, Vol. 11, no. 2, pp. 159-187.</ref><ref name="Reitter">Reitter, D.; Panttaja, E. M.; Cummins, F. (2004). "UI on the fly: Generating a multimodal user interface," in Proc. of HLT-NAACL-2004, Boston, Massachusetts, USA.</ref> | ||
मान्यता-आधारित संलयन जिसे प्रारंभिक संलयन के रूप में भी जाना जाता है, जिसमें एकीकरण तंत्र का उपयोग करके प्रत्येक मोडल पहचानकर्ता के परिणामों को विलय करना सम्मिलित है, जैसे, उदाहरण के लिए, सांख्यिकीय एकीकरण तकनीक, एजेंट सिद्धांत, छिपे हुए मार्कोव मॉडल, कृत्रिम तंत्रिका नेटवर्क, आदि। इस प्रकार उदाहरण के लिए मान्यता-आधारित फ़्यूज़न रणनीतियाँ एक्शन फ़्रेम हैं,<ref name="Vo2" /> जैसे इनपुट वैक्टर<ref name="Pavlovic" /> और स्लॉट इसका प्रमुख उदाहरण हैं।<ref name="Andre" /> | |||
निर्णय-आधारित फ़्यूज़न (जिसे लेट फ़्यूज़न के रूप में भी जाना जाता है) संपूर्ण व्याख्या प्राप्त करने के लिए विशिष्ट संवाद-संचालित फ़्यूज़न प्रक्रियाओं का उपयोग करके निकाली गई अर्थ संबंधी जानकारी को मर्ज करता है। इस प्रकार निर्णय लेने के अनुसार इस पर आधारित फ़्यूज़न रणनीतियों के उदाहरण टाइप की गई फ़ीचर संरचनाएँ हैं,<ref name="Cohen" /><ref name="Johnston2" /> इस प्रकार पिघलाने वाले बर्तन,<ref name="Nigay1" /><ref name="Bouchet1" />सिमेंटिक फ़्रेम,<ref name="Russ" /><ref name="Vo" />और समय-मुद्रांकित फिल्टर इसका उदाहरण हैं।<ref name="Corradini" /> | |||
हाइब्रिड बहु-स्तरीय फ़्यूज़न में, इनपुट | मल्टीमॉडल फ़्यूज़न के संभावित अनुप्रयोगों में सीखने का वातावरण, उपभोक्ता संबंध, सुरक्षा/निगरानी, कंप्यूटर एनीमेशन आदि सम्मिलित हैं। इसके आधार पर व्यक्तिगत रूप से, मोड को सरलता से परिभाषित किया जाता है, अपितु प्रौद्योगिकी द्वारा उन्हें संयुक्त फ़्यूज़न मानने में कठिनाई उत्पन्न होती है।<ref name=":0">{{Cite web|url = http://ieee-cas.org/wp-content/uploads/2011/03/Guan_MultimodalFusion.pdf|title = मल्टीमॉडल सूचना संलयन के लिए तरीके और तकनीकें|website = Circuits & Systems Society|last = Guan|first = Ling}}</ref> इस कलन विधि के लिए आयामीता को ध्यान में रखना कठिन है; वर्तमान गणना क्षमताओं के बाहर चर मौजूद हैं। उदाहरण के लिए, अर्थ संबंधी अर्थ: दो वाक्यों का शाब्दिक अर्थ ही हो सकता है, अपितु भावनात्मक जानकारी अलग-अलग हो सकती है।<ref name=":0" /> | ||
हाइब्रिड बहु-स्तरीय फ़्यूज़न में, इनपुट विधियों का एकीकरण मान्यता और निर्णय स्तरों के बीच वितरित किया जाता है। हाइब्रिड बहु-स्तरीय संलयन में निम्नलिखित तीन पद्धतियाँ सम्मिलित हैं: परिमित-अवस्था ट्रांसड्यूसर,<ref name="Johnston2" />मल्टीमॉडल व्याकरण<ref name="Sun" /><ref name="Dulizia3" /><ref name="Sun2" /><ref name="Shimazu" /><ref name="Johnston3" /><ref name="Reitter" /><ref>D'Ulizia, A.; Ferri, F.; Grifoni P. (2011). "[https://ieeexplore.ieee.org/abstract/document/5936129/ A Learning Algorithm for Multimodal Grammar Inference]", IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics, Vol. 41 (6), pp. 1495 - 1510.</ref> और संवाद चलता है.<ref>Pérez, G.; Amores, G.; Manchón, P. (2005). "[http://www.grupo.us.es/julietta/publications/2005/pdf/Two_Strategies.pdf Two strategies for multimodal fusion]". In Proceedings of Multimodal Interaction for the Visualization and Exploration of Scientific Data, Trento, Italy, 26–32.</ref> | |||
==अस्पष्टता== | ==अस्पष्टता== | ||
उपयोगकर्ता के कार्य या आदेश मल्टीमॉडल इनपुट | उपयोगकर्ता के कार्य या आदेश मल्टीमॉडल इनपुट मल्टीमॉडल संदेशो को उत्पन्न करते हैं<ref name="Caschera1"/>, जिसकी व्याख्या सिस्टम द्वारा की जानी आवश्यक होती है। इस प्रकार मल्टीमॉडल संदेश वह माध्यम है जो उपयोगकर्ताओं और मल्टीमॉडल सिस्टम के बीच संचार को सक्षम बनाता है। यह कई विधियों के बीच विभिन्न प्रकार के सहयोग पर विचार करके कई विधियों के माध्यम से बताई गई जानकारी को मर्ज करके प्राप्त किया जाता है।<ref>Martin, J.C. (1997). "Toward intelligent cooperation between modalities: the example of a system enabling multimodal interaction with a map", Proceedings of International Joint Conference on Artificial Intelligence (IJCAI'97) Workshop on 'Intelligent Multimodal Systems', Nagoya, Japan</ref> समय से जुड़े <ref>Allen, J.F.; Ferguson, G. (1994). "[https://urresearch.rochester.edu/fileDownloadForInstitutionalItem.action?itemId=609&itemFileId=736 Actions and events in interval temporal logic]", Journal of Logic and Computation, Vol. 4, No. 5, pp.531–579</ref> सम्मिलित विधियों और इन विधियों से जुड़ी जानकारी के हिस्सों के बीच संबंधों के बीच स्थापित करती हैं।<ref>Bellik, Y. (2001). "[https://www.researchgate.net/profile/Yacine_Bellik/publication/228963930_Technical_requirements_for_a_successful_multimodal_interaction/links/0c960526a6a249c2dc000000/Technical-requirements-for-a-successful-multimodal-interaction.pdf Technical requirements for a successful multimodal interaction]", International Workshop on Information Presentation and Natural Multimodal Dialogue, Verona, Italy, 14–15 December</ref> इस प्रकार मल्टीमॉडल इनपुट के बीच प्राकृतिक मैपिंग, जो कई इंटरैक्शन विधियों के लिए दृश्य और श्रवण चैनल और स्पर्श की भावना द्वारा प्रदान की जाती है, और सूचना और कार्यों का अर्थ मानव-मानव संचार की विशिष्ट समस्याओं, जैसे अस्पष्टता का प्रबंधन करना है। जब इनपुट की से अधिक व्याख्या संभव हो तो अस्पष्टता उत्पन्न होती है। जिसके लिए बहुविध अस्पष्टता<ref name=Caschera5 /> दोनों उत्पन्न होते हैं, यदि तत्व, जो विधियोंद्वारा प्रदान किया जाता है, की से अधिक व्याख्या होती है, अर्थात अस्पष्टताएं मल्टीमॉडल स्तर पर प्रचारित होती हैं, और/या यदि प्रत्येक विधियोंसे जुड़े तत्वों के द्वारा इसकी व्याख्या की जाती है, अपितु इस जानकारी को अलग-अलग संदर्भित किया जाता है, जिसके अनुसार विधियोंवाक्य-विन्यास या अर्थ-संबंधी स्तर पर असंगत होते हैं, अर्थात मल्टीमॉडल वाक्य जिसका अलग-अलग अर्थ या अलग-अलग वाक्य-विन्यास संरचना होती है। | ||
मल्टीमॉडल इनपुट के बीच प्राकृतिक मैपिंग, जो कई इंटरैक्शन | |||
अस्पष्टताओं के प्रबंधन में,<ref name="Caschera3" />अस्पष्टताओं को हल करने और उपयोगकर्ता के इनपुट की सही व्याख्या प्रदान करने के तरीकों को तीन मुख्य वर्गों में व्यवस्थित किया गया है: रोकथाम, ए-पोस्टीरियर रिज़ॉल्यूशन और सन्निकटन रिज़ॉल्यूशन | अस्पष्टताओं के प्रबंधन में,<ref name="Caschera3" />अस्पष्टताओं को हल करने और उपयोगकर्ता के इनपुट की सही व्याख्या प्रदान करने के तरीकों को तीन मुख्य वर्गों में व्यवस्थित किया गया है: रोकथाम, ए-पोस्टीरियर रिज़ॉल्यूशन और सन्निकटन रिज़ॉल्यूशन विधियाँ प्राप्त होती हैं।<ref name="Caschera2" /><ref name="Chai" /> | ||
रोकथाम के तरीके उपयोगकर्ताओं को इंटरैक्शन प्रक्रिया के विभिन्न अनुमत राज्यों के बीच संक्रमण के सेट के अनुसार पूर्वनिर्धारित इंटरैक्शन व्यवहार का पालन करने के लिए बाध्य करते हैं। रोकथाम के तरीकों के उदाहरण हैं: प्रक्रियात्मक विधि,<ref>Lee, Y.C.; Chin, F. (1995). "[https://www.tandfonline.com/doi/abs/10.1080/02693799508902023 An Iconic Query Language for Topological Relationship in GIS]". International Journal of geographical Information Systems 9(1). pp. 25-46</ref> भाषा व्याकरण की अभिव्यंजक शक्ति में कमी,<ref>Calcinelli, D.; Mainguenaud, M. (1994). "Cigales, a visual language for geographic information system: the user interface". Journal of Visual Languages and Computing 5(2). pp. 113-132</ref> भाषा व्याकरण की अभिव्यंजक शक्ति में | रोकथाम के तरीके उपयोगकर्ताओं को इंटरैक्शन प्रक्रिया के विभिन्न अनुमत राज्यों के बीच संक्रमण के सेट के अनुसार पूर्वनिर्धारित इंटरैक्शन व्यवहार का पालन करने के लिए बाध्य करते हैं। रोकथाम के तरीकों के उदाहरण हैं: प्रक्रियात्मक विधि,<ref>Lee, Y.C.; Chin, F. (1995). "[https://www.tandfonline.com/doi/abs/10.1080/02693799508902023 An Iconic Query Language for Topological Relationship in GIS]". International Journal of geographical Information Systems 9(1). pp. 25-46</ref> भाषा व्याकरण की अभिव्यंजक शक्ति में कमी,<ref>Calcinelli, D.; Mainguenaud, M. (1994). "Cigales, a visual language for geographic information system: the user interface". Journal of Visual Languages and Computing 5(2). pp. 113-132</ref> भाषा व्याकरण की अभिव्यंजक शक्ति में सुधार किया जाता हैं।<ref>Ferri, F.; Rafanelli, M. (2005). "[https://www.researchgate.net/profile/Maurizio_Rafanelli/publication/220461176_GeoPQL_A_Geographical_Pictorial_Query_Language_That_Resolves_Ambiguities_in_Query_Interpretation/links/00b7d51432479b48ac000000/GeoPQL-A-Geographical-Pictorial-Query-Language-That-Resolves-Ambiguities-in-Query-Interpretation.pdf GeoPQL: A Geographical Pictorial Query Language That Resolves Ambiguities in Query Interpretation]". J. Data Semantics III. pp.50-80</ref> अस्पष्टताओं का ए-पोस्टीरियर समाधान मध्यस्थता दृष्टिकोण का उपयोग करता है।<ref name="Dey" /> इस प्रकार मध्यस्थता तकनीकों के उदाहरण हैं: इसके दोहराव के लिए उदाहरण के लिए उक्त विधियों द्वारा पुनरावृत्ति,<ref name="Dey" />मरम्मत की सूक्ष्मता<ref>Suhm, B., Myers, B. and Waibel, A. (1999). "[http://isl.anthropomatik.kit.edu/cmu-kit/downloads/Model_Based_and_Empirical_Evaluation_of_Multimodal_Interactive_Error_Correction.pdf Model-based and empirical evaluation of multimodal interactive error correction]". In Proc. Of CHI'99, May, 1999, pp. 584-591</ref> और पूर्ववत करें,<ref name="Spilker" /> और विकल्प प्राप्त होते हैं।<ref name="Mank" /> | ||
अस्पष्टताओं का ए-पोस्टीरियर समाधान मध्यस्थता दृष्टिकोण का उपयोग करता है।<ref name="Dey" />मध्यस्थता तकनीकों के उदाहरण हैं: दोहराव | |||
इस प्रकार के फलन के समाधान से जुड़ी विधियों को असंबद्धता प्रक्रिया में किसी भी उपयोगकर्ता की भागीदारी की आवश्यकता नहीं होती है। उन सभी को कुछ सिद्धांतों के उपयोग की आवश्यकता हो सकती है, जैसे [[फजी लॉजिक]], [[मार्कोव यादृच्छिक क्षेत्र]], [[बायेसियन नेटवर्क]] और [[छिपा हुआ मार्कोव मॉडल]] इसका प्रमुख उदाहरण हैं।<ref name="Caschera2" /><ref name="Chai" /> | |||
==यह भी देखें== | ==यह भी देखें== | ||
* [[डिवाइस की स्वतंत्रता]] | * [[डिवाइस की स्वतंत्रता]] | ||
* [[मल्टीमॉडल बायोमेट्रिक सिस्टम]] | * [[मल्टीमॉडल बायोमेट्रिक सिस्टम]] | ||
* [[मल्टीमॉडल खोज]] | * [[मल्टीमॉडल खोज]] | ||
* | * वाक पहचान | ||
*[[W3C]] MMI | *[[W3C]] MMI या W3C की मल्टीमॉडल इंटरेक्शन गतिविधि - W3C की पहल जिसका लक्ष्य वेब पर मल्टीमॉडल इंटरेक्शन परिदृश्यों का समर्थन करने के लिए साधन (ज्यादातर [[XML]]) प्रदान करना है। | ||
* [[वेब पहुंच]] | * [[वेब पहुंच]] | ||
* [[तार वाला दस्ताना]] | * [[तार वाला दस्ताना|वायरलेस ग्लफ्स]] | ||
* एक्सएचटीएमएल+वॉयस | * एक्सएचटीएमएल+वॉयस | ||
Line 64: | Line 68: | ||
* Toselli, Alejandro Héctor, Vidal, Enrique, Casacuberta, Francisco: [https://www.springer.com/computer/hci/book/978-0-85729-478-4 ''Multimodal Interactive Pattern Recognition and Applications''], Springer, 2011. | * Toselli, Alejandro Héctor, Vidal, Enrique, Casacuberta, Francisco: [https://www.springer.com/computer/hci/book/978-0-85729-478-4 ''Multimodal Interactive Pattern Recognition and Applications''], Springer, 2011. | ||
{{DEFAULTSORT:Multimodal Interaction}} | {{DEFAULTSORT:Multimodal Interaction}} | ||
[[Category: Machine Translated Page]] | [[Category:Created On 07/07/2023|Multimodal Interaction]] | ||
[[Category: | [[Category:Machine Translated Page|Multimodal Interaction]] | ||
[[Category:Pages with script errors|Multimodal Interaction]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:मल्टीमॉडल इंटरैक्शन| मल्टीमॉडल इंटरैक्शन]] |
Latest revision as of 10:22, 24 July 2023
मल्टीमॉडल इंटरैक्शन उपयोगकर्ता को किसी भी सिस्टम के साथ मल्टीपल मॉडेलिटी अर्ताथ मानव-कंप्यूटर इंटरैक्शन प्रदान करता है। इस प्रकार मल्टीमॉडल इंटरफ़ेस डेटा के इनपुट और आउटपुट के लिए कई अलग-अलग उपकरण प्रदान करता है।
परिचय
मल्टीमॉडल मानव-कंप्यूटर इंटरैक्शन संचार के प्राकृतिक विधियों के माध्यम से आभासी और भौतिक वातावरण के साथ बातचीत को संदर्भित करता है,[1] इस प्रकार इसका तात्पर्य यह है कि मल्टीमॉडल इंटरैक्शन अधिक स्वतंत्र और प्राकृतिक संचार को सक्षम बनाता है, जो उपयोगकर्ताओं को इनपुट और आउटपुट दोनों में स्वचालित सिस्टम से संयोजित करता है।[2] इस प्रकार विशेष रूप से मल्टीमॉडल सिस्टम लचीला, कुशल और प्रयोग करने योग्य वातावरण प्रदान कर सकते हैं जो उपयोगकर्ताओं को इनपुट के लिए विभिन्न विधियों जैसे कि भाषण पहचान, लिखावट पहचान, संकेत पहचान और आंखों आँख ट्रैकिंग के माध्यम से बातचीत करने की अनुमति देता है, और सिस्टम द्वारा भाषण संश्लेषण जैसे आउटपुट विधियों के माध्यम से जानकारी प्राप्त करने की अनुमति देता है। इसके आधार पर किसी स्मार्ट ग्राफिक्स और अन्य तौर-तरीके, अवसरपूर्वक संयुक्त होती हैं। इसके आधार पर पुनः मल्टीमॉडल सिस्टम को अस्थायी और प्रासंगिक बाधाओं के अनुसार संयोजन करने वाले विभिन्न विधियों से इनपुट को पहचानना होता है[3] जिससे कि उनकी व्याख्या की जा सके। इस प्रक्रिया को मल्टीमॉडल फ़्यूज़न के रूप में जाना जाता है, और यह नब्बे के दशक से अब तक कई शोध कार्यों का उद्देश्य है।[4][5][6][7][8][9][10][11] फ़्यूज्ड इनपुट की व्याख्या सिस्टम द्वारा की जाती है। स्वाभाविकता और लचीलापन प्रत्येक अलग-अलग विधियों के लिए भिन्न-भिन्न चैनल और उनके साथ उपयोग के लिए से अधिक व्याख्या उत्पन्न कर सकते हैं, और इसके परिणामस्वरूप वे मल्टीमॉडल अस्पष्टता उत्पन्न कर सकते हैं[12] सामान्यतः अशुद्धि, ध्वनि या अन्य समान कारकों के कारण हैं। इस प्रकार अस्पष्टताओं को हल करने के लिए, कई तरीके प्रस्तावित किए गए हैं।[13][14][15][16][17][18] इसके अंत में सिस्टम सुसंगत फीडबैक (विखंडन) के अनुसार व्यवस्थित विभिन्न मोडल चैनलों (अलग-अलग) के माध्यम से उपयोगकर्ता आउटपुट पर लौटता है।[19]
मोबाइल उपकरणों, सेंसर और वेब प्रौद्योगिकियों का व्यापक उपयोग मल्टीमॉडल इंटरैक्शन द्वारा निहित जटिलता को प्रबंधित करने के लिए पर्याप्त कम्प्यूटेशनल संसाधन प्रदान कर सकता है। इसके आधार पर मल्टीमॉडल इंटरैक्शन की जटिलता के प्रबंधन में साझा कम्प्यूटेशनल संसाधनों को सम्मिलित करने के लिए क्लाउड का उपयोग करना अवसर का प्रतिनिधित्व करता है। वास्तव में, क्लाउड कंप्यूटिंग साझा स्केलेबल, कॉन्फ़िगर करने योग्य कंप्यूटिंग संसाधनों को वितरित करने की अनुमति देता है जिन्हें गतिशील और स्वचालित रूप से प्रावधानित और प्रस्तुत किया जा सकता है।[20]
मल्टीमॉडल इनपुट
मल्टीमॉडल इंटरफेस के दो प्रमुख समूहों का विलय हो गया है, वैकल्पिक इनपुट विधियों से संबंधित है और दूसरा संयुक्त इनपुट/आउटपुट से संबंधित है। इंटरफेस के पहले समूह ने पारंपरिक कंप्यूटर कीबोर्ड और माउस (कंप्यूटिंग) इनपुट/आउटपुट से परे विभिन्न उपयोगकर्ता इनपुट मोड को संयोजित किया हैं, जैसे भाषण, पेन, स्पर्श, मैनुअल जेस्चर,[21] और सिर और शरीर की हरकतें इसका प्रमुख उदाहरण हैं।[22] इसके आधार पर सबसे साधारण इंटरफ़ेस दृश्य मोडैलिटी हैं, जैसे उदाहरण के लिए डिस्प्ले, कीबोर्ड और माउस को वॉयस मोडैलिटी जैसे इनपुट के लिए भाषण पहचान, भाषण संश्लेषण और आउटपुट के लिए रिकॉर्ड किए गए ऑडियों के साथ जोड़ता है। चूंकि अन्य तौर-तरीके, जैसे पेन-आधारित इनपुट या हैप्टिक प्रौद्योगिकी इनपुट/आउटपुट का उपयोग किया जा सकता है। मल्टीमॉडल यूजर इंटरफेस मानव-कंप्यूटर इंटरैक्शन (एचसीआई) में शोध क्षेत्र है।
एकाधिक इनपुट विधियों का लाभ उपयोगिता में वृद्धि है: विधियोंकी कमजोरियां दूसरे की पावर से दूर हो जाती हैं। इसके आधार पर छोटे विज़ुअल इंटरफ़ेस और कीपैड वाले मोबाइल डिवाइस पर, शब्द टाइप करना काफी कठिन हो सकता है अपितु कहना बहुत साधारण होता है, उदाहरण के लिए पॉकीप्सी, न्यूयॉर्क इसका प्रमुख उदाहरण हैं। इस पर विचार करें कि आप इन्हीं उपकरणों या सेट टॉप बॉक्स से डिजीटल मीडिया कैटलॉग तक कैसे पहुंच और खोज करेंगे। और वास्तविक दुनिया के उदाहरण में, एंटीसेप्टिक वातावरण बनाए रखने के लिए सर्जिकल टीम के सदस्यों द्वारा ऑपरेटिंग कमरे के वातावरण में रोगी की जानकारी को मौखिक रूप से एक्सेस किया जाता है, और अधिकतम समझ के लिए वास्तविक समय में श्रवण और दृष्टि से प्रस्तुत किया जाता है।
मल्टीमॉडल इनपुट यूजर इंटरफेस का अभिगम्यता पर प्रभाव पड़ता है।[23] इसके आधार पर अच्छी तरह से डिज़ाइन किए गए मल्टीमॉडल एप्लिकेशन का उपयोग विभिन्न प्रकार की अक्षमताओं वाले लोगों द्वारा किया जा सकता है। इस प्रकार दृष्टिबाधित उपयोगकर्ता कुछ कीपैड इनपुट के साथ आवाज के विधियों पर विश्वास करते हैं। इस प्रकार श्रवण क्रिया को बाधित करने के लिए उपयोगकर्ता कुछ भाषण इनपुट के साथ दृश्य पद्धति पर विश्वास करते हैं। इस प्रकार अन्य उपयोगकर्ता स्थितिजन्य रूप से अक्षम होंगे, जैसे उदाहरण के लिए बहुत ध्वनि वाले वातावरण में दस्ताने पहनना, गाड़ी चलाना, या सार्वजनिक स्थान पर क्रेडिट कार्ड नंबर दर्ज करने की आवश्यकता और वे इच्छानुसार उचित विधियों का उपयोग करेंगे। इसी के आधार पर दूसरी ओर, मल्टीमॉडल एप्लिकेशन जिसके लिए उपयोगकर्ताओं को सभी विधियों को संचालित करने में सक्षम होना आवश्यक है, बहुत खराब तरीके से डिज़ाइन किया गया है।
बाजार में इनपुट मल्टीमॉडैलिटी का सबसे आम रूप एक्सएचटीएमएल+वॉयस (उर्फ एक्स+वी) वेब मार्कअप भाषा का उपयोग करता है, जो आईबीएम, MOTOROLA और ओपेरा सॉफ्टवेयर द्वारा विकसित खुला विनिर्देश है। इस प्रकार XHTML+Voice या X+V वर्तमान में विश्वव्यापी वेब संकाय द्वारा विचाराधीन है और इसमें विज़ुअल मार्कअप के लिए एक्स्टेंसिबल हाइपरटेक्स्ट मार्कअप लैंग्वेज, वॉयस मार्कअप के लिए VoiceXML और एक्सटेंसिबल मार्कअप लैंग्वेज भाषाओं को एकीकृत करने के लिए मानक XML इवेंट्स सहित कई W3C अनुशंसाओं को संयोजित किया गया है। इसके आधार पर XHTML+Voice|X+V को सपोर्ट करने वाले मल्टीमॉडल ब्राउज़र में आईबीएम वेबस्फीयर एवरीप्लेस मल्टीमॉडल एनवायरनमेंट, अंतः स्थापित प्रणाली लिनक्स और माइक्रोसॉफ़्ट विंडोज़ के लिए ओपेरा (वेब ब्राउज़र), और विंडोज़ मोबाइल के लिए पहुंच प्रणाली नेटफ्रंट सम्मिलित हैं। इस प्रकार मल्टीमॉडल अनुप्रयोगों को विकसित करने के लिए, सॉफ्टवेयर डेवलपर्स सॉफ़्टवेयर विकास किट का उपयोग कर सकते हैं, जैसे कि आईबीएम वेबस्फीयर मल्टीमॉडल टूलकिट, जो खुला स्त्रोत ग्रहण (सॉफ्टवेयर) सॉफ्टवेयर ढांचा पर आधारित है, जिसमें एक्सएचटीएमएल+वॉयस या एक्स+वी डिबगर, स्रोत कोड संपादक और सिम्युलेटर सम्मिलित है।
मल्टीमॉडल भावना विश्लेषण
मल्टीमॉडल भाषा मॉडल
मल्टीमॉडल आउटपुट
मल्टीमॉडल सिस्टम का दूसरा समूह उपयोगकर्ताओं को मल्टीमीडिया डिस्प्ले और मल्टीमॉडल आउटपुट प्रस्तुत करता है, इस प्रकार मुख्य रूप से दृश्य और श्रवण संकेतों के रूप में इसका उपयोग करते हैं। इस प्रकार इंटरफ़ेस डिजाइनरों ने स्पर्श और घ्राण जैसे अन्य विधियों का भी उपयोग करना प्रारंभ कर दिया है। इस प्रकार मल्टीमॉडल आउटपुट सिस्टम के प्रस्तावित लाभों में तालमेल और अतिरेक सम्मिलित हैं। जो जानकारी कई विधियों के माध्यम से प्रस्तुत की जाती है वह विलय हो जाती है और ही प्रक्रिया के विभिन्न पहलुओं को संदर्भित करती है। बिल्कुल ही जानकारी को संसाधित करने के लिए कई विधियों का उपयोग सूचना हस्तांतरण की बढ़ी हुई बैंडविड्थ प्रदान करता है।[24][25][26]
वर्तमान समय में, मल्टीमॉडल आउटपुट का उपयोग मुख्य रूप से संचार माध्यम और सामग्री के बीच मैपिंग को उत्तम बनाने और डेटा-समृद्ध वातावरण में ध्यान प्रबंधन का समर्थन करने के लिए किया जाता है, जहां ऑपरेटरों को दृश्य ध्यान की काफी मांगों का सामना करना पड़ता है।[27]
मल्टीमॉडल इंटरफ़ेस डिज़ाइन में महत्वपूर्ण कदम विधियों और सूचना और कार्यों के बीच प्राकृतिक मैपिंग का निर्माण है। इस प्रकार श्रवण चैनल कई पहलुओं में दृष्टि से भिन्न है। यह सर्वदिशात्मक, क्षणिक और सदैव आरक्षित है।[27] जिसके आधार पर भाषण आउटपुट, श्रवण जानकारी का रूप, पर अत्यधिक ध्यान दिया गया हैं। इस प्रकार भाषण के उपयोग के लिए कई दिशानिर्देश विकसित किए गए हैं। माइकलिस और विगिन्स (1982) ने सुझाव दिया कि भाषण आउटपुट का उपयोग सरल लघु संदेशों के लिए किया जाना चाहिए जिन्हें बाद में संदर्भित नहीं किया जाएगा। यह भी सिफारिश की गई कि भाषण समय पर तैयार किया जाना चाहिए और तत्काल प्रतिक्रिया की आवश्यकता होती है।
स्पर्श की भावना का उपयोग पहली बार 1950 के दशक के अंत में संचार के माध्यम के रूप में किया गया था।[28] इस प्रकार यह न केवल आशाजनक बल्कि अनोखा संचार माध्यम भी है। इसके आधार पर दृष्टि और श्रवण के विपरीत, एचसीआई में नियोजित दो पारंपरिक इंद्रियां, स्पर्श की भावना समीपस्थ है: इस प्रकार यह उन वस्तुओं को महसूस करती है जो शरीर के संपर्क में हैं, और यह द्विदिश है क्योंकि यह पर्यावरण पर धारणा और कार्य दोनों का समर्थन करती है।
श्रवण फीडबैक के उदाहरणों में कंप्यूटर ऑपरेटिंग सिस्टम में श्रवण चिह्न सम्मिलित हैं, जो इसके आधार पर उपयोगकर्ताओं के कार्यों को दर्शाते हैं, जैसे उदाहरण के लिए फ़ाइल हटाना, फ़ोल्डर खोलना, त्रुटि., वाहनों में नेविगेशनल मार्गदर्शन प्रस्तुत करने के लिए भाषण आउटपुट, और आधुनिक हवाई जहाज कॉकपिट पर चेतावनी पायलटों के लिए भाषण आउटपुट का उपयोग करते हैं। इस प्रकार स्पर्श संकेतों के उदाहरणों में अंधे स्थान पर कार के चालकों को चेतावनी देने के लिए टर्न-सिग्नल लीवर का कंपन, ड्राइवरों को चेतावनी के रूप में ऑटो सीट का कंपन, और आधुनिक विमान पर स्टिक शेकर पायलटों को आसन्न स्टाल के प्रति सचेत करना सम्मिलित है।[27]
सेंसर प्रौद्योगिकी का उपयोग करके अदृश्य इंटरफ़ेस स्थान उपलब्ध हो गए हैं। इसके आधार पर इन्फ्रारेड, अल्ट्रासाउंड और कैमरे सभी अब आमतौर पर उपयोग किए जाते हैं।[29] इस प्रकार सामग्री के साथ इंटरफेसिंग की पारदर्शिता को सार्थक मैपिंग के माध्यम से तत्काल और सीधा लिंक प्रदान करके बढ़ाया जाता है, इस प्रकार उपयोगकर्ता को इनपुट पर प्रत्यक्ष और तत्काल प्रतिक्रिया मिलती है और सामग्री प्रतिक्रिया (गिब्सन 1979) इंटरफ़ेस सामर्थ्य बन जाती है।
मल्टीमॉडल फ़्यूज़न
विभिन्न इनपुट विधियों से जानकारी को एकीकृत करने और उन्हें पूर्ण कमांड में संयोजित करने की प्रक्रिया को मल्टीमॉडल फ़्यूज़न कहा जाता है।[5] साहित्य में, मुख्य वास्तुशिल्प स्तरों (मान्यता और निर्णय) के अनुसार, संलयन प्रक्रिया के लिए तीन मुख्य दृष्टिकोण प्रस्तावित किए गए हैं, जिस पर इनपुट संकेतों का संलयन किया जा सकता है: इसकी मान्यता पर आधारित,[9][10][30] निर्णय आधारित,[7][8][11][31][32][33][34] और हाइब्रिड बहु-स्तरीय संलयन हैं।[4][6][35][36][37][38][39][40]
मान्यता-आधारित संलयन जिसे प्रारंभिक संलयन के रूप में भी जाना जाता है, जिसमें एकीकरण तंत्र का उपयोग करके प्रत्येक मोडल पहचानकर्ता के परिणामों को विलय करना सम्मिलित है, जैसे, उदाहरण के लिए, सांख्यिकीय एकीकरण तकनीक, एजेंट सिद्धांत, छिपे हुए मार्कोव मॉडल, कृत्रिम तंत्रिका नेटवर्क, आदि। इस प्रकार उदाहरण के लिए मान्यता-आधारित फ़्यूज़न रणनीतियाँ एक्शन फ़्रेम हैं,[30] जैसे इनपुट वैक्टर[9] और स्लॉट इसका प्रमुख उदाहरण हैं।[10]
निर्णय-आधारित फ़्यूज़न (जिसे लेट फ़्यूज़न के रूप में भी जाना जाता है) संपूर्ण व्याख्या प्राप्त करने के लिए विशिष्ट संवाद-संचालित फ़्यूज़न प्रक्रियाओं का उपयोग करके निकाली गई अर्थ संबंधी जानकारी को मर्ज करता है। इस प्रकार निर्णय लेने के अनुसार इस पर आधारित फ़्यूज़न रणनीतियों के उदाहरण टाइप की गई फ़ीचर संरचनाएँ हैं,[31][36] इस प्रकार पिघलाने वाले बर्तन,[33][34]सिमेंटिक फ़्रेम,[7][11]और समय-मुद्रांकित फिल्टर इसका उदाहरण हैं।[8]
मल्टीमॉडल फ़्यूज़न के संभावित अनुप्रयोगों में सीखने का वातावरण, उपभोक्ता संबंध, सुरक्षा/निगरानी, कंप्यूटर एनीमेशन आदि सम्मिलित हैं। इसके आधार पर व्यक्तिगत रूप से, मोड को सरलता से परिभाषित किया जाता है, अपितु प्रौद्योगिकी द्वारा उन्हें संयुक्त फ़्यूज़न मानने में कठिनाई उत्पन्न होती है।[41] इस कलन विधि के लिए आयामीता को ध्यान में रखना कठिन है; वर्तमान गणना क्षमताओं के बाहर चर मौजूद हैं। उदाहरण के लिए, अर्थ संबंधी अर्थ: दो वाक्यों का शाब्दिक अर्थ ही हो सकता है, अपितु भावनात्मक जानकारी अलग-अलग हो सकती है।[41]
हाइब्रिड बहु-स्तरीय फ़्यूज़न में, इनपुट विधियों का एकीकरण मान्यता और निर्णय स्तरों के बीच वितरित किया जाता है। हाइब्रिड बहु-स्तरीय संलयन में निम्नलिखित तीन पद्धतियाँ सम्मिलित हैं: परिमित-अवस्था ट्रांसड्यूसर,[36]मल्टीमॉडल व्याकरण[6][35][37][38][39][40][42] और संवाद चलता है.[43]
अस्पष्टता
उपयोगकर्ता के कार्य या आदेश मल्टीमॉडल इनपुट मल्टीमॉडल संदेशो को उत्पन्न करते हैं[3], जिसकी व्याख्या सिस्टम द्वारा की जानी आवश्यक होती है। इस प्रकार मल्टीमॉडल संदेश वह माध्यम है जो उपयोगकर्ताओं और मल्टीमॉडल सिस्टम के बीच संचार को सक्षम बनाता है। यह कई विधियों के बीच विभिन्न प्रकार के सहयोग पर विचार करके कई विधियों के माध्यम से बताई गई जानकारी को मर्ज करके प्राप्त किया जाता है।[44] समय से जुड़े [45] सम्मिलित विधियों और इन विधियों से जुड़ी जानकारी के हिस्सों के बीच संबंधों के बीच स्थापित करती हैं।[46] इस प्रकार मल्टीमॉडल इनपुट के बीच प्राकृतिक मैपिंग, जो कई इंटरैक्शन विधियों के लिए दृश्य और श्रवण चैनल और स्पर्श की भावना द्वारा प्रदान की जाती है, और सूचना और कार्यों का अर्थ मानव-मानव संचार की विशिष्ट समस्याओं, जैसे अस्पष्टता का प्रबंधन करना है। जब इनपुट की से अधिक व्याख्या संभव हो तो अस्पष्टता उत्पन्न होती है। जिसके लिए बहुविध अस्पष्टता[12] दोनों उत्पन्न होते हैं, यदि तत्व, जो विधियोंद्वारा प्रदान किया जाता है, की से अधिक व्याख्या होती है, अर्थात अस्पष्टताएं मल्टीमॉडल स्तर पर प्रचारित होती हैं, और/या यदि प्रत्येक विधियोंसे जुड़े तत्वों के द्वारा इसकी व्याख्या की जाती है, अपितु इस जानकारी को अलग-अलग संदर्भित किया जाता है, जिसके अनुसार विधियोंवाक्य-विन्यास या अर्थ-संबंधी स्तर पर असंगत होते हैं, अर्थात मल्टीमॉडल वाक्य जिसका अलग-अलग अर्थ या अलग-अलग वाक्य-विन्यास संरचना होती है।
अस्पष्टताओं के प्रबंधन में,[14]अस्पष्टताओं को हल करने और उपयोगकर्ता के इनपुट की सही व्याख्या प्रदान करने के तरीकों को तीन मुख्य वर्गों में व्यवस्थित किया गया है: रोकथाम, ए-पोस्टीरियर रिज़ॉल्यूशन और सन्निकटन रिज़ॉल्यूशन विधियाँ प्राप्त होती हैं।[13][15]
रोकथाम के तरीके उपयोगकर्ताओं को इंटरैक्शन प्रक्रिया के विभिन्न अनुमत राज्यों के बीच संक्रमण के सेट के अनुसार पूर्वनिर्धारित इंटरैक्शन व्यवहार का पालन करने के लिए बाध्य करते हैं। रोकथाम के तरीकों के उदाहरण हैं: प्रक्रियात्मक विधि,[47] भाषा व्याकरण की अभिव्यंजक शक्ति में कमी,[48] भाषा व्याकरण की अभिव्यंजक शक्ति में सुधार किया जाता हैं।[49] अस्पष्टताओं का ए-पोस्टीरियर समाधान मध्यस्थता दृष्टिकोण का उपयोग करता है।[16] इस प्रकार मध्यस्थता तकनीकों के उदाहरण हैं: इसके दोहराव के लिए उदाहरण के लिए उक्त विधियों द्वारा पुनरावृत्ति,[16]मरम्मत की सूक्ष्मता[50] और पूर्ववत करें,[17] और विकल्प प्राप्त होते हैं।[18]
इस प्रकार के फलन के समाधान से जुड़ी विधियों को असंबद्धता प्रक्रिया में किसी भी उपयोगकर्ता की भागीदारी की आवश्यकता नहीं होती है। उन सभी को कुछ सिद्धांतों के उपयोग की आवश्यकता हो सकती है, जैसे फजी लॉजिक, मार्कोव यादृच्छिक क्षेत्र, बायेसियन नेटवर्क और छिपा हुआ मार्कोव मॉडल इसका प्रमुख उदाहरण हैं।[13][15]
यह भी देखें
- डिवाइस की स्वतंत्रता
- मल्टीमॉडल बायोमेट्रिक सिस्टम
- मल्टीमॉडल खोज
- वाक पहचान
- W3C MMI या W3C की मल्टीमॉडल इंटरेक्शन गतिविधि - W3C की पहल जिसका लक्ष्य वेब पर मल्टीमॉडल इंटरेक्शन परिदृश्यों का समर्थन करने के लिए साधन (ज्यादातर XML) प्रदान करना है।
- वेब पहुंच
- वायरलेस ग्लफ्स
- एक्सएचटीएमएल+वॉयस
संदर्भ
- ↑ Bourguet, M.L. (2003). "Designing and Prototyping Multimodal Commands". Proceedings of Human-Computer Interaction (INTERACT'03), pp. 717-720.
- ↑ Stivers, T., Sidnell, J. Introduction: Multimodal interaction. Semiotica, 156(1/4), pp. 1-20. 2005.
- ↑ 3.0 3.1 Caschera M. C., Ferri F., Grifoni P. (2007). "Multimodal interaction systems: information and time features". International Journal of Web and Grid Services (IJWGS), Vol. 3 - Issue 1, pp 82-99.
- ↑ 4.0 4.1 D'Ulizia, A., Ferri, F. and Grifoni, P. (2010). "Generating Multimodal Grammars for Multimodal Dialogue Processing". IEEE Transactions on Systems, Man and Cybernetics, Part A: Systems and Humans, Vol 40, no 6, pp. 1130 – 1145.
- ↑ 5.0 5.1 D'Ulizia , A. (2009). "Exploring Multimodal Input Fusion Strategies". In: Grifoni P (ed) Handbook of Research on Multimodal Human Computer Interaction and Pervasive Services: Evolutionary Techniques for Improving Accessibility. IGI Publishing, pp. 34-57.
- ↑ 6.0 6.1 6.2 Sun, Y., Shi, Y., Chen, F. and Chung , V.(2007). "An Efficient Multimodal Language Processor for Parallel Input Strings in Multimodal Input Fusion," in Proc. of the international Conference on Semantic Computing, pp. 389-396.
- ↑ 7.0 7.1 7.2 Russ, G., Sallans, B., Hareter, H. (2005). "Semantic Based Information Fusion in a Multimodal Interface". International Conference on Human-Computer Interaction (HCI'05), Las Vegas, Nevada, USA, 20–23 June, pp 94-100.
- ↑ 8.0 8.1 8.2 Corradini, A., Mehta M., Bernsen, N.O., Martin, J.-C. (2003). "Multimodal Input Fusion in Human-Computer Interaction on the Example of the on-going NICE Project". In Proceedings of the NATO-ASI conference on Data Fusion for Situation Monitoring, Incident Detection, Alert and Response Management, Yerevan, Armenia.
- ↑ 9.0 9.1 9.2 Pavlovic, V.I., Berry, G.A., Huang, T.S. (1997). "Integration of audio/visual information for use in human-computer intelligent interaction". Proceedings of the 1997 International Conference on Image Processing (ICIP '97), Volume 1, pp. 121-124.
- ↑ 10.0 10.1 10.2 Andre, M., Popescu, V.G., Shaikh, A., Medl, A., Marsic, I., Kulikowski, C., Flanagan J.L. (1998). "Integration of Speech and Gesture for Multimodal Human-Computer Interaction". In Second International Conference on Cooperative Multimodal Communication. 28–30 January, Tilburg, The Netherlands.
- ↑ 11.0 11.1 11.2 Vo, M.T., Wood, C. (1996). "Building an application framework for speech and pen input integration in multimodal learning interfaces". In Proceedings of the Acoustics, Speech, and Signal Processing (ICASSP'96), May 7–10, IEEE Computer Society, Volume 06, pp. 3545-3548.
- ↑ 12.0 12.1 Caschera, M.C. , Ferri, F. , Grifoni, P. (2013). "From Modal to Multimodal Ambiguities: a Classification Approach", Journal of Next Generation Information Technology (JNIT), Vol. 4, No. 5, pp. 87 -109.
- ↑ 13.0 13.1 13.2 Caschera, M.C. , Ferri, F. , Grifoni, P. (2013). InteSe: An Integrated Model for Resolving Ambiguities in Multimodal Sentences". IEEE Transactions on Systems, Man, and Cybernetics: Systems, Volume: 43, Issue: 4, pp. 911 - 931.18. Spilker, J., Klarner, M., Görz, G. (2000). "Processing Self Corrections in a speech to speech system". COLING 2000. pp. 1116-1120.
- ↑ 14.0 14.1 Caschera M.C., Ferri F., Grifoni P., (2007). "The Management of ambiguities". In Visual Languages for Interactive Computing: Definitions and Formalizations. IGI Publishing. pp.129-140.
- ↑ 15.0 15.1 15.2 J. Chai, P. Hong, and M. X. Zhou, (2004 )."A probabilistic approach to reference resolution in multimodal user interface" in Proc. 9th Int. Conf. Intell. User Interf., Madeira, Portugal, Jan. 2004, pp. 70–77.
- ↑ 16.0 16.1 16.2 Dey, A. K. Mankoff , J., (2005). "Designing mediation for context-aware applications". ACM Trans. Comput.-Hum. Interact. 12(1), pp. 53-80.
- ↑ 17.0 17.1 Spilker, J., Klarner, M., Görz, G. (2000). "Processing Self Corrections in a speech to speech system". COLING 2000. pp. 1116-1120.
- ↑ 18.0 18.1 Mankoff, J., Hudson, S.E., Abowd, G.D. (2000). "Providing integrated toolkit-level support for ambiguity in recognition-based interfaces". Proceedings of ACM CHI'00 Conference on Human Factors in Computing Systems. pp. 368 – 375.
- ↑ Grifoni P (2009) Multimodal fission. In: Multimodal human computer interaction and pervasive services. IGI Global, pp 103–120
- ↑ Patrizia Grifoni, Fernando Ferri, Maria Chiara Caschera, Arianna D'Ulizia, Mauro Mazzei, "MIS: Multimodal Interaction Services in a cloud perspective", JNIT: Journal of Next Generation Information Technology, Vol. 5, No. 4, pp. 01 ~ 10, 2014
- ↑ Kettebekov, Sanshzar, and Rajeev Sharma (2001). "Toward Natural Gesture/Speech Control of a Large Display." ProceedingsEHCI '01 Proceedings of the 8th IFIP International Conference on Engineering for Human-Computer Interaction Pages 221-234
- ↑ Marius Vassiliou, V. Sundareswaran, S. Chen, R. Behringer, C. Tam, M. Chan, P. Bangayan, and J. McGee (2000), "Integrated Multimodal Human-Computer Interface and Augmented Reality for Interactive Display Applications," in Darrel G. Hopper (ed.) Cockpit Displays VII: Displays for Defense Applications (Proc. SPIE . 4022), 106-115. ISBN 0-8194-3648-8
- ↑ Vitense, H.S.; Jacko, J.A.; Emery, V.K. (2002). "Multimodal feedback: establishing a performance baseline for improved access by individuals with visual impairments". ACM Conf. on Assistive Technologies.
- ↑ Oviatt, S. (2002), "Multimodal interfaces", in Jacko, J.; Sears, A (eds.), The Human-Computer Interaction Handbook (PDF), Lawrence Erlbaum
- ↑ Bauckhage, C.; Fritsch, J.; Rohlfing, K.J.; Wachsmuth, S.; Sagerer, G. (2002). "एकीकृत भाषण-और छवि समझ का मूल्यांकन करना". Int. Conf. on Multimodal Interfaces. doi:10.1109/ICMI.2002.1166961.
- ↑ Ismail, N.A.; O'Brien, E.A. (2008). "वेब-आधारित व्यक्तिगत डिजिटल फोटो ब्राउजिंग में मल्टीमॉडल इंटरैक्शन सक्षम करना" (PDF). Int. Conf. on Computer and Communication Engineering. Archived from the original (PDF) on 2011-07-18. Retrieved 2010-03-03.
- ↑ 27.0 27.1 27.2 Sarter, N.B. (2006). "Multimodal information presentation: Design guidance and research challenges". International Journal of Industrial Ergonomics. 36 (5): 439–445. doi:10.1016/j.ergon.2006.01.007.
- ↑ Geldar, F.A. (1957). "स्पर्श संबंधी साक्षरता में रोमांच". American Psychologist. 12 (3): 115–124. doi:10.1037/h0040416.
- ↑ Brooks, A.; Petersson, E. (2007). "SoundScapes: non-formal learning potentials from interactive VEs". SIGGRAPH. doi:10.1145/1282040.1282059.
- ↑ 30.0 30.1 Vo, M.T. (1998). "A framework and Toolkit for the Construction of Multimodal Learning Interfaces", PhD. Thesis, Carnegie Mellon University, Pittsburgh, USA.
- ↑ 31.0 31.1 Cohen, P.R.; Johnston, M.; McGee, D.; Oviatt, S.L.; Pittman, J.; Smith, I.A.; Chen, L.; Clow, J. (1997). "Quickset: Multimodal interaction for distributed applications", ACM Multimedia, pp. 31-40.
- ↑ Johnston, M. (1998). "Unification-based Multimodal Parsing". Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics (COLING-ACL '98), August 10–14, Université de Montréal, Montreal, Quebec, Canada. pp. 624-630.
- ↑ 33.0 33.1 Nigay, L.; Coutaz, J. (1995). "A generic platform for addressing the multimodal challenge". Proceedings of the Conference on Human Factors in Computing Systems, ACM Press.
- ↑ 34.0 34.1 Bouchet, J.; Nigay, L.; Ganille, T. (2004). "Icare software components for rapidly developing multimodal interfaces". ICMI '04: Proceedings of the 6th international conference on Multimodal interfaces (New York, NY, USA), ACM, pp. 251-258.
- ↑ 35.0 35.1 D'Ulizia, A.; Ferri, F.; Grifoni P. (2007). "A Hybrid Grammar-Based Approach to Multimodal Languages Specification", OTM 2007 Workshop Proceedings, 25–30 November 2007, Vilamoura, Portugal, Springer-Verlag, Lecture Notes in Computer Science 4805, pp. 367-376.
- ↑ 36.0 36.1 36.2 Johnston, M.; Bangalore, S. (2000). "Finite-state Multimodal Parsing and Understanding", In Proceedings of the International Conference on Computational Linguistics, Saarbruecken, Germany.
- ↑ 37.0 37.1 Sun, Y.; Chen, F.; Shi, Y.D.; Chung, V. (2006). "A novel method for multi-sensory data fusion in multimodal human computer interaction". In Proceedings of the 20th conference of the computer-human interaction special interest group (CHISIG) of Australia on Computer-human interaction: design: activities, artefacts and environments, Sydney, Australia, pp. 401-404
- ↑ 38.0 38.1 Shimazu, H.; Takashima, Y. (1995). "Multimodal Definite Clause Grammar," Systems and Computers in Japan, vol. 26, no 3, pp. 93-102.
- ↑ 39.0 39.1 Johnston, M.; Bangalore, S. (2005). "Finite-state multimodal integration and understanding," Nat. Lang. Eng, Vol. 11, no. 2, pp. 159-187.
- ↑ 40.0 40.1 Reitter, D.; Panttaja, E. M.; Cummins, F. (2004). "UI on the fly: Generating a multimodal user interface," in Proc. of HLT-NAACL-2004, Boston, Massachusetts, USA.
- ↑ 41.0 41.1 Guan, Ling. "मल्टीमॉडल सूचना संलयन के लिए तरीके और तकनीकें" (PDF). Circuits & Systems Society.
- ↑ D'Ulizia, A.; Ferri, F.; Grifoni P. (2011). "A Learning Algorithm for Multimodal Grammar Inference", IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics, Vol. 41 (6), pp. 1495 - 1510.
- ↑ Pérez, G.; Amores, G.; Manchón, P. (2005). "Two strategies for multimodal fusion". In Proceedings of Multimodal Interaction for the Visualization and Exploration of Scientific Data, Trento, Italy, 26–32.
- ↑ Martin, J.C. (1997). "Toward intelligent cooperation between modalities: the example of a system enabling multimodal interaction with a map", Proceedings of International Joint Conference on Artificial Intelligence (IJCAI'97) Workshop on 'Intelligent Multimodal Systems', Nagoya, Japan
- ↑ Allen, J.F.; Ferguson, G. (1994). "Actions and events in interval temporal logic", Journal of Logic and Computation, Vol. 4, No. 5, pp.531–579
- ↑ Bellik, Y. (2001). "Technical requirements for a successful multimodal interaction", International Workshop on Information Presentation and Natural Multimodal Dialogue, Verona, Italy, 14–15 December
- ↑ Lee, Y.C.; Chin, F. (1995). "An Iconic Query Language for Topological Relationship in GIS". International Journal of geographical Information Systems 9(1). pp. 25-46
- ↑ Calcinelli, D.; Mainguenaud, M. (1994). "Cigales, a visual language for geographic information system: the user interface". Journal of Visual Languages and Computing 5(2). pp. 113-132
- ↑ Ferri, F.; Rafanelli, M. (2005). "GeoPQL: A Geographical Pictorial Query Language That Resolves Ambiguities in Query Interpretation". J. Data Semantics III. pp.50-80
- ↑ Suhm, B., Myers, B. and Waibel, A. (1999). "Model-based and empirical evaluation of multimodal interactive error correction". In Proc. Of CHI'99, May, 1999, pp. 584-591
बाहरी संबंध
- W3C Multimodal Interaction Activity
- XHTML+Voice Profile 1.0, W3C Note 21 December 2001
- Hoste, Lode, Dumas, Bruno and Signer, Beat: Mudra: A Unified Multimodal Interaction Framework, In Proceedings of the 13th International Conference on Multimodal Interaction (ICMI 2011), Alicante, Spain, November 2011.
- Toselli, Alejandro Héctor, Vidal, Enrique, Casacuberta, Francisco: Multimodal Interactive Pattern Recognition and Applications, Springer, 2011.