न्यूरोकंप्यूटेशनल भाषण प्रसंस्करण

From Vigyanwiki
Revision as of 13:15, 12 May 2023 by alpha>Indicwiki (Created page with "न्यूरोकम्प्यूटेशनल स्पीच प्रोसेसिंग भाषण उत्पादन और भाषण धार...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

न्यूरोकम्प्यूटेशनल स्पीच प्रोसेसिंग भाषण उत्पादन और भाषण धारणा का कंप्यूटर-सिमुलेशन है, जो स्पीच प्रोडक्शन और स्पीच परसेप्शन की प्राकृतिक न्यूरोनल प्रक्रियाओं का जिक्र करता है, जैसा कि वे मानव तंत्रिका तंत्र (केंद्रीय तंत्रिका तंत्र और परिधीय तंत्रिका तंत्र) में होते हैं। यह विषय तंत्रिका विज्ञान और कम्प्यूटेशनल तंत्रिका विज्ञान पर आधारित है।[1]


सिंहावलोकन

भाषण प्रसंस्करण के न्यूरोकंप्यूटेशनल मॉडल जटिल हैं। उनमें कम से कम एक अनुभूति, एक मोटर प्रणाली और एक संवेदी प्रणाली शामिल है।

भाषण प्रसंस्करण के एक neurocomputational मॉडल के संज्ञानात्मक या भाषाई भाग में तंत्रिका सक्रियण या भाषण उत्पादन के पक्ष में एक स्वर विज्ञान की पीढ़ी शामिल है (उदाहरण के लिए Ardi Roelofs द्वारा विकसित Levelt मॉडल का neurocomputational और विस्तारित संस्करण:[2] वीवर++[3] साथ ही भाषण धारणा या पढ़ने की समझ के पक्ष में तंत्रिका सक्रियण या इरादे या अर्थ की पीढ़ी।

भाषण प्रसंस्करण के एक neurocomputational मॉडल की मोटर प्रणाली एक भाषण आइटम के ध्वन्यात्मक के साथ शुरू होती है, एक मोटर योजना को सक्रिय करती है और उस विशेष भाषण आइटम की अभिव्यक्ति के तरीके के साथ समाप्त होती है (यह भी देखें: कलात्मक ध्वन्यात्मकता)।

भाषण प्रसंस्करण के एक neurocomputational मॉडल की संवेदी प्रणाली एक भाषण आइटम (ध्वनिक ध्वन्यात्मकता) के ध्वनिक संकेत के साथ शुरू होती है, उस संकेत के लिए एक श्रवण ध्वन्यात्मकता उत्पन्न करती है और उस भाषण वस्तु के लिए एक ध्वन्यात्मक सक्रिय करती है।

न्यूरोकंप्यूटेशनल स्पीच प्रोसेसिंग विषय

neurocomputational भाषण प्रसंस्करण कृत्रिम तंत्रिका नेटवर्क द्वारा भाषण प्रसंस्करण है। न्यूरल मैप्स, मैपिंग और पाथवे, जैसा कि नीचे बताया गया है, मॉडल स्ट्रक्चर हैं, यानी कृत्रिम न्यूरल नेटवर्क के भीतर महत्वपूर्ण स्ट्रक्चर हैं।

तंत्रिका मानचित्र

चित्र 1: स्थानीय सक्रियण पैटर्न के साथ 2डी न्यूरोनल नक्शा। मैजेंटा: उच्चतम स्तर की सक्रियता वाला न्यूरॉन; नीला: बिना सक्रियता वाले न्यूरॉन्स

एक कृत्रिम तंत्रिका नेटवर्क को तीन प्रकार के तंत्रिका मानचित्रों में अलग किया जा सकता है, जिन्हें परतें भी कहा जाता है:

  1. इनपुट मैप्स (भाषण प्रसंस्करण के मामले में: श्रवण प्रांतस्था के भीतर प्राथमिक श्रवण मानचित्र, सोमाटोसेंसरी कोर्टेक्स के भीतर प्राथमिक सोमाटोसेंसरी मानचित्र),
  2. आउटपुट मैप्स (प्राथमिक मोटर प्रांतस्था के भीतर प्राथमिक मोटर मैप), और
  3. उच्च स्तरीय कॉर्टिकल मैप्स (जिसे हिडन लेयर्स भी कहा जाता है)।

न्यूरल मैप शब्द को यहां न्यूरल लेयर शब्द के ऊपर पसंद किया गया है, क्योंकि एक कॉर्टिकल न्यूरल मैप को इंटरकनेक्टेड न्यूरॉन्स के 2डी-मैप के रूप में तैयार किया जाना चाहिए (उदाहरण के लिए एक स्व-संगठित मानचित्र की तरह; चित्र 1 भी देखें)। इस प्रकार, इस 2डी-नक्शे के भीतर प्रत्येक मॉडल न्यूरॉन या कृत्रिम न्यूरॉन शारीरिक रूप से एक कॉर्टिकल कॉलम द्वारा दर्शाया जाता है क्योंकि सेरेब्रल कॉर्टेक्स शारीरिक रूप से एक स्तरित संरचना प्रदर्शित करता है।

तंत्रिका प्रतिनिधित्व (तंत्रिका राज्य)

एक कृत्रिम तंत्रिका नेटवर्क के भीतर एक तंत्रिका प्रतिनिधित्व एक विशिष्ट तंत्रिका मानचित्र के भीतर अस्थायी रूप से सक्रिय (तंत्रिका) अवस्था है। प्रत्येक तंत्रिका अवस्था को एक विशिष्ट तंत्रिका सक्रियण पैटर्न द्वारा दर्शाया जाता है। यह सक्रियण पैटर्न भाषण प्रसंस्करण के दौरान बदलता है (उदाहरण के लिए शब्दांश से शब्दांश तक)।

चित्र 2: एक वितरित सक्रियण पैटर्न के साथ 2डी न्यूरोनल मानचित्र। उदाहरण: तंत्रिका spectrogram (यह श्रवण तंत्रिका प्रतिनिधित्व सट्टा है; नीचे एसीटी मॉडल देखें)

एसीटी मॉडल में (नीचे देखें), यह माना जाता है कि श्रवण राज्य मानचित्र के भीतर एक श्रवण स्पेक्ट्रोग्राम (चित्र 2 देखें) द्वारा श्रवण राज्य का प्रतिनिधित्व किया जा सकता है। यह श्रवण राज्य मानचित्र श्रवण संघ प्रांतस्था (सेरेब्रल कॉर्टेक्स देखें) में स्थित माना जाता है।

एक सोमाटोसेंसरी अवस्था को एक छूना और प्रोप्रियोसेप्शन में विभाजित किया जा सकता है और सोमाटोसेंसरी स्टेट मैप के भीतर एक विशिष्ट तंत्रिका सक्रियण पैटर्न द्वारा दर्शाया जा सकता है। यह राज्य मानचित्र सोमैटोसेंसरी एसोसिएशन कॉर्टेक्स में स्थित माना जाता है (सेरेब्रल कॉर्टेक्स, सोमैटोसेंसरी सिस्टम, सोमैटोसेंसरी कॉर्टेक्स देखें)।

एक मोटर योजना राज्य को एक मोटर योजना का प्रतिनिधित्व करने के लिए माना जा सकता है, अर्थात एक विशिष्ट शब्दांश या लंबे भाषण आइटम (जैसे शब्द, लघु वाक्यांश) के लिए भाषण अभिव्यक्ति की योजना बनाना। यह राज्य मानचित्र प्रीमोटर कोर्टेक्स में स्थित माना जाता है, जबकि प्रत्येक भाषण आर्टिक्यूलेटर का तात्कालिक (या निचला स्तर) सक्रियण प्राथमिक मोटर प्रांतस्था (मोटर कॉर्टेक्स देखें) के भीतर होता है।

संवेदी और मोटर मानचित्रों में होने वाले तंत्रिका प्रतिनिधित्व (जैसा कि ऊपर पेश किया गया है) वितरित प्रतिनिधित्व हैं (हिंटन एट अल। 1968)[4]): संवेदी या मोटर मानचित्र के भीतर प्रत्येक न्यूरॉन कम या ज्यादा सक्रिय होता है, जिससे एक विशिष्ट सक्रियण पैटर्न होता है।

वाक् ध्वनि मानचित्र में होने वाली वाक् इकाइयों के लिए तंत्रिका प्रतिनिधित्व (नीचे देखें: DIVA मॉडल) एक समयनिष्ठ या स्थानीय प्रतिनिधित्व है। प्रत्येक भाषण आइटम या भाषण इकाई को एक विशिष्ट न्यूरॉन (मॉडल सेल, नीचे देखें) द्वारा दर्शाया गया है।

न्यूरल मैपिंग (सिनैप्टिक प्रोजेक्शन)

चित्र 3: अधिनियम मॉडल के भाग के रूप में ध्वन्यात्मक मानचित्र (एक विशिष्ट ध्वन्यात्मक राज्य के लिए स्थानीय सक्रियण पैटर्न), मोटर योजना राज्य मानचित्र (वितरित सक्रियण पैटर्न) और श्रवण राज्य मानचित्र (वितरित सक्रियण पैटर्न) के बीच तंत्रिका मानचित्रण। ध्वन्यात्मक मानचित्र के भीतर विजेता न्यूरॉन के साथ केवल तंत्रिका संबंध दिखाए जाते हैं

एक न्यूरल मैपिंग दो कॉर्टिकल न्यूरल मैप्स को जोड़ती है। न्यूरल मैपिंग (न्यूरल पाथवे के विपरीत) अपने न्यूरल लिंक वेट को समायोजित करके प्रशिक्षण जानकारी संग्रहीत करते हैं (कृत्रिम न्यूरॉन, कृत्रिम तंत्रिका नेटवर्क देखें)। न्यूरल मैपिंग एक संवेदी या मोटर स्थिति के एक संवेदी या मोटर राज्य के एक वितरित प्रतिनिधित्व (ऊपर देखें) को दूसरे मानचित्र के भीतर एक समयनिष्ठ या स्थानीय सक्रियण से उत्पन्न करने या सक्रिय करने में सक्षम हैं (उदाहरण के लिए भाषण ध्वनि मानचित्र से मोटर तक सिनैप्टिक प्रोजेक्शन देखें) मानचित्र, श्रवण लक्ष्य क्षेत्र मानचित्र, या DIVA मॉडल में सोमैटोसेंसरी लक्ष्य क्षेत्र मानचित्र, नीचे समझाया गया; या उदाहरण के लिए ध्वन्यात्मक मानचित्र से श्रवण राज्य मानचित्र और एसीटी मॉडल में मोटर योजना राज्य मानचित्र के लिए तंत्रिका मानचित्रण देखें, नीचे समझाया गया है और चित्र 3).

दो न्यूरल मैप्स के बीच न्यूरल मैपिंग कॉम्पैक्ट या घने हैं: एक न्यूरल मैप के प्रत्येक न्यूरॉन दूसरे न्यूरल मैप के प्रत्येक न्यूरॉन (लगभग) के साथ जुड़े हुए हैं (कई-से-कई-कनेक्शन, कृत्रिम तंत्रिका नेटवर्क देखें)। न्यूरल मैपिंग के लिए इस घनत्व मानदंड के कारण, न्यूरल मैपिंग जो एक न्यूरल मैपिंग से जुड़े हुए हैं, एक दूसरे से बहुत दूर नहीं हैं।

तंत्रिका पथ

न्यूरल मैपिंग के विपरीत न्यूरल पाथवे न्यूरल मैप्स को कनेक्ट कर सकते हैं जो बहुत दूर हैं (उदाहरण के लिए विभिन्न कॉर्टिकल लोब में, सेरेब्रल कॉर्टेक्स देखें)। कार्यात्मक या मॉडलिंग के दृष्टिकोण से, तंत्रिका मार्ग मुख्य रूप से इस जानकारी को संसाधित किए बिना सूचना को अग्रेषित करते हैं। न्यूरल मैपिंग की तुलना में एक न्यूरल पाथवे को बहुत कम न्यूरल कनेक्शन की आवश्यकता होती है। दोनों न्यूरल मानचित्रों के न्यूरॉन्स के एक-से-एक कनेक्शन का उपयोग करके एक तंत्रिका पथ का मॉडल तैयार किया जा सकता है (स्थलाकृतिक मानचित्रण देखें और सोमैटोटोपिक व्यवस्था देखें)।

उदाहरण: दो न्यूरल मैप्स के मामले में, प्रत्येक में 1,000 मॉडल न्यूरॉन्स होते हैं, एक न्यूरल मैपिंग के लिए 1,000,000 न्यूरल कनेक्शन (मैनी-टू-मैनी-कनेक्शन) तक की आवश्यकता होती है, जबकि न्यूरल पाथवे कनेक्शन के मामले में केवल 1,000 कनेक्शन की आवश्यकता होती है।

इसके अलावा, न्यूरल मैपिंग के भीतर कनेक्शन के लिंक वेट को प्रशिक्षण के दौरान समायोजित किया जाता है, जबकि न्यूरल पाथवे के मामले में न्यूरल कनेक्शन को प्रशिक्षित करने की आवश्यकता नहीं होती है (प्रत्येक कनेक्शन अधिकतम प्रदर्शनी है)।

दिवा मॉडल

भाषण उत्पादन के neurocomputational मॉडलिंग में अग्रणी दृष्टिकोण बोस्टन विश्वविद्यालय में फ्रैंक एच. Guenther और उनके समूह द्वारा विकसित DIVA मॉडल है।[5][6][7][8] मॉडल ध्वन्यात्मक और न्यूरोइमेजिंग डेटा की एक विस्तृत श्रृंखला के लिए खाता है, लेकिन - प्रत्येक न्यूरोकंप्यूटेशनल मॉडल की तरह - कुछ हद तक सट्टा रहता है।

मॉडल की संरचना

चित्र 4: DIVA मॉडल का संगठन; यह आंकड़ा गुएन्थर एट अल के बाद एक अनुकूलन है। 2006

DIVA मॉडल का संगठन या संरचना चित्र 4 में दिखाया गया है।

भाषण ध्वनि नक्शा: एक प्रारंभिक बिंदु के रूप में ध्वन्यात्मक प्रतिनिधित्व

भाषण ध्वनि नक्शा - ब्रोका के क्षेत्र (बाएं ललाट ऑपेरकुलम) के अवर और पीछे के हिस्से में स्थित माना जाता है - भाषा-विशिष्ट भाषण इकाइयों (ध्वनियों, अक्षरों, शब्दों, लघु वाक्यांशों) का प्रतिनिधित्व करता है (ध्वन्यात्मक रूप से निर्दिष्ट)। प्रत्येक भाषण इकाई (मुख्य रूप से शब्दांश; उदाहरण के लिए शब्दांश और शब्द हथेली / पाम /, शब्दांश / पीए /, / टा /, / का /, ...) भाषण ध्वनि मानचित्र के भीतर एक विशिष्ट मॉडल सेल द्वारा प्रस्तुत किया जाता है (अर्थात समयनिष्ठ तंत्रिका प्रतिनिधित्व, ऊपर देखें)। प्रत्येक मॉडल सेल (कृत्रिम न्यूरॉन देखें) न्यूरॉन्स की एक छोटी आबादी से मेल खाती है जो निकट सीमा पर स्थित हैं और जो एक साथ आग लगाते हैं।

फीडफॉरवर्ड कंट्रोल: मोटर अभ्यावेदन को सक्रिय करना

स्पीच साउंड मैप के भीतर प्रत्येक न्यूरॉन (मॉडल सेल, कृत्रिम न्यूरॉन) को सक्रिय किया जा सकता है और बाद में मोटर मैप की ओर एक फॉरवर्ड मोटर कमांड को सक्रिय करता है, जिसे आर्टिकुलेटरी वेलोसिटी और पोजिशन मैप कहा जाता है। उस मोटर मैप के स्तर पर सक्रिय तंत्रिका प्रतिनिधित्व एक भाषण इकाई की अभिव्यक्ति को निर्धारित करता है, अर्थात उस भाषण इकाई के उत्पादन के लिए समय अंतराल के दौरान सभी आर्टिकुलेटर्स (होंठ, जीभ, वेलम, ग्लोटिस) को नियंत्रित करता है। फॉरवर्ड कंट्रोल में सेरिबैलम जैसी सबकोर्टिकल संरचनाएं भी शामिल होती हैं, जिन्हें यहां विस्तार से नहीं बताया गया है।

एक वाक् इकाई उन वाक् मदों की मात्रा का प्रतिनिधित्व करती है जिन्हें एक ही ध्वन्यात्मक श्रेणी में निर्दिष्ट किया जा सकता है। इस प्रकार, प्रत्येक भाषण इकाई को भाषण ध्वनि मानचित्र के भीतर एक विशिष्ट न्यूरॉन द्वारा दर्शाया जाता है, जबकि एक भाषण इकाई की प्राप्ति कुछ कलात्मक और ध्वनिक परिवर्तनशीलता प्रदर्शित कर सकती है। यह ध्वन्यात्मक परिवर्तनशीलता DIVA मॉडल में संवेदी लक्ष्य क्षेत्रों को परिभाषित करने की प्रेरणा है (देखें Guenther et al. 1998)।[9]


कलात्मक मॉडल: सोमैटोसेंसरी और श्रवण प्रतिक्रिया जानकारी उत्पन्न करना

मोटर मैप के भीतर सक्रियण पैटर्न भाषण आइटम के लिए सभी मॉडल आर्टिकुलेटर्स (होंठ, जीभ, वेलम, ग्लोटिस) के आंदोलन पैटर्न को निर्धारित करता है। मॉडल को ओवरलोड न करने के लिए, न्यूरोमस्क्यूलर संधि का कोई विस्तृत मॉडलिंग नहीं किया जाता है। कलात्मक संश्लेषण का उपयोग आर्टिक्यूलेटर मूवमेंट उत्पन्न करने के लिए किया जाता है, जो समय-भिन्न वोकल ट्रैक्ट की पीढ़ी और प्रत्येक विशेष स्पीच आइटम के लिए ध्वनिक ध्वन्यात्मकता की पीढ़ी की अनुमति देता है।

कृत्रिम होशियारी के संदर्भ में आर्टिकुलेटरी मॉडल को प्लांट कहा जा सकता है (अर्थात सिस्टम, जिसे मस्तिष्क द्वारा नियंत्रित किया जाता है); यह न्यूरोनल स्पीच प्रोसेसिंग सिस्टम के सन्निहित अनुभूति के एक हिस्से का प्रतिनिधित्व करता है। कलात्मक मॉडल संवेदी प्रणाली उत्पन्न करता है जो DIVA मॉडल के लिए प्रतिक्रिया जानकारी उत्पन्न करने का आधार है (नीचे देखें: प्रतिक्रिया नियंत्रण)।

प्रतिक्रिया नियंत्रण: संवेदी लक्ष्य क्षेत्र, राज्य मानचित्र और त्रुटि मानचित्र

एक तरफ कलात्मक मॉडल संवेदी प्रणाली उत्पन्न करता है, यानी प्रत्येक भाषण इकाई के लिए एक श्रवण स्थिति जो श्रवण राज्य मानचित्र (वितरित प्रतिनिधित्व) के भीतर न्यूरल रूप से प्रतिनिधित्व करती है, और प्रत्येक भाषण इकाई के लिए एक सोमैटोसेंसरी राज्य जो सोमैटोसेंसरी राज्य मानचित्र के भीतर तंत्रिका रूप से प्रतिनिधित्व करती है (वितरित प्रतिनिधित्व भी)। श्रवण राज्य मानचित्र को लौकिक प्रांतस्था में स्थित माना जाता है जबकि सोमाटोसेंसरी राज्य मानचित्र को पार्श्विका प्रांतस्था में स्थित माना जाता है।

दूसरी ओर, भाषण ध्वनि मानचित्र, यदि एक विशिष्ट भाषण इकाई (एकल न्यूरॉन सक्रियण; समयनिष्ठ सक्रियण) के लिए सक्रिय किया जाता है, तो भाषण ध्वनि मानचित्र और श्रवण लक्ष्य क्षेत्र मानचित्र और भाषण ध्वनि मानचित्र और सोमाटोसेंसरी लक्ष्य क्षेत्र के बीच सिनैप्टिक अनुमानों द्वारा संवेदी जानकारी को सक्रिय करता है। नक्शा। श्रवण और सोमाटोसेंसरी लक्ष्य क्षेत्रों को श्रवण प्रांतस्था में स्थित माना जाता है। उच्च-क्रम श्रवण कॉर्टिकल क्षेत्र और सोमाटोसेंसरी कॉर्टेक्स में। उच्च-क्रम सोमाटोसेंसरी कॉर्टिकल क्षेत्र क्रमशः। ये लक्ष्य क्षेत्र संवेदी सक्रियण पैटर्न - जो प्रत्येक भाषण इकाई के लिए मौजूद हैं - भाषा अधिग्रहण के दौरान सीखे जाते हैं (नकली प्रशिक्षण द्वारा; नीचे देखें: सीखना)।

नतीजतन, दो प्रकार की संवेदी जानकारी उपलब्ध होती है यदि भाषण इकाई भाषण ध्वनि मानचित्र के स्तर पर सक्रिय होती है: (i) सीखा संवेदी लक्ष्य क्षेत्र (यानी एक भाषण इकाई के लिए संवेदी राज्य का इरादा) और (ii) संवेदी राज्य सक्रियण पैटर्न जिसके परिणामस्वरूप एक विशिष्ट भाषण इकाई (यानी वर्तमान संवेदी अवस्था, जो उस विशेष भाषण इकाई के वर्तमान उत्पादन और अभिव्यक्ति को दर्शाती है) के संभावित रूप से अपूर्ण निष्पादन (अभिव्यक्ति) से। दोनों प्रकार की संवेदी सूचनाओं को संवेदी त्रुटि मानचित्रों में प्रक्षेपित किया जाता है, अर्थात एक श्रवण त्रुटि मानचित्र को जिसे टेम्पोरल कोर्टेक्स (जैसे श्रवण राज्य मानचित्र) में स्थित माना जाता है और सोमाटोसेंसरी त्रुटि मानचित्र को पार्श्विका में स्थित माना जाता है। कॉर्टेक्स (सोमैटोसेंसरी स्टेट मैप की तरह) (चित्र 4 देखें)।

यदि वर्तमान संवेदी स्थिति अभीष्ट संवेदी स्थिति से विचलित होती है, तो दोनों त्रुटि मानचित्र प्रतिक्रिया आदेश उत्पन्न कर रहे हैं जो मोटर मानचित्र की ओर प्रक्षेपित होते हैं और जो मोटर सक्रियण पैटर्न को ठीक करने में सक्षम होते हैं और बाद में उत्पादन के तहत एक भाषण इकाई की अभिव्यक्ति होती है। इस प्रकार, कुल मिलाकर, मोटर मैप का सक्रियण पैटर्न न केवल एक भाषण इकाई के लिए सीखे गए एक विशिष्ट फीडफॉर्वर्ड कमांड से प्रभावित होता है (और भाषण ध्वनि मानचित्र से सिनैप्टिक प्रोजेक्शन द्वारा उत्पन्न होता है) बल्कि इसके स्तर पर उत्पन्न फीडबैक कमांड द्वारा भी प्रभावित होता है। संवेदी त्रुटि मानचित्र (चित्र 4 देखें)।

सीखना (मॉडलिंग भाषण अधिग्रहण)

जबकि भाषण प्रसंस्करण के एक न्यूरोसाइंटिफिक मॉडल की संरचना (DIVA मॉडल के लिए चित्र 4 में दी गई) मुख्य रूप से विकास द्वारा निर्धारित की जाती है, (भाषा-विशिष्ट) ज्ञान के साथ-साथ (भाषा-विशिष्ट) बोलने के कौशल के दौरान सीखा और प्रशिक्षित किया जाता है। भाषा अधिग्रहण। DIVA मॉडल के मामले में यह माना जाता है कि नवजात शिशु के पास पहले से संरचित (भाषा-विशिष्ट) भाषण ध्वनि मानचित्र उपलब्ध नहीं है; यानी भाषण ध्वनि मानचित्र के भीतर कोई न्यूरॉन किसी भी भाषण इकाई से संबंधित नहीं है। बल्कि भाषण ध्वनि मानचित्र के संगठन के साथ-साथ मोटर मानचित्र और संवेदी लक्ष्य क्षेत्र मानचित्रों के अनुमानों के ट्यूनिंग को भाषण अधिग्रहण के दौरान सीखा या प्रशिक्षित किया जाता है। प्रारंभिक भाषण अधिग्रहण के दो महत्वपूर्ण चरणों को DIVA दृष्टिकोण में प्रतिरूपित किया गया है: बकबक करके और नकल करके सीखना।

बड़बड़ाना

बड़बड़ाने के दौरान संवेदी त्रुटि मानचित्रों और मोटर मानचित्रों के बीच अन्तर्ग्रथनी अनुमानों को ट्यून किया जाता है। यह प्रशिक्षण अर्ध-यादृच्छिक फीडफॉरवर्ड कमांड, यानी DIVA मॉडल बैबल्स की मात्रा उत्पन्न करके किया जाता है। इनमें से प्रत्येक बबलिंग कमांड एक आर्टिकुलेटरी आइटम के उत्पादन की ओर जाता है, जिसे पूर्व-भाषाई (यानी गैर-भाषा-विशिष्ट) भाषण आइटम के रूप में भी लेबल किया जाता है (यानी आर्टिकुलेटरी मॉडल बबलिंग मोटर कमांड के आधार पर एक आर्टिकुलेटरी मूवमेंट पैटर्न उत्पन्न करता है)। इसके बाद, एक ध्वनिक संकेत उत्पन्न होता है।

कलात्मक और ध्वनिक संकेत के आधार पर, प्रत्येक (पूर्व-भाषाई) भाषण आइटम के लिए संवेदी राज्य मानचित्र (चित्र 4 देखें) के स्तर पर एक विशिष्ट श्रवण और सोमैटोसेंसरी राज्य पैटर्न सक्रिय होता है। इस बिंदु पर DIVA मॉडल में विभिन्न भाषण मदों के लिए संवेदी और संबंधित मोटर सक्रियण पैटर्न उपलब्ध है, जो मॉडल को संवेदी त्रुटि मानचित्रों और मोटर मानचित्र के बीच अन्तर्ग्रथनी अनुमानों को ट्यून करने में सक्षम बनाता है। इस प्रकार, बड़बड़ाने के दौरान DIVA मॉडल फीडबैक कमांड सीखता है (यानी एक विशिष्ट संवेदी इनपुट के लिए उचित (फीडबैक) मोटर कमांड कैसे तैयार करें)।

नकल

नकल के दौरान DIVA मॉडल अपने स्पीच साउंड मैप को व्यवस्थित करता है और स्पीच साउंड मैप और मोटर मैप के बीच सिनैप्टिक प्रोजेक्शन को ट्यून करता है - यानी फॉरवर्ड मोटर कमांड की ट्यूनिंग - साथ ही स्पीच साउंड मैप और संवेदी लक्ष्य क्षेत्रों के बीच सिनैप्टिक प्रोजेक्शन (चित्र 4 देखें)। . भाषा-विशिष्ट भाषण इकाइयों (जैसे पृथक भाषण ध्वनियाँ, शब्दांश, शब्द, लघु वाक्यांश) की प्राप्ति का प्रतिनिधित्व करने वाले ध्वनिक भाषण संकेतों की मात्रा के लिए मॉडल को उजागर करके नकली प्रशिक्षण किया जाता है।

भाषण ध्वनि मानचित्र और श्रवण लक्ष्य क्षेत्र मानचित्र के बीच सिनैप्टिक अनुमानों का ट्यूनिंग भाषण ध्वनि मानचित्र के एक न्यूरॉन को उस भाषण आइटम के ध्वन्यात्मक प्रतिनिधित्व के लिए असाइन करके और उस भाषण आइटम के श्रवण प्रतिनिधित्व के साथ जोड़कर पूरा किया जाता है, जो सक्रिय होता है। श्रवण लक्ष्य क्षेत्र मानचित्र पर। श्रवण क्षेत्र (अर्थात भाषण इकाई की श्रवण परिवर्तनशीलता का एक विनिर्देश) होता है, क्योंकि एक विशिष्ट भाषण इकाई (यानी एक विशिष्ट ध्वन्यात्मक प्रतिनिधित्व) को कई (थोड़ा) अलग ध्वनिक (श्रवण) बोध (भाषण मद के बीच अंतर के लिए) द्वारा महसूस किया जा सकता है और स्पीच यूनिट ऊपर देखें: फीडफॉरवर्ड कंट्रोल)।

स्पीच साउंड मैप और मोटर मैप (यानी फॉरवर्ड मोटर कमांड की ट्यूनिंग) के बीच सिनैप्टिक प्रोजेक्शन की ट्यूनिंग फीडबैक कमांड की सहायता से पूरी की जाती है, क्योंकि सेंसरी एरर मैप और मोटर मैप के बीच अनुमान पहले से ही बबलिंग ट्रेनिंग के दौरान ट्यून किए गए थे (ऊपर देखें) . इस प्रकार DIVA मॉडल उचित फीडफॉरवर्ड मोटर कमांड खोजने का प्रयास करके श्रवण भाषण वस्तु की नकल करने की कोशिश करता है। इसके बाद, मॉडल उस भाषण आइटम के लिए पहले से सीखे गए श्रवण लक्ष्य क्षेत्र (इच्छित संवेदी अवस्था) के साथ परिणामी संवेदी आउटपुट (उस प्रयास की अभिव्यक्ति के बाद वर्तमान संवेदी स्थिति) की तुलना करता है। फिर मॉडल श्रवण प्रतिक्रिया प्रणाली के श्रवण त्रुटि मानचित्र से उत्पन्न वर्तमान फीडबैक मोटर कमांड द्वारा वर्तमान फीडफॉरवर्ड मोटर कमांड को अपडेट करता है। इस प्रक्रिया को कई बार दोहराया जा सकता है (कई प्रयास)। DIVA मॉडल कोशिश करने के प्रयास से वर्तमान और इच्छित श्रवण स्थिति के बीच घटते श्रवण अंतर के साथ वाक् वस्तु का उत्पादन करने में सक्षम है।

नकल के दौरान DIVA मॉडल स्पीच साउंड मैप से सोमाटोसेंसरी टारगेट रीजन मैप में सिनैप्टिक प्रोजेक्शन को ट्यून करने में भी सक्षम है, क्योंकि प्रत्येक नया नकली प्रयास स्पीच आइटम का एक नया आर्टिक्यूलेशन पैदा करता है और इस तरह एक somatosensory स्टेट पैटर्न पैदा करता है जो ध्वन्यात्मक प्रतिनिधित्व से जुड़ा होता है। उस भाषण मद की।

गड़बड़ी प्रयोग

F1 का वास्तविक समय गड़बड़ी: श्रवण प्रतिक्रिया का प्रभाव

जबकि भाषण अधिग्रहण के दौरान श्रवण प्रतिक्रिया सबसे महत्वपूर्ण है, अगर मॉडल ने प्रत्येक भाषण इकाई के लिए उचित फीडफॉर्वर्ड मोटर कमांड सीखा है तो इसे कम सक्रिय किया जा सकता है। लेकिन यह दिखाया गया है कि श्रवण गड़बड़ी के मामले में श्रवण प्रतिक्रिया को दृढ़ता से सह-सक्रिय करने की आवश्यकता है (उदाहरण के लिए एक फॉर्मेंट फ्रीक्वेंसी को स्थानांतरित करना, टूरविल एट अल। 2005)।[10] यह दृश्य गड़बड़ी के दौरान आंदोलनों तक पहुंचने पर दृश्य प्रतिक्रिया के मजबूत प्रभाव के बराबर है (उदाहरण के लिए प्रिज्म (ऑप्टिक्स) के माध्यम से देखने के द्वारा वस्तुओं के स्थान को स्थानांतरित करना)।

जबड़े का अप्रत्याशित अवरोधन: सोमैटोसेंसरी फीडबैक का प्रभाव

श्रवण प्रतिक्रिया के तुलनीय तरीके से, सोमाटोसेंसरी प्रतिक्रिया भी भाषण उत्पादन के दौरान दृढ़ता से सह-सक्रिय हो सकती है, उदा। जबड़े के अचानक अवरुद्ध होने के मामले में (टूरविल एट अल. 2005)।

अधिनियम मॉडल

स्पीच प्रोसेसिंग के न्यूरोकंप्यूटेशनल मॉडलिंग में एक और दृष्टिकोण बर्न्ड जे. क्रॉगर और उनके समूह द्वारा विकसित एसीटी मॉडल है।[11] RWTH आचेन विश्वविद्यालय, जर्मनी में (क्रोगर एट अल। 2014,[12] क्रॉगर एट अल। 2009,[13] क्रॉगर एट अल। 2011[14]). ACT मॉडल बड़े हिस्से में DIVA मॉडल के अनुरूप है। एसीटी मॉडल मोटर लक्ष्य रिपॉजिटरी पर केंद्रित है (यानी मोटर कौशल के लिए दीर्घकालिक स्मृति, मानसिक पाठ्यक्रम की तुलना में, लेवलट और व्हील्डन 1994 देखें[15]), जिसे DIVA मॉडल में विस्तार से नहीं बताया गया है। इसके अलावा, एसीटी मॉडल स्पष्ट रूप से मोटर लक्ष्य के स्तर का परिचय देता है, यानी भाषण वस्तुओं के उत्पादन के लिए एक उच्च स्तरीय मोटर विवरण (मोटर लक्ष्य, मोटर कॉर्टेक्स देखें)। एसीटी मॉडल - किसी भी न्यूरोकंप्यूटेशनल मॉडल की तरह - कुछ हद तक सट्टा बना हुआ है।

संरचना

चित्र 5: एसीटी मॉडल का संगठन

एसीटी मॉडल का संगठन या संरचना चित्र 5 में दिया गया है।

भाषण उत्पादन के लिए, एसीटी मॉडल एक भाषण आइटम (ध्वन्यात्मक मानचित्र) के ध्वन्यात्मक के सक्रियण के साथ शुरू होता है। लगातार शब्दांश के मामले में, ध्वन्यात्मकता के स्तर पर एक सह-सक्रियण होता है, जिससे संवेदी प्रणाली के स्तर पर और एक मोटर प्रणाली के सह-सक्रियण के लिए संवेदी तंत्र के स्तर पर एक और सह-सक्रियण होता है। मोटर योजना मानचित्र का स्तर। दुर्लभ शब्दांश के मामले में, मोटर लक्ष्य के लिए एक प्रयास उस भाषण आइटम के लिए मोटर योजना मॉड्यूल द्वारा ध्वन्यात्मक मानचित्र के माध्यम से ध्वन्यात्मक समान भाषण वस्तुओं के लिए मोटर योजनाओं को सक्रिय करके उत्पन्न किया जाता है (क्रॉगर एट अल देखें। 2011)[16]). मोटर लक्ष्य या वोकल ट्रैक्ट एक्शन स्कोर में अस्थायी रूप से ओवरलैपिंग वोकल ट्रैक्ट एक्शन शामिल होते हैं, जिन्हें प्रोग्राम किया जाता है और बाद में मोटर कार्यक्रम | मोटर प्रोग्रामिंग, निष्पादन और नियंत्रण मॉड्यूल द्वारा निष्पादित किया जाता है। (इच्छित) मोटर योजना के सही निष्पादन को नियंत्रित करने के लिए इस मॉड्यूल को रीयल-टाइम सोमैटोसेंसरी फीडबैक जानकारी मिलती है। मोटर प्रोग्रामिंग प्राथमिक मोटर कॉर्टेक्स के स्तर पर सक्रियण पैटर्न की ओर ले जाती है और बाद में न्यूरोमस्कुलर जंक्शन को सक्रिय करती है। मोटोनूरॉन स्नायु उत्पन्न करते हैं और बाद में सभी आर्टिकुलेटरी ध्वन्यात्मक (होंठ, जीभ, वेलम, ग्लोटिस) के आंदोलन पैटर्न। ध्वनिक ध्वन्यात्मकता उत्पन्न करने के लिए कलात्मक संश्लेषण का उपयोग किया जाता है।

कलात्मक ध्वन्यात्मकता और ध्वनिक ध्वन्यात्मक प्रतिक्रिया संकेतों का उपयोग संवेदी प्रीप्रोसेसिंग मॉड्यूल के माध्यम से सोमाटोसेंसरी और श्रवण प्रणाली उत्पन्न करने के लिए किया जाता है, जिसे श्रवण और सोमैटोसेंसरी मानचित्र की ओर अग्रेषित किया जाता है। संवेदी-ध्वन्यात्मक प्रसंस्करण मॉड्यूल के स्तर पर, श्रवण और सोमाटोसेंसरी जानकारी को अल्पकालिक स्मृति में संग्रहीत किया जाता है और बाहरी संवेदी संकेत (ES, चित्र 5, जो संवेदी प्रतिक्रिया पाश के माध्यम से सक्रिय होते हैं) की तुलना पहले से ही प्रशिक्षित की जा सकती है। संवेदी संकेत (TS, चित्र 5, जो ध्वन्यात्मक मानचित्र के माध्यम से सक्रिय होते हैं)। श्रवण और सोमाटोसेंसरी त्रुटि संकेत उत्पन्न हो सकते हैं यदि बाहरी और इच्छित (प्रशिक्षित) संवेदी संकेत स्पष्ट रूप से भिन्न हैं (cf. DIVA मॉडल)।

चित्र 5 में हल्का हरा क्षेत्र उन तंत्रिका मानचित्रों और प्रसंस्करण मॉड्यूल को इंगित करता है, जो एक शब्दांश को एक पूरी इकाई के रूप में संसाधित करते हैं (विशिष्ट प्रसंस्करण समय विंडो लगभग 100 एमएस और अधिक)। इस प्रसंस्करण में ध्वन्यात्मक मानचित्र और संवेदी-ध्वन्यात्मक प्रसंस्करण मॉड्यूल और सीधे जुड़े मोटर योजना राज्य मानचित्र के भीतर सीधे जुड़े संवेदी राज्य मानचित्र शामिल हैं, जबकि प्राथमिक मोटर मानचित्र के साथ-साथ (प्राथमिक) श्रवण और (प्राथमिक) सोमैटोसेंसरी मानचित्र प्रक्रिया छोटी होती है टाइम विंडो (ACT मॉडल में लगभग 10 एमएस)।

चित्र 6: एसीटी मॉडल के तंत्रिका मानचित्रों के लिए मस्तिष्क क्षेत्रों का काल्पनिक स्थान

एसीटी मॉडल के भीतर तंत्रिका मानचित्रों का काल्पनिक मोटर प्रांतस्था चित्र 6 में दिखाया गया है। प्राथमिक मोटर और प्राथमिक संवेदी मानचित्रों के काल्पनिक स्थान मैजेंटा में दिए गए हैं, मोटर योजना राज्य मानचित्र और संवेदी राज्य मानचित्रों के काल्पनिक स्थान (संवेदी-ध्वन्यात्मक के भीतर) प्रसंस्करण मॉड्यूल, DIVA में त्रुटि मानचित्रों की तुलना में) नारंगी रंग में दिया गया है, और दर्पण न्यूरॉन ध्वन्यात्मक मानचित्र के लिए काल्पनिक स्थान लाल रंग में दिए गए हैं। दोहरे तीर न्यूरोनल मैपिंग का संकेत देते हैं। न्यूरल मैपिंग न्यूरल मैप्स को जोड़ती है, जो एक दूसरे से बहुत दूर नहीं हैं (ऊपर देखें)। ध्वन्यात्मक मानचित्र के दो दर्पण न्यूरॉन स्थान एक तंत्रिका मार्ग (ऊपर देखें) के माध्यम से जुड़े हुए हैं, जिससे ध्वन्यात्मक मानचित्र के दोनों अहसासों के लिए वर्तमान सक्रियण पैटर्न का एक-से-एक प्रतिबिंब होता है। ध्वन्यात्मक मानचित्र के दो स्थानों के बीच यह तंत्रिका मार्ग पूलिका आर्कुएटस (AF, चित्र 5 और चित्र 6 देखें) का एक हिस्सा माना जाता है।

भाषण धारणा के लिए, मॉडल बाहरी ध्वनिक सिग्नल से शुरू होता है (उदाहरण के लिए बाहरी स्पीकर द्वारा उत्पादित)। यह संकेत पूर्व-संसाधित है, श्रवण मानचित्र को पार करता है, और श्रवण-ध्वन्यात्मक प्रसंस्करण मॉड्यूल (ES: बाहरी संकेत, चित्र 5 देखें) के स्तर पर प्रत्येक शब्दांश या शब्द के लिए एक सक्रियण पैटर्न की ओर जाता है। द वेंट्रल पाथ ऑफ़ स्पीच पर्सेप्शन (देखें हिकोक और पॉपेल 2007[17]) सीधे एक लेक्सिकल आइटम को सक्रिय करेगा, लेकिन अधिनियम में लागू नहीं किया गया है। बल्कि, एसीटी में ध्वन्यात्मक स्थिति की सक्रियता फोनेमिक मानचित्र के माध्यम से होती है और इस प्रकार उस भाषण वस्तु के लिए मोटर अभ्यावेदन का एक संयोजन हो सकता है (यानी भाषण धारणा का पृष्ठीय मार्ग; ibid।)।

क्रिया भंडार

स्व-आयोजन ध्वन्यात्मक मानचित्र। तीन लिंक भार अभ्यावेदन में से प्रत्येक ध्वन्यात्मक मानचित्र के भीतर एक ही खंड को संदर्भित करता है और इस प्रकार समान 10 × 10 न्यूरॉन्स को संदर्भित करता है

ध्वन्यात्मक नक्शा मोटर योजना राज्य मानचित्र, संवेदी राज्य मानचित्र (संवेदी-ध्वन्यात्मक प्रसंस्करण मॉड्यूल के भीतर होने वाला), और ध्वन्यात्मक (राज्य) मानचित्र के साथ क्रिया भंडार का निर्माण करता है। ध्वन्यात्मक मानचित्र एसीटी में एक स्व-संगठित मानचित्र के रूप में लागू किया गया है। स्व-संगठित तंत्रिका मानचित्र और विभिन्न भाषण वस्तुओं को इस मानचित्र के भीतर विभिन्न न्यूरॉन्स द्वारा दर्शाया गया है (समयनिष्ठ या स्थानीय प्रतिनिधित्व, ऊपर देखें: तंत्रिका प्रतिनिधित्व)। ध्वन्यात्मक मानचित्र तीन प्रमुख विशेषताओं को प्रदर्शित करता है:

  • एक फोनेमिक के लिए ध्वन्यात्मक मानचित्र के भीतर एक से अधिक ध्वन्यात्मकता हो सकती है (चित्र 7 में ध्वन्यात्मक लिंक भार देखें: उदाहरण के लिए शब्दांश / डी: एम / ध्वन्यात्मक मानचित्र के भीतर तीन न्यूरॉन्स द्वारा दर्शाया गया है)
  • फोनेटोपी : ध्वन्यात्मक मानचित्र विभिन्न ध्वन्यात्मकता के संबंध में भाषण वस्तुओं का क्रम प्रदर्शित करता है (चित्र 7 में ध्वन्यात्मक लिंक भार देखें। तीन उदाहरण: (i) शब्दांश /p@/, /t@/, और /k@/ ध्वन्यात्मक मानचित्र के भीतर बाईं ओर एक ऊपर की ओर क्रम में होते हैं; (ii) शब्दांश-प्रारंभिक प्लोसिव ध्वन्यात्मक मानचित्र के ऊपरी बाएँ भाग में होते हैं जबकि शब्दांश प्रारंभिक फ्रिकेटिव निचले दाहिने आधे भाग में होते हैं; (iii) सीवी शब्दांश और सीवीसी शब्दांश ध्वन्यात्मक मानचित्र के विभिन्न क्षेत्रों में भी होते हैं।)
  • ध्वन्यात्मक मानचित्र हाइपरमोडल या मल्टीमॉडल इंटरेक्शन है: ध्वन्यात्मक मानचित्र के स्तर पर एक ध्वन्यात्मक आइटम की सक्रियता (i) एक ध्वन्यात्मक स्थिति (चित्र 7 में ध्वन्यात्मक लिंक भार देखें), (ii) एक मोटर योजना स्थिति (देखें) चित्र 7 में मोटर प्लान लिंक वज़न), (iii) एक श्रवण अवस्था (चित्र 7 में श्रवण लिंक भार देखें), और (iv) एक सोमैटोसेंसरी अवस्था (चित्र 7 में नहीं दिखाया गया है)। इन सभी अवस्थाओं को ध्वन्यात्मक मानचित्र के भीतर प्रत्येक न्यूरॉन के बीच सिनैप्टिक लिंक वेट को ट्यून करके भाषण अधिग्रहण के दौरान सीखा या प्रशिक्षित किया जाता है, जो एक विशेष ध्वन्यात्मक स्थिति का प्रतिनिधित्व करता है और संबंधित मोटर योजना और संवेदी राज्य मानचित्रों के भीतर सभी न्यूरॉन्स (चित्र 3 भी देखें)।

ध्वन्यात्मक मानचित्र क्रिया-विशिष्ट धारणा को लागू करता है। एसीटी मॉडल के भीतर क्रिया-धारणा-लिंक (चित्र 5 और चित्र 6 भी देखें: ललाट पालि में ध्वन्यात्मक मानचित्र का दोहरा तंत्रिका प्रतिनिधित्व और लौकिक लोब के चौराहे पर और पार्श्विक भाग)।

मोटर योजना

एक मोटर योजना एक भाषण वस्तुओं के उत्पादन और अभिव्यक्ति के लिए एक उच्च स्तरीय मोटर विवरण है (मोटर लक्ष्य, मोटर कौशल, आर्टिकुलेटरी ध्वन्यात्मकता, कलात्मक ध्वनि विज्ञान देखें)। हमारे neurocomputational मॉडल ACT में एक मोटर प्लान को वोकल ट्रैक्ट एक्शन स्कोर के रूप में परिमाणित किया जाता है। वोकल ट्रैक्ट एक्शन स्कोर मात्रात्मक रूप से वोकल ट्रैक्ट एक्शन (जिसे आर्टिकुलेटरी जेस्चर भी कहा जाता है) की संख्या निर्धारित करते हैं, जिन्हें स्पीच आइटम, उनकी प्राप्ति की डिग्री और अवधि, और सभी वोकल ट्रैक्ट क्रियाओं के अस्थायी संगठन का निर्माण करने के लिए सक्रिय करने की आवश्यकता होती है। एक भाषण आइटम (वोकल ट्रैक्ट एक्शन स्कोर के विस्तृत विवरण के लिए उदाहरण के लिए क्रोगर और बिरखोलज़ 2007 देखें)।[18] प्रत्येक वोकल ट्रैक्ट एक्शन (आर्टिक्यूलेटरी जेस्चर) का विस्तृत अहसास एक स्पीच आइटम और विशेष रूप से उनके टेम्पोरल ओवरलैप के निर्माण के सभी वोकल ट्रैक्ट एक्शन के अस्थायी संगठन पर निर्भर करता है। इस प्रकार एक भाषण आइटम के भीतर प्रत्येक वोकल ट्रैक्ट क्रिया का विस्तृत अहसास हमारे न्यूरोकंप्यूटेशनल मॉडल अधिनियम में मोटर योजना स्तर के नीचे निर्दिष्ट किया गया है (क्रॉगर एट अल। 2011 देखें)।[19]


=== सेंसरिमोटर और संज्ञानात्मक पहलुओं को एकीकृत करना: एक्शन रिपॉजिटरी और मेंटल लेक्सिकॉन === का युग्मन स्पीच प्रोसेसिंग (जैसे DIVA या ACT) के ध्वन्यात्मक या सेंसरिमोटर मॉडल की एक गंभीर समस्या यह है कि स्पीच अधिग्रहण के दौरान फोनेमिक का विकास मॉडलिंग नहीं किया जाता है। इस समस्या का एक संभावित समाधान भाषण अधिग्रहण की शुरुआत में (यहां तक ​​कि नकली प्रशिक्षण की शुरुआत में भी; क्रोगर एट अल देखें। 2011 PALADYN जर्नल ऑफ बिहेवियरल रोबोटिक्स) स्पष्ट रूप से ध्वन्यात्मक मानचित्र पेश किए बिना एक्शन रिपॉजिटरी और मानसिक शब्दकोष का एक सीधा युग्मन हो सकता है। .

प्रयोग: भाषण अधिग्रहण

सभी न्यूरोसाइंटिफिक या न्यूरोकंप्यूटेशनल दृष्टिकोणों के लिए एक बहुत ही महत्वपूर्ण मुद्दा संरचना और ज्ञान को अलग करना है। जबकि मॉडल की संरचना (यानी मानव न्यूरोनल नेटवर्क की, जो भाषण प्रसंस्करण के लिए आवश्यक है) मुख्य रूप से विकास द्वारा निर्धारित की जाती है, ज्ञान मुख्य रूप से सीखने की प्रक्रियाओं द्वारा भाषा अधिग्रहण के दौरान एकत्र किया जाता है। (i) पांच-स्वर प्रणाली /i, e, a, o, u/ (क्रॉगर एट अल। 2009 देखें), (ii) एक छोटा व्यंजन प्रणाली सीखने के लिए मॉडल ACT के साथ विभिन्न शिक्षण प्रयोग किए गए थे। वॉयस प्लोसिव्स /बी, डी, जी / सीवी सिलेबल्स (ibid।) के रूप में पहले हासिल किए गए सभी पांच स्वरों के संयोजन में, (iii) एक छोटी मॉडल भाषा जिसमें पांच-स्वर प्रणाली शामिल है, वॉयस और अनवॉइस्ड प्लोसिव्स /बी, डी, जी, p, t, k/, नासाल /m, n/ और पार्श्व /l/ और तीन शब्दांश प्रकार (V, CV, और CCV) (क्रॉगर एट अल देखें। 2011)[20] और (iv) 6 साल के बच्चे के लिए मानक जर्मन के 200 सबसे अधिक बार आने वाले शब्दांश (क्रॉगर और अन्य 2011 देखें)।[21] सभी मामलों में, विभिन्न ध्वन्यात्मक विशेषताओं के संबंध में ध्वन्यात्मक वस्तुओं का क्रम देखा जा सकता है।

प्रयोगः वाक् बोध

इस तथ्य के बावजूद कि इसके पहले के संस्करणों में एसीटी मॉडल को शुद्ध भाषण उत्पादन मॉडल (भाषण अधिग्रहण सहित) के रूप में डिजाइन किया गया था, मॉडल भाषण धारणा की महत्वपूर्ण बुनियादी घटनाओं, यानी श्रेणीबद्ध धारणा और मैकगर्क प्रभाव को प्रदर्शित करने में सक्षम है। स्पष्ट धारणा के मामले में, मॉडल यह प्रदर्शित करने में सक्षम है कि स्पष्ट धारणा स्वरों के मामले में प्लोसिव्स के मामले में अधिक मजबूत है (क्रॉगर एट अल। 2009 देखें)। इसके अलावा, मॉडल अधिनियम मैकगर्क प्रभाव को प्रदर्शित करने में सक्षम था, अगर ध्वन्यात्मक मानचित्र के स्तर के न्यूरॉन्स के निषेध का एक विशिष्ट तंत्र लागू किया गया था (क्रॉगर और कन्नमपुझा 2008 देखें)।[22]


यह भी देखें

संदर्भ

  1. "Towards neurocomputational speech and sound processing". नॉनलाइनियर स्पीच प्रोसेसिंग में प्रगति. Springer. January 2007. pp. 58–77. ISBN 978-3-540-71503-0.
  2. "अरडी रूलोफ्स". Archived from the original on 2012-04-26. Retrieved 2011-12-08.
  3. WEAVER++
  4. Hinton GE, McClelland JL, Rumelhart DE (1968) Distributed representations. In: Rumelhart DE, McClelland JL (eds.). Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Volume 1: Foundations (MIT Press, Cambridge, MA)
  5. DIVA model: a model of speech production, focussing on feedback control processes, developed by Frank H. Guenther and his group at Boston University, MA, USA. The term "DIVA" refers to "Directions Into Velocities of Articulators"
  6. Guenther, F.H., Ghosh, S.S., and Tourville, J.A. (2006) pdf Archived 2012-04-15 at the Wayback Machine. Neural modeling and imaging of the cortical interactions underlying syllable production. Brain and Language, 96, pp. 280–301
  7. Guenther FH (2006) Cortical interaction underlying the production of speech sounds. Journal of Communication Disorders 39, 350–365
  8. Guenther, F.H., and Perkell, J.S. (2004) pdf Archived 2012-04-15 at the Wayback Machine. A neural model of speech production and its application to studies of the role of auditory feedback in speech. In: B. Maassen, R. Kent, H. Peters, P. Van Lieshout, and W. Hulstijn (eds.), Speech Motor Control in Normal and Disordered Speech (pp. 29–49). Oxford: Oxford University Press
  9. Guenther, Frank H.; Hampson, Michelle; Johnson, Dave (1998). "भाषण आंदोलनों की योजना के लिए संदर्भ फ़्रेमों की एक सैद्धांतिक जांच।". Psychological Review. 105 (4): 611–633. doi:10.1037/0033-295x.105.4.611-633. PMID 9830375. S2CID 11179837.
  10. Tourville J, Guenther F, Ghosh S, Reilly K, Bohland J, Nieto-Castanon A (2005) Effects of acoustic and articulatory perturbation on cortical activity during speech production. Poster, 11th annual meeting of the Organization of Human Brain Mapping (Toronto, Canada)
  11. ACT model: A model of speech production, perception, and acquisition, developed by Bernd J. Kröger and his group at RWTH Aachen University, Germany. The term "ACT" refers to the term "ACTion"
  12. BJ Kröger, J Kannampuzha, E Kaufmann (2014) pdf Associative learning and self-organization as basic principles for simulating speech acquisition, speech production, and speech perception. EPJ Nonlinear Biomedical Physics 2 (1), 1-28
  13. Kröger BJ, Kannampuzha J, Neuschaefer-Rube C (2009) pdf Towards a neurocomputational model of speech production and perception. Speech Communication 51: 793-809
  14. Kröger, Bernd J.; Birkholz, Peter; Neuschaefer-Rube, Christiane (1 June 2011). "फेस-टू-फेस कम्युनिकेशन में वर्ड प्रोसेसिंग के लिए आर्टिक्यूलेशन-आधारित विकासात्मक रोबोटिक्स दृष्टिकोण की ओर". Paladyn, Journal of Behavioral Robotics. 2 (2): 82–93. doi:10.2478/s13230-011-0016-6. S2CID 10317127.
  15. Levelt, Willem J.M.; Wheeldon, Linda (April 1994). "Do speakers have access to a mental syllabary?". Cognition. 50 (1–3): 239–269. doi:10.1016/0010-0277(94)90030-2. hdl:2066/15533. PMID 8039363. S2CID 7845880.
  16. Kröger BJ, Miller N, Lowit A, Neuschaefer-Rube C. (2011) Defective neural motor speech mappings as a source for apraxia of speech: Evidence from a quantitative neural model of speech processing. In: Lowit A, Kent R (eds.) Assessment of Motor Speech Disorders. (Plural Publishing, San Diego, CA) pp. 325-346
  17. Hickok G, Poeppel D (2007) Towards a functional neuroanatomy of speech perception. Trends in Cognitive Sciences 4, 131–138
  18. Kröger BJ, Birkholz P (2007) A gesture-based concept for speech movement control in articulatory speech synthesis. In: Esposito A, Faundez-Zanuy M, Keller E, Marinaro M (eds.) Verbal and Nonverbal Communication Behaviours, LNAI 4775 (Springer Verlag, Berlin, Heidelberg) pp. 174-189
  19. Kröger BJ, Birkholz P, Kannampuzha J, Eckers C, Kaufmann E, Neuschaefer-Rube C (2011) Neurobiological interpretation of a quantitative target approximation model for speech actions. In: Kröger BJ, Birkholz P (eds.) Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2011 (TUDpress, Dresden, Germany), pp. 184-194
  20. Kröger BJ, Miller N, Lowit A, Neuschaefer-Rube C. (2011) Defective neural motor speech mappings as a source for apraxia of speech: Evidence from a quantitative neural model of speech processing. In: Lowit A, Kent R (eds.) Assessment of Motor Speech Disorders. (Plural Publishing, San Diego, CA) pp. 325-346
  21. Kröger BJ, Birkholz P, Kannampuzha J, Kaufmann E, Neuschaefer-Rube C (2011) Towards the acquisition of a sensorimotor vocal tract action repository within a neural model of speech processing. In: Esposito A, Vinciarelli A, Vicsi K, Pelachaud C, Nijholt A (eds.) Analysis of Verbal and Nonverbal Communication and Enactment: The Processing Issues. LNCS 6800 (Springer, Berlin), pp. 287-293
  22. Kröger BJ, Kannampuzha J (2008) A neurofunctional model of speech production including aspects of auditory and audio-visual speech perception. Proceedings of the International Conference on Audio-Visual Speech Processing 2008 (Moreton Island, Queensland, Australia) pp. 83–88


अग्रिम पठन