कम्प्यूटेशनल श्रवण दृश्य विश्लेषण: Difference between revisions

Revision as of 09:04, 5 December 2023

कम्प्यूटेशनल श्रवण दृश्य विश्लेषण (सीएएसए) कम्प्यूटेशनल साधनों द्वारा श्रवण दृश्य विश्लेषण का अध्ययन करता है।^[1] संक्षेप में, सीएएसए प्रणाली मशीन श्रवण वाली प्रणालियाँ होती हैं जिनका उद्देश्य ध्वनि स्रोतों के मिश्रण को उसी अनुसार पृथक करना होता है जैसे मानव श्रोता करते हैं। सीएएसए ब्लाइंड संकेत पृथक्करण के क्षेत्र से इस अर्थ में भिन्न होता है कि यह (कम से कम कुछ हद तक) मानव श्रवण प्रणाली के प्रणाली पर आधारित होता है, और इस प्रकार ध्वनिक वातावरण की दो से अधिक माइक्रोफोन रिकॉर्डिंग का उपयोग नहीं करता है। यह कॉकटेल पार्टी समस्या से संबंधित होता है।

सिद्धांत

चूंकि सीएएसए श्रवण प्रणाली के कार्यात्मक भागों को मॉडल करने का कार्य करता है, इसलिए ज्ञात भौतिक मॉडल के संदर्भ में जैविक श्रवण प्रणाली के भागों को देखना आवश्यक होता है। तीन क्षेत्रों, बाह्य, मध्य और आंतरिक कर्ण से मिलकर, श्रवण परिधि एक समष्टि ट्रांसड्यूसर के रूप में कार्य करती है जो श्रवण तंत्रिका में ध्वनि कंपन को क्रिया क्षमता में परिवर्तित करती है। बाह्य कर्ण में बाह्य कर्ण, कर्ण नलिका और कर्णपटह सम्मिलित होते हैं। बाह्य कर्ण, एक ध्वनिक फ़नल की तरह, ध्वनि स्रोत का पता लगाने में सहायता करता है।^[2] कर्ण नलिका एक गुंजयमान ट्यूब (एक अंग पाइप की तरह) के रूप में कार्य करती है जो 2-5.5 किलोहर्ट्ज़ के मध्य आवृत्तियों को बढ़ाती है और अधिकतम 11 डीबी का प्रवर्धन 4 किलोहर्ट्ज़ के आसपास होता है।^[3] श्रवण के अंग के रूप में, कोक्लीअ में दो मेम्ब्रेन होती हैं, रीस्नर और बेसिलर मेम्ब्रेन। बेसिलर मेम्ब्रेन विशिष्ट उत्तेजना आवृत्ति के माध्यम से ऑडियो उत्तेजनाओं की ओर बढ़ती है जो बेसिलर मेम्ब्रेन के एक विशेष क्षेत्र की गुंजयमान आवृत्ति के समरूप होती है। बेसिलर मेम्ब्रेन की गति आंतरिक रोम कोशिकाओं को एक दिशा में विस्थापित करती है, जो सर्पिल गैंग्लियन कोशिकाओं में एक्शन पोटेंशिअल के आधे-तरंग संशोधित संकेत को एनकोड करती है। इन कोशिकाओं के अक्षतंतु श्रवण तंत्रिका बनाते हैं, जो संशोधित उत्तेजना को कूटबद्ध करते हैं। श्रवण तंत्रिका प्रतिक्रियाएं बेसिलर मेम्ब्रेन के समान कुछ आवृत्तियों का चयन करती हैं। कम आवृत्तियों के लिए, फ़ाइबर चरण लॉकिंग प्रदर्शित करते हैं। उच्च श्रवण मार्ग केंद्रों में न्यूरॉन्स विशिष्ट उत्तेजना सुविधाओं, जैसे आवधिकता, ध्वनि तीव्रता, आयाम और आवृत्ति मॉड्यूलेशन के अनुरूप होते हैं।^[1] पश्च प्रांतस्था के माध्यम से एएसए के न्यूरोएनाटोमिकल संगठन भी होता हैं, जिनमें पोस्टीरियर श्रेष्ठतर टेम्पोरल लोब और पश्च सिंगुलेट सम्मिलित होता हैं। अध्ययनों में पाया गया है कि अल्जाइमर रोग के रोगियों में एएसए और पृथक्करण और समूह संचालन में हानि प्रभावित होती है।^[4]

प्रणाली आर्किटेक्चर

कोक्लीग्राम

सीएएसए प्रसंस्करण के पहले चरण के रूप में, कॉकलीग्राम इनपुट संकेत का समय-आवृत्ति प्रतिनिधित्व बनाता है। बाह्य और मध्य कर्ण के घटकों की अनुकृति करके, संकेत को विभिन्न आवृत्तियों में विभाजित किया जाता है जो स्वाभाविक रूप से कोक्लीअ और रोम कोशिकाओं द्वारा चयनित किये जाते हैं। बेसिलर मेम्ब्रेन की आवृत्ति चयनात्मकता के कारण, मेम्ब्रेन को मॉडल करने के लिए एक निस्पंदन बैंक का उपयोग किया जाता है, जिसमें प्रत्येक निस्पंदन बेसिलर मेम्ब्रेन पर एक विशिष्ट बिंदु से जुड़ा होता है।^[1]

चूंकि रोम कोशिकाएं स्पाइक प्रतिरूप उत्पन्न करती हैं, इसलिए मॉडल के प्रत्येक निस्पंदन को भी आवेग प्रतिक्रिया में समान स्पाइक उत्पन्न करना चाहिए। गामाटोन निस्पंदन का उपयोग गामा फलन और टोन के उत्पाद के रूप में एक आवेग प्रतिक्रिया प्रदान करता है। गैमाटोन निस्पंदन के आउटपुट को बेसिलर मेम्ब्रेन विस्थापन के माप के रूप में माना जा सकता है। अधिकांश सीएएसए प्रणालियाँ स्पाइक-आधारित के अतिरिक्त श्रवण तंत्रिका में फायरिंग दर का प्रतिनिधित्व करती हैं। इसे प्राप्त करने के लिए, निस्पंदन बैंक आउटपुट को अर्ध-तरंग में संशोधन किया जाता है और उसके पश्चात् वर्गमूल का संशोधन किया जाता है। (अन्य मॉडल, जैसे स्वचालित लाभ नियंत्रक प्रयुक्त किए गए हैं)। अर्ध-संशोधित तरंग रोम कोशिकाओं के विस्थापन मॉडल के समान होती है। रोम कोशिकाओं के अतिरिक्त मॉडल में मेडीस रोम सेल मॉडल सम्मिलित होता है जो रोम कोशिका पारगमन को मॉडलिंग करके गैमाटोन निस्पंदन बैंक के साथ जुड़ता है।^[5] इस धारणा के आधार पर कि प्रत्येक रोम कोशिका के भीतर ट्रांसमीटर पदार्थ के तीन जलाशय होते हैं, और ट्रांसमीटरों को बेसिलर मेम्ब्रेन के विस्थापन की डिग्री के अनुपात में उत्पन्न किया जाता है, रिलीज को तंत्रिका फाइबर में उत्पन्न स्पाइक की संभावना के समान किया जाता है। यह मॉडल सीएएसए प्रणालियों में कई तंत्रिका प्रतिक्रियाओं जैसे कि संशोधन, संपीड़न, सहज फायरिंग और अनुकूलन को दोहराता है।^[1]

कोरलोग्राम

पिच सिद्धांत के 2 स्कूलों को एकीकृत करके पिच धारणा का महत्वपूर्ण मॉडल:^[1]

स्थान संबंधी सिद्धांत (समाधान हार्मोनिक्स की भूमिका पर महत्व देना)
अस्थायी सिद्धांत (अनसुलझे हार्मोनिक्स की भूमिका पर महत्व देते हुए)

कोरेलोग्राम की गणना सामान्यतः समय डोमेन में प्रत्येक निस्पंदन चैनल के आउटपुट के लिए सिम्युलेटेड श्रवण तंत्रिका फायरिंग गतिविधि को स्वत: सहसंबद्ध करके की जाती है।^[1] आवृत्ति में स्वत:सहसंबंध को एकत्रित करके, सारांश सहसंबंध में पीक की स्थिति कथित पिच के समरूप होती है।^[1]

क्रॉस-कोरलोग्राम

क्योंकि कर्ण भिन्न-भिन्न समय पर ऑडियो संकेत प्राप्त करते हैं, ध्वनि स्रोत को दोनों कर्णों से प्राप्त विलंब का उपयोग करके निर्धारित किया जा सकता है।^[6] बाएं और दाएं चैनलों (मॉडल के) से देरी को क्रॉस-सहसंबंधित करके, इनपुट संकेत में उनके अस्थायी स्थान होने के पश्चात् भी, संयोगित पीक को समान स्थानीयकृत ध्वनि के रूप में वर्गीकृत किया जा सकता है।^[1] श्रवण मध्य मस्तिष्क में न्यूरॉन्स की व्यवस्था के समानांतर, शारीरिक अध्ययनों के माध्यम से इंटरऑरल क्रॉस-सहसंबंध तंत्र के उपयोग का समर्थन किया गया है।^[7]

समय-आवृत्ति मास्क

ध्वनि स्रोत को अलग करने के लिए, सीएएसए प्रणाली कॉकलीग्राम को मास्क कर देता है। यह मास्क, कभी-कभी एक वियना निस्पंदन, लक्ष्य स्रोत क्षेत्रों का वजन करता है और अन्य को दबा देता है।^[1] मास्क के पीछे की शारीरिक प्रेरणा श्रवण धारणा से उत्पन्न होती है जहां ध्वनि को तेज़ ध्वनि द्वारा अश्रव्य बना दिया जाता है।^[8]

पुनर्संश्लेषण

एक पुनर्संश्लेषण मार्ग सेगमेंट के समूह से एक ऑडियो संकेत का पुनर्निर्माण करता है। कोक्लीग्राम को उत्क्रम करके, उच्च गुणवत्ता वाले पुनर्संश्लेषित भाषण संकेत प्राप्त किए जा सकते हैं।^[1]

अनुप्रयोग

मोनौरल सीएएसए

मोनोरल ध्वनि पृथक्करण सर्वप्रथम आवृत्ति के आधार पर ध्वनियों को अलग करने से प्रारम्भ हुआ। आवृत्ति के माध्यम से विभिन्न भाषण संकेतों को विभाजित करने पर आधारित कई प्रारंभिक विकास हुए।^[1]राज्य अंतरिक्ष मॉडल, बैच प्रसंस्करण और भविष्यवाणी-संचालित वास्तुकला के माध्यम से अनुकूलन को जोड़कर, अन्य मॉडलों ने इस प्रक्रिया का अनुसरण किया।^[9] सीएएसए के उपयोग से एएसआर और वाक् पृथक्करण प्रणालियों की कठोरता में संशोधन करता है।^[10]

बिनाउरल सीएएसए

चूँकि सीएएसए मानव श्रवण पथों का मॉडलिंग कर रहा है, इसलिए बिनाउरल सीएएसए प्रणालियाँ 2 स्थानिक रूप से पृथक किए गए माइक्रोफोनों को सम्मिलित करके ध्वनि स्थानीयकरण, श्रवण समूहन और प्रतिध्वनि को दृढ़ता प्रदान करके मानव मॉडल को श्रेष्ठतर बनाती हैं। क्रॉस-सहसंबंध के समान विधियों के साथ, प्रणाली दोनों इनपुट माइक्रोफोन से लक्ष्य संकेत निकालने में सक्षम होता हैं।^[11]^[12]

तंत्रिका सीएएसए मॉडल

चूंकि जैविक श्रवण प्रणाली न्यूरॉन्स की गतिविधियों से गहराई से जुड़ी हुई है, सीएएसए प्रणाली ने डिजाइन के भीतर तंत्रिका मॉडल को भी सम्मिलित किया है। दो भिन्न-भिन्न मॉडल इस क्षेत्र के लिए आधार प्रदान करते हैं। माल्सबर्ग और श्नाइडर ने विभिन्न धाराओं (सिंक्रनाइज़ और डीसिंक्रोनाइज़्ड) की विशेषताओं का प्रतिनिधित्व करने के लिए दोलक के साथ एक तंत्रिका नेटवर्क मॉडल का प्रस्ताव रखा।^[13] वांग ने समय-आवृत्ति के भीतर श्रवण दृश्य का प्रतिनिधित्व करने के लिए विलंब रेखाओं के साथ एक वैश्विक अवरोधक के साथ उत्तेजक इकाइयों के नेटवर्क का उपयोग करके एक मॉडल भी प्रस्तुत किया था।^[14]^[15]

संगीतमय ऑडियो संकेत का विश्लेषण

सीएएसए प्रणालियों में विशिष्ट दृष्टिकोण भौतिक श्रवण प्रणाली की अनुकृति करने के प्रयासों में, ध्वनि-स्रोतों को भिन्न-भिन्न घटकों में विभाजित करने से प्रारम्भ होता है। यद्यपि, इस बात के प्रमाण हैं कि मस्तिष्क आवश्यक रूप से ऑडियो इनपुट को अलग से संसाधित नहीं करता है, जबकि मिश्रण के रूप में संसाधित करता है।^[16] ऑडियो संकेत को भिन्न-भिन्न घटकों में तोड़ने के अतिरिक्त, इनपुट को उच्च स्तरीय विवरणकों, जैसे कि कॉर्ड, बास और मेलोडी, बीट संरचना, और कोरस और वाक्यांश दोहराव द्वारा तोड़ दिया जाता है। ये वर्णनकर्ता वास्तविक दुनिया के परिदृश्यों में मोनोरल और बाइन्यूरल संकेतों के साथ कठिनाइयों का सामना करते हैं।^[1]साथ ही, इन वर्णनकर्ताओं का प्राक्कलन संगीत इनपुट के सांस्कृतिक प्रभाव पर अत्यधिक निर्भर करता है। उदाहरण के लिए, पश्चिमी संगीत में, राग और बास टुकड़े की पहचान को प्रभावित करते हैं, साथ ही राग से कोर बनता है। मेलोडी और बास की आवृत्ति प्रतिक्रियाओं को अलग करके, मौलिक आवृत्ति का प्राक्कलन लगाया जा सकता है और अंतर के लिए निस्पंदन किया जा सकता है।^[17] हार्मोनिक सामग्री का वर्णन करने वाली निम्न-स्तरीय विशेषताओं को निकालकर, प्रतिरूप पहचान के माध्यम से कॉर्ड डिटेक्शन को कार्यान्वित किया जा सकता है।^[18] संगीत दृश्य विश्लेषण में उपयोग की जाने वाली तकनीकों को वाक् पहचान और अन्य पर्यावरणीय ध्वनियों पर भी प्रयुक्त किया जा सकता है।^[19] भविष्य के कार्यों में ऑडियो संकेत प्रोसेसिंग का ऊपर से नीचे तक एकीकरण सम्मिलित है, जैसे कि वास्तविक समय बीट-ट्रैकिंग प्रणाली और श्रवण मनोविज्ञान और निकाय के समावेश के साथ संकेत प्रोसेसिंग क्षेत्र से बाहर विस्तार करता है।^[20]

तंत्रिका अवधारणात्मक मॉडलिंग

जबकि कई मॉडल ऑडियो संकेत को विभिन्न आवृत्तियों के एक समष्टि संयोजन के रूप में मानते हैं, श्रवण प्रणाली के मॉडलिंग के लिए तंत्रिका घटकों पर भी विचार करने की आवश्यकता हो सकती है। एक समग्र प्रक्रिया अपनाकर, जहां एक धारा (फ़ीचर-आधारित ध्वनियों की) कई मस्तिष्क क्षेत्रों में वितरित न्यूरोनल गतिविधि के अनुरूप होती है, ध्वनि की धारणा को मैप और मॉडल किया जा सकता है। ऑडियो धारणा और मस्तिष्क के क्षेत्र को जोड़ने के लिए दो भिन्न-भिन्न समाधान प्रस्तावित किए गए हैं। श्रवण दृश्य में सुविधाओं और वस्तुओं के सभी संभावित संयोजनों को एन्कोड करने के लिए पदानुक्रमित कूटलेखन कई कोशिकाओं को मॉडल करती है।^[21]^[22] अस्थायी या दोलन संबंधी सहसंबंध, श्रवण विशेषताओं के मध्य बंधन की स्थिति को एनकोड करने के लिए तंत्रिका दोलनों के मध्य समकालिकता और वंशानुक्रम पर ध्यान केंद्रित करके बंधन समस्या को संबोधित करता है।^[1]ये दो समाधान स्थान कूटलेखन और टेम्पोरल कूटलेखन के मध्य की पराजय के समान होता हैं। तंत्रिका घटकों के मॉडलिंग से चित्रण करते समय, एएसए की एक और घटना सीएएसए प्रणालियों के समरूप होता है: तंत्रिका तंत्र के मॉडलिंग की सीमा। सीएएसए प्रणालियों के अध्ययन में कुछ ज्ञात तंत्रों का मॉडलिंग सम्मिलित होता है, जैसे कि कॉक्लियर निस्पंदनिंग की बैंडपास प्रकृति और यादृच्छिक श्रवण तंत्रिका फायरिंग प्रतिरूप, यद्यपि, ये मॉडल नए प्रणाली अन्वेषण की ओर नहीं ले जा सकते हैं, जबकि ज्ञात प्रणाली के उद्देश्य की समझ प्रदान करते हैं।^[23]

यह भी देखें

श्रवण दृश्य विश्लेषण
ब्लाइंड संकेत पृथक्करण
कॉकटेल पार्टी की समस्या
कम्प्यूटेशनल ऑडियोलॉजी
मशीन दृष्टि
वाक् पहचान

अग्रिम पठन

D. F. Rosenthal and H. G. Okuno (1998) Computational auditory scene analysis. Mahwah, NJ: Lawrence Erlbaum

संदर्भ

↑ ^1.00 ^1.01 ^1.02 ^1.03 ^1.04 ^1.05 ^1.06 ^1.07 ^1.08 ^1.09 ^1.10 ^1.11 ^1.12 Wang, D. L. and Brown, G. J. (Eds.) (2006). Computational auditory scene analysis: Principles, algorithms and applications. IEEE Press/Wiley-Interscience
↑ Warren, R.(1999). Auditory Perception: A New Analysis and Synthesis. New York: Cambridge University Press.
↑ Wiener, F.(1947), "On the diffraction of a progressive wave by the human head". Journal of the Acoustical Society of America, 19, 143–146.
↑ Goll, J., Kim, L. (2012), "Impairments of auditory scene analysis in Alzheimer's disease", Brain 135 (1), 190–200.
↑ Meddis, R., Hewitt, M., Shackleton, T. (1990). "Implementation details of a computational model of the inner hair-cell/auditory nerve synapse". Journal of the Acoustical Society of America 87(4) 1813–1816.
↑ Jeffress, L.A. (1948). "A place theory of sound localization". Journal of Comparative and Physiological Psychology, 41 35–39.
↑ Yin, T., Chan, J. (1990). "Interaural time sensitivity in medial superior olive of cat" Journal Neurophysiology, 64(2) 465–488.
↑ Moore, B. (2003). An Introduction to the Psychology of Hearing (5th ed.). Academic Press, London.
↑ Ellis, D (1996). "Predication-Driven Computational Auditory Scene Analysis". PhD thesis, MIT Department of Electrical Engineering and Computer Science.
↑ Li, P., Guan, Y. (2010). "Monaural speech separation based on MASVQ and CASA for robust speech recognition" Computer Speech and Language, 24, 30–44.
↑ Bodden, M. (1993). "Modeling human sound-source locations and cocktail party effect" Acta Acustica 1 43–55.
↑ Lyon, R.(1983). "A computational model of binaural locations and separation". Proceedings of the International Conference on Acoustics, Speech and Signal Processing 1148–1151.
↑ Von der Malsburg, C., Schneider, W. (1986). "A neural cocktail-party processor". Biological Cybernetics 54 29–40.
↑ Wang, D.(1994). "Auditory stream segregation based on oscillatory correlation". Proceedings of the IEEE International Workshop on Neural Networks for Signal Processings, 624–632.
↑ Wang, D.(1996), "Primitive auditory segregation based on oscillatory correlation". Cognitive Science 20, 409–456.
↑ Bregman, A (1995). "Constraints on computational models of auditory scene analysis as derived from human perception". The Journal of the Acoustical Society of Japan (E), 16(3), 133–136.
↑ Goto, M.(2004). "A real-time music-scene-description system: predominate-F0 estimation for detecting melody and bass lines in real-world audio signals". Speech Communication, 43, 311–329.
↑ Zbigniew, R., Wieczorkowska, A.(2010). "Advances in Music Information Retrieval". Studies in Computational Intelligence, 274 119–142.
↑ Masuda-Katsuse, I (2001). "A new method for speech recognition in the presence of non-stationary, unpredictable and high-level noise". Proceedings Eurospeech, 1119–1122.
↑ Goto, M (2001). "An Audio-based real-time beat tracking system for music with or without drum sounds". Journal of New Music Research, 30(2): 159–171.
↑ deCharms, R., Merzenich, M, (1996). "Primary cortical representation of sounds by the coordination of action-potential timing". Nature, 381, 610–613.
↑ Wang, D.(2005). "The time dimension of scene analysis". IEEE Transactions on Neural Networks, 16(6), 1401–1426.
↑ Bregman, A.(1990). Auditory Scene Analysis. Cambridge: MIT Press.

[wangbrown06-1] 1.00 ^1.01 ^1.02 ^1.03 ^1.04 ^1.05 ^1.06 ^1.07 ^1.08 ^1.09 ^1.10 ^1.11 ^1.12 Wang, D. L. and Brown, G. J. (Eds.) (2006). Computational auditory scene analysis: Principles, algorithms and applications. IEEE Press/Wiley-Interscience

[warren-2] Warren, R.(1999). Auditory Perception: A New Analysis and Synthesis. New York: Cambridge University Press.

[wiener-3] Wiener, F.(1947), "On the diffraction of a progressive wave by the human head". Journal of the Acoustical Society of America, 19, 143–146.

[goll-4] Goll, J., Kim, L. (2012), "Impairments of auditory scene analysis in Alzheimer's disease", Brain 135 (1), 190–200.

[meddis-5] Meddis, R., Hewitt, M., Shackleton, T. (1990). "Implementation details of a computational model of the inner hair-cell/auditory nerve synapse". Journal of the Acoustical Society of America 87(4) 1813–1816.

[jeffress-6] Jeffress, L.A. (1948). "A place theory of sound localization". Journal of Comparative and Physiological Psychology, 41 35–39.

[yin-7] Yin, T., Chan, J. (1990). "Interaural time sensitivity in medial superior olive of cat" Journal Neurophysiology, 64(2) 465–488.

[moore-8] Moore, B. (2003). An Introduction to the Psychology of Hearing (5th ed.). Academic Press, London.

[Ellis-9] Ellis, D (1996). "Predication-Driven Computational Auditory Scene Analysis". PhD thesis, MIT Department of Electrical Engineering and Computer Science.

[li-10] Li, P., Guan, Y. (2010). "Monaural speech separation based on MASVQ and CASA for robust speech recognition" Computer Speech and Language, 24, 30–44.

[bodden-11] Bodden, M. (1993). "Modeling human sound-source locations and cocktail party effect" Acta Acustica 1 43–55.

[lyon-12] Lyon, R.(1983). "A computational model of binaural locations and separation". Proceedings of the International Conference on Acoustics, Speech and Signal Processing 1148–1151.

[vdm-13] Von der Malsburg, C., Schneider, W. (1986). "A neural cocktail-party processor". Biological Cybernetics 54 29–40.

[wangseg-14] Wang, D.(1994). "Auditory stream segregation based on oscillatory correlation". Proceedings of the IEEE International Workshop on Neural Networks for Signal Processings, 624–632.

[wangprim-15] Wang, D.(1996), "Primitive auditory segregation based on oscillatory correlation". Cognitive Science 20, 409–456.

[bregman2-16] Bregman, A (1995). "Constraints on computational models of auditory scene analysis as derived from human perception". The Journal of the Acoustical Society of Japan (E), 16(3), 133–136.

[Goto-17] Goto, M.(2004). "A real-time music-scene-description system: predominate-F0 estimation for detecting melody and bass lines in real-world audio signals". Speech Communication, 43, 311–329.

[zb-18] Zbigniew, R., Wieczorkowska, A.(2010). "Advances in Music Information Retrieval". Studies in Computational Intelligence, 274 119–142.

[masudak-19] Masuda-Katsuse, I (2001). "A new method for speech recognition in the presence of non-stationary, unpredictable and high-level noise". Proceedings Eurospeech, 1119–1122.

[gotodrum-20] Goto, M (2001). "An Audio-based real-time beat tracking system for music with or without drum sounds". Journal of New Music Research, 30(2): 159–171.

[decharm-21] Charms, R., Merzenich, M, (1996). "Primary cortical representation of sounds by the coordination of action-potential timing". Nature, 381, 610–613.

[wangtime-22] Wang, D.(2005). "The time dimension of scene analysis". IEEE Transactions on Neural Networks, 16(6), 1401–1426.

[bregman-23] Bregman, A.(1990). Auditory Scene Analysis. Cambridge: MIT Press.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

@@ Line 1: / Line 1: @@
-'''कम्प्यूटेशनल [[श्रवण दृश्य विश्लेषण]] (सीएएसए)''' कम्प्यूटेशनल साधनों द्वारा श्रवण दृश्य विश्लेषण का अध्ययन करता है।<ref name="wangbrown06">Wang, D. L. and Brown, G. J. (Eds.) (2006). ''Computational auditory scene analysis: Principles, algorithms and applications''. IEEE Press/Wiley-Interscience</ref> संक्षेप में, सीएएसए प्रणाली मशीन श्रवण वाली प्रणालियाँ होती हैं जिनका उद्देश्य ध्वनि स्रोतों के मिश्रण को उसी अनुसार अलग करना होता है जैसे मानव श्रोता करते हैं। सीएएसए [[अंधा संकेत पृथक्करण|ब्लाइंड संकेत पृथक्करण]] के क्षेत्र से इस अर्थ में भिन्न होता है कि यह (कम से कम कुछ हद तक) मानव [[श्रवण प्रणाली]] के प्रणाली पर आधारित होता है, और इस प्रकार ध्वनिक वातावरण की दो से अधिक माइक्रोफोन रिकॉर्डिंग का उपयोग नहीं करता है। यह कॉकटेल पार्टी समस्या से संबंधित होता है।
+'''कम्प्यूटेशनल [[श्रवण दृश्य विश्लेषण]] (सीएएसए)''' कम्प्यूटेशनल साधनों द्वारा श्रवण दृश्य विश्लेषण का अध्ययन करता है।<ref name="wangbrown06">Wang, D. L. and Brown, G. J. (Eds.) (2006). ''Computational auditory scene analysis: Principles, algorithms and applications''. IEEE Press/Wiley-Interscience</ref> संक्षेप में, सीएएसए प्रणाली मशीन श्रवण वाली प्रणालियाँ होती हैं जिनका उद्देश्य ध्वनि स्रोतों के मिश्रण को उसी अनुसार पृथक करना होता है जैसे मानव श्रोता करते हैं। सीएएसए [[अंधा संकेत पृथक्करण|ब्लाइंड संकेत पृथक्करण]] के क्षेत्र से इस अर्थ में भिन्न होता है कि यह (कम से कम कुछ हद तक) मानव [[श्रवण प्रणाली]] के प्रणाली पर आधारित होता है, और इस प्रकार ध्वनिक वातावरण की दो से अधिक माइक्रोफोन रिकॉर्डिंग का उपयोग नहीं करता है। यह कॉकटेल पार्टी समस्या से संबंधित होता है।
 ==सिद्धांत==
-चूंकि सीएएसए श्रवण प्रणाली के कार्यात्मक भागों को मॉडल करने का कार्य करता है, इसलिए ज्ञात भौतिक मॉडल के संदर्भ में जैविक श्रवण प्रणाली के भागों को देखना आवश्यक होता है। तीन क्षेत्रों, बाह्य, मध्य और आंतरिक कर्ण से मिलकर, श्रवण परिधि एक समष्टि ट्रांसड्यूसर के रूप में कार्य करती है जो श्रवण तंत्रिका में ध्वनि कंपन को क्रिया क्षमता में परिवर्तित करती है। [[बाहरी कान|बाह्य कर्ण]] में बाह्य कर्ण, कर्ण नलिका और कर्णपटह सम्मिलित होते हैं। बाह्य कर्ण, एक ध्वनिक फ़नल की तरह, ध्वनि स्रोत का पता लगाने में सहायता करता है।<ref name = "warren">Warren, R.(1999). ''Auditory Perception: A New Analysis and Synthesis''. New York: Cambridge University Press.</ref> कर्ण नलिका एक गुंजयमान ट्यूब (एक अंग पाइप की तरह) के रूप में कार्य करती है जो 2-5.5 किलोहर्ट्ज़ के मध्य आवृत्तियों को बढ़ाती है और अधिकतम 11 डीबी का प्रवर्धन 4 किलोहर्ट्ज़ के आसपास होता है।<ref name = "wiener">Wiener, F.(1947), "On the diffraction of a progressive wave by the human head". ''Journal of the Acoustical Society of America'', '''19''', 143&ndash;146.</ref> श्रवण के अंग के रूप में, [[कोक्लीअ]] में दो मेम्ब्रेन होती हैं, रीस्नर और [[बेसिलर झिल्ली|बेसिलर मेम्ब्रेन]]। बेसिलर मेम्ब्रेन विशिष्ट उत्तेजना आवृत्ति के माध्यम से ऑडियो उत्तेजनाओं की ओर बढ़ती है जो बेसिलर मेम्ब्रेन के एक विशेष क्षेत्र की गुंजयमान आवृत्ति के समरूप होती है। बेसिलर मेम्ब्रेन की गति आंतरिक रोम कोशिकाओं को एक दिशा में विस्थापित करती है, जो सर्पिल गैंग्लियन कोशिकाओं में एक्शन पोटेंशिअल के आधे-तरंग सुधारित संकेत को एनकोड करती है। इन कोशिकाओं के अक्षतंतु श्रवण तंत्रिका बनाते हैं, जो संशोधित उत्तेजना को कूटबद्ध करते हैं। श्रवण तंत्रिका प्रतिक्रियाएं बेसिलर मेम्ब्रेन के समान कुछ आवृत्तियों का चयन करती हैं। कम आवृत्तियों के लिए, फ़ाइबर चरण लॉकिंग प्रदर्शित करते हैं। उच्च श्रवण मार्ग केंद्रों में न्यूरॉन्स विशिष्ट उत्तेजना सुविधाओं, जैसे आवधिकता, ध्वनि तीव्रता, आयाम और आवृत्ति मॉड्यूलेशन के अनुरूप होते हैं।<ref name = "wangbrown06" /> [[ पश्च प्रांतस्था |पश्च प्रांतस्था]] के माध्यम से एएसए के न्यूरोएनाटोमिकल संगठन भी होता हैं, जिनमें पोस्टीरियर श्रेष्ठतर टेम्पोरल लोब और [[ पश्च सिंगुलेट |पश्च सिंगुलेट]] सम्मिलित होता हैं। अध्ययनों में पाया गया है कि अल्जाइमर रोग के रोगियों में एएसए और पृथक्करण और समूह संचालन में हानि प्रभावित होती है।<ref name = "goll">Goll, J., Kim, L. (2012), "Impairments of auditory scene analysis in Alzheimer's disease", ''Brain'' '''135 (1)''', 190&ndash;200.</ref>
+चूंकि सीएएसए श्रवण प्रणाली के कार्यात्मक भागों को मॉडल करने का कार्य करता है, इसलिए ज्ञात भौतिक मॉडल के संदर्भ में जैविक श्रवण प्रणाली के भागों को देखना आवश्यक होता है। तीन क्षेत्रों, बाह्य, मध्य और आंतरिक कर्ण से मिलकर, श्रवण परिधि एक समष्टि ट्रांसड्यूसर के रूप में कार्य करती है जो श्रवण तंत्रिका में ध्वनि कंपन को क्रिया क्षमता में परिवर्तित करती है। [[बाहरी कान|बाह्य कर्ण]] में बाह्य कर्ण, कर्ण नलिका और कर्णपटह सम्मिलित होते हैं। बाह्य कर्ण, एक ध्वनिक फ़नल की तरह, ध्वनि स्रोत का पता लगाने में सहायता करता है।<ref name = "warren">Warren, R.(1999). ''Auditory Perception: A New Analysis and Synthesis''. New York: Cambridge University Press.</ref> कर्ण नलिका एक गुंजयमान ट्यूब (एक अंग पाइप की तरह) के रूप में कार्य करती है जो 2-5.5 किलोहर्ट्ज़ के मध्य आवृत्तियों को बढ़ाती है और अधिकतम 11 डीबी का प्रवर्धन 4 किलोहर्ट्ज़ के आसपास होता है।<ref name = "wiener">Wiener, F.(1947), "On the diffraction of a progressive wave by the human head". ''Journal of the Acoustical Society of America'', '''19''', 143&ndash;146.</ref> श्रवण के अंग के रूप में, [[कोक्लीअ]] में दो मेम्ब्रेन होती हैं, रीस्नर और [[बेसिलर झिल्ली|बेसिलर मेम्ब्रेन]]। बेसिलर मेम्ब्रेन विशिष्ट उत्तेजना आवृत्ति के माध्यम से ऑडियो उत्तेजनाओं की ओर बढ़ती है जो बेसिलर मेम्ब्रेन के एक विशेष क्षेत्र की गुंजयमान आवृत्ति के समरूप होती है। बेसिलर मेम्ब्रेन की गति आंतरिक रोम कोशिकाओं को एक दिशा में विस्थापित करती है, जो सर्पिल गैंग्लियन कोशिकाओं में एक्शन पोटेंशिअल के आधे-तरंग संशोधित संकेत को एनकोड करती है। इन कोशिकाओं के अक्षतंतु श्रवण तंत्रिका बनाते हैं, जो संशोधित उत्तेजना को कूटबद्ध करते हैं। श्रवण तंत्रिका प्रतिक्रियाएं बेसिलर मेम्ब्रेन के समान कुछ आवृत्तियों का चयन करती हैं। कम आवृत्तियों के लिए, फ़ाइबर चरण लॉकिंग प्रदर्शित करते हैं। उच्च श्रवण मार्ग केंद्रों में न्यूरॉन्स विशिष्ट उत्तेजना सुविधाओं, जैसे आवधिकता, ध्वनि तीव्रता, आयाम और आवृत्ति मॉड्यूलेशन के अनुरूप होते हैं।<ref name = "wangbrown06" /> [[ पश्च प्रांतस्था |पश्च प्रांतस्था]] के माध्यम से एएसए के न्यूरोएनाटोमिकल संगठन भी होता हैं, जिनमें पोस्टीरियर श्रेष्ठतर टेम्पोरल लोब और [[ पश्च सिंगुलेट |पश्च सिंगुलेट]] सम्मिलित होता हैं। अध्ययनों में पाया गया है कि अल्जाइमर रोग के रोगियों में एएसए और पृथक्करण और समूह संचालन में हानि प्रभावित होती है।<ref name = "goll">Goll, J., Kim, L. (2012), "Impairments of auditory scene analysis in Alzheimer's disease", ''Brain'' '''135 (1)''', 190&ndash;200.</ref>
 == प्रणाली आर्किटेक्चर ==
 ===कोक्लीग्राम===
-सीएएसए प्रसंस्करण के पहले चरण के रूप में, कॉकलीग्राम इनपुट संकेत का समय-आवृत्ति प्रतिनिधित्व बनाता है। बाह्य और मध्य कर्ण के घटकों की नकल करके, संकेत को विभिन्न आवृत्तियों में विभाजित किया जाता है जो स्वाभाविक रूप से कोक्लीअ और रोम कोशिकाओं द्वारा चयनित किये जाते हैं। बेसिलर मेम्ब्रेन की आवृत्ति चयनात्मकता के कारण, मेम्ब्रेन को मॉडल करने के लिए एक [[ फ़िल्टर बैंक |निस्पंदन बैंक]] का उपयोग किया जाता है, जिसमें प्रत्येक फिल्टर बेसिलर मेम्ब्रेन पर एक विशिष्ट बिंदु से जुड़ा होता है।<ref name = "wangbrown06" />
+सीएएसए प्रसंस्करण के पहले चरण के रूप में, कॉकलीग्राम इनपुट संकेत का समय-आवृत्ति प्रतिनिधित्व बनाता है। बाह्य और मध्य कर्ण के घटकों की अनुकृति करके, संकेत को विभिन्न आवृत्तियों में विभाजित किया जाता है जो स्वाभाविक रूप से कोक्लीअ और रोम कोशिकाओं द्वारा चयनित किये जाते हैं। बेसिलर मेम्ब्रेन की आवृत्ति चयनात्मकता के कारण, मेम्ब्रेन को मॉडल करने के लिए एक [[ फ़िल्टर बैंक |निस्पंदन बैंक]] का उपयोग किया जाता है, जिसमें प्रत्येक निस्पंदन बेसिलर मेम्ब्रेन पर एक विशिष्ट बिंदु से जुड़ा होता है।<ref name = "wangbrown06" />
-चूंकि रोम कोशिकाएं स्पाइक प्रतिरूप उत्पन्न करती हैं, इसलिए मॉडल के प्रत्येक निस्पंदन को भी [[आवेग प्रतिक्रिया]] में समान स्पाइक उत्पन्न करना चाहिए। [[गामाटोन फ़िल्टर|गामाटोन निस्पंदन]] का उपयोग गामा फ़ंक्शन और टोन के उत्पाद के रूप में एक आवेग प्रतिक्रिया प्रदान करता है। गैमाटोन निस्पंदन के आउटपुट को बेसिलर मेम्ब्रेन विस्थापन के माप के रूप में माना जा सकता है। अधिकांश सीएएसए प्रणालियाँ स्पाइक-आधारित के अतिरिक्त श्रवण तंत्रिका में फायरिंग दर का प्रतिनिधित्व करती हैं। इसे प्राप्त करने के लिए, निस्पंदन बैंक आउटपुट को अर्ध-तरंग में सुधारा जाता है और उसके बाद वर्गमूल को सुधारा जाता है। (अन्य मॉडल, जैसे स्वचालित लाभ नियंत्रक प्रयुक्त किए गए हैं)। अर्ध-सुधारित तरंग रोम कोशिकाओं के विस्थापन मॉडल के समान होती है। रोम कोशिकाओं के अतिरिक्त मॉडल में मेडीस रोम सेल मॉडल सम्मिलित है जो रोम कोशिका पारगमन को मॉडलिंग करके गैमाटोन फिल्टर बैंक के साथ जुड़ता है।<ref name = "meddis">Meddis, R., Hewitt, M., Shackleton, T. (1990). "Implementation details of a computational model of the inner hair-cell/auditory nerve synapse". ''Journal of the Acoustical Society of America''  '''87(4)''' 1813&ndash;1816.</ref> इस धारणा के आधार पर कि प्रत्येक रोम कोशिका के भीतर ट्रांसमीटर पदार्थ के तीन भंडार होते हैं, और ट्रांसमीटरों को बेसिलर मेम्ब्रेन के विस्थापन की डिग्री के अनुपात में उत्पन्न किया जाता है, रिलीज को तंत्रिका फाइबर में उत्पन्न स्पाइक की संभावना के समान किया जाता है। यह मॉडल सीएएसए प्रणालियों में कई तंत्रिका प्रतिक्रियाओं जैसे कि सुधार, संपीड़न, सहज फायरिंग और अनुकूलन को दोहराता है।<ref name = "wangbrown06" />
+चूंकि रोम कोशिकाएं स्पाइक प्रतिरूप उत्पन्न करती हैं, इसलिए मॉडल के प्रत्येक निस्पंदन को भी [[आवेग प्रतिक्रिया]] में समान स्पाइक उत्पन्न करना चाहिए। [[गामाटोन फ़िल्टर|गामाटोन निस्पंदन]] का उपयोग गामा फलन और टोन के उत्पाद के रूप में एक आवेग प्रतिक्रिया प्रदान करता है। गैमाटोन निस्पंदन के आउटपुट को बेसिलर मेम्ब्रेन विस्थापन के माप के रूप में माना जा सकता है। अधिकांश सीएएसए प्रणालियाँ स्पाइक-आधारित के अतिरिक्त श्रवण तंत्रिका में फायरिंग दर का प्रतिनिधित्व करती हैं। इसे प्राप्त करने के लिए, निस्पंदन बैंक आउटपुट को अर्ध-तरंग में संशोधन किया जाता है और उसके पश्चात् वर्गमूल का संशोधन किया जाता है। (अन्य मॉडल, जैसे स्वचालित लाभ नियंत्रक प्रयुक्त किए गए हैं)। अर्ध-संशोधित तरंग रोम कोशिकाओं के विस्थापन मॉडल के समान होती है। रोम कोशिकाओं के अतिरिक्त मॉडल में मेडीस रोम सेल मॉडल सम्मिलित होता है जो रोम कोशिका पारगमन को मॉडलिंग करके गैमाटोन निस्पंदन बैंक के साथ जुड़ता है।<ref name = "meddis">Meddis, R., Hewitt, M., Shackleton, T. (1990). "Implementation details of a computational model of the inner hair-cell/auditory nerve synapse". ''Journal of the Acoustical Society of America''  '''87(4)''' 1813&ndash;1816.</ref> इस धारणा के आधार पर कि प्रत्येक रोम कोशिका के भीतर ट्रांसमीटर पदार्थ के तीन जलाशय होते हैं, और ट्रांसमीटरों को बेसिलर मेम्ब्रेन के विस्थापन की डिग्री के अनुपात में उत्पन्न किया जाता है, रिलीज को तंत्रिका फाइबर में उत्पन्न स्पाइक की संभावना के समान किया जाता है। यह मॉडल सीएएसए प्रणालियों में कई तंत्रिका प्रतिक्रियाओं जैसे कि संशोधन, संपीड़न, सहज फायरिंग और अनुकूलन को दोहराता है।<ref name = "wangbrown06" />
 === कोरलोग्राम ===
 पिच सिद्धांत के 2 स्कूलों को एकीकृत करके पिच धारणा का महत्वपूर्ण मॉडल:<ref name = "wangbrown06" />
-* स्थान सिद्धांत (समाधान हार्मोनिक्स की भूमिका पर महत्व देना)
+* स्थान संबंधी सिद्धांत (समाधान हार्मोनिक्स की भूमिका पर महत्व देना)
 * अस्थायी सिद्धांत (अनसुलझे हार्मोनिक्स की भूमिका पर महत्व देते हुए)
-कोरेलोग्राम की गणना सामान्यतः समय डोमेन में प्रत्येक निस्पंदन चैनल के आउटपुट के लिए सिम्युलेटेड श्रवण तंत्रिका फायरिंग गतिविधि को स्वत: सहसंबद्ध करके की जाती है।<ref name = "wangbrown06" /> आवृत्ति में स्वत:सहसंबंध को एकत्रित करके, सारांश सहसंबंध में चोटियों की स्थिति कथित पिच के समरूप होती है।<ref name = "wangbrown06" />
+कोरेलोग्राम की गणना सामान्यतः समय डोमेन में प्रत्येक निस्पंदन चैनल के आउटपुट के लिए सिम्युलेटेड श्रवण तंत्रिका फायरिंग गतिविधि को स्वत: सहसंबद्ध करके की जाती है।<ref name = "wangbrown06" /> आवृत्ति में स्वत:सहसंबंध को एकत्रित करके, सारांश सहसंबंध में पीक की स्थिति कथित पिच के समरूप होती है।<ref name = "wangbrown06" />
 === क्रॉस-कोरलोग्राम ===
-क्योंकि कर्ण भिन्न-भिन्न समय पर ऑडियो संकेत प्राप्त करते हैं, ध्वनि स्रोत को दोनों कर्णों से प्राप्त विलंब का उपयोग करके निर्धारित किया जा सकता है।<ref name = "jeffress">[[Lloyd A. Jeffress|Jeffress, L.A.]] (1948). "A place theory of sound localization". ''Journal of Comparative and Physiological Psychology'', '''41''' 35&ndash;39.</ref> बाएं और दाएं चैनलों (मॉडल के) से देरी को क्रॉस-सहसंबंधित करके, इनपुट संकेत में उनके अस्थायी स्थान होने के पश्चात् भी, संयोगित चोटियों को समान स्थानीयकृत ध्वनि के रूप में वर्गीकृत किया जा सकता है।<ref name = "wangbrown06" /> श्रवण मध्य मस्तिष्क में न्यूरॉन्स की व्यवस्था के समानांतर, शारीरिक अध्ययनों के माध्यम से इंटरऑरल क्रॉस-सहसंबंध तंत्र के उपयोग का समर्थन किया गया है।<ref name = "yin">Yin, T., Chan, J. (1990). "Interaural time sensitivity in medial superior olive of cat"  ''Journal Neurophysiology'', '''64(2)''' 465&ndash;488.</ref>
+क्योंकि कर्ण भिन्न-भिन्न समय पर ऑडियो संकेत प्राप्त करते हैं, ध्वनि स्रोत को दोनों कर्णों से प्राप्त विलंब का उपयोग करके निर्धारित किया जा सकता है।<ref name = "jeffress">[[Lloyd A. Jeffress|Jeffress, L.A.]] (1948). "A place theory of sound localization". ''Journal of Comparative and Physiological Psychology'', '''41''' 35&ndash;39.</ref> बाएं और दाएं चैनलों (मॉडल के) से देरी को क्रॉस-सहसंबंधित करके, इनपुट संकेत में उनके अस्थायी स्थान होने के पश्चात् भी, संयोगित पीक को समान स्थानीयकृत ध्वनि के रूप में वर्गीकृत किया जा सकता है।<ref name = "wangbrown06" /> श्रवण मध्य मस्तिष्क में न्यूरॉन्स की व्यवस्था के समानांतर, शारीरिक अध्ययनों के माध्यम से इंटरऑरल क्रॉस-सहसंबंध तंत्र के उपयोग का समर्थन किया गया है।<ref name = "yin">Yin, T., Chan, J. (1990). "Interaural time sensitivity in medial superior olive of cat"  ''Journal Neurophysiology'', '''64(2)''' 465&ndash;488.</ref>
 === समय-आवृत्ति मास्क ===
-ध्वनि स्रोत को अलग करने के लिए, सीएएसए प्रणाली कॉकलीग्राम को मास्क कर देता है। यह मास्क, कभी-कभी एक [[वियना फिल्टर]], लक्ष्य स्रोत क्षेत्रों का वजन करता है और अन्य को दबा देता है।<ref name = "wangbrown06" />मुखौटे के पीछे की शारीरिक प्रेरणा श्रवण धारणा से उत्पन्न होती है जहां ध्वनि को तेज़ ध्वनि द्वारा अश्रव्य बना दिया जाता है।<ref name = "moore">Moore, B. (2003). ''An Introduction to the Psychology of Hearing'' (5th ed.). Academic Press, London.</ref>
+ध्वनि स्रोत को अलग करने के लिए, सीएएसए प्रणाली कॉकलीग्राम को मास्क कर देता है। यह मास्क, कभी-कभी एक [[वियना फिल्टर|वियना निस्पंदन]], लक्ष्य स्रोत क्षेत्रों का वजन करता है और अन्य को दबा देता है।<ref name = "wangbrown06" /> मास्क के पीछे की शारीरिक प्रेरणा श्रवण धारणा से उत्पन्न होती है जहां ध्वनि को तेज़ ध्वनि द्वारा अश्रव्य बना दिया जाता है।<ref name = "moore">Moore, B. (2003). ''An Introduction to the Psychology of Hearing'' (5th ed.). Academic Press, London.</ref>
 === पुनर्संश्लेषण ===
-एक पुनर्संश्लेषण मार्ग खंडों के समूह से एक ऑडियो संकेत का पुनर्निर्माण करता है। कोक्लीग्राम को उत्क्रम करके, उच्च गुणवत्ता वाले पुनर्संश्लेषित भाषण संकेत प्राप्त किए जा सकते हैं।<ref name = "wangbrown06" />
+एक पुनर्संश्लेषण मार्ग सेगमेंट के समूह से एक ऑडियो संकेत का पुनर्निर्माण करता है। कोक्लीग्राम को उत्क्रम करके, उच्च गुणवत्ता वाले पुनर्संश्लेषित भाषण संकेत प्राप्त किए जा सकते हैं।<ref name = "wangbrown06" />
 == अनुप्रयोग ==
-===मोनौरल कासा===
+===मोनौरल सीएएसए===
-मोनोरल ध्वनि पृथक्करण सर्वप्रथम आवृत्ति के आधार पर ध्वनियों को अलग करने से प्रारम्भ हुआ। आवृत्ति के माध्यम से विभिन्न भाषण संकेतों को विभाजित करने पर आधारित कई प्रारंभिक विकास हुए।<ref name = "wangbrown06" />राज्य अंतरिक्ष मॉडल, बैच प्रसंस्करण और भविष्यवाणी-संचालित वास्तुकला के माध्यम से अनुकूलन को जोड़कर, अन्य मॉडलों ने इस प्रक्रिया का अनुसरण किया।<ref name = "Ellis">Ellis, D (1996). "Predication-Driven Computational Auditory Scene Analysis". PhD thesis, MIT Department of Electrical Engineering and Computer Science.</ref> सीएएसए के उपयोग से ASR और वाक् पृथक्करण प्रणालियों की कठोरता में सुधार हुआ है।<ref name = "li">Li, P., Guan, Y. (2010). "Monaural speech separation based on MASVQ and CASA for robust speech recognition" ''Computer Speech and Language'', '''24''', 30&ndash;44.</ref>
+मोनोरल ध्वनि पृथक्करण सर्वप्रथम आवृत्ति के आधार पर ध्वनियों को अलग करने से प्रारम्भ हुआ। आवृत्ति के माध्यम से विभिन्न भाषण संकेतों को विभाजित करने पर आधारित कई प्रारंभिक विकास हुए।<ref name = "wangbrown06" />राज्य अंतरिक्ष मॉडल, बैच प्रसंस्करण और भविष्यवाणी-संचालित वास्तुकला के माध्यम से अनुकूलन को जोड़कर, अन्य मॉडलों ने इस प्रक्रिया का अनुसरण किया।<ref name = "Ellis">Ellis, D (1996). "Predication-Driven Computational Auditory Scene Analysis". PhD thesis, MIT Department of Electrical Engineering and Computer Science.</ref> सीएएसए के उपयोग से एएसआर और वाक् पृथक्करण प्रणालियों की कठोरता में संशोधन करता है।<ref name = "li">Li, P., Guan, Y. (2010). "Monaural speech separation based on MASVQ and CASA for robust speech recognition" ''Computer Speech and Language'', '''24''', 30&ndash;44.</ref>
 === बिनाउरल सीएएसए ===
-चूँकि सीएएसए मानव श्रवण पथों का मॉडलिंग कर रहा है, इसलिए बिनाउरल सीएएसए प्रणालियाँ 2 स्थानिक रूप से अलग किए गए माइक्रोफोनों को सम्मिलित करके ध्वनि स्थानीयकरण, श्रवण समूहन और प्रतिध्वनि की मजबूती प्रदान करके मानव मॉडल को बेहतर बनाती हैं। क्रॉस-सहसंबंध के समान विधियों के साथ, प्रणाली दोनों इनपुट माइक्रोफोन से लक्ष्य संकेत निकालने में सक्षम होता हैं।<ref name = "bodden">Bodden, M. (1993). "Modeling human sound-source locations and cocktail party effect" ''Acta Acustica''  '''1''' 43&ndash;55.</ref><ref name = "lyon">Lyon, R.(1983). "A computational model of binaural locations and separation".  ''Proceedings of the International Conference on Acoustics, Speech and Signal Processing'' 1148&ndash;1151.</ref>
+चूँकि सीएएसए मानव श्रवण पथों का मॉडलिंग कर रहा है, इसलिए बिनाउरल सीएएसए प्रणालियाँ 2 स्थानिक रूप से पृथक किए गए माइक्रोफोनों को सम्मिलित करके ध्वनि स्थानीयकरण, श्रवण समूहन और प्रतिध्वनि को दृढ़ता प्रदान करके मानव मॉडल को श्रेष्ठतर बनाती हैं। क्रॉस-सहसंबंध के समान विधियों के साथ, प्रणाली दोनों इनपुट माइक्रोफोन से लक्ष्य संकेत निकालने में सक्षम होता हैं।<ref name = "bodden">Bodden, M. (1993). "Modeling human sound-source locations and cocktail party effect" ''Acta Acustica''  '''1''' 43&ndash;55.</ref><ref name = "lyon">Lyon, R.(1983). "A computational model of binaural locations and separation".  ''Proceedings of the International Conference on Acoustics, Speech and Signal Processing'' 1148&ndash;1151.</ref>
-=== तंत्रिका कासा मॉडल ===
+=== तंत्रिका सीएएसए मॉडल ===
-चूंकि जैविक श्रवण प्रणाली न्यूरॉन्स की गतिविधियों से गहराई से जुड़ी हुई है, सीएएसए प्रणाली ने डिजाइन के भीतर तंत्रिका मॉडल को भी सम्मिलित किया है। दो भिन्न-भिन्न मॉडल इस क्षेत्र के लिए आधार प्रदान करते हैं। माल्सबर्ग और श्नाइडर ने विभिन्न धाराओं (सिंक्रनाइज़ और डीसिंक्रोनाइज़्ड) की विशेषताओं का प्रतिनिधित्व करने के लिए ऑसिलेटर के साथ एक [[तंत्रिका नेटवर्क]] मॉडल का प्रस्ताव रखा।<ref name = "vdm">Von der Malsburg, C., Schneider, W. (1986). "A neural cocktail-party processor". ''Biological Cybernetics''  '''54''' 29&ndash;40.</ref> वांग ने समय-आवृत्ति के भीतर श्रवण दृश्य का प्रतिनिधित्व करने के लिए विलंब रेखाओं के साथ एक वैश्विक अवरोधक के साथ उत्तेजक इकाइयों के नेटवर्क का उपयोग करके एक मॉडल भी प्रस्तुत किया।<ref name = "wangseg">Wang, D.(1994). "Auditory stream segregation based on oscillatory correlation". ''Proceedings of the IEEE International Workshop on Neural Networks for Signal Processings'', 624&ndash;632.</ref><ref name = "wangprim">Wang, D.(1996), "Primitive auditory segregation based on oscillatory correlation". ''Cognitive Science'' '''20''', 409&ndash;456.</ref>
+चूंकि जैविक श्रवण प्रणाली न्यूरॉन्स की गतिविधियों से गहराई से जुड़ी हुई है, सीएएसए प्रणाली ने डिजाइन के भीतर तंत्रिका मॉडल को भी सम्मिलित किया है। दो भिन्न-भिन्न मॉडल इस क्षेत्र के लिए आधार प्रदान करते हैं। माल्सबर्ग और श्नाइडर ने विभिन्न धाराओं (सिंक्रनाइज़ और डीसिंक्रोनाइज़्ड) की विशेषताओं का प्रतिनिधित्व करने के लिए दोलक के साथ एक [[तंत्रिका नेटवर्क]] मॉडल का प्रस्ताव रखा।<ref name = "vdm">Von der Malsburg, C., Schneider, W. (1986). "A neural cocktail-party processor". ''Biological Cybernetics''  '''54''' 29&ndash;40.</ref> वांग ने समय-आवृत्ति के भीतर श्रवण दृश्य का प्रतिनिधित्व करने के लिए विलंब रेखाओं के साथ एक वैश्विक अवरोधक के साथ उत्तेजक इकाइयों के नेटवर्क का उपयोग करके एक मॉडल भी प्रस्तुत किया था।<ref name = "wangseg">Wang, D.(1994). "Auditory stream segregation based on oscillatory correlation". ''Proceedings of the IEEE International Workshop on Neural Networks for Signal Processings'', 624&ndash;632.</ref><ref name = "wangprim">Wang, D.(1996), "Primitive auditory segregation based on oscillatory correlation". ''Cognitive Science'' '''20''', 409&ndash;456.</ref>
 === संगीतमय ऑडियो संकेत का विश्लेषण ===
-सीएएसए प्रणालियों में विशिष्ट दृष्टिकोण भौतिक श्रवण प्रणाली की अनुकृति करने के प्रयासों में, ध्वनि-स्रोतों को भिन्न-भिन्न घटकों में विभाजित करने से प्रारम्भ होता है। यद्यपि, इस बात के प्रमाण हैं कि मस्तिष्क आवश्यक रूप से ऑडियो इनपुट को अलग से संसाधित नहीं करता है, जबकि मिश्रण के रूप में संसाधित करता है।<ref name = "bregman2">Bregman, A (1995). "Constraints on computational models of auditory scene analysis as derived from human perception". ''The Journal of the Acoustical Society of Japan (E)'', '''16(3)''', 133&ndash;136.</ref> ऑडियो संकेत को भिन्न-भिन्न घटकों में तोड़ने के अतिरिक्त, इनपुट को उच्च स्तरीय विवरणकों, जैसे कि कॉर्ड, बास और मेलोडी, बीट संरचना, और कोरस और वाक्यांश दोहराव द्वारा तोड़ दिया जाता है। ये वर्णनकर्ता वास्तविक दुनिया के परिदृश्यों में मोनोरल और बाइन्यूरल संकेतों के साथ कठिनाइयों का सामना करते हैं।<ref name = "wangbrown06" />साथ ही, इन वर्णनकर्ताओं का प्राक्कलन संगीत इनपुट के सांस्कृतिक प्रभाव पर अत्यधिक निर्भर करता है। उदाहरण के लिए, पश्चिमी संगीत में, राग और बास टुकड़े की पहचान को प्रभावित करते हैं, साथ ही राग से कोर बनता है। मेलोडी और बास की आवृत्ति प्रतिक्रियाओं को अलग करके, मौलिक आवृत्ति का प्राक्कलन लगाया जा सकता है और अंतर के लिए निस्पंदन किया जा सकता है।<ref name = "Goto">Goto, M.(2004). "A real-time music-scene-description system: predominate-F0 estimation for detecting melody and bass lines in real-world audio signals". ''Speech Communication'', '''43''', 311&ndash;329.</ref> हार्मोनिक सामग्री का वर्णन करने वाली निम्न-स्तरीय विशेषताओं को निकालकर, प्रतिरूप पहचान के माध्यम से कॉर्ड डिटेक्शन को कार्यान्वित किया जा सकता है।<ref name = "zb">Zbigniew, R., Wieczorkowska, A.(2010). "Advances in Music Information Retrieval". ''Studies in Computational Intelligence'',  '''274''' 119&ndash;142.</ref> संगीत दृश्य विश्लेषण में उपयोग की जाने वाली तकनीकों को [[वाक् पहचान]] और अन्य पर्यावरणीय ध्वनियों पर भी प्रयुक्त किया जा सकता है।<ref name = "masudak">Masuda-Katsuse, I (2001). "A new method for speech recognition in the presence of non-stationary, unpredictable and high-level noise". ''Proceedings Eurospeech'', 1119&ndash;1122.</ref> भविष्य के कार्यों में ऑडियो संकेत प्रोसेसिंग का टॉप-डाउन एकीकरण सम्मिलित है, जैसे कि वास्तविक समय बीट-ट्रैकिंग प्रणाली और श्रवण मनोविज्ञान और शरीर विज्ञान के समावेश के साथ संकेत प्रोसेसिंग क्षेत्र से बाहर विस्तार करना।<ref name = "gotodrum">Goto, M (2001). "An Audio-based real-time beat tracking system for music with or without drum sounds". ''Journal of New Music Research'', '''30(2)''': 159&ndash;171.</ref>
+सीएएसए प्रणालियों में विशिष्ट दृष्टिकोण भौतिक श्रवण प्रणाली की अनुकृति करने के प्रयासों में, ध्वनि-स्रोतों को भिन्न-भिन्न घटकों में विभाजित करने से प्रारम्भ होता है। यद्यपि, इस बात के प्रमाण हैं कि मस्तिष्क आवश्यक रूप से ऑडियो इनपुट को अलग से संसाधित नहीं करता है, जबकि मिश्रण के रूप में संसाधित करता है।<ref name = "bregman2">Bregman, A (1995). "Constraints on computational models of auditory scene analysis as derived from human perception". ''The Journal of the Acoustical Society of Japan (E)'', '''16(3)''', 133&ndash;136.</ref> ऑडियो संकेत को भिन्न-भिन्न घटकों में तोड़ने के अतिरिक्त, इनपुट को उच्च स्तरीय विवरणकों, जैसे कि कॉर्ड, बास और मेलोडी, बीट संरचना, और कोरस और वाक्यांश दोहराव द्वारा तोड़ दिया जाता है। ये वर्णनकर्ता वास्तविक दुनिया के परिदृश्यों में मोनोरल और बाइन्यूरल संकेतों के साथ कठिनाइयों का सामना करते हैं।<ref name = "wangbrown06" />साथ ही, इन वर्णनकर्ताओं का प्राक्कलन संगीत इनपुट के सांस्कृतिक प्रभाव पर अत्यधिक निर्भर करता है। उदाहरण के लिए, पश्चिमी संगीत में, राग और बास टुकड़े की पहचान को प्रभावित करते हैं, साथ ही राग से कोर बनता है। मेलोडी और बास की आवृत्ति प्रतिक्रियाओं को अलग करके, मौलिक आवृत्ति का प्राक्कलन लगाया जा सकता है और अंतर के लिए निस्पंदन किया जा सकता है।<ref name = "Goto">Goto, M.(2004). "A real-time music-scene-description system: predominate-F0 estimation for detecting melody and bass lines in real-world audio signals". ''Speech Communication'', '''43''', 311&ndash;329.</ref> हार्मोनिक सामग्री का वर्णन करने वाली निम्न-स्तरीय विशेषताओं को निकालकर, प्रतिरूप पहचान के माध्यम से कॉर्ड डिटेक्शन को कार्यान्वित किया जा सकता है।<ref name = "zb">Zbigniew, R., Wieczorkowska, A.(2010). "Advances in Music Information Retrieval". ''Studies in Computational Intelligence'',  '''274''' 119&ndash;142.</ref> संगीत दृश्य विश्लेषण में उपयोग की जाने वाली तकनीकों को [[वाक् पहचान]] और अन्य पर्यावरणीय ध्वनियों पर भी प्रयुक्त किया जा सकता है।<ref name = "masudak">Masuda-Katsuse, I (2001). "A new method for speech recognition in the presence of non-stationary, unpredictable and high-level noise". ''Proceedings Eurospeech'', 1119&ndash;1122.</ref> भविष्य के कार्यों में ऑडियो संकेत प्रोसेसिंग का ऊपर से नीचे तक एकीकरण सम्मिलित है, जैसे कि वास्तविक समय बीट-ट्रैकिंग प्रणाली और श्रवण मनोविज्ञान और निकाय के समावेश के साथ संकेत प्रोसेसिंग क्षेत्र से बाहर विस्तार करता है।<ref name = "gotodrum">Goto, M (2001). "An Audio-based real-time beat tracking system for music with or without drum sounds". ''Journal of New Music Research'', '''30(2)''': 159&ndash;171.</ref>
 === तंत्रिका अवधारणात्मक मॉडलिंग ===
-जबकि कई मॉडल ऑडियो संकेत को विभिन्न आवृत्तियों के एक समष्टि संयोजन के रूप में मानते हैं, श्रवण प्रणाली के मॉडलिंग के लिए तंत्रिका घटकों पर भी विचार करने की आवश्यकता हो सकती है। एक समग्र प्रक्रिया अपनाकर, जहां एक धारा (फ़ीचर-आधारित ध्वनियों की) कई मस्तिष्क क्षेत्रों में वितरित न्यूरोनल गतिविधि के अनुरूप होती है, ध्वनि की धारणा को मैप और मॉडल किया जा सकता है। ऑडियो धारणा और मस्तिष्क के क्षेत्र को जोड़ने के लिए दो भिन्न-भिन्न समाधान प्रस्तावित किए गए हैं। श्रवण दृश्य में सुविधाओं और वस्तुओं के सभी संभावित संयोजनों को एन्कोड करने के लिए पदानुक्रमित कोडिंग कई कोशिकाओं को मॉडल करती है।<ref name = "decharm">deCharms, R., Merzenich, M, (1996). "Primary cortical representation of sounds by the coordination of action-potential timing". ''Nature'', '''381''', 610&ndash;613.</ref><ref name = "wangtime">Wang, D.(2005). "The time dimension of scene analysis". ''IEEE Transactions on Neural Networks'', '''16(6)''', 1401&ndash;1426.</ref> अस्थायी या दोलन संबंधी सहसंबंध, श्रवण विशेषताओं के मध्य बंधन की स्थिति को एनकोड करने के लिए तंत्रिका दोलनों के मध्य समकालिकता और वंशानुक्रम पर ध्यान केंद्रित करके बंधन समस्या को संबोधित करता है।<ref name = "wangbrown06" />ये दो समाधान स्थान कोडिंग और टेम्पोरल कोडिंग के मध्य की पराजय के समान हैं। तंत्रिका घटकों के मॉडलिंग से चित्रण करते समय, एएसए की एक और घटना सीएएसए प्रणालियों के साथ खेल में आती है: तंत्रिका तंत्र के मॉडलिंग की सीमा। सीएएसए प्रणालियों के अध्ययन में कुछ ज्ञात तंत्रों का मॉडलिंग सम्मिलित है, जैसे कि कॉक्लियर निस्पंदनिंग की बैंडपास प्रकृति और यादृच्छिक श्रवण तंत्रिका फायरिंग प्रतिरूप, यद्यपि, ये मॉडल नए प्रणाली अन्वेषण की ओर नहीं ले जा सकते हैं, जबकि ज्ञात प्रणाली के उद्देश्य की समझ प्रदान करते हैं।<ref name = "bregman">Bregman, A.(1990). ''Auditory Scene Analysis''. Cambridge: MIT Press.</ref>
+जबकि कई मॉडल ऑडियो संकेत को विभिन्न आवृत्तियों के एक समष्टि संयोजन के रूप में मानते हैं, श्रवण प्रणाली के मॉडलिंग के लिए तंत्रिका घटकों पर भी विचार करने की आवश्यकता हो सकती है। एक समग्र प्रक्रिया अपनाकर, जहां एक धारा (फ़ीचर-आधारित ध्वनियों की) कई मस्तिष्क क्षेत्रों में वितरित न्यूरोनल गतिविधि के अनुरूप होती है, ध्वनि की धारणा को मैप और मॉडल किया जा सकता है। ऑडियो धारणा और मस्तिष्क के क्षेत्र को जोड़ने के लिए दो भिन्न-भिन्न समाधान प्रस्तावित किए गए हैं। श्रवण दृश्य में सुविधाओं और वस्तुओं के सभी संभावित संयोजनों को एन्कोड करने के लिए पदानुक्रमित कूटलेखन कई कोशिकाओं को मॉडल करती है।<ref name = "decharm">deCharms, R., Merzenich, M, (1996). "Primary cortical representation of sounds by the coordination of action-potential timing". ''Nature'', '''381''', 610&ndash;613.</ref><ref name = "wangtime">Wang, D.(2005). "The time dimension of scene analysis". ''IEEE Transactions on Neural Networks'', '''16(6)''', 1401&ndash;1426.</ref> अस्थायी या दोलन संबंधी सहसंबंध, श्रवण विशेषताओं के मध्य बंधन की स्थिति को एनकोड करने के लिए तंत्रिका दोलनों के मध्य समकालिकता और वंशानुक्रम पर ध्यान केंद्रित करके बंधन समस्या को संबोधित करता है।<ref name = "wangbrown06" />ये दो समाधान स्थान कूटलेखन और टेम्पोरल कूटलेखन के मध्य की पराजय के समान होता हैं। तंत्रिका घटकों के मॉडलिंग से चित्रण करते समय, एएसए की एक और घटना सीएएसए प्रणालियों के समरूप होता है: तंत्रिका तंत्र के मॉडलिंग की सीमा। सीएएसए प्रणालियों के अध्ययन में कुछ ज्ञात तंत्रों का मॉडलिंग सम्मिलित होता है, जैसे कि कॉक्लियर निस्पंदनिंग की बैंडपास प्रकृति और यादृच्छिक श्रवण तंत्रिका फायरिंग प्रतिरूप, यद्यपि, ये मॉडल नए प्रणाली अन्वेषण की ओर नहीं ले जा सकते हैं, जबकि ज्ञात प्रणाली के उद्देश्य की समझ प्रदान करते हैं।<ref name = "bregman">Bregman, A.(1990). ''Auditory Scene Analysis''. Cambridge: MIT Press.</ref>
 == यह भी देखें ==

Anonymous

Search

कम्प्यूटेशनल श्रवण दृश्य विश्लेषण: Difference between revisions

Namespaces

More

Page actions

Revision as of 09:04, 5 December 2023

Contents

सिद्धांत

प्रणाली आर्किटेक्चर

कोक्लीग्राम

कोरलोग्राम

क्रॉस-कोरलोग्राम

समय-आवृत्ति मास्क

पुनर्संश्लेषण

अनुप्रयोग

मोनौरल सीएएसए

बिनाउरल सीएएसए

तंत्रिका सीएएसए मॉडल

संगीतमय ऑडियो संकेत का विश्लेषण

तंत्रिका अवधारणात्मक मॉडलिंग

यह भी देखें

अग्रिम पठन

संदर्भ

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

कम्प्यूटेशनल श्रवण दृश्य विश्लेषण: Difference between revisions

Revision as of 09:04, 5 December 2023

सिद्धांत

प्रणाली आर्किटेक्चर

कोक्लीग्राम

कोरलोग्राम

क्रॉस-कोरलोग्राम

समय-आवृत्ति मास्क

पुनर्संश्लेषण

अनुप्रयोग

मोनौरल सीएएसए

बिनाउरल सीएएसए

तंत्रिका सीएएसए मॉडल

संगीतमय ऑडियो संकेत का विश्लेषण

तंत्रिका अवधारणात्मक मॉडलिंग

यह भी देखें

अग्रिम पठन

संदर्भ

Navigation

Wiki tools

Page tools

Other projects

Categories