कंप्यूटर ऑडिशन: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(5 intermediate revisions by 3 users not shown)
Line 1: Line 1:
'''कंप्यूटर ऑडिशन''' (सीए) या मशीन लिसनिंग मशीनों द्वारा ऑडियो व्याख्या के लिए [[कलन विधि|एल्गोरिदम]] और सिस्टम के अध्ययन का सामान्य क्षेत्र है।<ref>{{cite book|url= http://www.igi-global.com/book/machine-audition-principles-algorithms-systems/40288|title= Machine Audition: Principles, Algorithms and Systems |year= 2011 |publisher= IGI Global |isbn= 9781615209194 }}</ref><ref>{{cite web|url= http://epubs.surrey.ac.uk/596085/1/Wang_Preface_MA_2010.pdf |title= Machine Audition: Principles, Algorithms and Systems}}</ref> चूँकि किसी मशीन के "सुनने" के अर्थ की धारणा बहुत व्यापक और कुछ सीमा तक अस्पष्ट होते है, कंप्यूटर ऑडिशन अनेक विषयों को साथ लाने का प्रयास करता है जो मूल रूप से विशिष्ट समस्याओं से निपटते हैं या किसी ठोस अनुप्रयोग को ध्यान में रखते हैं। [[एमआईटी प्रौद्योगिकी समीक्षा|टेक्नॉलॉजी रिव्यू]] में इंटरव्यू लेने वाले इंजीनियर [[पेरिस स्मार्गडिस]] इन प्रणालियों के बारे में बात करते हैं {{--}} "सॉफ़्टवेयर जो कमरों में घूम रहे लोगों का पता लगाने के लिए ध्वनि का उपयोग करता है, इममिनेन्ट ब्रेकडाउन के लिए मशीनरी को मॉनिटर करता हैं, यह दुर्घटनाओं को रिकॉर्ड करने के लिए ट्रैफ़िक कैमरों को सक्रिय करने के लिए ध्वनि का उपयोग करता है।" <ref>[http://www.technologyreview.com/blog/VideoPosts.aspx?id=17438 Paris Smaragdis taught computers how to play more life-like music]</ref>
'''कंप्यूटर ऑडिशन''' (सीए) या मशीन लिसनिंग मशीनों द्वारा ऑडियो व्याख्या के लिए [[कलन विधि|एल्गोरिदम]] और यह सिस्टम के अध्ययन का सामान्य क्षेत्र है। <ref>{{cite book|url= http://www.igi-global.com/book/machine-audition-principles-algorithms-systems/40288|title= Machine Audition: Principles, Algorithms and Systems |year= 2011 |publisher= IGI Global |isbn= 9781615209194 }}</ref><ref>{{cite web|url= http://epubs.surrey.ac.uk/596085/1/Wang_Preface_MA_2010.pdf |title= Machine Audition: Principles, Algorithms and Systems}}</ref> चूँकि किसी मशीन के "सुनने" के अर्थ की धारणा बहुत व्यापक और कुछ सीमा तक अस्पष्ट होते है, कंप्यूटर ऑडिशन अनेक विषयों को साथ लाने का प्रयास करता है जो मूल रूप से विशिष्ट समस्याओं से निपटते हैं या किसी ठोस अनुप्रयोग को ध्यान में रखते हैं। [[एमआईटी प्रौद्योगिकी समीक्षा|टेक्नॉलॉजी रिव्यू]] में इंटरव्यू लेने वाले इंजीनियर [[पेरिस स्मार्गडिस]] इन सिस्टम के बारे में बात करते हैं {{--}} "सॉफ़्टवेयर जो कमरों में घूम रहे व्यक्तिों का पता लगाने के लिए ध्वनि का उपयोग करता है, यह इममिनेन्ट ब्रेकडाउन के लिए मशीनरी को मॉनिटर करता हैं, यह दुर्घटनाओं को रिकॉर्ड करने के लिए ट्रैफ़िक कैमरों को सक्रिय करने के लिए ध्वनि का उपयोग करता है।" <ref>[http://www.technologyreview.com/blog/VideoPosts.aspx?id=17438 Paris Smaragdis taught computers how to play more life-like music]</ref>


[[श्रवण (भावना)|ह्यूमन (ऑडिशन)]] के मॉडल से प्रेरित होकर, सीए कंप्यूटर द्वारा ऑडियो और संगीत संकेतों पर बुद्धिमान संचालन करने के उद्देश्य से प्रतिनिधित्व, ट्रांसडक्शन [[ यंत्र अधिगम |ट्रांसडक्शन]], समूहीकरण, संगीत ज्ञान के उपयोग और सामान्य ध्वनि [[ यंत्र अधिगम |शब्दार्थ]] के प्रश्नों से निपटता है। तकनीकी रूप से इसके लिए [[ संकेत आगे बढ़ाना |सिग्नल प्रोसेसिंग]], [[श्रवण मॉडलिंग|ऑडिटरी मॉडलिंग]], संगीत धारणा और [[अनुभूति|कॉग्निटिव, पैटर्न रिकग्निशन]] और [[अनुभूति|मशीन लर्निंग]] के क्षेत्रों के विधियों के संयोजन की आवश्यकता होती है, साथ ही संगीत ज्ञान प्रतिनिधित्व के लिए [[अनुभूति|आर्टिफिशियल इंटेलिजेंस]] के अधिक पारंपरिक विधियों की भी आवश्यकता होती है।<ref name="Tanguiane1993">{{Cite book|last=Tanguiane (Tangian) |first=Andranick |date=1993|title= कृत्रिम धारणा और संगीत पहचान|series= Lecture Notes in Artificial Intelligence|volume=746|publisher=Springer |location=Berlin-Heidelberg|isbn=978-3-540-57394-4}}</ref> <ref name="Tangian1994">{{Cite journal |last=Tanguiane (Tanguiane)|first=Andranick  |year=1994|title= धारणा की सहसंबंधता का एक सिद्धांत और संगीत पहचान के लिए इसका अनुप्रयोग|journal=  Music Perception|volume=11 |issue=4 |pages=465–502|doi= 10.2307/40285634 |jstor=40285634 }}</ref>
[[श्रवण (भावना)|ह्यूमन (ऑडिशन)]] के मॉडल से प्रेरित होकर, सीए कंप्यूटर द्वारा ऑडियो और म्यूजिक संकेतों पर इंटेलीजेंट ऑपरेशन्स करने के उद्देश्य से प्रतिनिधित्व, [[ यंत्र अधिगम |ट्रांसडक्शन]], समूहीकरण, म्यूजिक ज्ञान के उपयोग और सामान्य ध्वनि [[ यंत्र अधिगम |शब्दार्थ]] के प्रश्नों से निपटता है। तकनीकी रूप से इसके लिए [[ संकेत आगे बढ़ाना |सिग्नल प्रोसेसिंग]], [[श्रवण मॉडलिंग|ऑडिटरी मॉडलिंग]], म्यूजिक परसेप्शन और [[अनुभूति|कॉग्निटिव, पैटर्न रिकग्निशन]] और [[अनुभूति|मशीन लर्निंग]] के क्षेत्रों के विधियों के संयोजन की आवश्यकता होती है, इसके साथ ही म्यूजिक ज्ञान प्रतिनिधित्व के लिए [[अनुभूति|आर्टिफिशियल इंटेलिजेंस]] के अधिक पारंपरिक विधियों की भी आवश्यकता होती है।<ref name="Tanguiane1993">{{Cite book|last=Tanguiane (Tangian) |first=Andranick |date=1993|title= कृत्रिम धारणा और संगीत पहचान|series= Lecture Notes in Artificial Intelligence|volume=746|publisher=Springer |location=Berlin-Heidelberg|isbn=978-3-540-57394-4}}</ref> <ref name="Tangian1994">{{Cite journal |last=Tanguiane (Tanguiane)|first=Andranick  |year=1994|title= धारणा की सहसंबंधता का एक सिद्धांत और संगीत पहचान के लिए इसका अनुप्रयोग|journal=  Music Perception|volume=11 |issue=4 |pages=465–502|doi= 10.2307/40285634 |jstor=40285634 }}</ref>
== अनुप्रयोग ==
== अनुप्रयोग ==
[[कंप्यूटर दृष्टि|कंप्यूटर विजन]] बनाम इमेज प्रोसेसिंग की तरह, कंप्यूटर ऑडिशन बनाम ऑडियो इंजीनियरिंग प्रोसेसिंग के अतिरिक्त ऑडियो की समझ से संबंधित है। यह [[वाक् पहचान]] की समस्याओं से भी भिन्न है क्योंकि यह सामान्य ऑडियो संकेतों, जैसे प्राकृतिक ध्वनियों और संगीत रिकॉर्डिंग से संबंधित होते है।
[[कंप्यूटर दृष्टि|कंप्यूटर विजन]] बनाम इमेज प्रोसेसिंग के अनुसार, कंप्यूटर ऑडिशन बनाम ऑडियो इंजीनियरिंग प्रोसेसिंग के अतिरिक्त ऑडियो की समझ से संबंधित है। यह [[वाक् पहचान]] की समस्याओं से भी भिन्न होते है क्योंकि यह सामान्य ऑडियो संकेतों, जैसे प्राकृतिक ध्वनियों और म्यूजिक रिकॉर्डिंग से संबंधित होते है।


कंप्यूटर ऑडिशन के अनुप्रयोग व्यापक रूप से भिन्न हैं, और इसमें ध्वनियों की खोज, [[संगीत शैली]] पहचान, ध्वनिक निगरानी, ​​​​[[संगीत प्रतिलेखन]], स्कोर अनुसरण, [[ऑडियो बनावट|ऑडियो टेक्सचर]], [[संगीत सुधार|म्यूजिक इम्प्रोविजिशन]], [[भाषण भावना पहचान|ऑडियो इमोशन]] आदि सम्मिलित होते हैं।                                                                           
कंप्यूटर ऑडिशन के अनुप्रयोग व्यापक रूप से भिन्न हैं, और इसमें ध्वनियों की खोज, [[संगीत शैली|म्यूजिक शैली]] पहचान, ध्वनिक निगरानी, ​​​​[[संगीत प्रतिलेखन|म्यूजिक प्रतिलेखन]], स्कोर अनुसरण, [[ऑडियो बनावट|ऑडियो टेक्सचर]], [[संगीत सुधार|म्यूजिक इम्प्रोविजिशन]], [[भाषण भावना पहचान|ऑडियो इमोशन]] आदि सम्मिलित होते हैं।                                                                           


== संबंधित अनुशासन ==
== संबंधित अनुशासन ==
कंप्यूटर ऑडिशन निम्नलिखित विषयों के साथ ओवरलैप होता है  
कंप्यूटर ऑडिशन निम्नलिखित विषयों के साथ ओवरलैप होता है  
* [[संगीत सूचना पुनर्प्राप्ति]]: संगीत संकेतों के मध्य समानता की खोज और विश्लेषण की विधियाँ होती हैं।
* [[संगीत सूचना पुनर्प्राप्ति|म्यूजिक इनफार्मेशन रिट्रीवल]]: म्यूजिक संकेतों के मध्य समानता की खोज और विश्लेषण की विधियाँ होती हैं।
* [[श्रवण दृश्य विश्लेषण]]: ऑडियो स्रोतों और घटनाओं की समझ और विवरण हैं।
* [[श्रवण दृश्य विश्लेषण|ऑडिटरी सीन एनालिसिस]] : ऑडियो स्रोतों और घटनाओं की समझ और विवरण हैं।
* कम्प्यूटेशनल संगीतशास्त्र और गणितीय संगीत सिद्धांत: एल्गोरिदम का उपयोग जो संगीत डेटा के विश्लेषण के लिए संगीत ज्ञान को नियोजित करता है।
* कम्प्यूटेशनल म्यूजिकोलोजि: और गणितीय म्यूजिक सिद्धांत: एल्गोरिदम का उपयोग जो म्यूजिक डेटा के विश्लेषण के लिए म्यूजिक ज्ञान को नियोजित करता है।
* [[कंप्यूटर संगीत]]: रचनात्मक संगीत अनुप्रयोगों में कंप्यूटर का उपयोग होता हैं।
* [[कंप्यूटर संगीत|कंप्यूटर]] [[संगीत सूचना पुनर्प्राप्ति|म्यूजिक]] : रचनात्मक म्यूजिक अनुप्रयोगों में कंप्यूटर का उपयोग होता हैं।
* मशीन म्यूजिशियनशिप: ऑडिशन संचालित इंटरैक्टिव म्यूजिक सिस्टम हैं।
* मशीन म्यूजिशियनशिप: ऑडिशन संचालित इंटरैक्टिव म्यूजिक सिस्टम हैं।


==अध्ययन के क्षेत्र==
==अध्ययन के क्षेत्र==


चूंकि ऑडियो संकेतों की व्याख्या मानव ईयर-ब्रेन सिस्टम द्वारा की जाती है, इसलिए उस सम्मिश्र अवधारणात्मक तंत्र को मशीन सुनने के लिए सॉफ़्टवेयर में किसी प्रकार से अनुकरण किया जाना चाहिए। दूसरे शब्दों में, ह्यूमन्स के सामान्य प्रदर्शन करने के लिए, कंप्यूटर को ह्यूमन्स के अनुसार ही ऑडियो सामग्री को सुनना और समझना चाहिए। ऑडियो का स्पष्ट विश्लेषण करने के लिए इसमें अनेक क्षेत्र सम्मिलित होते हैं | इलेक्ट्रिकल इंजीनियरिंग (स्पेक्ट्रम एनालिसिस, फ़िल्टरिंग और ऑडियो ट्रांसफ़ॉर्म) होता हैं | आर्टिफिशियल इंटेलिजेंस (मशीन लर्निंग और साउंड क्लासिफिकेशन) हैं | <ref>{{cite journal|last1=Kelly|first1=Daniel|last2=Caulfield|first2=Brian|title=Pervasive Sound Sensing: A Weakly Supervised Training Approach|journal=IEEE Transactions on Cybernetics|volume=46|issue=1|pages=123–135|date=Feb 2015|doi=10.1109/TCYB.2015.2396291|pmid=25675471|hdl=10197/6853|s2cid=16042016 |url=https://pure.ulster.ac.uk/en/publications/pervasive-sound-sensing-a-weakly-supervised-training-approach-3 |hdl-access=free}}</ref> इसमें मनोध्वनिकी (ध्वनि धारणा), संज्ञानात्मक विज्ञान (तंत्रिका विज्ञान और आर्टिफिशियल इंटेलिजेंस) सम्मिलित हैं | <ref>Hendrik Purwins, Perfecto Herrera, Maarten Grachten, Amaury Hazan, Ricard Marxer, and Xavier Serra. Computational models of music perception and cognition I: The perceptual and cognitive processing chain. Physics of Life Reviews, vol. 5, no. 3, pp. 151-168, 2008. [http://www.mtg.upf.edu/node/938]</ref> यह ध्वनिकी (ध्वनि उत्पादन की भौतिकी) हैं | और इसमें संगीत (सद्भाव, लय और समय) होते हैं। इसके अतिरिक्त, ऑडियो परिवर्तन जैसे कि पिच शिफ्टिंग, टाइम स्ट्रेचिंग और साउंड ऑब्जेक्ट फ़िल्टरिंग, अवधारणात्मक और संगीत की दृष्टि से सार्थक होने चाहिए। सर्वोत्तम परिणामों के लिए, इन परिवर्तनों के लिए वर्णक्रमीय मॉडल, उच्च-स्तरीय सुविधा निष्कर्षण और ध्वनि विश्लेषण/संश्लेषण की अवधारणात्मक समझ की आवश्यकता होती है। अंत में, ऑडियो फ़ाइल (ध्वनि और मेटाडेटा) की सामग्री की संरचना और कोडिंग कुशल संपीड़न योजनाओं से लाभान्वित हो सकती है, जो ध्वनि में अश्रव्य सूचना को हटा देती है। <ref>[http://web.media.mit.edu/~tristan/Classes/MAS.945/technical.html Machine Listening Course Webpage at MIT]</ref> संगीत और ध्वनि धारणा और अनुभूति के कम्प्यूटेशनल मॉडल अधिक सार्थक प्रतिनिधित्व, अधिक सरल डिजिटल परिचालन और संगीतमय मानव-मशीन इंटरफेस में ध्वनि और संगीत की जनरेशन को उत्पन्न कर सकते हैं।                                                                           
चूंकि ऑडियो संकेतों की व्याख्या मानव ईयर-ब्रेन सिस्टम द्वारा की जाती है, इसलिए उस सम्मिश्र अवधारणात्मक तंत्र को मशीन सुनने के लिए सॉफ़्टवेयर में किसी प्रकार से अनुकरण किया जाना चाहिए। दूसरे शब्दों में, ह्यूमन्स के सामान्य प्रदर्शन करने के लिए, कंप्यूटर को ह्यूमन्स के अनुसार ही ऑडियो कंटेंट को सुनना और समझना चाहिए। ऑडियो का स्पष्ट विश्लेषण करने के लिए इसमें अनेक क्षेत्र सम्मिलित होते हैं | इलेक्ट्रिकल इंजीनियरिंग (स्पेक्ट्रम एनालिसिस, फ़िल्टरिंग और ऑडियो ट्रांसफ़ॉर्म) होता हैं | आर्टिफिशियल इंटेलिजेंस (मशीन लर्निंग और साउंड क्लासिफिकेशन) होता हैं | <ref>{{cite journal|last1=Kelly|first1=Daniel|last2=Caulfield|first2=Brian|title=Pervasive Sound Sensing: A Weakly Supervised Training Approach|journal=IEEE Transactions on Cybernetics|volume=46|issue=1|pages=123–135|date=Feb 2015|doi=10.1109/TCYB.2015.2396291|pmid=25675471|hdl=10197/6853|s2cid=16042016 |url=https://pure.ulster.ac.uk/en/publications/pervasive-sound-sensing-a-weakly-supervised-training-approach-3 |hdl-access=free}}</ref> इसमें मनोध्वनिकी (ध्वनि धारणा), संज्ञानात्मक विज्ञान (तंत्रिका विज्ञान और आर्टिफिशियल इंटेलिजेंस) भी सम्मिलित हैं | <ref>Hendrik Purwins, Perfecto Herrera, Maarten Grachten, Amaury Hazan, Ricard Marxer, and Xavier Serra. Computational models of music perception and cognition I: The perceptual and cognitive processing chain. Physics of Life Reviews, vol. 5, no. 3, pp. 151-168, 2008. [http://www.mtg.upf.edu/node/938]</ref> यह ध्वनिकी (ध्वनि उत्पादन की भौतिकी) हैं | और इसमें म्यूजिक (सद्भाव, लय और समय) होते हैं। इसके अतिरिक्त, यह ऑडियो परिवर्तन जैसे कि पिच शिफ्टिंग, टाइम स्ट्रेचिंग और साउंड ऑब्जेक्ट फ़िल्टरिंग, अवधारणात्मक और म्यूजिक की दृष्टि से सार्थक होने चाहिए। सर्वोत्तम परिणामों के लिए, इन परिवर्तनों के लिए वर्णक्रमीय मॉडल, उच्च-स्तरीय सुविधा निष्कर्षण और ध्वनि विश्लेषण/संश्लेषण की अवधारणात्मक समझ की आवश्यकता होती है। अंत में, ऑडियो फ़ाइल (ध्वनि और मेटाडेटा) की कंटेंट संरचना और कोडिंग कुशल संपीड़न योजनाओं से लाभान्वित हो सकती है, जो ध्वनि में अश्रव्य सूचना को हटा देती है। <ref>[http://web.media.mit.edu/~tristan/Classes/MAS.945/technical.html Machine Listening Course Webpage at MIT]</ref> म्यूजिक और ध्वनि धारणा और अनुभूति के कम्प्यूटेशनल मॉडल अधिक सार्थक प्रतिनिधित्व, अधिक सरल डिजिटल परिचालन और संगीतमय मानव-मशीन इंटरफेस में ध्वनि और म्यूजिक की जनरेशन को उत्पन्न कर सकते हैं।                                                                           


सीए के अध्ययन को सामान्यतःनिम्नलिखित उप-समस्याओं में विभाजित किया जा सकता है |
सीए के अध्ययन को सामान्यतःनिम्नलिखित उप-समस्याओं में विभाजित किया जा सकता है |
# प्रतिनिधित्व: सांकेतिक एवं सांकेतिक. यह पसमाधानू पैटर्न प्लेबैक और ऑडियो टेक्सचर सहित नोट्स और वर्णक्रमीय मॉडल दोनों के संदर्भ में समय-आवृत्ति प्रतिनिधित्व से संबंधित है।
# प्रतिनिधित्व: सांकेतिक एवं सांकेतिक. यह पूर्व पैटर्न प्लेबैक और ऑडियो टेक्सचर सहित नोट्स और वर्णक्रमीय मॉडल दोनों के संदर्भ में समय-आवृत्ति प्रतिनिधित्व से संबंधित है।
# फ़ीचर निष्कर्षण: ध्वनि विवरणक, विभाजन, प्रारंभ, [[पिच का पता लगाने का एल्गोरिदम|पिच और एनवलप का डिटेक्टर डिटेक्शन]], [[पिच क्लास|क्रोमा]] और श्रवण प्रतिनिधित्व हैं।
# फ़ीचर निष्कर्षण: ध्वनि विवरणक, विभाजन, प्रारंभ में, [[पिच का पता लगाने का एल्गोरिदम|पिच और एनवलप का डिटेक्टर डिटेक्शन]], [[पिच क्लास|क्रोमा]] और श्रवण प्रतिनिधित्व हैं।
# संगीत ज्ञान संरचनाएं: स्वर, [[लय]] और सामंजस्य का विश्लेषण हैं।
# म्यूजिक ज्ञान संरचनाएं: स्वर, [[लय]] और सामंजस्य का विश्लेषण हैं।
# ध्वनि समानता: ध्वनियों, ध्वनि पहचान, नवीनता का पता लगाने, विभाजन और क्लस्टरिंग के मध्य तुलना करने की विधियाँ हैं।
# ध्वनि समानता: ध्वनियों, ध्वनि पहचान, नवीनता का पता लगाने, विभाजन और क्लस्टरिंग के मध्य तुलना करने की विधियाँ हैं।
# अनुक्रम मॉडलिंग: मैचिंग और नोट अनुक्रमों के मध्य मिलान और संरेखण हैं।
# अनुक्रम मॉडलिंग: मैचिंग और नोट अनुक्रमों के मध्य मिलान और संरेखण हैं।
# स्रोत पृथक्करण: अनेक ध्वनियों को समूहीकृत करने की विधियाँ, जैसे मल्टीपल पिच डिटेक्शन और समय-आवृत्ति क्लस्टरिंग विधियाँ हैं।
# स्रोत पृथक्करण: अनेक ध्वनियों को समूहीकृत करने की विधियाँ, जैसे मल्टीपल पिच डिटेक्शन और समय-आवृत्ति क्लस्टरिंग विधियाँ हैं।
# श्रवण संज्ञान: भावनाओं का मॉडलिंग, प्रत्याशा और परिचितता, श्रवण आश्चर्य, और संगीत संरचना का विश्लेषण हैं।
# श्रवण संज्ञान: भावनाओं का मॉडलिंग, प्रत्याशा और परिचितता, श्रवण आश्चर्य, और म्यूजिक संरचना का विश्लेषण हैं।
# [[मल्टीमॉडल इंटरेक्शन]] मल्टी-मोडल विश्लेषण: पाठ्य, दृश्य और श्रव्य संकेतों के मध्य पत्राचार ढूंढना हैं।
# [[मल्टीमॉडल इंटरेक्शन]] मल्टी-मोडल विश्लेषण: पाठ्य, दृश्य और श्रव्य संकेतों के मध्य कॉरेस्पोंडेंस खोजना हैं।


=== प्रतिनिधित्व विवादों ===
=== प्रतिनिधित्व विवादों ===
कंप्यूटर ऑडिशन उन ऑडियो संकेतों से संबंधित है जिन्हें दो या दो से अधिक चैनलों में डिजिटल ऑडियो के सीधे एन्कोडिंग से लेकर प्रतीकात्मक रूप से प्रस्तुत संश्लेषण निर्देशों तक विभिन्न प्रकार से प्रस्तुत किया जा सकता है। ऑडियो सिग्नल सामान्यतः [[एनालॉग रिकॉर्डिंग]] या [[डिजिटल डाटा]] रिकॉर्डिंग के रूप में दर्शाए जाते हैं। डिजिटल रिकॉर्डिंग ध्वनिक तरंग या [[ऑडियो संपीड़न (डेटा)|ऑडियो कॉम्प्रेशन (डेटा)]] एल्गोरिदम के मापदंडों के प्रतिरूप होते हैं। संगीत संकेतों के अनूठे गुणों में से यह है कि वह प्रायः विभिन्न प्रकार के प्रतिनिधित्व को जोड़ते हैं, जैसे ग्राफिकल स्कोर और प्रदर्शन क्रियाओं के अनुक्रम जो [[MIDI|मिडी]] फ़ाइलों के रूप में एन्कोड किए जाते हैं।
कंप्यूटर ऑडिशन उन ऑडियो संकेतों से संबंधित है जिन्हें दो या दो से अधिक चैनलों में डिजिटल ऑडियो के सीधे एन्कोडिंग से लेकर प्रतीकात्मक रूप से प्रस्तुत संश्लेषण निर्देशों तक विभिन्न प्रकार से प्रस्तुत किया जा सकता है। ऑडियो सिग्नल सामान्यतः [[एनालॉग रिकॉर्डिंग]] या [[डिजिटल डाटा]] रिकॉर्डिंग के रूप में दर्शाए जाते हैं। डिजिटल रिकॉर्डिंग ध्वनिक तरंग या [[ऑडियो संपीड़न (डेटा)|ऑडियो कॉम्प्रेशन (डेटा)]] एल्गोरिदम के मापदंडों के प्रतिरूप होते हैं। म्यूजिक संकेतों के अद्वितीय गुणों में से यह है कि वह प्रायः विभिन्न प्रकार के प्रतिनिधित्व को जोड़ते हैं, जैसे ग्राफिकल स्कोर और प्रदर्शन क्रियाओं के अनुक्रम जो [[MIDI|मिडी]] फ़ाइलों के रूप में एन्कोड किए जाते हैं।


चूंकि ऑडियो सिग्नल में सामान्यतः अनेक ध्वनि स्रोत सम्मिलित होते हैं, तब स्पीच सिग्नल के विपरीत जिन्हें विशिष्ट मॉडल (जैसे स्रोत-फ़िल्टर मॉडल) के संदर्भ में कुशलतापूर्वक वर्णित किया जा सकता है, सामान्य ऑडियो के लिए [[पैरामीटर]] प्रतिनिधित्व को तैयार करना कठिन है। पैरामीट्रिक ऑडियो प्रतिनिधित्व सामान्यतः अनेक ध्वनि मापदंडों को पकड़ने के लिए [[ फ़िल्टर बैंक |फ़िल्टर बैंक]] या [[ साइन लहर |साइनसॉइडल]] एकल मॉडल का उपयोग करते हैं, कभी-कभी यह सिग्नल में आंतरिक संरचना को पकड़ने के लिए प्रतिनिधित्व आकार को बढ़ाते हैं। यह अतिरिक्त प्रकार के डेटा जो कंप्यूटर ऑडिशन के लिए प्रासंगिक हैं, वह ऑडियो सामग्री के पाठ्य विवरण हैं, जैसे एनोटेशन, समीक्षाएं और ऑडियो-विज़ुअल रिकॉर्डिंग की स्थितियों में दृश्य सूचना होती हैं।                                                                                   
चूंकि ऑडियो सिग्नल में सामान्यतः अनेक ध्वनि स्रोत सम्मिलित होते हैं, तब स्पीच सिग्नल के विपरीत जिन्हें विशिष्ट मॉडल (जैसे स्रोत-फ़िल्टर मॉडल) के संदर्भ में कुशलतापूर्वक वर्णित किया जा सकता है, सामान्य ऑडियो के लिए [[पैरामीटर]] प्रतिनिधित्व को तैयार करना कठिन है। पैरामीट्रिक ऑडियो प्रतिनिधित्व सामान्यतः अनेक ध्वनि मापदंडों को पकड़ने के लिए [[ फ़िल्टर बैंक |फ़िल्टर बैंक]] या [[ साइन लहर |साइनसॉइडल]] एकल मॉडल का उपयोग करते हैं, कभी-कभी यह सिग्नल में आंतरिक संरचना को पकड़ने के लिए प्रतिनिधित्व आकार को बढ़ाते हैं। इसमें अतिरिक्त प्रकार के डेटा जो कंप्यूटर ऑडिशन के लिए प्रासंगिक हैं, वह ऑडियो कंटेंट के टेक्स्टूअल विवरण हैं, जैसे एनोटेशन, समीक्षाएं और ऑडियो-विज़ुअल रिकॉर्डिंग की स्थितियों में दृश्य सूचना होती हैं।                                                                                   


=== विशेषताएँ ===
=== विशेषताएँ ===
सामान्य ऑडियो सिग्नलों की सामग्री के विवरण के लिए सामान्यतः उन विशेषताओं के निष्कर्षण की आवश्यकता होती है जो ऑडियो सिग्नल के विशिष्ट तथ्यों को पकड़ते हैं। सामान्यतः बोलते हुए, कोई विशेषताओं को सिग्नल या गणितीय विवरणकों में विभाजित कर सकता है जैसे इसमें ऊर्जा, वर्णक्रमीय आकार का विवरण आदि, सांख्यिकीय लक्षण वर्णन जैसे परिवर्तन या नवीनता का पता लगाना हैं, विशेष प्रतिनिधित्व जो संगीत संकेतों या श्रवण प्रणाली की प्रकृति के लिए यह उत्तम अनुकूलित होते हैं, जैसे आवृत्ति या [[ सप्टक |ऑक्टेव]] इनवेरिएंस (क्रोमा) में संवेदनशीलता ([[बैंडविड्थ (सिग्नल प्रोसेसिंग)]]) की लॉगरिदमिक वृद्धि होती हैं।
सामान्य ऑडियो सिग्नलों की कंटेंट के विवरण के लिए सामान्यतः उन विशेषताओं के निष्कर्षण की आवश्यकता होती है जो ऑडियो सिग्नल के विशिष्ट तथ्यों को पकड़ते हैं। सामान्यतः बोलते हुए, कोई विशेषताओं को सिग्नल या गणितीय विवरणकों में विभाजित कर सकता है जैसे इसमें ऊर्जा, वर्णक्रमीय आकार का विवरण आदि, सांख्यिकीय लक्षण वर्णन जैसे परिवर्तन या नवीनता का पता लगाना हैं, इसमें विशेष प्रतिनिधित्व जो म्यूजिक संकेतों या श्रवण सिस्टम की प्रकृति के लिए उत्तम अनुकूलित होते हैं, जैसे आवृत्ति या [[ सप्टक |ऑक्टेव]] इनवेरिएंस (क्रोमा) में संवेदनशीलता ([[बैंडविड्थ (सिग्नल प्रोसेसिंग)]]) की लॉगरिदमिक वृद्धि होती हैं।


चूंकि ऑडियो में पैरामीट्रिक मॉडल को सामान्यतः अधिक पैरामीटर की आवश्यकता होती है, इसलिए सुविधाओं का उपयोग अधिक कॉम्पैक्ट या प्रमुख प्रतिनिधित्व में अनेक पैरामीटर के गुणों को सारांशित करने के लिए किया जाता है।
चूंकि ऑडियो में पैरामीट्रिक मॉडल को सामान्यतः अधिक पैरामीटर की आवश्यकता होती है, इसलिए सुविधाओं का उपयोग अधिक कॉम्पैक्ट या प्रमुख प्रतिनिधित्व में अनेक पैरामीटर के गुणों को सारांशित करने के लिए किया जाता है।


===संगीत ज्ञान===
===म्यूजिक ज्ञान===
संगीत ज्ञान के साथ-साथ पर्यवेक्षित और गैर-पर्यवेक्षित मशीन सीखने के विधियों का उपयोग करके विशिष्ट संगीत संरचनाएं ढूंढना संभव है। इसके उदाहरणों में संगीत के मापदंडो में नोट्स की घटना के पैटर्न के अनुरूप आवृत्तियों के वितरण के अनुसार टोनलिटी का पता लगाना, बीट संरचना का पता लगाने के लिए नोट प्रारंभ समय का वितरण, संगीत तारों का पता लगाने के लिए विभिन्न आवृत्तियों में ऊर्जा का वितरण इत्यादि सम्मिलित हैं।
म्यूजिक ज्ञान के साथ-साथ पर्यवेक्षित और गैर-पर्यवेक्षित मशीन सीखने के विधियों का उपयोग करके विशिष्ट म्यूजिक संरचनाएं खोजना संभव है। इसके उदाहरणों में म्यूजिक के मापदंडो में नोट्स की घटना के पैटर्न के अनुरूप आवृत्तियों के वितरण के अनुसार टोनलिटी का पता लगाना, बीट संरचना का पता लगाने के लिए नोट प्रारंभ समय का वितरण, म्यूजिक तारों का पता लगाने के लिए विभिन्न आवृत्तियों में ऊर्जा का वितरण इत्यादि सम्मिलित हैं।


=== ध्वनि समानता और अनुक्रम मॉडलिंग ===
=== ध्वनि समानता और अनुक्रम मॉडलिंग ===
ध्वनियों की तुलना समय के संदर्भ के साथ या उसके बिना भी विशेषताओं की तुलना करके की जा सकती है। कुछ स्तिथियों में दो ध्वनियों के मध्य विशेषताओं के समीप मूल्यों से समग्र समानता का आकलन किया जा सकता है। अन्य स्तिथियों में जब लौकिक संरचना महत्वपूर्ण होती है, तब ध्वनिक घटनाओं के विभिन्न लौकिक मापदंडो को सही करने के लिए गतिशील समय परिवर्तन के विधियों को प्रयुक्त करने की आवश्यकता होती है। टेक्सचर सिंथेसिस और [[मशीन सुधार|मशीन इमप्रोवेशन]] जैसे कार्यों के लिए ध्वनि घटनाओं की पुनरावृत्ति और समान उप-अनुक्रम ढूंढना महत्वपूर्ण है।                                                                                                   
ध्वनियों की तुलना समय के संदर्भ के साथ या उसके बिना भी विशेषताओं की तुलना करके की जा सकती है। कुछ स्तिथियों में दो ध्वनियों के मध्य विशेषताओं के समीप मूल्यों से समग्र समानता का आकलन किया जा सकता है। अन्य स्तिथियों में जब लौकिक संरचना महत्वपूर्ण होती है, तब ध्वनिक घटनाओं के विभिन्न लौकिक मापदंडो को सही करने के लिए गतिशील समय परिवर्तन के विधियों को प्रयुक्त करने की आवश्यकता होती है। टेक्सचर सिंथेसिस और [[मशीन सुधार|मशीन इमप्रोवेशन]] जैसे कार्यों के लिए ध्वनि घटनाओं की पुनरावृत्ति और उनके समान उप-अनुक्रम खोजना महत्वपूर्ण है।                                                                                                   


=== स्रोत पृथक्करण ===
=== स्रोत पृथक्करण ===
चूँकि यह सामान्य ऑडियो की मूलभूत विशेषताओं में से है कि इसके साथ बजने वाले अनेक स्रोत सम्मिलित होते हैं, जैसे कि अनेक संगीत वाद्ययंत्र, बात करते लोग, मशीन का शोर या एनिमल्सों की वाइस़, व्यक्तिगत स्रोतों को पहचानने और भिन्न करने की क्षमता बहुत वांछनीय है। दुर्भाग्य से, ऐसी कोई विधियाँ नहीं हैं जो इस समस्या का दृढ़तापूर्वक समाधान कर सकें। स्रोत पृथक्करण की वर्तमान विधियाँ कभी-कभी [[मल्टी-चैनल रिकॉर्डिंग]] में विभिन्न ऑडियो चैनलों के मध्य सहसंबंध पर निर्भर करती हैं। स्टीरियो सिग्नलों से स्रोतों को भिन्न करने की क्षमता के लिए सामान्यतः संचार में प्रयुक्त होने वाली तकनीकों की तुलना में भिन्न तकनीकों की आवश्यकता होती है जहां अनेक सेंसर उपलब्ध होते हैं। अन्य स्रोत पृथक्करण विधियाँ मोनो रिकॉर्डिंग में सुविधाओं के प्रशिक्षण या क्लस्टरिंग पर निर्भर करती हैं, जैसे मल्टी पिच डिटेक्शन के लिए हार्मोनिक रूप से संबंधित आंशिक ट्रैकिंग होती हैं। कुछ विधियाँ, स्पष्ट पहचान से पूर्व, संरचनाओं को समझे बिना डेटा में संरचनाओं को प्रकट करने पर विश्वास करती हैं (जैसे अमूर्त चित्रों में वस्तुओं को सार्थक लेबल दिए बिना पहचानना) कम से कम सम्मिश्र डेटा प्रतिनिधित्व ढूंढकर, उदाहरण के लिए कुछ टोन पैटर्न और उनके प्रक्षेपवक्र (पॉलीफोनिक वाइस) और टोन (कॉर्ड्स) द्वारा खींची गई ध्वनिक आकृतियों द्वारा उत्पन्न ऑडियो दृश्यों का वर्णन करना हैं। <ref name="Tanguiane1995">{{Cite journal
चूँकि यह सामान्य ऑडियो की मूलभूत विशेषताओं में से है कि इसके साथ बजने वाले अनेक स्रोत भी इसमें सम्मिलित होते हैं, जैसे कि इसमें अनेक म्यूजिक वाद्ययंत्र, वार्तालाप करते व्यक्ति, मशीन की ध्वनि या एनिमल्सों की वाइस़, व्यक्तिगत स्रोतों को पहचानने और भिन्न करने की क्षमता बहुत वांछनीय है। दुर्भाग्य से, ऐसी कोई विधियाँ नहीं हैं जो इस समस्या का दृढ़तापूर्वक समाधान कर सकें। स्रोत पृथक्करण की वर्तमान विधियाँ कभी-कभी [[मल्टी-चैनल रिकॉर्डिंग]] में विभिन्न ऑडियो चैनलों के मध्य सहसंबंध पर निर्भर करती हैं। स्टीरियो सिग्नलों से स्रोतों को भिन्न करने की क्षमता के लिए सामान्यतः संचार में प्रयुक्त होने वाली तकनीकों की तुलना में भिन्न तकनीकों की आवश्यकता होती है जहां अनेक सेंसर उपलब्ध होते हैं। अन्य स्रोत पृथक्करण विधियाँ मोनो रिकॉर्डिंग में सुविधाओं के प्रशिक्षण या क्लस्टरिंग पर निर्भर करती हैं, जैसे मल्टी पिच डिटेक्शन के लिए हार्मोनिक रूप से संबंधित आंशिक ट्रैकिंग होती हैं। कुछ विधियाँ, स्पष्ट पहचान से पूर्व, संरचनाओं को समझे बिना डेटा में संरचनाओं को प्रकट करने पर विश्वास करती हैं (जैसे अमूर्त चित्रों में वस्तुओं को सार्थक लेबल दिए बिना पहचानना) कम से कम सम्मिश्र डेटा प्रतिनिधित्व खोजकर , उदाहरण के लिए कुछ टोन पैटर्न और उनके प्रक्षेपवक्र (पॉलीफोनिक वाइस) और टोन (कॉर्ड्स) द्वारा खींची गई ध्वनिक आकृतियों द्वारा उत्पन्न ऑडियो दृश्यों का वर्णन करना हैं। <ref name="Tanguiane1995">{{Cite journal
|last=Tanguiane (Tangian)|first=Andranick |year=1995
|last=Tanguiane (Tangian)|first=Andranick |year=1995
|title= Towards axiomatization of music perception
|title= Towards axiomatization of music perception
|journal= Journal of New Music Research|volume=24|issue=3|pages=247–281  
|journal= Journal of New Music Research|volume=24|issue=3|pages=247–281  
|doi = 10.1080/09298219508570685 }}</ref>
|doi = 10.1080/09298219508570685 }}</ref>
 
=== ऑडिटरी कॉग्निशन ===
 
म्यूजिक और सामान्य ऑडियो सुनना सामान्यतः कोई कार्य-निर्देशित गतिविधि नहीं है। व्यक्ति विभिन्न कम समझे जाने वाले कारणों से म्यूजिक का आनंद लेते हैं, जिन्हें सामान्यतः अपेक्षाओं के निर्माण और उनकी प्राप्ति या उल्लंघन के कारण [[संगीत और भावना|म्यूजिक और भावना]] के रूप में संदर्भित किया जाता है। एनिमल्स ध्वनियों में खतरे के संकेतों पर ध्यान देते हैं, जो आश्चर्यजनक और अप्रत्याशित परिवर्तन की विशिष्ट या सामान्य धारणाएं हो सकती हैं। सामान्यतः, यह ऐसी स्थिति उत्पन्न करता है जहां कंप्यूटर ऑडिशन केवल विशिष्ट विशेषताओं या ध्वनि गुणों का पता लगाने पर विश्वास नहीं कर सकता है और परिवर्तित श्रवण वातावरण को अनुकूलित करने और इसकी संरचना को मॉनिटर करने के लिए इसको सामान्य विधियों के साथ आना पड़ता है। इसमें नवीकरण का पता लगाने के लिए ऑडियो में बड़े परिवर्तन और आत्म-समानता संरचनाओं का विश्लेषण सम्मिलित है, और इसके साथ ही इसमें स्थानीय फीचर गतिशीलता का पूर्वानुमान करने की क्षमता भी सम्मिलित है।
=== श्रवण संज्ञान ===
संगीत और सामान्य ऑडियो सुनना सामान्यतः कोई कार्य-निर्देशित गतिविधि नहीं है। लोग विभिन्न कम समझे जाने वाले कारणों से संगीत का आनंद लेते हैं, जिन्हें सामान्यतः अपेक्षाओं के निर्माण और उनकी प्राप्ति या उल्लंघन के कारण [[संगीत और भावना]] के रूप में संदर्भित किया जाता है। एनिमल्स ध्वनियों में खतरे के संकेतों पर ध्यान देते हैं, जो आश्चर्यजनक और अप्रत्याशित परिवर्तन की विशिष्ट या सामान्य धारणाएं हो सकती हैं। सामान्यतः, यह ऐसी स्थिति उत्पन्न करता है जहां कंप्यूटर ऑडिशन केवल विशिष्ट विशेषताओं या ध्वनि गुणों का पता लगाने पर विश्वास नहीं कर सकता है और परिवर्तित श्रवण वातावरण को अनुकूलित करने और इसकी संरचना की मॉनिटर करने के लिए इसकी सामान्य विधियों के साथ आना पड़ता है। इसमें नवाचार का पता लगाने के लिए ऑडियो में बड़े परिवर्तन और आत्म-समानता संरचनाओं का विश्लेषण सम्मिलित है, और इसके साथ ही स्थानीय फीचर गतिशीलता का पूर्वानुमान करने की क्षमता भी सम्मिलित है।


=== मल्टी-मोडल विश्लेषण ===
=== मल्टी-मोडल विश्लेषण ===
संगीत का वर्णन करने के लिए उपलब्ध डेटा में, पाठ्य प्रस्तुतिकरण हैं, जैसे लाइनर नोट्स, समीक्षाएं और आलोचनाएं जो शब्दों में ऑडियो सामग्री का वर्णन करती हैं। अन्य स्तिथियों में मानवीय प्रतिक्रियाएँ जैसे भावनात्मक निर्णय या मनो-शारीरिक माप ऑडियो की सामग्री और संरचना में अंतर्दृष्टि प्रदान कर सकते हैं। कंप्यूटर ऑडिशन ऑडियो सामग्री की अतिरिक्त समझ प्रदान करने के लिए इन विभिन्न प्रतिनिधित्व के मध्य संबंध खोजने का प्रयास करता है।
म्यूजिक का वर्णन करने के लिए उपलब्ध डेटा में, पाठ्य प्रस्तुतिकरण होते हैं, जैसे लाइनर नोट्स, समीक्षाएं और आलोचनाएं जो शब्दों में ऑडियो कंटेंट का वर्णन करती हैं। अन्य स्तिथियों में मानवीय प्रतिक्रियाएँ जैसे भावनात्मक निर्णय या मनो-शारीरिक माप ऑडियो की कंटेंट और संरचना में अंतर्दृष्टि प्रदान कर सकते हैं। कंप्यूटर ऑडिशन ऑडियो कंटेंट के अतिरिक्त समझ प्रदान करने के लिए इन विभिन्न प्रतिनिधित्व के मध्य संबंध खोजने का प्रयास करता है।


==यह भी देखें==
==यह भी देखें==
* [[3डी ध्वनि स्थानीयकरण]]
* [[3डी ध्वनि स्थानीयकरण]]
* [[ऑडियो सिग्नल प्रोसेसिंग]]
* [[ऑडियो सिग्नल प्रोसेसिंग]]
* [[उभरती प्रौद्योगिकियों की सूची]]
* [[उभरती प्रौद्योगिकियों की सूची|इमर्जिंग टेक्नोलॉजी की सूची]]
* [[मेडिकल इंटेलिजेंस और भाषा इंजीनियरिंग प्रयोगशाला|मेडिकल इंटेलिजेंस और लैंग्वेज इंजीनियरिंग लैब]]
* [[मेडिकल इंटेलिजेंस और भाषा इंजीनियरिंग प्रयोगशाला|मेडिकल इंटेलिजेंस और लैंग्वेज इंजीनियरिंग लैब]]
* [[संगीत और कृत्रिम बुद्धि]]
* [[संगीत और कृत्रिम बुद्धि|म्यूजिक और आर्टिफीसियल इन्टेलीजेंसर]]
*[[ध्वनि पहचान]]
*[[ध्वनि पहचान|साउंड रिकग्निशन]]  


==बाहरी संबंध==
==बाहरी संबंध==
Line 77: Line 75:
==संदर्भ==
==संदर्भ==
{{Reflist}}
{{Reflist}}
{{Computer audition}}[[Category: कृत्रिम होशियारी]] [[Category: अंकीय संकेत प्रक्रिया]]
{{Computer audition}}
 
 


[[Category: Machine Translated Page]]
[[Category:Collapse templates]]
[[Category:Created On 27/07/2023]]
[[Category:Created On 27/07/2023]]
[[Category:Machine Translated Page]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages with script errors]]
[[Category:Sidebars with styles needing conversion]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates generating microformats]]
[[Category:Templates that are not mobile friendly]]
[[Category:Templates using TemplateData]]
[[Category:Wikipedia metatemplates]]
[[Category:अंकीय संकेत प्रक्रिया]]
[[Category:कृत्रिम होशियारी]]

Latest revision as of 18:54, 21 August 2023

कंप्यूटर ऑडिशन (सीए) या मशीन लिसनिंग मशीनों द्वारा ऑडियो व्याख्या के लिए एल्गोरिदम और यह सिस्टम के अध्ययन का सामान्य क्षेत्र है। [1][2] चूँकि किसी मशीन के "सुनने" के अर्थ की धारणा बहुत व्यापक और कुछ सीमा तक अस्पष्ट होते है, कंप्यूटर ऑडिशन अनेक विषयों को साथ लाने का प्रयास करता है जो मूल रूप से विशिष्ट समस्याओं से निपटते हैं या किसी ठोस अनुप्रयोग को ध्यान में रखते हैं। टेक्नॉलॉजी रिव्यू में इंटरव्यू लेने वाले इंजीनियर पेरिस स्मार्गडिस इन सिस्टम के बारे में बात करते हैं — "सॉफ़्टवेयर जो कमरों में घूम रहे व्यक्तिों का पता लगाने के लिए ध्वनि का उपयोग करता है, यह इममिनेन्ट ब्रेकडाउन के लिए मशीनरी को मॉनिटर करता हैं, यह दुर्घटनाओं को रिकॉर्ड करने के लिए ट्रैफ़िक कैमरों को सक्रिय करने के लिए ध्वनि का उपयोग करता है।" [3]

ह्यूमन (ऑडिशन) के मॉडल से प्रेरित होकर, सीए कंप्यूटर द्वारा ऑडियो और म्यूजिक संकेतों पर इंटेलीजेंट ऑपरेशन्स करने के उद्देश्य से प्रतिनिधित्व, ट्रांसडक्शन, समूहीकरण, म्यूजिक ज्ञान के उपयोग और सामान्य ध्वनि शब्दार्थ के प्रश्नों से निपटता है। तकनीकी रूप से इसके लिए सिग्नल प्रोसेसिंग, ऑडिटरी मॉडलिंग, म्यूजिक परसेप्शन और कॉग्निटिव, पैटर्न रिकग्निशन और मशीन लर्निंग के क्षेत्रों के विधियों के संयोजन की आवश्यकता होती है, इसके साथ ही म्यूजिक ज्ञान प्रतिनिधित्व के लिए आर्टिफिशियल इंटेलिजेंस के अधिक पारंपरिक विधियों की भी आवश्यकता होती है।[4] [5]

अनुप्रयोग

कंप्यूटर विजन बनाम इमेज प्रोसेसिंग के अनुसार, कंप्यूटर ऑडिशन बनाम ऑडियो इंजीनियरिंग प्रोसेसिंग के अतिरिक्त ऑडियो की समझ से संबंधित है। यह वाक् पहचान की समस्याओं से भी भिन्न होते है क्योंकि यह सामान्य ऑडियो संकेतों, जैसे प्राकृतिक ध्वनियों और म्यूजिक रिकॉर्डिंग से संबंधित होते है।

कंप्यूटर ऑडिशन के अनुप्रयोग व्यापक रूप से भिन्न हैं, और इसमें ध्वनियों की खोज, म्यूजिक शैली पहचान, ध्वनिक निगरानी, ​​​​म्यूजिक प्रतिलेखन, स्कोर अनुसरण, ऑडियो टेक्सचर, म्यूजिक इम्प्रोविजिशन, ऑडियो इमोशन आदि सम्मिलित होते हैं।

संबंधित अनुशासन

कंप्यूटर ऑडिशन निम्नलिखित विषयों के साथ ओवरलैप होता है

  • म्यूजिक इनफार्मेशन रिट्रीवल: म्यूजिक संकेतों के मध्य समानता की खोज और विश्लेषण की विधियाँ होती हैं।
  • ऑडिटरी सीन एनालिसिस : ऑडियो स्रोतों और घटनाओं की समझ और विवरण हैं।
  • कम्प्यूटेशनल म्यूजिकोलोजि: और गणितीय म्यूजिक सिद्धांत: एल्गोरिदम का उपयोग जो म्यूजिक डेटा के विश्लेषण के लिए म्यूजिक ज्ञान को नियोजित करता है।
  • कंप्यूटर म्यूजिक : रचनात्मक म्यूजिक अनुप्रयोगों में कंप्यूटर का उपयोग होता हैं।
  • मशीन म्यूजिशियनशिप: ऑडिशन संचालित इंटरैक्टिव म्यूजिक सिस्टम हैं।

अध्ययन के क्षेत्र

चूंकि ऑडियो संकेतों की व्याख्या मानव ईयर-ब्रेन सिस्टम द्वारा की जाती है, इसलिए उस सम्मिश्र अवधारणात्मक तंत्र को मशीन सुनने के लिए सॉफ़्टवेयर में किसी प्रकार से अनुकरण किया जाना चाहिए। दूसरे शब्दों में, ह्यूमन्स के सामान्य प्रदर्शन करने के लिए, कंप्यूटर को ह्यूमन्स के अनुसार ही ऑडियो कंटेंट को सुनना और समझना चाहिए। ऑडियो का स्पष्ट विश्लेषण करने के लिए इसमें अनेक क्षेत्र सम्मिलित होते हैं | इलेक्ट्रिकल इंजीनियरिंग (स्पेक्ट्रम एनालिसिस, फ़िल्टरिंग और ऑडियो ट्रांसफ़ॉर्म) होता हैं | आर्टिफिशियल इंटेलिजेंस (मशीन लर्निंग और साउंड क्लासिफिकेशन) होता हैं | [6] इसमें मनोध्वनिकी (ध्वनि धारणा), संज्ञानात्मक विज्ञान (तंत्रिका विज्ञान और आर्टिफिशियल इंटेलिजेंस) भी सम्मिलित हैं | [7] यह ध्वनिकी (ध्वनि उत्पादन की भौतिकी) हैं | और इसमें म्यूजिक (सद्भाव, लय और समय) होते हैं। इसके अतिरिक्त, यह ऑडियो परिवर्तन जैसे कि पिच शिफ्टिंग, टाइम स्ट्रेचिंग और साउंड ऑब्जेक्ट फ़िल्टरिंग, अवधारणात्मक और म्यूजिक की दृष्टि से सार्थक होने चाहिए। सर्वोत्तम परिणामों के लिए, इन परिवर्तनों के लिए वर्णक्रमीय मॉडल, उच्च-स्तरीय सुविधा निष्कर्षण और ध्वनि विश्लेषण/संश्लेषण की अवधारणात्मक समझ की आवश्यकता होती है। अंत में, ऑडियो फ़ाइल (ध्वनि और मेटाडेटा) की कंटेंट संरचना और कोडिंग कुशल संपीड़न योजनाओं से लाभान्वित हो सकती है, जो ध्वनि में अश्रव्य सूचना को हटा देती है। [8] म्यूजिक और ध्वनि धारणा और अनुभूति के कम्प्यूटेशनल मॉडल अधिक सार्थक प्रतिनिधित्व, अधिक सरल डिजिटल परिचालन और संगीतमय मानव-मशीन इंटरफेस में ध्वनि और म्यूजिक की जनरेशन को उत्पन्न कर सकते हैं।

सीए के अध्ययन को सामान्यतःनिम्नलिखित उप-समस्याओं में विभाजित किया जा सकता है |

  1. प्रतिनिधित्व: सांकेतिक एवं सांकेतिक. यह पूर्व पैटर्न प्लेबैक और ऑडियो टेक्सचर सहित नोट्स और वर्णक्रमीय मॉडल दोनों के संदर्भ में समय-आवृत्ति प्रतिनिधित्व से संबंधित है।
  2. फ़ीचर निष्कर्षण: ध्वनि विवरणक, विभाजन, प्रारंभ में, पिच और एनवलप का डिटेक्टर डिटेक्शन, क्रोमा और श्रवण प्रतिनिधित्व हैं।
  3. म्यूजिक ज्ञान संरचनाएं: स्वर, लय और सामंजस्य का विश्लेषण हैं।
  4. ध्वनि समानता: ध्वनियों, ध्वनि पहचान, नवीनता का पता लगाने, विभाजन और क्लस्टरिंग के मध्य तुलना करने की विधियाँ हैं।
  5. अनुक्रम मॉडलिंग: मैचिंग और नोट अनुक्रमों के मध्य मिलान और संरेखण हैं।
  6. स्रोत पृथक्करण: अनेक ध्वनियों को समूहीकृत करने की विधियाँ, जैसे मल्टीपल पिच डिटेक्शन और समय-आवृत्ति क्लस्टरिंग विधियाँ हैं।
  7. श्रवण संज्ञान: भावनाओं का मॉडलिंग, प्रत्याशा और परिचितता, श्रवण आश्चर्य, और म्यूजिक संरचना का विश्लेषण हैं।
  8. मल्टीमॉडल इंटरेक्शन मल्टी-मोडल विश्लेषण: पाठ्य, दृश्य और श्रव्य संकेतों के मध्य कॉरेस्पोंडेंस खोजना हैं।

प्रतिनिधित्व विवादों

कंप्यूटर ऑडिशन उन ऑडियो संकेतों से संबंधित है जिन्हें दो या दो से अधिक चैनलों में डिजिटल ऑडियो के सीधे एन्कोडिंग से लेकर प्रतीकात्मक रूप से प्रस्तुत संश्लेषण निर्देशों तक विभिन्न प्रकार से प्रस्तुत किया जा सकता है। ऑडियो सिग्नल सामान्यतः एनालॉग रिकॉर्डिंग या डिजिटल डाटा रिकॉर्डिंग के रूप में दर्शाए जाते हैं। डिजिटल रिकॉर्डिंग ध्वनिक तरंग या ऑडियो कॉम्प्रेशन (डेटा) एल्गोरिदम के मापदंडों के प्रतिरूप होते हैं। म्यूजिक संकेतों के अद्वितीय गुणों में से यह है कि वह प्रायः विभिन्न प्रकार के प्रतिनिधित्व को जोड़ते हैं, जैसे ग्राफिकल स्कोर और प्रदर्शन क्रियाओं के अनुक्रम जो मिडी फ़ाइलों के रूप में एन्कोड किए जाते हैं।

चूंकि ऑडियो सिग्नल में सामान्यतः अनेक ध्वनि स्रोत सम्मिलित होते हैं, तब स्पीच सिग्नल के विपरीत जिन्हें विशिष्ट मॉडल (जैसे स्रोत-फ़िल्टर मॉडल) के संदर्भ में कुशलतापूर्वक वर्णित किया जा सकता है, सामान्य ऑडियो के लिए पैरामीटर प्रतिनिधित्व को तैयार करना कठिन है। पैरामीट्रिक ऑडियो प्रतिनिधित्व सामान्यतः अनेक ध्वनि मापदंडों को पकड़ने के लिए फ़िल्टर बैंक या साइनसॉइडल एकल मॉडल का उपयोग करते हैं, कभी-कभी यह सिग्नल में आंतरिक संरचना को पकड़ने के लिए प्रतिनिधित्व आकार को बढ़ाते हैं। इसमें अतिरिक्त प्रकार के डेटा जो कंप्यूटर ऑडिशन के लिए प्रासंगिक हैं, वह ऑडियो कंटेंट के टेक्स्टूअल विवरण हैं, जैसे एनोटेशन, समीक्षाएं और ऑडियो-विज़ुअल रिकॉर्डिंग की स्थितियों में दृश्य सूचना होती हैं।

विशेषताएँ

सामान्य ऑडियो सिग्नलों की कंटेंट के विवरण के लिए सामान्यतः उन विशेषताओं के निष्कर्षण की आवश्यकता होती है जो ऑडियो सिग्नल के विशिष्ट तथ्यों को पकड़ते हैं। सामान्यतः बोलते हुए, कोई विशेषताओं को सिग्नल या गणितीय विवरणकों में विभाजित कर सकता है जैसे इसमें ऊर्जा, वर्णक्रमीय आकार का विवरण आदि, सांख्यिकीय लक्षण वर्णन जैसे परिवर्तन या नवीनता का पता लगाना हैं, इसमें विशेष प्रतिनिधित्व जो म्यूजिक संकेतों या श्रवण सिस्टम की प्रकृति के लिए उत्तम अनुकूलित होते हैं, जैसे आवृत्ति या ऑक्टेव इनवेरिएंस (क्रोमा) में संवेदनशीलता (बैंडविड्थ (सिग्नल प्रोसेसिंग)) की लॉगरिदमिक वृद्धि होती हैं।

चूंकि ऑडियो में पैरामीट्रिक मॉडल को सामान्यतः अधिक पैरामीटर की आवश्यकता होती है, इसलिए सुविधाओं का उपयोग अधिक कॉम्पैक्ट या प्रमुख प्रतिनिधित्व में अनेक पैरामीटर के गुणों को सारांशित करने के लिए किया जाता है।

म्यूजिक ज्ञान

म्यूजिक ज्ञान के साथ-साथ पर्यवेक्षित और गैर-पर्यवेक्षित मशीन सीखने के विधियों का उपयोग करके विशिष्ट म्यूजिक संरचनाएं खोजना संभव है। इसके उदाहरणों में म्यूजिक के मापदंडो में नोट्स की घटना के पैटर्न के अनुरूप आवृत्तियों के वितरण के अनुसार टोनलिटी का पता लगाना, बीट संरचना का पता लगाने के लिए नोट प्रारंभ समय का वितरण, म्यूजिक तारों का पता लगाने के लिए विभिन्न आवृत्तियों में ऊर्जा का वितरण इत्यादि सम्मिलित हैं।

ध्वनि समानता और अनुक्रम मॉडलिंग

ध्वनियों की तुलना समय के संदर्भ के साथ या उसके बिना भी विशेषताओं की तुलना करके की जा सकती है। कुछ स्तिथियों में दो ध्वनियों के मध्य विशेषताओं के समीप मूल्यों से समग्र समानता का आकलन किया जा सकता है। अन्य स्तिथियों में जब लौकिक संरचना महत्वपूर्ण होती है, तब ध्वनिक घटनाओं के विभिन्न लौकिक मापदंडो को सही करने के लिए गतिशील समय परिवर्तन के विधियों को प्रयुक्त करने की आवश्यकता होती है। टेक्सचर सिंथेसिस और मशीन इमप्रोवेशन जैसे कार्यों के लिए ध्वनि घटनाओं की पुनरावृत्ति और उनके समान उप-अनुक्रम खोजना महत्वपूर्ण है।

स्रोत पृथक्करण

चूँकि यह सामान्य ऑडियो की मूलभूत विशेषताओं में से है कि इसके साथ बजने वाले अनेक स्रोत भी इसमें सम्मिलित होते हैं, जैसे कि इसमें अनेक म्यूजिक वाद्ययंत्र, वार्तालाप करते व्यक्ति, मशीन की ध्वनि या एनिमल्सों की वाइस़, व्यक्तिगत स्रोतों को पहचानने और भिन्न करने की क्षमता बहुत वांछनीय है। दुर्भाग्य से, ऐसी कोई विधियाँ नहीं हैं जो इस समस्या का दृढ़तापूर्वक समाधान कर सकें। स्रोत पृथक्करण की वर्तमान विधियाँ कभी-कभी मल्टी-चैनल रिकॉर्डिंग में विभिन्न ऑडियो चैनलों के मध्य सहसंबंध पर निर्भर करती हैं। स्टीरियो सिग्नलों से स्रोतों को भिन्न करने की क्षमता के लिए सामान्यतः संचार में प्रयुक्त होने वाली तकनीकों की तुलना में भिन्न तकनीकों की आवश्यकता होती है जहां अनेक सेंसर उपलब्ध होते हैं। अन्य स्रोत पृथक्करण विधियाँ मोनो रिकॉर्डिंग में सुविधाओं के प्रशिक्षण या क्लस्टरिंग पर निर्भर करती हैं, जैसे मल्टी पिच डिटेक्शन के लिए हार्मोनिक रूप से संबंधित आंशिक ट्रैकिंग होती हैं। कुछ विधियाँ, स्पष्ट पहचान से पूर्व, संरचनाओं को समझे बिना डेटा में संरचनाओं को प्रकट करने पर विश्वास करती हैं (जैसे अमूर्त चित्रों में वस्तुओं को सार्थक लेबल दिए बिना पहचानना) कम से कम सम्मिश्र डेटा प्रतिनिधित्व खोजकर , उदाहरण के लिए कुछ टोन पैटर्न और उनके प्रक्षेपवक्र (पॉलीफोनिक वाइस) और टोन (कॉर्ड्स) द्वारा खींची गई ध्वनिक आकृतियों द्वारा उत्पन्न ऑडियो दृश्यों का वर्णन करना हैं। [9]

ऑडिटरी कॉग्निशन

म्यूजिक और सामान्य ऑडियो सुनना सामान्यतः कोई कार्य-निर्देशित गतिविधि नहीं है। व्यक्ति विभिन्न कम समझे जाने वाले कारणों से म्यूजिक का आनंद लेते हैं, जिन्हें सामान्यतः अपेक्षाओं के निर्माण और उनकी प्राप्ति या उल्लंघन के कारण म्यूजिक और भावना के रूप में संदर्भित किया जाता है। एनिमल्स ध्वनियों में खतरे के संकेतों पर ध्यान देते हैं, जो आश्चर्यजनक और अप्रत्याशित परिवर्तन की विशिष्ट या सामान्य धारणाएं हो सकती हैं। सामान्यतः, यह ऐसी स्थिति उत्पन्न करता है जहां कंप्यूटर ऑडिशन केवल विशिष्ट विशेषताओं या ध्वनि गुणों का पता लगाने पर विश्वास नहीं कर सकता है और परिवर्तित श्रवण वातावरण को अनुकूलित करने और इसकी संरचना को मॉनिटर करने के लिए इसको सामान्य विधियों के साथ आना पड़ता है। इसमें नवीकरण का पता लगाने के लिए ऑडियो में बड़े परिवर्तन और आत्म-समानता संरचनाओं का विश्लेषण सम्मिलित है, और इसके साथ ही इसमें स्थानीय फीचर गतिशीलता का पूर्वानुमान करने की क्षमता भी सम्मिलित है।

मल्टी-मोडल विश्लेषण

म्यूजिक का वर्णन करने के लिए उपलब्ध डेटा में, पाठ्य प्रस्तुतिकरण होते हैं, जैसे लाइनर नोट्स, समीक्षाएं और आलोचनाएं जो शब्दों में ऑडियो कंटेंट का वर्णन करती हैं। अन्य स्तिथियों में मानवीय प्रतिक्रियाएँ जैसे भावनात्मक निर्णय या मनो-शारीरिक माप ऑडियो की कंटेंट और संरचना में अंतर्दृष्टि प्रदान कर सकते हैं। कंप्यूटर ऑडिशन ऑडियो कंटेंट के अतिरिक्त समझ प्रदान करने के लिए इन विभिन्न प्रतिनिधित्व के मध्य संबंध खोजने का प्रयास करता है।

यह भी देखें

बाहरी संबंध


संदर्भ

  1. Machine Audition: Principles, Algorithms and Systems. IGI Global. 2011. ISBN 9781615209194.
  2. "Machine Audition: Principles, Algorithms and Systems" (PDF).
  3. Paris Smaragdis taught computers how to play more life-like music
  4. Tanguiane (Tangian), Andranick (1993). कृत्रिम धारणा और संगीत पहचान. Lecture Notes in Artificial Intelligence. Vol. 746. Berlin-Heidelberg: Springer. ISBN 978-3-540-57394-4.
  5. Tanguiane (Tanguiane), Andranick (1994). "धारणा की सहसंबंधता का एक सिद्धांत और संगीत पहचान के लिए इसका अनुप्रयोग". Music Perception. 11 (4): 465–502. doi:10.2307/40285634. JSTOR 40285634.
  6. Kelly, Daniel; Caulfield, Brian (Feb 2015). "Pervasive Sound Sensing: A Weakly Supervised Training Approach". IEEE Transactions on Cybernetics. 46 (1): 123–135. doi:10.1109/TCYB.2015.2396291. hdl:10197/6853. PMID 25675471. S2CID 16042016.
  7. Hendrik Purwins, Perfecto Herrera, Maarten Grachten, Amaury Hazan, Ricard Marxer, and Xavier Serra. Computational models of music perception and cognition I: The perceptual and cognitive processing chain. Physics of Life Reviews, vol. 5, no. 3, pp. 151-168, 2008. [1]
  8. Machine Listening Course Webpage at MIT
  9. Tanguiane (Tangian), Andranick (1995). "Towards axiomatization of music perception". Journal of New Music Research. 24 (3): 247–281. doi:10.1080/09298219508570685.