कंप्यूटर ऑडिशन: Difference between revisions
No edit summary |
No edit summary |
||
Line 1: | Line 1: | ||
कंप्यूटर ऑडिशन (सीए) या मशीन लिसनिंग मशीनों द्वारा ऑडियो व्याख्या के लिए [[कलन विधि]] और सिस्टम के अध्ययन का सामान्य क्षेत्र है।<ref>{{cite book|url= http://www.igi-global.com/book/machine-audition-principles-algorithms-systems/40288|title= Machine Audition: Principles, Algorithms and Systems |year= 2011 |publisher= IGI Global |isbn= 9781615209194 }}</ref><ref>{{cite web|url= http://epubs.surrey.ac.uk/596085/1/Wang_Preface_MA_2010.pdf |title= Machine Audition: Principles, Algorithms and Systems}}</ref> चूँकि किसी मशीन के सुनने के अर्थ की धारणा बहुत व्यापक और कुछ | '''कंप्यूटर ऑडिशन''' (सीए) या मशीन लिसनिंग मशीनों द्वारा ऑडियो व्याख्या के लिए [[कलन विधि|एल्गोरिदम]] और सिस्टम के अध्ययन का सामान्य क्षेत्र है।<ref>{{cite book|url= http://www.igi-global.com/book/machine-audition-principles-algorithms-systems/40288|title= Machine Audition: Principles, Algorithms and Systems |year= 2011 |publisher= IGI Global |isbn= 9781615209194 }}</ref><ref>{{cite web|url= http://epubs.surrey.ac.uk/596085/1/Wang_Preface_MA_2010.pdf |title= Machine Audition: Principles, Algorithms and Systems}}</ref> चूँकि किसी मशीन के "सुनने" के अर्थ की धारणा बहुत व्यापक और कुछ सीमा तक अस्पष्ट होते है, कंप्यूटर ऑडिशन अनेक विषयों को साथ लाने का प्रयास करता है जो मूल रूप से विशिष्ट समस्याओं से निपटते हैं या किसी ठोस अनुप्रयोग को ध्यान में रखते हैं। [[एमआईटी प्रौद्योगिकी समीक्षा|टेक्नॉलॉजी रिव्यू]] में इंटरव्यू लेने वाले इंजीनियर [[पेरिस स्मार्गडिस]] इन प्रणालियों के बारे में बात करते हैं {{--}} "सॉफ़्टवेयर जो कमरों में घूम रहे लोगों का पता लगाने के लिए ध्वनि का उपयोग करता है, इममिनेन्ट ब्रेकडाउन के लिए मशीनरी को मॉनिटर करता हैं, यह दुर्घटनाओं को रिकॉर्ड करने के लिए ट्रैफ़िक कैमरों को सक्रिय करने के लिए ध्वनि का उपयोग करता है।" <ref>[http://www.technologyreview.com/blog/VideoPosts.aspx?id=17438 Paris Smaragdis taught computers how to play more life-like music]</ref> | ||
[[श्रवण (भावना)|ह्यूमन (ऑडिशन)]] के मॉडल से प्रेरित होकर, सीए कंप्यूटर द्वारा ऑडियो और संगीत संकेतों पर बुद्धिमान संचालन करने के उद्देश्य से प्रतिनिधित्व, ट्रांसडक्शन [[ यंत्र अधिगम |ट्रांसडक्शन]], समूहीकरण, संगीत ज्ञान के उपयोग और सामान्य ध्वनि [[ यंत्र अधिगम |शब्दार्थ]] के प्रश्नों से निपटता है। तकनीकी रूप से इसके लिए [[ संकेत आगे बढ़ाना |सिग्नल प्रोसेसिंग]], [[श्रवण मॉडलिंग|ऑडिटरी मॉडलिंग]], संगीत धारणा और [[अनुभूति|कॉग्निटिव, पैटर्न रिकग्निशन]] और [[अनुभूति|मशीन लर्निंग]] के क्षेत्रों के तरीकों के संयोजन की आवश्यकता होती है, साथ ही संगीत ज्ञान प्रतिनिधित्व के लिए [[अनुभूति|आर्टिफिशियल इंटेलिजेंस]] के अधिक पारंपरिक तरीकों की भी आवश्यकता होती है।<ref name="Tanguiane1993">{{Cite book|last=Tanguiane (Tangian) |first=Andranick |date=1993|title= कृत्रिम धारणा और संगीत पहचान|series= Lecture Notes in Artificial Intelligence|volume=746|publisher=Springer |location=Berlin-Heidelberg|isbn=978-3-540-57394-4}}</ref> <ref name="Tangian1994">{{Cite journal |last=Tanguiane (Tanguiane)|first=Andranick |year=1994|title= धारणा की सहसंबंधता का एक सिद्धांत और संगीत पहचान के लिए इसका अनुप्रयोग|journal= Music Perception|volume=11 |issue=4 |pages=465–502|doi= 10.2307/40285634 |jstor=40285634 }}</ref> | |||
== अनुप्रयोग == | == अनुप्रयोग == | ||
[[कंप्यूटर दृष्टि]] बनाम इमेज प्रोसेसिंग की तरह, कंप्यूटर ऑडिशन बनाम ऑडियो इंजीनियरिंग प्रोसेसिंग के | [[कंप्यूटर दृष्टि|कंप्यूटर विजन]] बनाम इमेज प्रोसेसिंग की तरह, कंप्यूटर ऑडिशन बनाम ऑडियो इंजीनियरिंग प्रोसेसिंग के अतिरिक्त ऑडियो की समझ से संबंधित है। यह [[वाक् पहचान]] की समस्याओं से भी भिन्न है क्योंकि यह सामान्य ऑडियो संकेतों, जैसे प्राकृतिक ध्वनियों और संगीत रिकॉर्डिंग से संबंधित होते है। | ||
कंप्यूटर ऑडिशन के अनुप्रयोग व्यापक रूप से भिन्न हैं, और इसमें ध्वनियों की खोज, [[संगीत शैली]] पहचान, ध्वनिक निगरानी, [[संगीत प्रतिलेखन]], स्कोर अनुसरण, [[ऑडियो बनावट]], [[संगीत सुधार]], [[भाषण भावना पहचान]] आदि | कंप्यूटर ऑडिशन के अनुप्रयोग व्यापक रूप से भिन्न हैं, और इसमें ध्वनियों की खोज, [[संगीत शैली]] पहचान, ध्वनिक निगरानी, [[संगीत प्रतिलेखन]], स्कोर अनुसरण, [[ऑडियो बनावट|ऑडियो टेक्सचर]], [[संगीत सुधार|म्यूजिक इम्प्रोविजिशन]], [[भाषण भावना पहचान|ऑडियो इमोशन]] आदि सम्मिलित होते हैं। | ||
== संबंधित अनुशासन == | == संबंधित अनुशासन == | ||
कंप्यूटर ऑडिशन निम्नलिखित विषयों के साथ ओवरलैप होता है | कंप्यूटर ऑडिशन निम्नलिखित विषयों के साथ ओवरलैप होता है | ||
* [[संगीत सूचना पुनर्प्राप्ति]]: संगीत संकेतों के | * [[संगीत सूचना पुनर्प्राप्ति]]: संगीत संकेतों के मध्य समानता की खोज और विश्लेषण की विधियाँ होती हैं। | ||
* [[श्रवण दृश्य विश्लेषण]]: ऑडियो स्रोतों और घटनाओं की समझ और | * [[श्रवण दृश्य विश्लेषण]]: ऑडियो स्रोतों और घटनाओं की समझ और विवरण हैं। | ||
* कम्प्यूटेशनल संगीतशास्त्र और गणितीय संगीत सिद्धांत: एल्गोरिदम का उपयोग जो संगीत डेटा के विश्लेषण के लिए संगीत ज्ञान को नियोजित करता है। | * कम्प्यूटेशनल संगीतशास्त्र और गणितीय संगीत सिद्धांत: एल्गोरिदम का उपयोग जो संगीत डेटा के विश्लेषण के लिए संगीत ज्ञान को नियोजित करता है। | ||
* [[कंप्यूटर संगीत]]: रचनात्मक संगीत अनुप्रयोगों में कंप्यूटर का | * [[कंप्यूटर संगीत]]: रचनात्मक संगीत अनुप्रयोगों में कंप्यूटर का उपयोग होता हैं। | ||
* मशीन म्यूजिशियनशिप: ऑडिशन संचालित इंटरैक्टिव म्यूजिक | * मशीन म्यूजिशियनशिप: ऑडिशन संचालित इंटरैक्टिव म्यूजिक सिस्टम हैं। | ||
==अध्ययन के क्षेत्र== | ==अध्ययन के क्षेत्र== | ||
चूंकि ऑडियो संकेतों की व्याख्या मानव | चूंकि ऑडियो संकेतों की व्याख्या मानव ईयर-ब्रेन सिस्टम द्वारा की जाती है, इसलिए उस सम्मिश्र अवधारणात्मक तंत्र को मशीन सुनने के लिए सॉफ़्टवेयर में किसी प्रकार से अनुकरण किया जाना चाहिए। दूसरे शब्दों में, ह्यूमन्स के सामान्य प्रदर्शन करने के लिए, कंप्यूटर को ह्यूमन्स के अनुसार ही ऑडियो सामग्री को सुनना और समझना चाहिए। ऑडियो का स्पष्ट विश्लेषण करने के लिए इसमें अनेक क्षेत्र सम्मिलित होते हैं | इलेक्ट्रिकल इंजीनियरिंग (स्पेक्ट्रम एनालिसिस, फ़िल्टरिंग और ऑडियो ट्रांसफ़ॉर्म) होता हैं | आर्टिफिशियल इंटेलिजेंस (मशीन लर्निंग और साउंड क्लासिफिकेशन) हैं | <ref>{{cite journal|last1=Kelly|first1=Daniel|last2=Caulfield|first2=Brian|title=Pervasive Sound Sensing: A Weakly Supervised Training Approach|journal=IEEE Transactions on Cybernetics|volume=46|issue=1|pages=123–135|date=Feb 2015|doi=10.1109/TCYB.2015.2396291|pmid=25675471|hdl=10197/6853|s2cid=16042016 |url=https://pure.ulster.ac.uk/en/publications/pervasive-sound-sensing-a-weakly-supervised-training-approach-3 |hdl-access=free}}</ref> इसमें मनोध्वनिकी (ध्वनि धारणा), संज्ञानात्मक विज्ञान (तंत्रिका विज्ञान और आर्टिफिशियल इंटेलिजेंस) सम्मिलित हैं | <ref>Hendrik Purwins, Perfecto Herrera, Maarten Grachten, Amaury Hazan, Ricard Marxer, and Xavier Serra. Computational models of music perception and cognition I: The perceptual and cognitive processing chain. Physics of Life Reviews, vol. 5, no. 3, pp. 151-168, 2008. [http://www.mtg.upf.edu/node/938]</ref> यह ध्वनिकी (ध्वनि उत्पादन की भौतिकी) हैं | और इसमें संगीत (सद्भाव, लय और समय) होते हैं। इसके अतिरिक्त, ऑडियो परिवर्तन जैसे कि पिच शिफ्टिंग, टाइम स्ट्रेचिंग और साउंड ऑब्जेक्ट फ़िल्टरिंग, अवधारणात्मक और संगीत की दृष्टि से सार्थक होने चाहिए। सर्वोत्तम परिणामों के लिए, इन परिवर्तनों के लिए वर्णक्रमीय मॉडल, उच्च-स्तरीय सुविधा निष्कर्षण और ध्वनि विश्लेषण/संश्लेषण की अवधारणात्मक समझ की आवश्यकता होती है। अंत में, ऑडियो फ़ाइल (ध्वनि और मेटाडेटा) की सामग्री की संरचना और कोडिंग कुशल संपीड़न योजनाओं से लाभान्वित हो सकती है, जो ध्वनि में अश्रव्य सूचना को हटा देती है। <ref>[http://web.media.mit.edu/~tristan/Classes/MAS.945/technical.html Machine Listening Course Webpage at MIT]</ref> संगीत और ध्वनि धारणा और अनुभूति के कम्प्यूटेशनल मॉडल अधिक सार्थक प्रतिनिधित्व, अधिक सरल डिजिटल परिचालन और संगीतमय मानव-मशीन इंटरफेस में ध्वनि और संगीत की जनरेशन को उत्पन्न कर सकते हैं। | ||
सीए के अध्ययन को | सीए के अध्ययन को सामान्यतःनिम्नलिखित उप-समस्याओं में विभाजित किया जा सकता है | | ||
# प्रतिनिधित्व : सांकेतिक एवं सांकेतिक. यह पहलू पैटर्न प्लेबैक और ऑडियो | # प्रतिनिधित्व: सांकेतिक एवं सांकेतिक. यह पहलू पैटर्न प्लेबैक और ऑडियो टेक्सचर सहित नोट्स और वर्णक्रमीय मॉडल दोनों के संदर्भ में समय-आवृत्ति प्रतिनिधित्व से संबंधित है। | ||
# फ़ीचर निष्कर्षण: ध्वनि विवरणक, विभाजन, | # फ़ीचर निष्कर्षण: ध्वनि विवरणक, विभाजन, प्रारंभ, [[पिच का पता लगाने का एल्गोरिदम|पिच और एनवलप का डिटेक्टर डिटेक्शन]], [[पिच क्लास|क्रोमा]] और श्रवण प्रतिनिधित्व हैं। | ||
# संगीत ज्ञान संरचनाएं: स्वर, [[लय]] और सामंजस्य का | # संगीत ज्ञान संरचनाएं: स्वर, [[लय]] और सामंजस्य का विश्लेषण हैं। | ||
# ध्वनि समानता: ध्वनियों, ध्वनि पहचान, नवीनता का पता लगाने, विभाजन और क्लस्टरिंग के | # ध्वनि समानता: ध्वनियों, ध्वनि पहचान, नवीनता का पता लगाने, विभाजन और क्लस्टरिंग के मध्य तुलना करने की विधियाँ हैं। | ||
# अनुक्रम मॉडलिंग: | # अनुक्रम मॉडलिंग: मैचिंग और नोट अनुक्रमों के मध्य मिलान और संरेखण हैं। | ||
# स्रोत पृथक्करण: अनेक ध्वनियों को समूहीकृत करने की विधियाँ, जैसे | # स्रोत पृथक्करण: अनेक ध्वनियों को समूहीकृत करने की विधियाँ, जैसे मल्टीपल पिच डिटेक्शन और समय-आवृत्ति क्लस्टरिंग विधियाँ हैं। | ||
# श्रवण संज्ञान: भावनाओं का मॉडलिंग, प्रत्याशा और परिचितता, श्रवण आश्चर्य, और संगीत संरचना का | # श्रवण संज्ञान: भावनाओं का मॉडलिंग, प्रत्याशा और परिचितता, श्रवण आश्चर्य, और संगीत संरचना का विश्लेषण हैं। | ||
# [[मल्टीमॉडल इंटरेक्शन]] | # [[मल्टीमॉडल इंटरेक्शन]] मल्टी-मोडल विश्लेषण: पाठ्य, दृश्य और श्रव्य संकेतों के मध्य पत्राचार ढूंढना हैं। | ||
=== प्रतिनिधित्व | === प्रतिनिधित्व विवादों === | ||
कंप्यूटर ऑडिशन उन ऑडियो संकेतों से संबंधित है जिन्हें दो या दो से अधिक चैनलों में डिजिटल ऑडियो के सीधे एन्कोडिंग से लेकर प्रतीकात्मक रूप से प्रस्तुत संश्लेषण निर्देशों तक विभिन्न प्रकार से प्रस्तुत किया जा सकता है। ऑडियो सिग्नल | कंप्यूटर ऑडिशन उन ऑडियो संकेतों से संबंधित है जिन्हें दो या दो से अधिक चैनलों में डिजिटल ऑडियो के सीधे एन्कोडिंग से लेकर प्रतीकात्मक रूप से प्रस्तुत संश्लेषण निर्देशों तक विभिन्न प्रकार से प्रस्तुत किया जा सकता है। ऑडियो सिग्नल सामान्यतः [[एनालॉग रिकॉर्डिंग]] या [[डिजिटल डाटा]] रिकॉर्डिंग के रूप में दर्शाए जाते हैं। डिजिटल रिकॉर्डिंग ध्वनिक तरंग या [[ऑडियो संपीड़न (डेटा)]] एल्गोरिदम के मापदंडों के नमूने हैं। संगीत संकेतों के अनूठे गुणों में से यह है कि वे अक्सर विभिन्न प्रकार के अभ्यावेदन को जोड़ते हैं, जैसे ग्राफिकल स्कोर और प्रदर्शन क्रियाओं के अनुक्रम जो [[MIDI]] फ़ाइलों के रूप में एन्कोड किए जाते हैं। | ||
चूंकि ऑडियो सिग्नल में | चूंकि ऑडियो सिग्नल में सामान्यतः अनेक ध्वनि स्रोत सम्मिलित होते हैं, तो भाषण सिग्नल के विपरीत जिन्हें विशिष्ट मॉडल (जैसे स्रोत-फ़िल्टर मॉडल) के संदर्भ में कुशलतापूर्वक वर्णित किया जा सकता है, सामान्य ऑडियो के लिए [[पैरामीटर]] प्रतिनिधित्व तैयार करना कठिन है। पैरामीट्रिक ऑडियो अभ्यावेदन सामान्यतः अनेक ध्वनि मापदंडों को पकड़ने के लिए [[ फ़िल्टर बैंक |फ़िल्टर बैंक]] या [[ साइन लहर |साइन लहर]] ल मॉडल का उपयोग करते हैं, कभी-कभी सिग्नल में आंतरिक संरचना को पकड़ने के लिए प्रतिनिधित्व आकार को बढ़ाते हैं। अतिरिक्त प्रकार के डेटा जो कंप्यूटर ऑडिशन के लिए प्रासंगिक हैं, वे ऑडियो सामग्री के पाठ्य विवरण हैं, जैसे एनोटेशन, समीक्षाएं और ऑडियो-विज़ुअल रिकॉर्डिंग के मामले में दृश्य सूचना। | ||
=== विशेषताएँ === | === विशेषताएँ === | ||
सामान्य ऑडियो सिग्नलों की सामग्री के विवरण के लिए | सामान्य ऑडियो सिग्नलों की सामग्री के विवरण के लिए सामान्यतः उन विशेषताओं के निष्कर्षण की आवश्यकता होती है जो ऑडियो सिग्नल के विशिष्ट पहलुओं को पकड़ते हैं। सामान्यतः बोलते हुए, कोई विशेषताओं को सिग्नल या गणितीय विवरणकों में विभाजित कर सकता है जैसे ऊर्जा, वर्णक्रमीय आकार का विवरण आदि, सांख्यिकीय लक्षण वर्णन जैसे परिवर्तन या नवीनता का पता लगाना, विशेष प्रतिनिधित्व जो संगीत संकेतों या श्रवण प्रणाली की प्रकृति के लिए बेहतर अनुकूलित होते हैं, जैसे आवृत्ति या [[ सप्टक |सप्टक]] इनवेरिएंस (क्रोमा) में संवेदनशीलता ([[बैंडविड्थ (सिग्नल प्रोसेसिंग)]]) की लॉगरिदमिक वृद्धि। | ||
चूंकि ऑडियो में पैरामीट्रिक मॉडल को | चूंकि ऑडियो में पैरामीट्रिक मॉडल को सामान्यतः बहुत सारे पैरामीटर की आवश्यकता होती है, इसलिए सुविधाओं का उपयोग अधिक कॉम्पैक्ट या प्रमुख प्रतिनिधित्व में अनेक पैरामीटर के गुणों को सारांशित करने के लिए किया जाता है। | ||
===संगीत ज्ञान=== | ===संगीत ज्ञान=== | ||
संगीत ज्ञान के साथ-साथ पर्यवेक्षित और गैर-पर्यवेक्षित मशीन सीखने के तरीकों का उपयोग करके विशिष्ट संगीत संरचनाएं ढूंढना संभव है। इसके उदाहरणों में संगीत के पैमाने में नोट्स की घटना के पैटर्न के अनुरूप आवृत्तियों के वितरण के अनुसार टोनलिटी का पता लगाना, बीट संरचना का पता लगाने के लिए नोट | संगीत ज्ञान के साथ-साथ पर्यवेक्षित और गैर-पर्यवेक्षित मशीन सीखने के तरीकों का उपयोग करके विशिष्ट संगीत संरचनाएं ढूंढना संभव है। इसके उदाहरणों में संगीत के पैमाने में नोट्स की घटना के पैटर्न के अनुरूप आवृत्तियों के वितरण के अनुसार टोनलिटी का पता लगाना, बीट संरचना का पता लगाने के लिए नोट प्रारंभ समय का वितरण, संगीत तारों का पता लगाने के लिए विभिन्न आवृत्तियों में ऊर्जा का वितरण इत्यादि सम्मिलित हैं। | ||
=== ध्वनि समानता और अनुक्रम मॉडलिंग === | === ध्वनि समानता और अनुक्रम मॉडलिंग === | ||
ध्वनियों की तुलना समय के संदर्भ के साथ या उसके बिना भी विशेषताओं की तुलना करके की जा सकती है। कुछ मामलों में दो ध्वनियों के | ध्वनियों की तुलना समय के संदर्भ के साथ या उसके बिना भी विशेषताओं की तुलना करके की जा सकती है। कुछ मामलों में दो ध्वनियों के मध्य विशेषताओं के करीबी मूल्यों से समग्र समानता का आकलन किया जा सकता है। अन्य मामलों में जब लौकिक संरचना महत्वपूर्ण होती है, तो ध्वनिक घटनाओं के विभिन्न लौकिक पैमानों को सही करने के लिए गतिशील समय परिवर्तन के तरीकों को लागू करने की आवश्यकता होती है। बनावट संश्लेषण और [[मशीन सुधार]] जैसे कार्यों के लिए ध्वनि घटनाओं की पुनरावृत्ति और समान उप-अनुक्रम ढूंढना महत्वपूर्ण है। | ||
=== स्रोत पृथक्करण === | === स्रोत पृथक्करण === | ||
चूँकि सामान्य ऑडियो की बुनियादी विशेषताओं में से यह है कि इसमें साथ बजने वाले | चूँकि सामान्य ऑडियो की बुनियादी विशेषताओं में से यह है कि इसमें साथ बजने वाले अनेक स्रोत सम्मिलित होते हैं, जैसे कि अनेक संगीत वाद्ययंत्र, बात करते लोग, मशीन का शोर या जानवरों की आवाज़, व्यक्तिगत स्रोतों को पहचानने और अलग करने की क्षमता बहुत वांछनीय है। दुर्भाग्य से, ऐसी कोई विधियाँ नहीं हैं जो इस समस्या को दृढ़तापूर्वक हल कर सकें। स्रोत पृथक्करण की मौजूदा विधियाँ कभी-कभी [[मल्टी-चैनल रिकॉर्डिंग]] में विभिन्न ऑडियो चैनलों के मध्य सहसंबंध पर निर्भर करती हैं। स्टीरियो सिग्नलों से स्रोतों को अलग करने की क्षमता के लिए सामान्यतः संचार में लागू होने वाली तकनीकों की तुलना में अलग तकनीकों की आवश्यकता होती है जहां अनेक सेंसर उपलब्ध होते हैं। अन्य स्रोत पृथक्करण विधियाँ मोनो रिकॉर्डिंग में सुविधाओं के प्रशिक्षण या क्लस्टरिंग पर निर्भर करती हैं, जैसे एकाधिक पिच पहचान के लिए हार्मोनिक रूप से संबंधित आंशिक ट्रैकिंग। कुछ विधियाँ, स्पष्ट पहचान से पहले, संरचनाओं को जाने बिना डेटा में संरचनाओं को प्रकट करने पर भरोसा करती हैं (जैसे अमूर्त चित्रों में वस्तुओं को सार्थक लेबल दिए बिना पहचानना) कम से कम सम्मिश्र डेटा अभ्यावेदन ढूंढकर, उदाहरण के लिए कुछ टोन पैटर्न और उनके प्रक्षेपवक्र (पॉलीफोनिक आवाज) और टोन (कॉर्ड्स) द्वारा खींची गई ध्वनिक आकृतियों द्वारा उत्पन्न ऑडियो दृश्यों का वर्णन करना।<ref name="Tanguiane1995">{{Cite journal | ||
|last=Tanguiane (Tangian)|first=Andranick |year=1995 | |last=Tanguiane (Tangian)|first=Andranick |year=1995 | ||
|title= Towards axiomatization of music perception | |title= Towards axiomatization of music perception | ||
Line 55: | Line 54: | ||
=== श्रवण संज्ञान === | === श्रवण संज्ञान === | ||
संगीत और सामान्य ऑडियो सुनना | संगीत और सामान्य ऑडियो सुनना सामान्यतः कोई कार्य-निर्देशित गतिविधि नहीं है। लोग विभिन्न कम समझे जाने वाले कारणों से संगीत का आनंद लेते हैं, जिन्हें सामान्यतः अपेक्षाओं के निर्माण और उनकी प्राप्ति या उल्लंघन के कारण [[संगीत और भावना]] के रूप में संदर्भित किया जाता है। जानवर ध्वनियों में खतरे के संकेतों पर ध्यान देते हैं, जो आश्चर्यजनक और अप्रत्याशित परिवर्तन की विशिष्ट या सामान्य धारणाएं हो सकती हैं। सामान्यतः, यह ऐसी स्थिति पैदा करता है जहां कंप्यूटर ऑडिशन केवल विशिष्ट विशेषताओं या ध्वनि गुणों का पता लगाने पर भरोसा नहीं कर सकता है और बदलते श्रवण वातावरण को अनुकूलित करने और इसकी संरचना की मॉनिटर के सामान्य तरीकों के साथ आना पड़ता है। इसमें नवाचार का पता लगाने के लिए ऑडियो में बड़े दोहराव और आत्म-समानता संरचनाओं का विश्लेषण सम्मिलित है, साथ ही स्थानीय फीचर गतिशीलता की भविष्यवाणी करने की क्षमता भी सम्मिलित है। | ||
=== मल्टी-मोडल विश्लेषण === | === मल्टी-मोडल विश्लेषण === | ||
संगीत का वर्णन करने के लिए उपलब्ध डेटा में, पाठ्य प्रस्तुतिकरण हैं, जैसे लाइनर नोट्स, समीक्षाएं और आलोचनाएं जो शब्दों में ऑडियो सामग्री का वर्णन करती हैं। अन्य मामलों में मानवीय प्रतिक्रियाएँ जैसे भावनात्मक निर्णय या मनो-शारीरिक माप ऑडियो की सामग्री और संरचना में अंतर्दृष्टि प्रदान कर सकते हैं। कंप्यूटर ऑडिशन ऑडियो सामग्री की अतिरिक्त समझ प्रदान करने के लिए इन विभिन्न अभ्यावेदन के | संगीत का वर्णन करने के लिए उपलब्ध डेटा में, पाठ्य प्रस्तुतिकरण हैं, जैसे लाइनर नोट्स, समीक्षाएं और आलोचनाएं जो शब्दों में ऑडियो सामग्री का वर्णन करती हैं। अन्य मामलों में मानवीय प्रतिक्रियाएँ जैसे भावनात्मक निर्णय या मनो-शारीरिक माप ऑडियो की सामग्री और संरचना में अंतर्दृष्टि प्रदान कर सकते हैं। कंप्यूटर ऑडिशन ऑडियो सामग्री की अतिरिक्त समझ प्रदान करने के लिए इन विभिन्न अभ्यावेदन के मध्य संबंध खोजने का प्रयास करता है। | ||
==यह भी देखें== | ==यह भी देखें== |
Revision as of 11:55, 8 August 2023
कंप्यूटर ऑडिशन (सीए) या मशीन लिसनिंग मशीनों द्वारा ऑडियो व्याख्या के लिए एल्गोरिदम और सिस्टम के अध्ययन का सामान्य क्षेत्र है।[1][2] चूँकि किसी मशीन के "सुनने" के अर्थ की धारणा बहुत व्यापक और कुछ सीमा तक अस्पष्ट होते है, कंप्यूटर ऑडिशन अनेक विषयों को साथ लाने का प्रयास करता है जो मूल रूप से विशिष्ट समस्याओं से निपटते हैं या किसी ठोस अनुप्रयोग को ध्यान में रखते हैं। टेक्नॉलॉजी रिव्यू में इंटरव्यू लेने वाले इंजीनियर पेरिस स्मार्गडिस इन प्रणालियों के बारे में बात करते हैं — "सॉफ़्टवेयर जो कमरों में घूम रहे लोगों का पता लगाने के लिए ध्वनि का उपयोग करता है, इममिनेन्ट ब्रेकडाउन के लिए मशीनरी को मॉनिटर करता हैं, यह दुर्घटनाओं को रिकॉर्ड करने के लिए ट्रैफ़िक कैमरों को सक्रिय करने के लिए ध्वनि का उपयोग करता है।" [3]
ह्यूमन (ऑडिशन) के मॉडल से प्रेरित होकर, सीए कंप्यूटर द्वारा ऑडियो और संगीत संकेतों पर बुद्धिमान संचालन करने के उद्देश्य से प्रतिनिधित्व, ट्रांसडक्शन ट्रांसडक्शन, समूहीकरण, संगीत ज्ञान के उपयोग और सामान्य ध्वनि शब्दार्थ के प्रश्नों से निपटता है। तकनीकी रूप से इसके लिए सिग्नल प्रोसेसिंग, ऑडिटरी मॉडलिंग, संगीत धारणा और कॉग्निटिव, पैटर्न रिकग्निशन और मशीन लर्निंग के क्षेत्रों के तरीकों के संयोजन की आवश्यकता होती है, साथ ही संगीत ज्ञान प्रतिनिधित्व के लिए आर्टिफिशियल इंटेलिजेंस के अधिक पारंपरिक तरीकों की भी आवश्यकता होती है।[4] [5]
अनुप्रयोग
कंप्यूटर विजन बनाम इमेज प्रोसेसिंग की तरह, कंप्यूटर ऑडिशन बनाम ऑडियो इंजीनियरिंग प्रोसेसिंग के अतिरिक्त ऑडियो की समझ से संबंधित है। यह वाक् पहचान की समस्याओं से भी भिन्न है क्योंकि यह सामान्य ऑडियो संकेतों, जैसे प्राकृतिक ध्वनियों और संगीत रिकॉर्डिंग से संबंधित होते है।
कंप्यूटर ऑडिशन के अनुप्रयोग व्यापक रूप से भिन्न हैं, और इसमें ध्वनियों की खोज, संगीत शैली पहचान, ध्वनिक निगरानी, संगीत प्रतिलेखन, स्कोर अनुसरण, ऑडियो टेक्सचर, म्यूजिक इम्प्रोविजिशन, ऑडियो इमोशन आदि सम्मिलित होते हैं।
संबंधित अनुशासन
कंप्यूटर ऑडिशन निम्नलिखित विषयों के साथ ओवरलैप होता है
- संगीत सूचना पुनर्प्राप्ति: संगीत संकेतों के मध्य समानता की खोज और विश्लेषण की विधियाँ होती हैं।
- श्रवण दृश्य विश्लेषण: ऑडियो स्रोतों और घटनाओं की समझ और विवरण हैं।
- कम्प्यूटेशनल संगीतशास्त्र और गणितीय संगीत सिद्धांत: एल्गोरिदम का उपयोग जो संगीत डेटा के विश्लेषण के लिए संगीत ज्ञान को नियोजित करता है।
- कंप्यूटर संगीत: रचनात्मक संगीत अनुप्रयोगों में कंप्यूटर का उपयोग होता हैं।
- मशीन म्यूजिशियनशिप: ऑडिशन संचालित इंटरैक्टिव म्यूजिक सिस्टम हैं।
अध्ययन के क्षेत्र
चूंकि ऑडियो संकेतों की व्याख्या मानव ईयर-ब्रेन सिस्टम द्वारा की जाती है, इसलिए उस सम्मिश्र अवधारणात्मक तंत्र को मशीन सुनने के लिए सॉफ़्टवेयर में किसी प्रकार से अनुकरण किया जाना चाहिए। दूसरे शब्दों में, ह्यूमन्स के सामान्य प्रदर्शन करने के लिए, कंप्यूटर को ह्यूमन्स के अनुसार ही ऑडियो सामग्री को सुनना और समझना चाहिए। ऑडियो का स्पष्ट विश्लेषण करने के लिए इसमें अनेक क्षेत्र सम्मिलित होते हैं | इलेक्ट्रिकल इंजीनियरिंग (स्पेक्ट्रम एनालिसिस, फ़िल्टरिंग और ऑडियो ट्रांसफ़ॉर्म) होता हैं | आर्टिफिशियल इंटेलिजेंस (मशीन लर्निंग और साउंड क्लासिफिकेशन) हैं | [6] इसमें मनोध्वनिकी (ध्वनि धारणा), संज्ञानात्मक विज्ञान (तंत्रिका विज्ञान और आर्टिफिशियल इंटेलिजेंस) सम्मिलित हैं | [7] यह ध्वनिकी (ध्वनि उत्पादन की भौतिकी) हैं | और इसमें संगीत (सद्भाव, लय और समय) होते हैं। इसके अतिरिक्त, ऑडियो परिवर्तन जैसे कि पिच शिफ्टिंग, टाइम स्ट्रेचिंग और साउंड ऑब्जेक्ट फ़िल्टरिंग, अवधारणात्मक और संगीत की दृष्टि से सार्थक होने चाहिए। सर्वोत्तम परिणामों के लिए, इन परिवर्तनों के लिए वर्णक्रमीय मॉडल, उच्च-स्तरीय सुविधा निष्कर्षण और ध्वनि विश्लेषण/संश्लेषण की अवधारणात्मक समझ की आवश्यकता होती है। अंत में, ऑडियो फ़ाइल (ध्वनि और मेटाडेटा) की सामग्री की संरचना और कोडिंग कुशल संपीड़न योजनाओं से लाभान्वित हो सकती है, जो ध्वनि में अश्रव्य सूचना को हटा देती है। [8] संगीत और ध्वनि धारणा और अनुभूति के कम्प्यूटेशनल मॉडल अधिक सार्थक प्रतिनिधित्व, अधिक सरल डिजिटल परिचालन और संगीतमय मानव-मशीन इंटरफेस में ध्वनि और संगीत की जनरेशन को उत्पन्न कर सकते हैं।
सीए के अध्ययन को सामान्यतःनिम्नलिखित उप-समस्याओं में विभाजित किया जा सकता है |
- प्रतिनिधित्व: सांकेतिक एवं सांकेतिक. यह पहलू पैटर्न प्लेबैक और ऑडियो टेक्सचर सहित नोट्स और वर्णक्रमीय मॉडल दोनों के संदर्भ में समय-आवृत्ति प्रतिनिधित्व से संबंधित है।
- फ़ीचर निष्कर्षण: ध्वनि विवरणक, विभाजन, प्रारंभ, पिच और एनवलप का डिटेक्टर डिटेक्शन, क्रोमा और श्रवण प्रतिनिधित्व हैं।
- संगीत ज्ञान संरचनाएं: स्वर, लय और सामंजस्य का विश्लेषण हैं।
- ध्वनि समानता: ध्वनियों, ध्वनि पहचान, नवीनता का पता लगाने, विभाजन और क्लस्टरिंग के मध्य तुलना करने की विधियाँ हैं।
- अनुक्रम मॉडलिंग: मैचिंग और नोट अनुक्रमों के मध्य मिलान और संरेखण हैं।
- स्रोत पृथक्करण: अनेक ध्वनियों को समूहीकृत करने की विधियाँ, जैसे मल्टीपल पिच डिटेक्शन और समय-आवृत्ति क्लस्टरिंग विधियाँ हैं।
- श्रवण संज्ञान: भावनाओं का मॉडलिंग, प्रत्याशा और परिचितता, श्रवण आश्चर्य, और संगीत संरचना का विश्लेषण हैं।
- मल्टीमॉडल इंटरेक्शन मल्टी-मोडल विश्लेषण: पाठ्य, दृश्य और श्रव्य संकेतों के मध्य पत्राचार ढूंढना हैं।
प्रतिनिधित्व विवादों
कंप्यूटर ऑडिशन उन ऑडियो संकेतों से संबंधित है जिन्हें दो या दो से अधिक चैनलों में डिजिटल ऑडियो के सीधे एन्कोडिंग से लेकर प्रतीकात्मक रूप से प्रस्तुत संश्लेषण निर्देशों तक विभिन्न प्रकार से प्रस्तुत किया जा सकता है। ऑडियो सिग्नल सामान्यतः एनालॉग रिकॉर्डिंग या डिजिटल डाटा रिकॉर्डिंग के रूप में दर्शाए जाते हैं। डिजिटल रिकॉर्डिंग ध्वनिक तरंग या ऑडियो संपीड़न (डेटा) एल्गोरिदम के मापदंडों के नमूने हैं। संगीत संकेतों के अनूठे गुणों में से यह है कि वे अक्सर विभिन्न प्रकार के अभ्यावेदन को जोड़ते हैं, जैसे ग्राफिकल स्कोर और प्रदर्शन क्रियाओं के अनुक्रम जो MIDI फ़ाइलों के रूप में एन्कोड किए जाते हैं।
चूंकि ऑडियो सिग्नल में सामान्यतः अनेक ध्वनि स्रोत सम्मिलित होते हैं, तो भाषण सिग्नल के विपरीत जिन्हें विशिष्ट मॉडल (जैसे स्रोत-फ़िल्टर मॉडल) के संदर्भ में कुशलतापूर्वक वर्णित किया जा सकता है, सामान्य ऑडियो के लिए पैरामीटर प्रतिनिधित्व तैयार करना कठिन है। पैरामीट्रिक ऑडियो अभ्यावेदन सामान्यतः अनेक ध्वनि मापदंडों को पकड़ने के लिए फ़िल्टर बैंक या साइन लहर ल मॉडल का उपयोग करते हैं, कभी-कभी सिग्नल में आंतरिक संरचना को पकड़ने के लिए प्रतिनिधित्व आकार को बढ़ाते हैं। अतिरिक्त प्रकार के डेटा जो कंप्यूटर ऑडिशन के लिए प्रासंगिक हैं, वे ऑडियो सामग्री के पाठ्य विवरण हैं, जैसे एनोटेशन, समीक्षाएं और ऑडियो-विज़ुअल रिकॉर्डिंग के मामले में दृश्य सूचना।
विशेषताएँ
सामान्य ऑडियो सिग्नलों की सामग्री के विवरण के लिए सामान्यतः उन विशेषताओं के निष्कर्षण की आवश्यकता होती है जो ऑडियो सिग्नल के विशिष्ट पहलुओं को पकड़ते हैं। सामान्यतः बोलते हुए, कोई विशेषताओं को सिग्नल या गणितीय विवरणकों में विभाजित कर सकता है जैसे ऊर्जा, वर्णक्रमीय आकार का विवरण आदि, सांख्यिकीय लक्षण वर्णन जैसे परिवर्तन या नवीनता का पता लगाना, विशेष प्रतिनिधित्व जो संगीत संकेतों या श्रवण प्रणाली की प्रकृति के लिए बेहतर अनुकूलित होते हैं, जैसे आवृत्ति या सप्टक इनवेरिएंस (क्रोमा) में संवेदनशीलता (बैंडविड्थ (सिग्नल प्रोसेसिंग)) की लॉगरिदमिक वृद्धि।
चूंकि ऑडियो में पैरामीट्रिक मॉडल को सामान्यतः बहुत सारे पैरामीटर की आवश्यकता होती है, इसलिए सुविधाओं का उपयोग अधिक कॉम्पैक्ट या प्रमुख प्रतिनिधित्व में अनेक पैरामीटर के गुणों को सारांशित करने के लिए किया जाता है।
संगीत ज्ञान
संगीत ज्ञान के साथ-साथ पर्यवेक्षित और गैर-पर्यवेक्षित मशीन सीखने के तरीकों का उपयोग करके विशिष्ट संगीत संरचनाएं ढूंढना संभव है। इसके उदाहरणों में संगीत के पैमाने में नोट्स की घटना के पैटर्न के अनुरूप आवृत्तियों के वितरण के अनुसार टोनलिटी का पता लगाना, बीट संरचना का पता लगाने के लिए नोट प्रारंभ समय का वितरण, संगीत तारों का पता लगाने के लिए विभिन्न आवृत्तियों में ऊर्जा का वितरण इत्यादि सम्मिलित हैं।
ध्वनि समानता और अनुक्रम मॉडलिंग
ध्वनियों की तुलना समय के संदर्भ के साथ या उसके बिना भी विशेषताओं की तुलना करके की जा सकती है। कुछ मामलों में दो ध्वनियों के मध्य विशेषताओं के करीबी मूल्यों से समग्र समानता का आकलन किया जा सकता है। अन्य मामलों में जब लौकिक संरचना महत्वपूर्ण होती है, तो ध्वनिक घटनाओं के विभिन्न लौकिक पैमानों को सही करने के लिए गतिशील समय परिवर्तन के तरीकों को लागू करने की आवश्यकता होती है। बनावट संश्लेषण और मशीन सुधार जैसे कार्यों के लिए ध्वनि घटनाओं की पुनरावृत्ति और समान उप-अनुक्रम ढूंढना महत्वपूर्ण है।
स्रोत पृथक्करण
चूँकि सामान्य ऑडियो की बुनियादी विशेषताओं में से यह है कि इसमें साथ बजने वाले अनेक स्रोत सम्मिलित होते हैं, जैसे कि अनेक संगीत वाद्ययंत्र, बात करते लोग, मशीन का शोर या जानवरों की आवाज़, व्यक्तिगत स्रोतों को पहचानने और अलग करने की क्षमता बहुत वांछनीय है। दुर्भाग्य से, ऐसी कोई विधियाँ नहीं हैं जो इस समस्या को दृढ़तापूर्वक हल कर सकें। स्रोत पृथक्करण की मौजूदा विधियाँ कभी-कभी मल्टी-चैनल रिकॉर्डिंग में विभिन्न ऑडियो चैनलों के मध्य सहसंबंध पर निर्भर करती हैं। स्टीरियो सिग्नलों से स्रोतों को अलग करने की क्षमता के लिए सामान्यतः संचार में लागू होने वाली तकनीकों की तुलना में अलग तकनीकों की आवश्यकता होती है जहां अनेक सेंसर उपलब्ध होते हैं। अन्य स्रोत पृथक्करण विधियाँ मोनो रिकॉर्डिंग में सुविधाओं के प्रशिक्षण या क्लस्टरिंग पर निर्भर करती हैं, जैसे एकाधिक पिच पहचान के लिए हार्मोनिक रूप से संबंधित आंशिक ट्रैकिंग। कुछ विधियाँ, स्पष्ट पहचान से पहले, संरचनाओं को जाने बिना डेटा में संरचनाओं को प्रकट करने पर भरोसा करती हैं (जैसे अमूर्त चित्रों में वस्तुओं को सार्थक लेबल दिए बिना पहचानना) कम से कम सम्मिश्र डेटा अभ्यावेदन ढूंढकर, उदाहरण के लिए कुछ टोन पैटर्न और उनके प्रक्षेपवक्र (पॉलीफोनिक आवाज) और टोन (कॉर्ड्स) द्वारा खींची गई ध्वनिक आकृतियों द्वारा उत्पन्न ऑडियो दृश्यों का वर्णन करना।[9]
श्रवण संज्ञान
संगीत और सामान्य ऑडियो सुनना सामान्यतः कोई कार्य-निर्देशित गतिविधि नहीं है। लोग विभिन्न कम समझे जाने वाले कारणों से संगीत का आनंद लेते हैं, जिन्हें सामान्यतः अपेक्षाओं के निर्माण और उनकी प्राप्ति या उल्लंघन के कारण संगीत और भावना के रूप में संदर्भित किया जाता है। जानवर ध्वनियों में खतरे के संकेतों पर ध्यान देते हैं, जो आश्चर्यजनक और अप्रत्याशित परिवर्तन की विशिष्ट या सामान्य धारणाएं हो सकती हैं। सामान्यतः, यह ऐसी स्थिति पैदा करता है जहां कंप्यूटर ऑडिशन केवल विशिष्ट विशेषताओं या ध्वनि गुणों का पता लगाने पर भरोसा नहीं कर सकता है और बदलते श्रवण वातावरण को अनुकूलित करने और इसकी संरचना की मॉनिटर के सामान्य तरीकों के साथ आना पड़ता है। इसमें नवाचार का पता लगाने के लिए ऑडियो में बड़े दोहराव और आत्म-समानता संरचनाओं का विश्लेषण सम्मिलित है, साथ ही स्थानीय फीचर गतिशीलता की भविष्यवाणी करने की क्षमता भी सम्मिलित है।
मल्टी-मोडल विश्लेषण
संगीत का वर्णन करने के लिए उपलब्ध डेटा में, पाठ्य प्रस्तुतिकरण हैं, जैसे लाइनर नोट्स, समीक्षाएं और आलोचनाएं जो शब्दों में ऑडियो सामग्री का वर्णन करती हैं। अन्य मामलों में मानवीय प्रतिक्रियाएँ जैसे भावनात्मक निर्णय या मनो-शारीरिक माप ऑडियो की सामग्री और संरचना में अंतर्दृष्टि प्रदान कर सकते हैं। कंप्यूटर ऑडिशन ऑडियो सामग्री की अतिरिक्त समझ प्रदान करने के लिए इन विभिन्न अभ्यावेदन के मध्य संबंध खोजने का प्रयास करता है।
यह भी देखें
- 3डी ध्वनि स्थानीयकरण
- ऑडियो सिग्नल प्रोसेसिंग
- उभरती प्रौद्योगिकियों की सूची
- मेडिकल इंटेलिजेंस और भाषा इंजीनियरिंग प्रयोगशाला
- संगीत और कृत्रिम बुद्धि
- ध्वनि पहचान
बाहरी संबंध
- UCSD Computer Audition Lab
- George Tzanetakis' Computer Audition Resources
- Shlomo Dubnov's Tutorial on Computer Audition
- Department of Electrical Engineering, IIT (Bangalore)
- Sound and Music Computing, Aalborg University Copenhagen, Denmark
संदर्भ
- ↑ Machine Audition: Principles, Algorithms and Systems. IGI Global. 2011. ISBN 9781615209194.
- ↑ "Machine Audition: Principles, Algorithms and Systems" (PDF).
- ↑ Paris Smaragdis taught computers how to play more life-like music
- ↑ Tanguiane (Tangian), Andranick (1993). कृत्रिम धारणा और संगीत पहचान. Lecture Notes in Artificial Intelligence. Vol. 746. Berlin-Heidelberg: Springer. ISBN 978-3-540-57394-4.
- ↑ Tanguiane (Tanguiane), Andranick (1994). "धारणा की सहसंबंधता का एक सिद्धांत और संगीत पहचान के लिए इसका अनुप्रयोग". Music Perception. 11 (4): 465–502. doi:10.2307/40285634. JSTOR 40285634.
- ↑ Kelly, Daniel; Caulfield, Brian (Feb 2015). "Pervasive Sound Sensing: A Weakly Supervised Training Approach". IEEE Transactions on Cybernetics. 46 (1): 123–135. doi:10.1109/TCYB.2015.2396291. hdl:10197/6853. PMID 25675471. S2CID 16042016.
- ↑ Hendrik Purwins, Perfecto Herrera, Maarten Grachten, Amaury Hazan, Ricard Marxer, and Xavier Serra. Computational models of music perception and cognition I: The perceptual and cognitive processing chain. Physics of Life Reviews, vol. 5, no. 3, pp. 151-168, 2008. [1]
- ↑ Machine Listening Course Webpage at MIT
- ↑ Tanguiane (Tangian), Andranick (1995). "Towards axiomatization of music perception". Journal of New Music Research. 24 (3): 247–281. doi:10.1080/09298219508570685.