ध्वनिक फिंगरप्रिंट: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(4 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{short description|Condensed digital summary generated from an audio signal}}
{{short description|Condensed digital summary generated from an audio signal}}
{{for|acoustic emissions of ships and submarines|Acoustic signature}}ध्वनिक फ़िंगरप्रिंट संघनित डिजिटल सारांश, [[फ़िंगरप्रिंट (कंप्यूटिंग)]], [[ ऑडियो संकेत | ऑडियो संकेत]] से उत्पन्न [[नियतात्मक एल्गोरिथ्म]] है, जिसका उपयोग ऑडियो नमूने की पहचान करने या [[संगीत डेटाबेस]] में समान वस्तुओं का शीघ्र पता लगाने के लिए किया जा सकता है।<ref>ISO IEC TR 21000-11 (2004), ''Multimedia framework (MPEG-21) -- Part 11: Evaluation Tools for Persistent Association Technologies''</ref>
{{for|जहाजों और पनडुब्बियों का ध्वनिक उत्सर्जन|ध्वनिक हस्ताक्षर}}
ध्वनिक फ़िंगरप्रिंटिंग के व्यावहारिक उपयोग में गाने, [[ राग | राग]] , ट्यून (लोक संगीत) या विज्ञापन की पहचान करना शामिल है; ध्वनि प्रभाव पुस्तकालय प्रबंधन; और [[डिजिटल वीडियो]] पहचान। ध्वनिक फिंगरप्रिंट का उपयोग कर मीडिया पहचान का उपयोग [[रेडियो प्रसारण]], [[एल्बम]], [[सीडी]], [[स्ट्रीमिंग मीडिया]] और पीयर-टू-पीयर नेटवर्क पर विशिष्ट संगीत कार्यों और प्रदर्शनों के उपयोग की निगरानी के लिए किया जा सकता है। इस पहचान का उपयोग कॉपीराइट अनुपालन, लाइसेंसिंग और अन्य [[मुद्रीकरण]] योजनाओं में किया गया है।
 
ध्वनिक फ़िंगरप्रिंट, संघनित डिजिटल सारांश है, [[फ़िंगरप्रिंट (कंप्यूटिंग)]], [[ ऑडियो संकेत |ऑडियो संकेत]] से उत्पन्न [[नियतात्मक एल्गोरिथ्म|नियतात्मक कलनविधि]] है, जिसका उपयोग ऑडियो नमूने की पहचान करने या [[संगीत डेटाबेस|ऑडियो डेटाबेस]] में समान वस्तुओं का शीघ्रता से पता लगाने के लिए किया जा सकता है।<ref>ISO IEC TR 21000-11 (2004), ''Multimedia framework (MPEG-21) -- Part 11: Evaluation Tools for Persistent Association Technologies''</ref>
 
ध्वनिक फ़िंगरप्रिंटिंग के व्यावहारिक उपयोग में गीतों, [[ राग |रागों]] , धुनों (लोक संगीत) या विज्ञापनों की पहचान, ध्वनि प्रभाव पुस्तकालय प्रबंधन और [[डिजिटल वीडियो]] पहचान करना सम्मिलित है। ध्वनिक फिंगरप्रिंट का उपयोग कर मीडिया पहचान का उपयोग [[रेडियो प्रसारण]], [[एल्बम]], [[सीडी]], [[स्ट्रीमिंग मीडिया]] और पीयर-टू-पीयर नेटवर्क पर विशिष्ट संगीत कार्यों और प्रदर्शनों के उपयोग की देखभाल के लिए किया जा सकता है। इस पहचान का उपयोग कॉपीराइट अनुपालन, लाइसेंसिंग और अन्य [[मुद्रीकरण]] योजनाओं में किया गया है।




Line 7: Line 10:
== गुण ==
== गुण ==


मजबूत ध्वनिक फिंगरप्रिंट एल्गोरिदम को ऑडियो की अवधारणात्मक विशेषताओं को ध्यान में रखना चाहिए। यदि दो फाइलें मानव कान के लिए समान ध्वनि करती हैं, तो उनके ध्वनिक फिंगरप्रिंट का मिलान होना चाहिए, भले ही उनके द्विआधारी प्रतिनिधित्व काफी भिन्न हों। ध्वनिक फिंगरप्रिंट [[हैश फंकशन]] नहीं हैं, जो डेटा में किसी भी छोटे बदलाव के प्रति संवेदनशील होना चाहिए। ध्वनिक फ़िंगरप्रिंट मानव फ़िंगरप्रिंट के अधिक अनुरूप होते हैं जहां छोटे बदलाव जो फ़िंगरप्रिंट उपयोग की जाने वाली सुविधाओं के लिए महत्वहीन हैं, को सहन किया जाता है। कोई भी मानव अंगुलियों के धब्बेदार निशान के मामले की कल्पना कर सकता है जिसे संदर्भ डेटाबेस में किसी अन्य फिंगरप्रिंट नमूने से सटीक रूप से मिलान किया जा सकता है; ध्वनिक उंगलियों के निशान इसी तरह काम करते हैं।
दृढ़ ध्वनिक फिंगरप्रिंट कलनविधि को ऑडियो की अवधारणात्मक विशेषताओं को ध्यान में रखना चाहिए। यदि दो फाइलें मानव कान के लिए समान ध्वनि करती हैं, तो उनके ध्वनिक फिंगरप्रिंट का मिलान होना चाहिए, तथापि उनके द्विआधारी प्रतिनिधित्व अत्यधिक भिन्न हों। ध्वनिक फिंगरप्रिंट [[हैश फंकशन|हैश फलन]] नहीं हैं, जो डेटा में किसी भी छोटे परिवर्तन के प्रति संवेदनशील होना चाहिए। ध्वनिक फ़िंगरप्रिंट मानव फ़िंगरप्रिंट के अधिक अनुरूप होते हैं, जहां छोटे परिवर्तन जो फ़िंगरप्रिंट उपयोग की जाने वाली सुविधाओं के लिए महत्वहीन हैं, उनको सहन किया जाता है। मानव फिंगरप्रिंट छाप की स्थिति की कल्पना कर सकते हैं, जो संदर्भ डेटाबेस ध्वनिक फिंगरप्रिंट की समान विधि से कार्य करने वाले किसी अन्य फिंगरप्रिंट नमूने से स्पष्ट रूप से मेल खा सकता है।


ऑडियो फ़िंगरप्रिंट द्वारा अक्सर उपयोग की जाने वाली अवधारणात्मक विशेषताओं में औसत शून्य क्रॉसिंग दर, अनुमानित गति, औसत [[ऑडियो स्पेक्ट्रम]], वर्णक्रमीय सपाटता, [[आवृत्ति बैंड]] के सेट में प्रमुख स्वर और [[बैंडविड्थ (सिग्नल प्रोसेसिंग)]] शामिल हैं।
ऑडियो फ़िंगरप्रिंट द्वारा अधिकांशतः उपयोग की जाने वाली अवधारणात्मक विशेषताओं में औसत शून्य क्रॉसिंग दर, अनुमानित गति, औसत [[ऑडियो स्पेक्ट्रम]], वर्णक्रमीय समतलता, [[आवृत्ति बैंड]] के सेट में प्रमुख स्वर और [[बैंडविड्थ (सिग्नल प्रोसेसिंग)]] सम्मिलित हैं।


अधिकांश [[ऑडियो डेटा संपीड़न]] तकनीक मानव कान द्वारा महसूस किए जाने वाले तरीके को मौलिक रूप से प्रभावित किए बिना, ऑडियो फ़ाइल के बाइनरी एन्कोडिंग में आमूल-चूल परिवर्तन करेगी। मजबूत ध्वनिक फिंगरप्रिंट रिकॉर्डिंग को इस तरह के संपीड़न से गुजरने के बाद पहचानने की अनुमति देगा, भले ही ऑडियो गुणवत्ता काफी कम हो गई हो। [[रेडियो प्रसारण]] निगरानी में उपयोग के लिए, ध्वनिक फिंगरप्रिंट भी एनालॉग [[ संकेत संचरण ]] आर्टिफैक्ट के प्रति असंवेदनशील होना चाहिए।
अधिकांश [[ऑडियो डेटा संपीड़न|ऑडियो डेटा कम्प्रेशन]] तकनीकें मानव कान द्वारा अनुभव की जाने वाली विधि को मौलिक रूप से प्रभावित किए बिना, ऑडियो फ़ाइल के बाइनरी एन्कोडिंग में आमूल-चूल परिवर्तन करेगी। दृढ़ ध्वनिक फिंगरप्रिंट रिकॉर्डिंग को इस तरह के संपीड़न से निकलने के बाद पहचानने की अनुमति देगा, तथापि ऑडियो गुणवत्ता अत्यधिक कम हो गई हो। [[रेडियो प्रसारण]] देखभाल में उपयोग के लिए, ध्वनिक फिंगरप्रिंट भी एनालॉग [[ संकेत संचरण |ट्रांसमिशन]] आर्टिफैक्ट के प्रति असंवेदनशील होना चाहिए।


== [[ spectrogram ]] ==
== [[ spectrogram | स्पेक्ट्रोग्राम]] ==
ध्वनि द्वारा खोज के लिए ऑडियो से हस्ताक्षर उत्पन्न करना आवश्यक है। सामान्य तकनीक समय-आवृत्ति ग्राफ बना रही है जिसे स्पेक्ट्रोग्राम कहा जाता है।
ध्वनि द्वारा खोजने के लिए ऑडियो से हस्ताक्षर उत्पन्न करना आवश्यक है। सामान्य तकनीक समय-आवृत्ति ग्राफ बना रही है जिसे स्पेक्ट्रोग्राम कहा जाता है।


ऑडियो के किसी भी टुकड़े का स्पेक्ट्रोग्राम में अनुवाद किया जा सकता है। ऑडियो का प्रत्येक भाग समय के साथ कुछ खंडों में विभाजित हो जाता है। कुछ मामलों में आसन्न खंड सामान्य समय सीमा साझा करते हैं, अन्य मामलों में आसन्न खंड ओवरलैप हो सकते हैं। परिणाम ग्राफ है जो ऑडियो के तीन आयामों को प्लॉट करता है: आवृत्ति बनाम आयाम (तीव्रता) बनाम समय।
ऑडियो के किसी भी टुकड़े का स्पेक्ट्रोग्राम में अनुवाद किया जा सकता है। ऑडियो का प्रत्येक भाग समय के साथ कुछ खंडों में विभाजित हो जाता है। कुछ स्थितियों में आसन्न खंड सामान्य समय सीमा साझा करते हैं, अन्य स्थितियों में आसन्न खंड ओवरलैप हो सकते हैं। परिणाम ग्राफ है, जो ऑडियो के तीन आयामों आवृत्ति के विपरीत आयाम (तीव्रता) के विपरीत समय को प्लॉट करता है।


== शाज़म ==
== शाज़म ==
शाज़म (एप्लीकेशन) का एल्गोरिदम उन बिंदुओं को चुनता है जहां स्पेक्ट्रोग्राम में चोटियां होती हैं जो उच्च ऊर्जा सामग्री का प्रतिनिधित्व करती हैं।<ref>{{cite web|last1=Surdu|first1=Nicolae|title=How does Shazam work to recognize a song?|url=http://www.soyoucode.com/2011/how-does-shazam-recognize-song|accessdate=12 February 2018|archiveurl=https://web.archive.org/web/20161024115723/http://www.soyoucode.com/2011/how-does-shazam-recognize-song|archivedate=2016-10-24|date=January 20, 2011}}</ref> ऑडियो में चोटियों पर ध्यान केंद्रित करने से ऑडियो पहचान पर पृष्ठभूमि शोर का प्रभाव बहुत कम हो जाता है। शाज़म अपने फ़िंगरप्रिंट कैटलॉग को [[ हैश तालिका ]] के रूप में बनाता है, जहाँ कुंजी फ़्रीक्वेंसी है। वे स्पेक्ट्रोग्राम में केवल एक बिंदु को चिह्नित नहीं करते हैं, बल्कि वे बिंदुओं की एक जोड़ी को चिह्नित करते हैं: चरम तीव्रता और दूसरा एंकर बिंदु।<ref>{{citation |author=Li-Chun Wang, Avery |title=An Industrial-Strength Audio Search Algorithm |publisher=Columbia University |url=http://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf |access-date=2018-04-02}}</ref> तो उनकी डेटाबेस कुंजी केवल आवृत्ति नहीं है, यह दोनों बिंदुओं की आवृत्तियों का हैश है। इससे हैश तालिका के प्रदर्शन में सुधार के लिए कम हैश टकराव होता है।<ref>{{cite web |title=शाज़म कैसे काम करता है|date=10 January 2009 |url=http://laplacian.wordpress.com/2009/01/10/how-shazam-works/ |access-date=2018-04-02}}</ref>
शाज़म (अनुप्रयोग) की कलनविधि उन बिंदुओं को चुनती है, जहां स्पेक्ट्रोग्राम में शिखर होते हैं, जो उच्च ऊर्जा सामग्री का प्रतिनिधित्व करते हैं।<ref>{{cite web|last1=Surdu|first1=Nicolae|title=How does Shazam work to recognize a song?|url=http://www.soyoucode.com/2011/how-does-shazam-recognize-song|accessdate=12 February 2018|archiveurl=https://web.archive.org/web/20161024115723/http://www.soyoucode.com/2011/how-does-shazam-recognize-song|archivedate=2016-10-24|date=January 20, 2011}}</ref> ऑडियो में शिखरों पर ध्यान केंद्रित करने से ऑडियो पहचान पर पृष्ठभूमि ध्वनि का प्रभाव बहुत कम हो जाता है। शाज़म अपने फ़िंगरप्रिंट कैटलॉग को [[ हैश तालिका |हैश तालिका]] के रूप में बनाता है, जहाँ कुंजी आवृत्ति है। वे स्पेक्ट्रोग्राम में केवल एक बिंदु को चिह्नित नहीं करते हैं, बल्कि वे बिंदुओं की एक जोड़ी चरम तीव्रता और दूसरा एंकर बिंदु को चिह्नित करते हैं।<ref>{{citation |author=Li-Chun Wang, Avery |title=An Industrial-Strength Audio Search Algorithm |publisher=Columbia University |url=http://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf |access-date=2018-04-02}}</ref> तो उनकी डेटाबेस कुंजी केवल आवृत्ति नहीं है, यह दोनों बिंदुओं की आवृत्तियों का हैश है। इससे हैश तालिका के प्रदर्शन में संशोधन के लिए कम हैश टकराव होता है।<ref>{{cite web |title=शाज़म कैसे काम करता है|date=10 January 2009 |url=http://laplacian.wordpress.com/2009/01/10/how-shazam-works/ |access-date=2018-04-02}}</ref>




Line 41: Line 44:


{{Computer audition}}
{{Computer audition}}
[[Category: ध्वनिक फिंगरप्रिंटिंग | ध्वनिक फिंगरप्रिंटिंग ]] [[Category: फ़िंगरप्रिंटिंग एल्गोरिदम]]
 


[[ca:Empremta digital multimèdia]]
[[ca:Empremta digital multimèdia]]


 
[[Category:Articles with hatnote templates targeting a nonexistent page]]
 
[[Category:Collapse templates]]
[[Category: Machine Translated Page]]
[[Category:Created On 12/05/2023]]
[[Category:Created On 12/05/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages with script errors]]
[[Category:Sidebars with styles needing conversion]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates generating microformats]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that are not mobile friendly]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:Wikipedia metatemplates]]
[[Category:ध्वनिक फिंगरप्रिंटिंग| ध्वनिक फिंगरप्रिंटिंग ]]
[[Category:फ़िंगरप्रिंटिंग एल्गोरिदम]]

Latest revision as of 10:04, 22 May 2023

ध्वनिक फ़िंगरप्रिंट, संघनित डिजिटल सारांश है, फ़िंगरप्रिंट (कंप्यूटिंग), ऑडियो संकेत से उत्पन्न नियतात्मक कलनविधि है, जिसका उपयोग ऑडियो नमूने की पहचान करने या ऑडियो डेटाबेस में समान वस्तुओं का शीघ्रता से पता लगाने के लिए किया जा सकता है।[1]

ध्वनिक फ़िंगरप्रिंटिंग के व्यावहारिक उपयोग में गीतों, रागों , धुनों (लोक संगीत) या विज्ञापनों की पहचान, ध्वनि प्रभाव पुस्तकालय प्रबंधन और डिजिटल वीडियो पहचान करना सम्मिलित है। ध्वनिक फिंगरप्रिंट का उपयोग कर मीडिया पहचान का उपयोग रेडियो प्रसारण, एल्बम, सीडी, स्ट्रीमिंग मीडिया और पीयर-टू-पीयर नेटवर्क पर विशिष्ट संगीत कार्यों और प्रदर्शनों के उपयोग की देखभाल के लिए किया जा सकता है। इस पहचान का उपयोग कॉपीराइट अनुपालन, लाइसेंसिंग और अन्य मुद्रीकरण योजनाओं में किया गया है।


गुण

दृढ़ ध्वनिक फिंगरप्रिंट कलनविधि को ऑडियो की अवधारणात्मक विशेषताओं को ध्यान में रखना चाहिए। यदि दो फाइलें मानव कान के लिए समान ध्वनि करती हैं, तो उनके ध्वनिक फिंगरप्रिंट का मिलान होना चाहिए, तथापि उनके द्विआधारी प्रतिनिधित्व अत्यधिक भिन्न हों। ध्वनिक फिंगरप्रिंट हैश फलन नहीं हैं, जो डेटा में किसी भी छोटे परिवर्तन के प्रति संवेदनशील होना चाहिए। ध्वनिक फ़िंगरप्रिंट मानव फ़िंगरप्रिंट के अधिक अनुरूप होते हैं, जहां छोटे परिवर्तन जो फ़िंगरप्रिंट उपयोग की जाने वाली सुविधाओं के लिए महत्वहीन हैं, उनको सहन किया जाता है। मानव फिंगरप्रिंट छाप की स्थिति की कल्पना कर सकते हैं, जो संदर्भ डेटाबेस ध्वनिक फिंगरप्रिंट की समान विधि से कार्य करने वाले किसी अन्य फिंगरप्रिंट नमूने से स्पष्ट रूप से मेल खा सकता है।

ऑडियो फ़िंगरप्रिंट द्वारा अधिकांशतः उपयोग की जाने वाली अवधारणात्मक विशेषताओं में औसत शून्य क्रॉसिंग दर, अनुमानित गति, औसत ऑडियो स्पेक्ट्रम, वर्णक्रमीय समतलता, आवृत्ति बैंड के सेट में प्रमुख स्वर और बैंडविड्थ (सिग्नल प्रोसेसिंग) सम्मिलित हैं।

अधिकांश ऑडियो डेटा कम्प्रेशन तकनीकें मानव कान द्वारा अनुभव की जाने वाली विधि को मौलिक रूप से प्रभावित किए बिना, ऑडियो फ़ाइल के बाइनरी एन्कोडिंग में आमूल-चूल परिवर्तन करेगी। दृढ़ ध्वनिक फिंगरप्रिंट रिकॉर्डिंग को इस तरह के संपीड़न से निकलने के बाद पहचानने की अनुमति देगा, तथापि ऑडियो गुणवत्ता अत्यधिक कम हो गई हो। रेडियो प्रसारण देखभाल में उपयोग के लिए, ध्वनिक फिंगरप्रिंट भी एनालॉग ट्रांसमिशन आर्टिफैक्ट के प्रति असंवेदनशील होना चाहिए।

स्पेक्ट्रोग्राम

ध्वनि द्वारा खोजने के लिए ऑडियो से हस्ताक्षर उत्पन्न करना आवश्यक है। सामान्य तकनीक समय-आवृत्ति ग्राफ बना रही है जिसे स्पेक्ट्रोग्राम कहा जाता है।

ऑडियो के किसी भी टुकड़े का स्पेक्ट्रोग्राम में अनुवाद किया जा सकता है। ऑडियो का प्रत्येक भाग समय के साथ कुछ खंडों में विभाजित हो जाता है। कुछ स्थितियों में आसन्न खंड सामान्य समय सीमा साझा करते हैं, अन्य स्थितियों में आसन्न खंड ओवरलैप हो सकते हैं। परिणाम ग्राफ है, जो ऑडियो के तीन आयामों आवृत्ति के विपरीत आयाम (तीव्रता) के विपरीत समय को प्लॉट करता है।

शाज़म

शाज़म (अनुप्रयोग) की कलनविधि उन बिंदुओं को चुनती है, जहां स्पेक्ट्रोग्राम में शिखर होते हैं, जो उच्च ऊर्जा सामग्री का प्रतिनिधित्व करते हैं।[2] ऑडियो में शिखरों पर ध्यान केंद्रित करने से ऑडियो पहचान पर पृष्ठभूमि ध्वनि का प्रभाव बहुत कम हो जाता है। शाज़म अपने फ़िंगरप्रिंट कैटलॉग को हैश तालिका के रूप में बनाता है, जहाँ कुंजी आवृत्ति है। वे स्पेक्ट्रोग्राम में केवल एक बिंदु को चिह्नित नहीं करते हैं, बल्कि वे बिंदुओं की एक जोड़ी चरम तीव्रता और दूसरा एंकर बिंदु को चिह्नित करते हैं।[3] तो उनकी डेटाबेस कुंजी केवल आवृत्ति नहीं है, यह दोनों बिंदुओं की आवृत्तियों का हैश है। इससे हैश तालिका के प्रदर्शन में संशोधन के लिए कम हैश टकराव होता है।[4]


यह भी देखें

संदर्भ

  1. ISO IEC TR 21000-11 (2004), Multimedia framework (MPEG-21) -- Part 11: Evaluation Tools for Persistent Association Technologies
  2. Surdu, Nicolae (January 20, 2011). "How does Shazam work to recognize a song?". Archived from the original on 2016-10-24. Retrieved 12 February 2018.
  3. Li-Chun Wang, Avery, An Industrial-Strength Audio Search Algorithm (PDF), Columbia University, retrieved 2018-04-02
  4. "शाज़म कैसे काम करता है". 10 January 2009. Retrieved 2018-04-02.


बाहरी संबंध