ध्वनिक फिंगरप्रिंट: Difference between revisions

From Vigyanwiki
(Created page with "{{short description|Condensed digital summary generated from an audio signal}} {{for|acoustic emissions of ships and submarines|Acoustic signature}} {{refimprove|date=June 201...")
 
No edit summary
Line 1: Line 1:
{{short description|Condensed digital summary generated from an audio signal}}
{{short description|Condensed digital summary generated from an audio signal}}
{{for|acoustic emissions of ships and submarines|Acoustic signature}}
{{for|acoustic emissions of ships and submarines|Acoustic signature}}ध्वनिक फ़िंगरप्रिंट संघनित डिजिटल सारांश, [[फ़िंगरप्रिंट (कंप्यूटिंग)]], [[ ऑडियो संकेत | ऑडियो संकेत]] से उत्पन्न [[नियतात्मक एल्गोरिथ्म]] है, जिसका उपयोग ऑडियो नमूने की पहचान करने या [[संगीत डेटाबेस]] में समान वस्तुओं का शीघ्र पता लगाने के लिए किया जा सकता है।<ref>ISO IEC TR 21000-11 (2004), ''Multimedia framework (MPEG-21) -- Part 11: Evaluation Tools for Persistent Association Technologies''</ref>
{{refimprove|date=June 2011}}
ध्वनिक फ़िंगरप्रिंटिंग के व्यावहारिक उपयोग में गाने, [[ राग | राग]] , ट्यून (लोक संगीत) या विज्ञापन की पहचान करना शामिल है; ध्वनि प्रभाव पुस्तकालय प्रबंधन; और [[डिजिटल वीडियो]] पहचान। ध्वनिक फिंगरप्रिंट का उपयोग कर मीडिया पहचान का उपयोग [[रेडियो प्रसारण]], [[एल्बम]], [[सीडी]], [[स्ट्रीमिंग मीडिया]] और पीयर-टू-पीयर नेटवर्क पर विशिष्ट संगीत कार्यों और प्रदर्शनों के उपयोग की निगरानी के लिए किया जा सकता है। इस पहचान का उपयोग कॉपीराइट अनुपालन, लाइसेंसिंग और अन्य [[मुद्रीकरण]] योजनाओं में किया गया है।


ध्वनिक फ़िंगरप्रिंट एक संघनित डिजिटल सारांश, एक [[फ़िंगरप्रिंट (कंप्यूटिंग)]], एक [[ ऑडियो संकेत ]] से उत्पन्न [[नियतात्मक एल्गोरिथ्म]] है, जिसका उपयोग ऑडियो नमूने की पहचान करने या [[संगीत डेटाबेस]] में समान वस्तुओं का शीघ्र पता लगाने के लिए किया जा सकता है।<ref>ISO IEC TR 21000-11 (2004), ''Multimedia framework (MPEG-21) -- Part 11: Evaluation Tools for Persistent Association Technologies''</ref>
ध्वनिक फ़िंगरप्रिंटिंग के व्यावहारिक उपयोग में गाने, [[ राग ]], ट्यून (लोक संगीत) या विज्ञापन की पहचान करना शामिल है; ध्वनि प्रभाव पुस्तकालय प्रबंधन; और [[डिजिटल वीडियो]] पहचान। ध्वनिक फिंगरप्रिंट का उपयोग कर मीडिया पहचान का उपयोग [[रेडियो प्रसारण]], [[एल्बम]], [[सीडी]], [[स्ट्रीमिंग मीडिया]] और पीयर-टू-पीयर नेटवर्क पर विशिष्ट संगीत कार्यों और प्रदर्शनों के उपयोग की निगरानी के लिए किया जा सकता है। इस पहचान का उपयोग कॉपीराइट अनुपालन, लाइसेंसिंग और अन्य [[मुद्रीकरण]] योजनाओं में किया गया है।<!--Kvng RTH-->




== गुण ==
== गुण ==


एक मजबूत ध्वनिक फिंगरप्रिंट एल्गोरिदम को ऑडियो की अवधारणात्मक विशेषताओं को ध्यान में रखना चाहिए। यदि दो फाइलें मानव कान के लिए समान ध्वनि करती हैं, तो उनके ध्वनिक फिंगरप्रिंट का मिलान होना चाहिए, भले ही उनके द्विआधारी प्रतिनिधित्व काफी भिन्न हों। ध्वनिक फिंगरप्रिंट [[हैश फंकशन]] नहीं हैं, जो डेटा में किसी भी छोटे बदलाव के प्रति संवेदनशील होना चाहिए। ध्वनिक फ़िंगरप्रिंट मानव फ़िंगरप्रिंट के अधिक अनुरूप होते हैं जहां छोटे बदलाव जो फ़िंगरप्रिंट उपयोग की जाने वाली सुविधाओं के लिए महत्वहीन हैं, को सहन किया जाता है। कोई भी मानव अंगुलियों के धब्बेदार निशान के मामले की कल्पना कर सकता है जिसे संदर्भ डेटाबेस में किसी अन्य फिंगरप्रिंट नमूने से सटीक रूप से मिलान किया जा सकता है; ध्वनिक उंगलियों के निशान इसी तरह काम करते हैं।
मजबूत ध्वनिक फिंगरप्रिंट एल्गोरिदम को ऑडियो की अवधारणात्मक विशेषताओं को ध्यान में रखना चाहिए। यदि दो फाइलें मानव कान के लिए समान ध्वनि करती हैं, तो उनके ध्वनिक फिंगरप्रिंट का मिलान होना चाहिए, भले ही उनके द्विआधारी प्रतिनिधित्व काफी भिन्न हों। ध्वनिक फिंगरप्रिंट [[हैश फंकशन]] नहीं हैं, जो डेटा में किसी भी छोटे बदलाव के प्रति संवेदनशील होना चाहिए। ध्वनिक फ़िंगरप्रिंट मानव फ़िंगरप्रिंट के अधिक अनुरूप होते हैं जहां छोटे बदलाव जो फ़िंगरप्रिंट उपयोग की जाने वाली सुविधाओं के लिए महत्वहीन हैं, को सहन किया जाता है। कोई भी मानव अंगुलियों के धब्बेदार निशान के मामले की कल्पना कर सकता है जिसे संदर्भ डेटाबेस में किसी अन्य फिंगरप्रिंट नमूने से सटीक रूप से मिलान किया जा सकता है; ध्वनिक उंगलियों के निशान इसी तरह काम करते हैं।


ऑडियो फ़िंगरप्रिंट द्वारा अक्सर उपयोग की जाने वाली अवधारणात्मक विशेषताओं में औसत शून्य क्रॉसिंग दर, अनुमानित गति, औसत [[ऑडियो स्पेक्ट्रम]], वर्णक्रमीय सपाटता, [[आवृत्ति बैंड]] के एक सेट में प्रमुख स्वर और [[बैंडविड्थ (सिग्नल प्रोसेसिंग)]] शामिल हैं।
ऑडियो फ़िंगरप्रिंट द्वारा अक्सर उपयोग की जाने वाली अवधारणात्मक विशेषताओं में औसत शून्य क्रॉसिंग दर, अनुमानित गति, औसत [[ऑडियो स्पेक्ट्रम]], वर्णक्रमीय सपाटता, [[आवृत्ति बैंड]] के सेट में प्रमुख स्वर और [[बैंडविड्थ (सिग्नल प्रोसेसिंग)]] शामिल हैं।


अधिकांश [[ऑडियो डेटा संपीड़न]] तकनीक मानव कान द्वारा महसूस किए जाने वाले तरीके को मौलिक रूप से प्रभावित किए बिना, ऑडियो फ़ाइल के बाइनरी एन्कोडिंग में आमूल-चूल परिवर्तन करेगी। एक मजबूत ध्वनिक फिंगरप्रिंट एक रिकॉर्डिंग को इस तरह के संपीड़न से गुजरने के बाद पहचानने की अनुमति देगा, भले ही ऑडियो गुणवत्ता काफी कम हो गई हो। [[रेडियो प्रसारण]] निगरानी में उपयोग के लिए, ध्वनिक फिंगरप्रिंट भी एनालॉग [[ संकेत संचरण ]] आर्टिफैक्ट के प्रति असंवेदनशील होना चाहिए।
अधिकांश [[ऑडियो डेटा संपीड़न]] तकनीक मानव कान द्वारा महसूस किए जाने वाले तरीके को मौलिक रूप से प्रभावित किए बिना, ऑडियो फ़ाइल के बाइनरी एन्कोडिंग में आमूल-चूल परिवर्तन करेगी। मजबूत ध्वनिक फिंगरप्रिंट रिकॉर्डिंग को इस तरह के संपीड़न से गुजरने के बाद पहचानने की अनुमति देगा, भले ही ऑडियो गुणवत्ता काफी कम हो गई हो। [[रेडियो प्रसारण]] निगरानी में उपयोग के लिए, ध्वनिक फिंगरप्रिंट भी एनालॉग [[ संकेत संचरण ]] आर्टिफैक्ट के प्रति असंवेदनशील होना चाहिए।


== [[ spectrogram ]] ==
== [[ spectrogram ]] ==
ध्वनि द्वारा खोज के लिए ऑडियो से हस्ताक्षर उत्पन्न करना आवश्यक है। एक सामान्य तकनीक समय-आवृत्ति ग्राफ बना रही है जिसे स्पेक्ट्रोग्राम कहा जाता है।
ध्वनि द्वारा खोज के लिए ऑडियो से हस्ताक्षर उत्पन्न करना आवश्यक है। सामान्य तकनीक समय-आवृत्ति ग्राफ बना रही है जिसे स्पेक्ट्रोग्राम कहा जाता है।


ऑडियो के किसी भी टुकड़े का एक स्पेक्ट्रोग्राम में अनुवाद किया जा सकता है। ऑडियो का प्रत्येक भाग समय के साथ कुछ खंडों में विभाजित हो जाता है। कुछ मामलों में आसन्न खंड एक सामान्य समय सीमा साझा करते हैं, अन्य मामलों में आसन्न खंड ओवरलैप हो सकते हैं। परिणाम एक ग्राफ है जो ऑडियो के तीन आयामों को प्लॉट करता है: आवृत्ति बनाम आयाम (तीव्रता) बनाम समय।
ऑडियो के किसी भी टुकड़े का स्पेक्ट्रोग्राम में अनुवाद किया जा सकता है। ऑडियो का प्रत्येक भाग समय के साथ कुछ खंडों में विभाजित हो जाता है। कुछ मामलों में आसन्न खंड सामान्य समय सीमा साझा करते हैं, अन्य मामलों में आसन्न खंड ओवरलैप हो सकते हैं। परिणाम ग्राफ है जो ऑडियो के तीन आयामों को प्लॉट करता है: आवृत्ति बनाम आयाम (तीव्रता) बनाम समय।


== शाज़म ==
== शाज़म ==
शाज़म (एप्लीकेशन) का एल्गोरिदम उन बिंदुओं को चुनता है जहां स्पेक्ट्रोग्राम में चोटियां होती हैं जो उच्च ऊर्जा सामग्री का प्रतिनिधित्व करती हैं।<ref>{{cite web|last1=Surdu|first1=Nicolae|title=How does Shazam work to recognize a song?|url=http://www.soyoucode.com/2011/how-does-shazam-recognize-song|accessdate=12 February 2018|archiveurl=https://web.archive.org/web/20161024115723/http://www.soyoucode.com/2011/how-does-shazam-recognize-song|archivedate=2016-10-24|date=January 20, 2011}}</ref> ऑडियो में चोटियों पर ध्यान केंद्रित करने से ऑडियो पहचान पर पृष्ठभूमि शोर का प्रभाव बहुत कम हो जाता है। शाज़म अपने फ़िंगरप्रिंट कैटलॉग को [[ हैश तालिका ]] के रूप में बनाता है, जहाँ कुंजी फ़्रीक्वेंसी है। वे स्पेक्ट्रोग्राम में केवल एक बिंदु को चिह्नित नहीं करते हैं, बल्कि वे बिंदुओं की एक जोड़ी को चिह्नित करते हैं: चरम तीव्रता और दूसरा एंकर बिंदु।<ref>{{citation |author=Li-Chun Wang, Avery |title=An Industrial-Strength Audio Search Algorithm |publisher=Columbia University |url=http://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf |access-date=2018-04-02}}</ref> तो उनकी डेटाबेस कुंजी केवल एक आवृत्ति नहीं है, यह दोनों बिंदुओं की आवृत्तियों का हैश है। इससे हैश तालिका के प्रदर्शन में सुधार के लिए कम हैश टकराव होता है।<ref>{{cite web |title=शाज़म कैसे काम करता है|date=10 January 2009 |url=http://laplacian.wordpress.com/2009/01/10/how-shazam-works/ |access-date=2018-04-02}}</ref>
शाज़म (एप्लीकेशन) का एल्गोरिदम उन बिंदुओं को चुनता है जहां स्पेक्ट्रोग्राम में चोटियां होती हैं जो उच्च ऊर्जा सामग्री का प्रतिनिधित्व करती हैं।<ref>{{cite web|last1=Surdu|first1=Nicolae|title=How does Shazam work to recognize a song?|url=http://www.soyoucode.com/2011/how-does-shazam-recognize-song|accessdate=12 February 2018|archiveurl=https://web.archive.org/web/20161024115723/http://www.soyoucode.com/2011/how-does-shazam-recognize-song|archivedate=2016-10-24|date=January 20, 2011}}</ref> ऑडियो में चोटियों पर ध्यान केंद्रित करने से ऑडियो पहचान पर पृष्ठभूमि शोर का प्रभाव बहुत कम हो जाता है। शाज़म अपने फ़िंगरप्रिंट कैटलॉग को [[ हैश तालिका ]] के रूप में बनाता है, जहाँ कुंजी फ़्रीक्वेंसी है। वे स्पेक्ट्रोग्राम में केवल एक बिंदु को चिह्नित नहीं करते हैं, बल्कि वे बिंदुओं की एक जोड़ी को चिह्नित करते हैं: चरम तीव्रता और दूसरा एंकर बिंदु।<ref>{{citation |author=Li-Chun Wang, Avery |title=An Industrial-Strength Audio Search Algorithm |publisher=Columbia University |url=http://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf |access-date=2018-04-02}}</ref> तो उनकी डेटाबेस कुंजी केवल आवृत्ति नहीं है, यह दोनों बिंदुओं की आवृत्तियों का हैश है। इससे हैश तालिका के प्रदर्शन में सुधार के लिए कम हैश टकराव होता है।<ref>{{cite web |title=शाज़म कैसे काम करता है|date=10 January 2009 |url=http://laplacian.wordpress.com/2009/01/10/how-shazam-works/ |access-date=2018-04-02}}</ref>





Revision as of 00:28, 18 May 2023

ध्वनिक फ़िंगरप्रिंट संघनित डिजिटल सारांश, फ़िंगरप्रिंट (कंप्यूटिंग), ऑडियो संकेत से उत्पन्न नियतात्मक एल्गोरिथ्म है, जिसका उपयोग ऑडियो नमूने की पहचान करने या संगीत डेटाबेस में समान वस्तुओं का शीघ्र पता लगाने के लिए किया जा सकता है।[1]

ध्वनिक फ़िंगरप्रिंटिंग के व्यावहारिक उपयोग में गाने, राग , ट्यून (लोक संगीत) या विज्ञापन की पहचान करना शामिल है; ध्वनि प्रभाव पुस्तकालय प्रबंधन; और डिजिटल वीडियो पहचान। ध्वनिक फिंगरप्रिंट का उपयोग कर मीडिया पहचान का उपयोग रेडियो प्रसारण, एल्बम, सीडी, स्ट्रीमिंग मीडिया और पीयर-टू-पीयर नेटवर्क पर विशिष्ट संगीत कार्यों और प्रदर्शनों के उपयोग की निगरानी के लिए किया जा सकता है। इस पहचान का उपयोग कॉपीराइट अनुपालन, लाइसेंसिंग और अन्य मुद्रीकरण योजनाओं में किया गया है।


गुण

मजबूत ध्वनिक फिंगरप्रिंट एल्गोरिदम को ऑडियो की अवधारणात्मक विशेषताओं को ध्यान में रखना चाहिए। यदि दो फाइलें मानव कान के लिए समान ध्वनि करती हैं, तो उनके ध्वनिक फिंगरप्रिंट का मिलान होना चाहिए, भले ही उनके द्विआधारी प्रतिनिधित्व काफी भिन्न हों। ध्वनिक फिंगरप्रिंट हैश फंकशन नहीं हैं, जो डेटा में किसी भी छोटे बदलाव के प्रति संवेदनशील होना चाहिए। ध्वनिक फ़िंगरप्रिंट मानव फ़िंगरप्रिंट के अधिक अनुरूप होते हैं जहां छोटे बदलाव जो फ़िंगरप्रिंट उपयोग की जाने वाली सुविधाओं के लिए महत्वहीन हैं, को सहन किया जाता है। कोई भी मानव अंगुलियों के धब्बेदार निशान के मामले की कल्पना कर सकता है जिसे संदर्भ डेटाबेस में किसी अन्य फिंगरप्रिंट नमूने से सटीक रूप से मिलान किया जा सकता है; ध्वनिक उंगलियों के निशान इसी तरह काम करते हैं।

ऑडियो फ़िंगरप्रिंट द्वारा अक्सर उपयोग की जाने वाली अवधारणात्मक विशेषताओं में औसत शून्य क्रॉसिंग दर, अनुमानित गति, औसत ऑडियो स्पेक्ट्रम, वर्णक्रमीय सपाटता, आवृत्ति बैंड के सेट में प्रमुख स्वर और बैंडविड्थ (सिग्नल प्रोसेसिंग) शामिल हैं।

अधिकांश ऑडियो डेटा संपीड़न तकनीक मानव कान द्वारा महसूस किए जाने वाले तरीके को मौलिक रूप से प्रभावित किए बिना, ऑडियो फ़ाइल के बाइनरी एन्कोडिंग में आमूल-चूल परिवर्तन करेगी। मजबूत ध्वनिक फिंगरप्रिंट रिकॉर्डिंग को इस तरह के संपीड़न से गुजरने के बाद पहचानने की अनुमति देगा, भले ही ऑडियो गुणवत्ता काफी कम हो गई हो। रेडियो प्रसारण निगरानी में उपयोग के लिए, ध्वनिक फिंगरप्रिंट भी एनालॉग संकेत संचरण आर्टिफैक्ट के प्रति असंवेदनशील होना चाहिए।

spectrogram

ध्वनि द्वारा खोज के लिए ऑडियो से हस्ताक्षर उत्पन्न करना आवश्यक है। सामान्य तकनीक समय-आवृत्ति ग्राफ बना रही है जिसे स्पेक्ट्रोग्राम कहा जाता है।

ऑडियो के किसी भी टुकड़े का स्पेक्ट्रोग्राम में अनुवाद किया जा सकता है। ऑडियो का प्रत्येक भाग समय के साथ कुछ खंडों में विभाजित हो जाता है। कुछ मामलों में आसन्न खंड सामान्य समय सीमा साझा करते हैं, अन्य मामलों में आसन्न खंड ओवरलैप हो सकते हैं। परिणाम ग्राफ है जो ऑडियो के तीन आयामों को प्लॉट करता है: आवृत्ति बनाम आयाम (तीव्रता) बनाम समय।

शाज़म

शाज़म (एप्लीकेशन) का एल्गोरिदम उन बिंदुओं को चुनता है जहां स्पेक्ट्रोग्राम में चोटियां होती हैं जो उच्च ऊर्जा सामग्री का प्रतिनिधित्व करती हैं।[2] ऑडियो में चोटियों पर ध्यान केंद्रित करने से ऑडियो पहचान पर पृष्ठभूमि शोर का प्रभाव बहुत कम हो जाता है। शाज़म अपने फ़िंगरप्रिंट कैटलॉग को हैश तालिका के रूप में बनाता है, जहाँ कुंजी फ़्रीक्वेंसी है। वे स्पेक्ट्रोग्राम में केवल एक बिंदु को चिह्नित नहीं करते हैं, बल्कि वे बिंदुओं की एक जोड़ी को चिह्नित करते हैं: चरम तीव्रता और दूसरा एंकर बिंदु।[3] तो उनकी डेटाबेस कुंजी केवल आवृत्ति नहीं है, यह दोनों बिंदुओं की आवृत्तियों का हैश है। इससे हैश तालिका के प्रदर्शन में सुधार के लिए कम हैश टकराव होता है।[4]


यह भी देखें

संदर्भ

  1. ISO IEC TR 21000-11 (2004), Multimedia framework (MPEG-21) -- Part 11: Evaluation Tools for Persistent Association Technologies
  2. Surdu, Nicolae (January 20, 2011). "How does Shazam work to recognize a song?". Archived from the original on 2016-10-24. Retrieved 12 February 2018.
  3. Li-Chun Wang, Avery, An Industrial-Strength Audio Search Algorithm (PDF), Columbia University, retrieved 2018-04-02
  4. "शाज़म कैसे काम करता है". 10 January 2009. Retrieved 2018-04-02.


बाहरी संबंध