ध्वनिक फिंगरप्रिंट
ध्वनिक फ़िंगरप्रिंट संघनित डिजिटल सारांश, फ़िंगरप्रिंट (कंप्यूटिंग), ऑडियो संकेत से उत्पन्न नियतात्मक एल्गोरिथ्म है, जिसका उपयोग ऑडियो नमूने की पहचान करने या संगीत डेटाबेस में समान वस्तुओं का शीघ्र पता लगाने के लिए किया जा सकता है।[1]
ध्वनिक फ़िंगरप्रिंटिंग के व्यावहारिक उपयोग में गाने, राग , ट्यून (लोक संगीत) या विज्ञापन की पहचान करना शामिल है; ध्वनि प्रभाव पुस्तकालय प्रबंधन; और डिजिटल वीडियो पहचान। ध्वनिक फिंगरप्रिंट का उपयोग कर मीडिया पहचान का उपयोग रेडियो प्रसारण, एल्बम, सीडी, स्ट्रीमिंग मीडिया और पीयर-टू-पीयर नेटवर्क पर विशिष्ट संगीत कार्यों और प्रदर्शनों के उपयोग की निगरानी के लिए किया जा सकता है। इस पहचान का उपयोग कॉपीराइट अनुपालन, लाइसेंसिंग और अन्य मुद्रीकरण योजनाओं में किया गया है।
गुण
मजबूत ध्वनिक फिंगरप्रिंट एल्गोरिदम को ऑडियो की अवधारणात्मक विशेषताओं को ध्यान में रखना चाहिए। यदि दो फाइलें मानव कान के लिए समान ध्वनि करती हैं, तो उनके ध्वनिक फिंगरप्रिंट का मिलान होना चाहिए, भले ही उनके द्विआधारी प्रतिनिधित्व काफी भिन्न हों। ध्वनिक फिंगरप्रिंट हैश फंकशन नहीं हैं, जो डेटा में किसी भी छोटे बदलाव के प्रति संवेदनशील होना चाहिए। ध्वनिक फ़िंगरप्रिंट मानव फ़िंगरप्रिंट के अधिक अनुरूप होते हैं जहां छोटे बदलाव जो फ़िंगरप्रिंट उपयोग की जाने वाली सुविधाओं के लिए महत्वहीन हैं, को सहन किया जाता है। कोई भी मानव अंगुलियों के धब्बेदार निशान के मामले की कल्पना कर सकता है जिसे संदर्भ डेटाबेस में किसी अन्य फिंगरप्रिंट नमूने से सटीक रूप से मिलान किया जा सकता है; ध्वनिक उंगलियों के निशान इसी तरह काम करते हैं।
ऑडियो फ़िंगरप्रिंट द्वारा अक्सर उपयोग की जाने वाली अवधारणात्मक विशेषताओं में औसत शून्य क्रॉसिंग दर, अनुमानित गति, औसत ऑडियो स्पेक्ट्रम, वर्णक्रमीय सपाटता, आवृत्ति बैंड के सेट में प्रमुख स्वर और बैंडविड्थ (सिग्नल प्रोसेसिंग) शामिल हैं।
अधिकांश ऑडियो डेटा संपीड़न तकनीक मानव कान द्वारा महसूस किए जाने वाले तरीके को मौलिक रूप से प्रभावित किए बिना, ऑडियो फ़ाइल के बाइनरी एन्कोडिंग में आमूल-चूल परिवर्तन करेगी। मजबूत ध्वनिक फिंगरप्रिंट रिकॉर्डिंग को इस तरह के संपीड़न से गुजरने के बाद पहचानने की अनुमति देगा, भले ही ऑडियो गुणवत्ता काफी कम हो गई हो। रेडियो प्रसारण निगरानी में उपयोग के लिए, ध्वनिक फिंगरप्रिंट भी एनालॉग संकेत संचरण आर्टिफैक्ट के प्रति असंवेदनशील होना चाहिए।
spectrogram
ध्वनि द्वारा खोज के लिए ऑडियो से हस्ताक्षर उत्पन्न करना आवश्यक है। सामान्य तकनीक समय-आवृत्ति ग्राफ बना रही है जिसे स्पेक्ट्रोग्राम कहा जाता है।
ऑडियो के किसी भी टुकड़े का स्पेक्ट्रोग्राम में अनुवाद किया जा सकता है। ऑडियो का प्रत्येक भाग समय के साथ कुछ खंडों में विभाजित हो जाता है। कुछ मामलों में आसन्न खंड सामान्य समय सीमा साझा करते हैं, अन्य मामलों में आसन्न खंड ओवरलैप हो सकते हैं। परिणाम ग्राफ है जो ऑडियो के तीन आयामों को प्लॉट करता है: आवृत्ति बनाम आयाम (तीव्रता) बनाम समय।
शाज़म
शाज़म (एप्लीकेशन) का एल्गोरिदम उन बिंदुओं को चुनता है जहां स्पेक्ट्रोग्राम में चोटियां होती हैं जो उच्च ऊर्जा सामग्री का प्रतिनिधित्व करती हैं।[2] ऑडियो में चोटियों पर ध्यान केंद्रित करने से ऑडियो पहचान पर पृष्ठभूमि शोर का प्रभाव बहुत कम हो जाता है। शाज़म अपने फ़िंगरप्रिंट कैटलॉग को हैश तालिका के रूप में बनाता है, जहाँ कुंजी फ़्रीक्वेंसी है। वे स्पेक्ट्रोग्राम में केवल एक बिंदु को चिह्नित नहीं करते हैं, बल्कि वे बिंदुओं की एक जोड़ी को चिह्नित करते हैं: चरम तीव्रता और दूसरा एंकर बिंदु।[3] तो उनकी डेटाबेस कुंजी केवल आवृत्ति नहीं है, यह दोनों बिंदुओं की आवृत्तियों का हैश है। इससे हैश तालिका के प्रदर्शन में सुधार के लिए कम हैश टकराव होता है।[4]
यह भी देखें
- क्रोमाप्रिंट
- स्वचालित सामग्री पहचान
- डिजिटल वीडियो फिंगरप्रिंटिंग
- सुविधा निकालना
- पार्सन्स कोड
- अवधारणात्मक हैशिंग
- ध्वनि द्वारा खोजें
- ध्वनि पहचान
संदर्भ
- ↑ ISO IEC TR 21000-11 (2004), Multimedia framework (MPEG-21) -- Part 11: Evaluation Tools for Persistent Association Technologies
- ↑ Surdu, Nicolae (January 20, 2011). "How does Shazam work to recognize a song?". Archived from the original on 2016-10-24. Retrieved 12 February 2018.
- ↑ Li-Chun Wang, Avery, An Industrial-Strength Audio Search Algorithm (PDF), Columbia University, retrieved 2018-04-02
- ↑ "शाज़म कैसे काम करता है". 10 January 2009. Retrieved 2018-04-02.