स्पीकर डायराइजेशन

From Vigyanwiki
Revision as of 11:15, 16 May 2023 by alpha>Artiverma

वक्ता डायरीकरण प्रत्येक वक्ता की पहचान के अनुसार मानव भाषण युक्त ऑडियो स्ट्रीम को सजातीय खंडों में विभाजित करने की प्रक्रिया है।[1] यह ऑडियो स्ट्रीम को वक्ता घुमाव में संरचित करके एवं वक्ता की वास्तविक पहचान प्रदान करके, वाक् पहचान प्रणाली के साथ उपयोग किए जाने पर वक्ता मान्यता की पठनीयता को बढ़ा सकता है।[2] इसका प्रयोग इस प्रश्न का उत्तर देने के लिए किया जाता है कि कौन कब बोला?[3] वक्ता डायरीकरण वक्ता विभाजन एवं वक्ता समूह का संयोजन है। पूर्व का उद्देश्य ऑडियो स्ट्रीम में वक्ता परिवर्तन बिंदु अवलोकन करना है। दूसरा उद्देश्य वक्ता की विशेषताओं के आधार पर भाषण खंडों को साथ में समूहीकृत करना है।

प्रसारण की बढ़ती संख्या के साथ, प्रत्येक वर्ष बैठक अभिलेख एवं स्वर-पत्र एकत्र किए जाते हैं, वक्ता डायरीकरण ने भाषण समुदाय द्वारा अधिक ध्यान आकर्षित किया है, जैसा कि टेलीफोन के लिए राष्ट्रीय मानक एवं प्रौद्योगिकी संस्थान के तत्वावधान में इसके लिए समर्पित विशिष्ट मूल्यांकन से प्रकट होता है। भाषण, प्रसारण समाचार एवं बैठकें होती है।[4]


डायरीकरण प्रणाली के मुख्य प्रकार

वक्ता डायरीकरण में, सबसे लोकप्रिय तरीकों में से एक है प्रत्येक वक्ता को मॉडल करने के लिए एक मिश्रण मॉडल का उपयोग करना, एवं एक छिपे हिडन मार्कोव मॉडल की सहायता से प्रत्येक वक्ता के लिए संबंधित फ्रेम असाइन करना। क्लस्टरिंग परिदृश्य के दो मुख्य प्रकार हैं। पहला अब तक का सबसे लोकप्रिय है एवं इसे बॉटम-अप कहा जाता है। एल्गोरिथ्म क्लस्टर के उत्तराधिकार में पूर्ण ऑडियो सामग्री को विभाजित करना शुरू करता है एवं एक ऐसी स्थिति तक पहुंचने के लिए उत्तरोत्तर निरर्थक समूहों को मर्ज करने का प्रयास करता है जहां प्रत्येक क्लस्टर एक वास्तविक वक्ता से मेल खाता है। दूसरी क्लस्टरिंग रणनीति को टॉप-डाउन कहा जाता है एवं सभी ऑडियो डेटा के लिए एक सिंगल क्लस्टर से शुरू होता है एवं इसे तब तक विभाजित करने की कोशिश करता है जब तक कि वक्ताओं की संख्या के बराबर समूहों की संख्या तक पहुँचना। 2010 की समीक्षा [1] पर देखी जा सकती है।

हाल ही में, कृत्रिम तंत्रिका नेटवर्क एवं भारी ग्राफ़िक्स प्रोसेसिंग युनिट कंप्यूटिंग के कारण वक्ता डायरीकरण किया जाता है, जिससे कुछ अधिक कुशल डायरेक्शन एल्गोरिथम संभव हो जाता है।[5]


ओपन सोर्स वक्ता डायरीकरण सॉफ्टवेयर

वक्ता डायरीकरण के लिए कुछ ओपन सोर्स पहलें हैं (वर्णानुक्रम में):

  • ALIZE वक्ता डायरीकरण (अंतिम रिपॉजिटरी अपडेट: जुलाई 2016; अंतिम रिलीज़: फरवरी 2013, संस्करण: 3.0): एलीज़ डायराइज़ेशन प्रणाली, एविग्नन विश्वविद्यालय में विकसित किया गया, एक रिलीज़ 2.0 उपलब्ध है fr/svn/LIA_RAL/branches/2.0/LIA_SpkSeg/
  • ऑडियो सेग (अंतिम रिपॉजिटरी अपडेट: मई 2014; अंतिम रिलीज़: जनवरी 2010, संस्करण: 1.2): ऑडियोसेग एक टूलकिट है जो ऑडियो विभाजन एवं ऑडियो स्ट्रीम के वर्गीकरण के लिए समर्पित है। [2]
  • pyannote.audio (अंतिम रिपॉजिटरी अपडेट: अगस्त 2022, अंतिम रिलीज़: जुलाई 2022, संस्करण: 2.0): pyannote.audio वक्ता डायरीकरण के लिए पायथन में लिखा गया एक ओपन-सोर्स टूलकिट है। [3]
  • pyAudioAnalysis (अंतिम रिपॉजिटरी अपडेट: अगस्त 2018): पायथन ऑडियो एनालिसिस लाइब्रेरी: फ़ीचर एक्सट्रैक्शन, क्लासिफिकेशन, विभाजन एवं एप्लिकेशन [4]
  • SHoUT (अंतिम अपडेट: दिसंबर 2010; संस्करण: 0.3): SHoUT एक सॉफ्टवेयर पैकेज है जिसे ट्वेंटी विश्वविद्यालय में वाक् पहचान अनुसंधान में सहायता के लिए विकसित किया गया है। SHoUT ट्वेंटी विश्वविद्यालय में वाक् पहचान अनुसंधान के लिए एक डच परिवर्णी शब्द है। [5]
  • SpkDiarization (अंतिम रिलीज़: सितंबर 2013, संस्करण: 8.4.1): LIUM_SpkDiarization टूल lium.univ-lemans.fr/fr/content/liumspkdiarization

संदर्भ

  1. Sahidullah, Md; Patino, Jose; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Herve; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vincent, Emmanuel; Evans, Nicholas; Marcel, Sebastien; Squartini, Stefano; Barras, Claude (2019-11-06). "The Speed Submission to DIHARD II: Contributions & Lessons Learned". arXiv:1911.02388 [eess.AS].
  2. Zhu, Xuan; Barras, Claude; Meignier, Sylvain; Gauvain, Jean-Luc. "स्पीकर पहचान का उपयोग करके बेहतर स्पीकर डायरीकरण". Retrieved 2012-01-25.
  3. Kotti, Margarita; Moschou, Vassiliki; Kotropoulos, Constantine. "अध्यक्ष विभाजन और क्लस्टरिंग" (PDF). Retrieved 2012-01-25.
  4. "रिच ट्रांसक्रिप्शन मूल्यांकन परियोजना". NIST. Retrieved 2012-01-25.
  5. Park, Tae Jin; Kanda, Naoyuki; Dimitriadis, Dimitrios; Han, Kyu J.; Watanabe, Shinji; Narayanan, Shrikanth (2021-11-26). "A Review of Speaker Diarization: Recent Advances with Deep Learning". arXiv:2101.09624 [eess.AS].


ग्रन्थसूची