स्पीकर डायराइजेशन

स्पीकर डायराइजेशन (अमेरिकी और ब्रिटिश अंग्रेजी वर्तनी अंतर # -ise.2C -ize .28-isation.2C -ization.29 डायराइजेशन) प्रत्येक वक्ता की पहचान के अनुसार मानव भाषण युक्त एक ऑडियो स्ट्रीम को सजातीय खंडों में विभाजित करने की प्रक्रिया है।^[1] यह ऑडियो स्ट्रीम को स्पीकर टर्न में संरचित करके और स्पीकर की वास्तविक पहचान प्रदान करके, वाक् पहचान सिस्टम के साथ उपयोग किए जाने पर वक्ता मान्यता की पठनीयता को बढ़ा सकता है।^[2] इसका प्रयोग इस प्रश्न का उत्तर देने के लिए किया जाता है कि कौन कब बोला?^[3] स्पीकर डायराइजेशन स्पीकर सेगमेंटेशन और स्पीकर क्लस्टरिंग का संयोजन है। पहले का उद्देश्य ऑडियो स्ट्रीम में स्पीकर परिवर्तन बिंदु खोजना है। दूसरा उद्देश्य वक्ता की विशेषताओं के आधार पर भाषण खंडों को एक साथ समूहीकृत करना है।

ब्रॉडकास्ट की बढ़ती संख्या के साथ, हर साल मीटिंग रिकॉर्डिंग और वॉइस मेल एकत्र किए जाते हैं, स्पीकर डायरीकरण ने भाषण समुदाय द्वारा बहुत अधिक ध्यान आकर्षित किया है, जैसा कि टेलीफोन के लिए राष्ट्रीय मानक और प्रौद्योगिकी संस्थान के तत्वावधान में इसके लिए समर्पित विशिष्ट मूल्यांकन से प्रकट होता है। भाषण, प्रसारण समाचार और बैठकें।^[4]

डायराइजेशन सिस्टम के मुख्य प्रकार

स्पीकर डायरीकरण में, सबसे लोकप्रिय तरीकों में से एक है प्रत्येक स्पीकर को मॉडल करने के लिए एक मिश्रण मॉडल का उपयोग करना, और एक छिपे हिडन मार्कोव मॉडल की सहायता से प्रत्येक स्पीकर के लिए संबंधित फ्रेम असाइन करना। क्लस्टरिंग परिदृश्य के दो मुख्य प्रकार हैं। पहला अब तक का सबसे लोकप्रिय है और इसे बॉटम-अप कहा जाता है। एल्गोरिथ्म क्लस्टर के उत्तराधिकार में पूर्ण ऑडियो सामग्री को विभाजित करना शुरू करता है और एक ऐसी स्थिति तक पहुंचने के लिए उत्तरोत्तर निरर्थक समूहों को मर्ज करने का प्रयास करता है जहां प्रत्येक क्लस्टर एक वास्तविक वक्ता से मेल खाता है। दूसरी क्लस्टरिंग रणनीति को टॉप-डाउन कहा जाता है और सभी ऑडियो डेटा के लिए एक सिंगल क्लस्टर से शुरू होता है और इसे तब तक विभाजित करने की कोशिश करता है जब तक कि वक्ताओं की संख्या के बराबर समूहों की संख्या तक पहुँचना। 2010 की समीक्षा [1] पर देखी जा सकती है।

हाल ही में, कृत्रिम तंत्रिका नेटवर्क और भारी ग्राफ़िक्स प्रोसेसिंग युनिट कंप्यूटिंग के कारण स्पीकर डायराइजेशन किया जाता है, जिससे कुछ अधिक कुशल डायरेक्शन एल्गोरिथम संभव हो जाता है।^[5]

ओपन सोर्स स्पीकर डायराइजेशन सॉफ्टवेयर

स्पीकर डायरीकरण के लिए कुछ ओपन सोर्स पहलें हैं (वर्णानुक्रम में):

ALIZE स्पीकर डायराइजेशन (अंतिम रिपॉजिटरी अपडेट: जुलाई 2016; अंतिम रिलीज़: फरवरी 2013, संस्करण: 3.0): एलीज़ डायराइज़ेशन सिस्टम, एविग्नन विश्वविद्यालय में विकसित किया गया, एक रिलीज़ 2.0 उपलब्ध है fr/svn/LIA_RAL/branches/2.0/LIA_SpkSeg/।
ऑडियो सेग (अंतिम रिपॉजिटरी अपडेट: मई 2014; अंतिम रिलीज़: जनवरी 2010, संस्करण: 1.2): ऑडियोसेग एक टूलकिट है जो ऑडियो विभाजन और ऑडियो स्ट्रीम के वर्गीकरण के लिए समर्पित है। [2]।
pyannote.audio (अंतिम रिपॉजिटरी अपडेट: अगस्त 2022, अंतिम रिलीज़: जुलाई 2022, संस्करण: 2.0): pyannote.audio स्पीकर डायराइजेशन के लिए पायथन में लिखा गया एक ओपन-सोर्स टूलकिट है। [3]।
pyAudioAnalysis (अंतिम रिपॉजिटरी अपडेट: अगस्त 2018): पायथन ऑडियो एनालिसिस लाइब्रेरी: फ़ीचर एक्सट्रैक्शन, क्लासिफिकेशन, सेगमेंटेशन और एप्लिकेशन [4]
SHoUT (अंतिम अपडेट: दिसंबर 2010; संस्करण: 0.3): SHoUT एक सॉफ्टवेयर पैकेज है जिसे ट्वेंटी विश्वविद्यालय में वाक् पहचान अनुसंधान में सहायता के लिए विकसित किया गया है। SHoUT ट्वेंटी विश्वविद्यालय में वाक् पहचान अनुसंधान के लिए एक डच परिवर्णी शब्द है। [5]
SpkDiarization (अंतिम रिलीज़: सितंबर 2013, संस्करण: 8.4.1): LIUM_SpkDiarization टूल lium.univ-lemans.fr/fr/content/liumspkdiarization।

संदर्भ

↑ Sahidullah, Md; Patino, Jose; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Herve; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vincent, Emmanuel; Evans, Nicholas; Marcel, Sebastien; Squartini, Stefano; Barras, Claude (2019-11-06). "The Speed Submission to DIHARD II: Contributions & Lessons Learned". arXiv:1911.02388 [eess.AS].
↑ Zhu, Xuan; Barras, Claude; Meignier, Sylvain; Gauvain, Jean-Luc. "स्पीकर पहचान का उपयोग करके बेहतर स्पीकर डायरीकरण". Retrieved 2012-01-25.
↑ Kotti, Margarita; Moschou, Vassiliki; Kotropoulos, Constantine. "अध्यक्ष विभाजन और क्लस्टरिंग" (PDF). Retrieved 2012-01-25.
↑ "रिच ट्रांसक्रिप्शन मूल्यांकन परियोजना". NIST. Retrieved 2012-01-25.
↑ Park, Tae Jin; Kanda, Naoyuki; Dimitriadis, Dimitrios; Han, Kyu J.; Watanabe, Shinji; Narayanan, Shrikanth (2021-11-26). "A Review of Speaker Diarization: Recent Advances with Deep Learning". arXiv:2101.09624 [eess.AS].

ग्रन्थसूची

Anguera, Xavier (2012). "Speaker diarization: A review of recent research". IEEE Transactions on Audio, Speech, and Language Processing. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 20 (2): 356–370. CiteSeerX 10.1.1.470.6149. doi:10.1109/TASL.2011.2125954. ISSN 1558-7916. S2CID 206602044.
Beigi, Homayoon (2011). Fundamentals of Speaker Recognition. New York: Springer. ISBN 978-0-387-77591-3.

[1] Sahidullah, Md; Patino, Jose; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Herve; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vincent, Emmanuel; Evans, Nicholas; Marcel, Sebastien; Squartini, Stefano; Barras, Claude (2019-11-06). "The Speed Submission to DIHARD II: Contributions & Lessons Learned". arXiv:1911.02388 [eess.AS].

[2] Zhu, Xuan; Barras, Claude; Meignier, Sylvain; Gauvain, Jean-Luc. "स्पीकर पहचान का उपयोग करके बेहतर स्पीकर डायरीकरण". Retrieved 2012-01-25.

[3] Kotti, Margarita; Moschou, Vassiliki; Kotropoulos, Constantine. "अध्यक्ष विभाजन और क्लस्टरिंग" (PDF). Retrieved 2012-01-25.

[4] "रिच ट्रांसक्रिप्शन मूल्यांकन परियोजना". NIST. Retrieved 2012-01-25.

[5] Park, Tae Jin; Kanda, Naoyuki; Dimitriadis, Dimitrios; Han, Kyu J.; Watanabe, Shinji; Narayanan, Shrikanth (2021-11-26). "A Review of Speaker Diarization: Recent Advances with Deep Learning". arXiv:2101.09624 [eess.AS].

[1]

[2]

[3]

[4]

[5]

Anonymous

Search

स्पीकर डायराइजेशन

Namespaces

More

Page actions

Contents

डायराइजेशन सिस्टम के मुख्य प्रकार

ओपन सोर्स स्पीकर डायराइजेशन सॉफ्टवेयर

संदर्भ

ग्रन्थसूची

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

स्पीकर डायराइजेशन

डायराइजेशन सिस्टम के मुख्य प्रकार

ओपन सोर्स स्पीकर डायराइजेशन सॉफ्टवेयर

संदर्भ

ग्रन्थसूची

Navigation

Wiki tools

Page tools

Other projects

Categories