स्पीकर डायराइजेशन: Difference between revisions
No edit summary |
No edit summary |
||
Line 1: | Line 1: | ||
वक्ता डायरीकरण प्रत्येक वक्ता की पहचान के अनुसार मानव भाषण युक्त | वक्ता डायरीकरण प्रत्येक वक्ता की पहचान के अनुसार मानव भाषण युक्त श्रवण स्ट्रीम को सजातीय खंडों में विभाजित करने की प्रक्रिया है।<ref>{{cite arXiv |last1=Sahidullah |first1=Md |last2=Patino |first2=Jose |last3=Cornell |first3=Samuele |last4=Yin |first4=Ruiking |last5=Sivasankaran |first5=Sunit |last6=Bredin |first6=Herve |last7=Korshunov |first7=Pavel |last8=Brutti |first8=Alessio |last9=Serizel |first9=Romain |last10=Vincent |first10=Emmanuel |last11=Evans |first11=Nicholas |last12=Marcel |first12=Sebastien |last13=Squartini |first13=Stefano |last14=Barras |first14=Claude |date=2019-11-06 |title=The Speed Submission to DIHARD II: Contributions & Lessons Learned |class=eess.AS |eprint=1911.02388 }}</ref> यह श्रवण स्ट्रीम को वक्ता घुमाव में संरचित करके एवं वक्ता की वास्तविक पहचान प्रदान करके, [[वाक् पहचान]] प्रणाली के साथ उपयोग किए जाने पर [[वक्ता मान्यता]] की पठनीयता को बढ़ा सकता है।<ref>{{cite web|first1=Xuan |last1=Zhu |first2=Claude |last2=Barras |first3=Sylvain |last3=Meignier |first4=Jean-Luc |last4=Gauvain |url=http://www.limsi.fr/Rapports/RS2005/chm/tlp/tlp1/index.html |title=स्पीकर पहचान का उपयोग करके बेहतर स्पीकर डायरीकरण|accessdate=2012-01-25}}</ref> इसका प्रयोग इस प्रश्न का उत्तर देने के लिए किया जाता है कि कौन कब बोला?<ref>{{cite web|first1=Margarita |last1=Kotti |first2=Vassiliki |last2=Moschou |first3=Constantine |last3=Kotropoulos |url=http://poseidon.csd.auth.gr/papers/PUBLISHED/JOURNAL/pdf/Kotti08a.pdf |title=अध्यक्ष विभाजन और क्लस्टरिंग|accessdate=2012-01-25}}</ref> वक्ता डायरीकरण वक्ता विभाजन एवं वक्ता समूह का संयोजन है। पूर्व का उद्देश्य श्रवण स्ट्रीम में वक्ता परिवर्तन बिंदु अवलोकन करना है। दूसरा उद्देश्य वक्ता की विशेषताओं के आधार पर भाषण खंडों को साथ में समूहीकृत करना है। | ||
प्रसारण की बढ़ती संख्या के साथ, प्रत्येक वर्ष बैठक अभिलेख एवं स्वर-पत्र एकत्र किए जाते हैं, वक्ता डायरीकरण ने भाषण समुदाय द्वारा अधिक ध्यान आकर्षित किया है, जैसा कि टेलीफोन के लिए राष्ट्रीय मानक एवं प्रौद्योगिकी संस्थान के तत्वावधान में इसके लिए समर्पित विशिष्ट मूल्यांकन से प्रकट होता है। भाषण, प्रसारण समाचार एवं बैठकें होती है।<ref>{{cite web|url=http://www.itl.nist.gov/iad/mig/tests/rt/ |title=रिच ट्रांसक्रिप्शन मूल्यांकन परियोजना|publisher=[[National Institute of Standards and Technology|NIST]] |accessdate=2012-01-25}}</ref> | प्रसारण की बढ़ती संख्या के साथ, प्रत्येक वर्ष बैठक अभिलेख एवं स्वर-पत्र एकत्र किए जाते हैं, वक्ता डायरीकरण ने भाषण समुदाय द्वारा अधिक ध्यान आकर्षित किया है, जैसा कि टेलीफोन के लिए राष्ट्रीय मानक एवं प्रौद्योगिकी संस्थान के तत्वावधान में इसके लिए समर्पित विशिष्ट मूल्यांकन से प्रकट होता है। भाषण, प्रसारण समाचार एवं बैठकें होती है।<ref>{{cite web|url=http://www.itl.nist.gov/iad/mig/tests/rt/ |title=रिच ट्रांसक्रिप्शन मूल्यांकन परियोजना|publisher=[[National Institute of Standards and Technology|NIST]] |accessdate=2012-01-25}}</ref> | ||
Line 5: | Line 5: | ||
== डायरीकरण प्रणाली के मुख्य प्रकार == | == डायरीकरण प्रणाली के मुख्य प्रकार == | ||
वक्ता डायरीकरण में, सबसे लोकप्रिय प्रविधियों में से है, प्रत्येक वक्ता को प्रतिरूप करने के लिए [[मिश्रण मॉडल|मिश्रण प्रतिरूप]] का उपयोग करना, एवं [[हिडन मार्कोव मॉडल|छिपे मार्कोव प्रतिरूप]] की सहायता से प्रत्येक वक्ता के लिए संबंधित आकृति नियुक्त करना है। क्लस्टरिंग परिदृश्य के दो मुख्य प्रकार हैं। प्रथम अब तक का सबसे लोकप्रिय है एवं इसे बॉटम-अप कहा जाता है। एल्गोरिथ्म क्लस्टर के उत्तराधिकार में पूर्ण | वक्ता डायरीकरण में, सबसे लोकप्रिय प्रविधियों में से है, प्रत्येक वक्ता को प्रतिरूप करने के लिए [[मिश्रण मॉडल|मिश्रण प्रतिरूप]] का उपयोग करना, एवं [[हिडन मार्कोव मॉडल|छिपे मार्कोव प्रतिरूप]] की सहायता से प्रत्येक वक्ता के लिए संबंधित आकृति नियुक्त करना है। क्लस्टरिंग परिदृश्य के दो मुख्य प्रकार हैं। प्रथम अब तक का सबसे लोकप्रिय है एवं इसे बॉटम-अप कहा जाता है। एल्गोरिथ्म क्लस्टर के उत्तराधिकार में पूर्ण श्रवण सामग्री को विभाजित करना प्रारम्भ करता है एवं ऐसी स्थिति तक पहुंचने के लिए उत्तरोत्तर निरर्थक समूहों को विलय करने का प्रयत्न करता है जहां प्रत्येक समूह वास्तविक वक्ता से मेल खाता है। दूसरी क्लस्टरिंग रणनीति को [http://www.eurecom.fr/util/publidownload.fr.htm?id=3000 टॉप-डाउन] कहा जाता है एवं सभी श्रवण डेटा के लिए एकल समूह से प्रारम्भ होता है एवं इसे तब तक विभाजित करने का प्रयत्न करता है जब तक कि वक्ताओं की संख्या के समान समूहों की संख्या तक पहुँचना 2010 की समीक्षा [http://www.icsi.berkeley.edu/~fractor/papers/friedland_146.pdf] पर देखा जा सकता है। | ||
शीघ्र में ही , [[कृत्रिम तंत्रिका नेटवर्क]] एवं स्थूल [[ ग्राफ़िक्स प्रोसेसिंग युनिट ]]कंप्यूटिंग के कारण वक्ता डायरीकरण किया जाता है, जिससे कुछ अधिक कुशल डायरीकरण एल्गोरिथम संभव हो जाता है।<ref>{{cite arXiv |last1=Park |first1=Tae Jin |last2=Kanda |first2=Naoyuki |last3=Dimitriadis |first3=Dimitrios |last4=Han |first4=Kyu J. |last5=Watanabe |first5=Shinji |last6=Narayanan |first6=Shrikanth |date=2021-11-26 |title=A Review of Speaker Diarization: Recent Advances with Deep Learning |class=eess.AS |eprint=2101.09624 }}</ref> | शीघ्र में ही , [[कृत्रिम तंत्रिका नेटवर्क]] एवं स्थूल [[ ग्राफ़िक्स प्रोसेसिंग युनिट ]]कंप्यूटिंग के कारण वक्ता डायरीकरण किया जाता है, जिससे कुछ अधिक कुशल डायरीकरण एल्गोरिथम संभव हो जाता है।<ref>{{cite arXiv |last1=Park |first1=Tae Jin |last2=Kanda |first2=Naoyuki |last3=Dimitriadis |first3=Dimitrios |last4=Han |first4=Kyu J. |last5=Watanabe |first5=Shinji |last6=Narayanan |first6=Shrikanth |date=2021-11-26 |title=A Review of Speaker Diarization: Recent Advances with Deep Learning |class=eess.AS |eprint=2101.09624 }}</ref> | ||
== | == विवृत स्रोत वक्ता डायरीकरण प्रक्रिया सामग्री == | ||
वक्ता डायरीकरण के लिए कुछ | वक्ता डायरीकरण के लिए कुछ विवृत स्रोत प्रथम होते हैं (वर्णानुक्रम में): | ||
*[[ALIZE स्पीकर डायराइजेशन| | *[[ALIZE स्पीकर डायराइजेशन|एलीज़ वक्ता डायरीकरण]] (अंतिम संग्रह अद्यतन जुलाई 2016; अंतिम प्रदर्शन: फरवरी 2013, संस्करण: 3.0): एलीज़ डायरीकरण प्रणाली, एविग्नन विश्वविद्यालय में विकसित किया गया, प्रदर्शन 2.0 उपलब्ध होता है। | ||
*[[ ऑडियो सेग ]] (अंतिम | *[[ ऑडियो सेग | श्रवण अनुभाग]] (अंतिम संग्रह अद्यतन: मई 2014; अंतिम प्रदर्शन: जनवरी 2010, संस्करण: 1.2): श्रवण अनुभाग उपकरण है, जो श्रवण विभाजन एवं श्रवण धारा के वर्गीकरण के लिए समर्पित होता है। [http://gforge.inria.fr/projects/audioseg] | ||
* | * पायनोट श्रवण (अंतिम संग्रह अद्यतन: अगस्त 2022, अंतिम प्रदर्शन: जुलाई 2022, संस्करण: 2.0): पायनोट श्रवण वक्ता डायरीकरण के लिए पायथन में लिखा गया विवृत स्रोत उपकरण है। [https://github.com/pyannote/pyannote-audio] | ||
*[[pyAudioAnalysis]] (अंतिम | *[[pyAudioAnalysis|पायथन श्रवण विश्लेषण]] (अंतिम संग्रह अद्यतन: अगस्त 2018): पायथन श्रवण विश्लेषण पुस्तकालय: सुविधा निकालना, वर्गीकरण, विभाजन एवं अनुप्रयोग करना है। [https://github.com/tyiannak/pyAudioAnalysis] | ||
*[[SHoUT]] (अंतिम | *[[SHoUT|शाउट]] (अंतिम अद्यतन: दिसंबर 2010; संस्करण: 0.3): शाउट सॉफ्टवेयर पैकेज है जिसे ट्वेंटी विश्वविद्यालय में वाक् पहचान अनुसंधान में सहायता के लिए विकसित किया गया है। शाउट ट्वेंटी विश्वविद्यालय में वाक् पहचान अनुसंधान के लिए डच परिवर्णी शब्द होता है। [http://shout-toolkit.sourceforge.net/] | ||
*[http://www-lium.univ-lemans.fr/diarization/doku.php/welcome|LIUM SpkDiarization] (अंतिम | *[http://www-lium.univ-lemans.fr/diarization/doku.php/welcome|LIUM SpkDiarization] (अंतिम प्रदर्शन: सितंबर 2013, संस्करण: 8.4.1): LIUM_SpkDiarization टूल [http://www- lium.univ-lemans.fr/fr/content/liumspkdiarization]। | ||
==संदर्भ== | ==संदर्भ== |
Revision as of 11:51, 16 May 2023
वक्ता डायरीकरण प्रत्येक वक्ता की पहचान के अनुसार मानव भाषण युक्त श्रवण स्ट्रीम को सजातीय खंडों में विभाजित करने की प्रक्रिया है।[1] यह श्रवण स्ट्रीम को वक्ता घुमाव में संरचित करके एवं वक्ता की वास्तविक पहचान प्रदान करके, वाक् पहचान प्रणाली के साथ उपयोग किए जाने पर वक्ता मान्यता की पठनीयता को बढ़ा सकता है।[2] इसका प्रयोग इस प्रश्न का उत्तर देने के लिए किया जाता है कि कौन कब बोला?[3] वक्ता डायरीकरण वक्ता विभाजन एवं वक्ता समूह का संयोजन है। पूर्व का उद्देश्य श्रवण स्ट्रीम में वक्ता परिवर्तन बिंदु अवलोकन करना है। दूसरा उद्देश्य वक्ता की विशेषताओं के आधार पर भाषण खंडों को साथ में समूहीकृत करना है।
प्रसारण की बढ़ती संख्या के साथ, प्रत्येक वर्ष बैठक अभिलेख एवं स्वर-पत्र एकत्र किए जाते हैं, वक्ता डायरीकरण ने भाषण समुदाय द्वारा अधिक ध्यान आकर्षित किया है, जैसा कि टेलीफोन के लिए राष्ट्रीय मानक एवं प्रौद्योगिकी संस्थान के तत्वावधान में इसके लिए समर्पित विशिष्ट मूल्यांकन से प्रकट होता है। भाषण, प्रसारण समाचार एवं बैठकें होती है।[4]
डायरीकरण प्रणाली के मुख्य प्रकार
वक्ता डायरीकरण में, सबसे लोकप्रिय प्रविधियों में से है, प्रत्येक वक्ता को प्रतिरूप करने के लिए मिश्रण प्रतिरूप का उपयोग करना, एवं छिपे मार्कोव प्रतिरूप की सहायता से प्रत्येक वक्ता के लिए संबंधित आकृति नियुक्त करना है। क्लस्टरिंग परिदृश्य के दो मुख्य प्रकार हैं। प्रथम अब तक का सबसे लोकप्रिय है एवं इसे बॉटम-अप कहा जाता है। एल्गोरिथ्म क्लस्टर के उत्तराधिकार में पूर्ण श्रवण सामग्री को विभाजित करना प्रारम्भ करता है एवं ऐसी स्थिति तक पहुंचने के लिए उत्तरोत्तर निरर्थक समूहों को विलय करने का प्रयत्न करता है जहां प्रत्येक समूह वास्तविक वक्ता से मेल खाता है। दूसरी क्लस्टरिंग रणनीति को टॉप-डाउन कहा जाता है एवं सभी श्रवण डेटा के लिए एकल समूह से प्रारम्भ होता है एवं इसे तब तक विभाजित करने का प्रयत्न करता है जब तक कि वक्ताओं की संख्या के समान समूहों की संख्या तक पहुँचना 2010 की समीक्षा [1] पर देखा जा सकता है।
शीघ्र में ही , कृत्रिम तंत्रिका नेटवर्क एवं स्थूल ग्राफ़िक्स प्रोसेसिंग युनिट कंप्यूटिंग के कारण वक्ता डायरीकरण किया जाता है, जिससे कुछ अधिक कुशल डायरीकरण एल्गोरिथम संभव हो जाता है।[5]
विवृत स्रोत वक्ता डायरीकरण प्रक्रिया सामग्री
वक्ता डायरीकरण के लिए कुछ विवृत स्रोत प्रथम होते हैं (वर्णानुक्रम में):
- एलीज़ वक्ता डायरीकरण (अंतिम संग्रह अद्यतन जुलाई 2016; अंतिम प्रदर्शन: फरवरी 2013, संस्करण: 3.0): एलीज़ डायरीकरण प्रणाली, एविग्नन विश्वविद्यालय में विकसित किया गया, प्रदर्शन 2.0 उपलब्ध होता है।
- श्रवण अनुभाग (अंतिम संग्रह अद्यतन: मई 2014; अंतिम प्रदर्शन: जनवरी 2010, संस्करण: 1.2): श्रवण अनुभाग उपकरण है, जो श्रवण विभाजन एवं श्रवण धारा के वर्गीकरण के लिए समर्पित होता है। [2]
- पायनोट श्रवण (अंतिम संग्रह अद्यतन: अगस्त 2022, अंतिम प्रदर्शन: जुलाई 2022, संस्करण: 2.0): पायनोट श्रवण वक्ता डायरीकरण के लिए पायथन में लिखा गया विवृत स्रोत उपकरण है। [3]
- पायथन श्रवण विश्लेषण (अंतिम संग्रह अद्यतन: अगस्त 2018): पायथन श्रवण विश्लेषण पुस्तकालय: सुविधा निकालना, वर्गीकरण, विभाजन एवं अनुप्रयोग करना है। [4]
- शाउट (अंतिम अद्यतन: दिसंबर 2010; संस्करण: 0.3): शाउट सॉफ्टवेयर पैकेज है जिसे ट्वेंटी विश्वविद्यालय में वाक् पहचान अनुसंधान में सहायता के लिए विकसित किया गया है। शाउट ट्वेंटी विश्वविद्यालय में वाक् पहचान अनुसंधान के लिए डच परिवर्णी शब्द होता है। [5]
- SpkDiarization (अंतिम प्रदर्शन: सितंबर 2013, संस्करण: 8.4.1): LIUM_SpkDiarization टूल lium.univ-lemans.fr/fr/content/liumspkdiarization।
संदर्भ
- ↑ Sahidullah, Md; Patino, Jose; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Herve; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vincent, Emmanuel; Evans, Nicholas; Marcel, Sebastien; Squartini, Stefano; Barras, Claude (2019-11-06). "The Speed Submission to DIHARD II: Contributions & Lessons Learned". arXiv:1911.02388 [eess.AS].
- ↑ Zhu, Xuan; Barras, Claude; Meignier, Sylvain; Gauvain, Jean-Luc. "स्पीकर पहचान का उपयोग करके बेहतर स्पीकर डायरीकरण". Retrieved 2012-01-25.
- ↑ Kotti, Margarita; Moschou, Vassiliki; Kotropoulos, Constantine. "अध्यक्ष विभाजन और क्लस्टरिंग" (PDF). Retrieved 2012-01-25.
- ↑ "रिच ट्रांसक्रिप्शन मूल्यांकन परियोजना". NIST. Retrieved 2012-01-25.
- ↑ Park, Tae Jin; Kanda, Naoyuki; Dimitriadis, Dimitrios; Han, Kyu J.; Watanabe, Shinji; Narayanan, Shrikanth (2021-11-26). "A Review of Speaker Diarization: Recent Advances with Deep Learning". arXiv:2101.09624 [eess.AS].
ग्रन्थसूची
- Anguera, Xavier (2012). "Speaker diarization: A review of recent research". IEEE Transactions on Audio, Speech, and Language Processing. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 20 (2): 356–370. CiteSeerX 10.1.1.470.6149. doi:10.1109/TASL.2011.2125954. ISSN 1558-7916. S2CID 206602044.
- Beigi, Homayoon (2011). Fundamentals of Speaker Recognition. New York: Springer. ISBN 978-0-387-77591-3.