स्पीकर डायराइजेशन: Difference between revisions

From Vigyanwiki
(Created page with "{{more citations needed|date=January 2012}} स्पीकर डायराइजेशन (अमेरिकी और ब्रिटिश अंग्रेजी व...")
 
No edit summary
 
(11 intermediate revisions by 5 users not shown)
Line 1: Line 1:
{{more citations needed|date=January 2012}}
'''स्पीकर डायराइजेशन''' प्रत्येक स्पीकर की पहचान के अनुसार मानव भाषण युक्त श्रवण स्ट्रीम को सजातीय खंडों में विभाजित करने की प्रक्रिया है।<ref>{{cite arXiv |last1=Sahidullah |first1=Md |last2=Patino |first2=Jose |last3=Cornell |first3=Samuele |last4=Yin |first4=Ruiking |last5=Sivasankaran |first5=Sunit |last6=Bredin |first6=Herve |last7=Korshunov |first7=Pavel |last8=Brutti |first8=Alessio |last9=Serizel |first9=Romain |last10=Vincent |first10=Emmanuel |last11=Evans |first11=Nicholas |last12=Marcel |first12=Sebastien |last13=Squartini |first13=Stefano |last14=Barras |first14=Claude |date=2019-11-06 |title=The Speed Submission to DIHARD II: Contributions & Lessons Learned |class=eess.AS |eprint=1911.02388 }}</ref> यह श्रवण स्ट्रीम को स्पीकर घुमाव में संरचित करके एवं स्पीकर की वास्तविक पहचान प्रदान करके, [[वाक् पहचान|वाक् प्रमाण]] प्रणाली के साथ उपयोग किए जाने पर [[वक्ता मान्यता|स्पीकर मान्यता]] की पठनीयता को विस्तृत कर सकता है।<ref>{{cite web|first1=Xuan |last1=Zhu |first2=Claude |last2=Barras |first3=Sylvain |last3=Meignier |first4=Jean-Luc |last4=Gauvain |url=http://www.limsi.fr/Rapports/RS2005/chm/tlp/tlp1/index.html |title=स्पीकर पहचान का उपयोग करके बेहतर स्पीकर डायरीकरण|accessdate=2012-01-25}}</ref> इसका प्रयोग इस प्रश्न का उत्तर देने के लिए किया जाता है कि कौन कब बोला?<ref>{{cite web|first1=Margarita |last1=Kotti |first2=Vassiliki |last2=Moschou |first3=Constantine |last3=Kotropoulos |url=http://poseidon.csd.auth.gr/papers/PUBLISHED/JOURNAL/pdf/Kotti08a.pdf |title=अध्यक्ष विभाजन और क्लस्टरिंग|accessdate=2012-01-25}}</ref> स्पीकर डायराइजेशन स्पीकर विभाजन एवं स्पीकर समूह का संयोजन है। पूर्व का उद्देश्य श्रवण स्ट्रीम में स्पीकर परिवर्तन बिंदु अवलोकन करना है। द्वितीय उद्देश्य स्पीकर की विशेषताओं के आधार पर भाषण खंडों को साथ में समूहीकृत करना है।
स्पीकर डायराइजेशन (अमेरिकी और ब्रिटिश अंग्रेजी वर्तनी अंतर # -ise.2C -ize .28-isation.2C -ization.29 डायराइजेशन) प्रत्येक वक्ता की पहचान के अनुसार मानव भाषण युक्त एक ऑडियो स्ट्रीम को सजातीय खंडों में विभाजित करने की प्रक्रिया है।<ref>{{cite arXiv |last1=Sahidullah |first1=Md |last2=Patino |first2=Jose |last3=Cornell |first3=Samuele |last4=Yin |first4=Ruiking |last5=Sivasankaran |first5=Sunit |last6=Bredin |first6=Herve |last7=Korshunov |first7=Pavel |last8=Brutti |first8=Alessio |last9=Serizel |first9=Romain |last10=Vincent |first10=Emmanuel |last11=Evans |first11=Nicholas |last12=Marcel |first12=Sebastien |last13=Squartini |first13=Stefano |last14=Barras |first14=Claude |date=2019-11-06 |title=The Speed Submission to DIHARD II: Contributions & Lessons Learned |class=eess.AS |eprint=1911.02388 }}</ref> यह ऑडियो स्ट्रीम को स्पीकर टर्न में संरचित करके और स्पीकर की वास्तविक पहचान प्रदान करके, [[वाक् पहचान]] सिस्टम के साथ उपयोग किए जाने पर [[वक्ता मान्यता]] की पठनीयता को बढ़ा सकता है।<ref>{{cite web|first1=Xuan |last1=Zhu |first2=Claude |last2=Barras |first3=Sylvain |last3=Meignier |first4=Jean-Luc |last4=Gauvain |url=http://www.limsi.fr/Rapports/RS2005/chm/tlp/tlp1/index.html |title=स्पीकर पहचान का उपयोग करके बेहतर स्पीकर डायरीकरण|accessdate=2012-01-25}}</ref> इसका प्रयोग इस प्रश्न का उत्तर देने के लिए किया जाता है कि कौन कब बोला?<ref>{{cite web|first1=Margarita |last1=Kotti |first2=Vassiliki |last2=Moschou |first3=Constantine |last3=Kotropoulos |url=http://poseidon.csd.auth.gr/papers/PUBLISHED/JOURNAL/pdf/Kotti08a.pdf |title=अध्यक्ष विभाजन और क्लस्टरिंग|accessdate=2012-01-25}}</ref>
स्पीकर डायराइजेशन स्पीकर सेगमेंटेशन और स्पीकर क्लस्टरिंग का संयोजन है। पहले का उद्देश्य ऑडियो स्ट्रीम में स्पीकर परिवर्तन बिंदु खोजना है। दूसरा उद्देश्य वक्ता की विशेषताओं के आधार पर भाषण खंडों को एक साथ समूहीकृत करना है।


ब्रॉडकास्ट की बढ़ती संख्या के साथ, हर साल मीटिंग रिकॉर्डिंग और वॉइस मेल एकत्र किए जाते हैं, स्पीकर डायरीकरण ने भाषण समुदाय द्वारा बहुत अधिक ध्यान आकर्षित किया है, जैसा कि टेलीफोन के लिए राष्ट्रीय मानक और प्रौद्योगिकी संस्थान के तत्वावधान में इसके लिए समर्पित विशिष्ट मूल्यांकन से प्रकट होता है। भाषण, प्रसारण समाचार और बैठकें।<ref>{{cite web|url=http://www.itl.nist.gov/iad/mig/tests/rt/ |title=रिच ट्रांसक्रिप्शन मूल्यांकन परियोजना|publisher=[[National Institute of Standards and Technology|NIST]] |accessdate=2012-01-25}}</ref>
प्रसारण की विस्तृत संख्या के साथ, प्रत्येक वर्ष बैठक अभिलेख एवं स्वर-पत्र एकत्र किए जाते हैं, स्पीकर डायराइजेशन ने भाषण समुदाय द्वारा अधिक ध्यान आकर्षित किया है, जैसा कि टेलीफोन के लिए राष्ट्रीय मानक एवं प्रौद्योगिकी संस्थान के तत्वावधान में इसके लिए समर्पित विशिष्ट मूल्यांकन से प्रकट होता है। भाषण, प्रसारण समाचार एवं बैठकें होती है।<ref>{{cite web|url=http://www.itl.nist.gov/iad/mig/tests/rt/ |title=रिच ट्रांसक्रिप्शन मूल्यांकन परियोजना|publisher=[[National Institute of Standards and Technology|NIST]] |accessdate=2012-01-25}}</ref>




== डायराइजेशन सिस्टम के मुख्य प्रकार ==
== डायरीकरण प्रणाली के मुख्य प्रकार ==
स्पीकर डायरीकरण में, सबसे लोकप्रिय तरीकों में से एक है प्रत्येक स्पीकर को मॉडल करने के लिए एक [[मिश्रण मॉडल]] का उपयोग करना, और एक छिपे [[हिडन मार्कोव मॉडल]] की सहायता से प्रत्येक स्पीकर के लिए संबंधित फ्रेम असाइन करना। क्लस्टरिंग परिदृश्य के दो मुख्य प्रकार हैं। पहला अब तक का सबसे लोकप्रिय है और इसे बॉटम-अप कहा जाता है। एल्गोरिथ्म क्लस्टर के उत्तराधिकार में पूर्ण ऑडियो सामग्री को विभाजित करना शुरू करता है और एक ऐसी स्थिति तक पहुंचने के लिए उत्तरोत्तर निरर्थक समूहों को मर्ज करने का प्रयास करता है जहां प्रत्येक क्लस्टर एक वास्तविक वक्ता से मेल खाता है। दूसरी क्लस्टरिंग रणनीति को [http://www.eurecom.fr/util/publidownload.fr.htm?id=3000 टॉप-डाउन] कहा जाता है और सभी ऑडियो डेटा के लिए एक सिंगल क्लस्टर से शुरू होता है और इसे तब तक विभाजित करने की कोशिश करता है जब तक कि वक्ताओं की संख्या के बराबर समूहों की संख्या तक पहुँचना।
स्पीकर डायराइजेशन में, सबसे लोकप्रिय प्रविधियों में से है, प्रत्येक स्पीकर को प्रतिरूप करने के लिए [[मिश्रण मॉडल|मिश्रण प्रतिरूप]] का उपयोग करना, एवं [[हिडन मार्कोव मॉडल|छिपे मार्कोव प्रतिरूप]] की सहायता से प्रत्येक स्पीकर के लिए संबंधित आकृति नियुक्त करना है। क्लस्टरिंग परिदृश्य के दो मुख्य प्रकार हैं। प्रथम अब तक का सबसे लोकप्रिय है एवं इसे बॉटम-अप कहा जाता है। एल्गोरिथ्म क्लस्टर के उत्तराधिकार में पूर्ण श्रवण सामग्री को विभाजित करना प्रारम्भ करता है एवं ऐसी स्थिति तक पहुंचने के लिए उत्तरोत्तर निरर्थक समूहों को विलय करने का प्रयत्न करता है जहां प्रत्येक समूह वास्तविक स्पीकर से युग्मित होता है। द्वितीय क्लस्टरिंग रणनीति को [http://www.eurecom.fr/util/publidownload.fr.htm?id=3000 टॉप-डाउन] कहा जाता है एवं सभी श्रवण डेटा के लिए एकल समूह से प्रारम्भ होता है एवं इसे तब तक विभाजित करने का प्रयत्न करता है जब तक कि स्पीकरों की संख्या के समान समूहों की संख्या तक पहुँचना 2010 की समीक्षा [http://www.icsi.berkeley.edu/~fractor/papers/friedland_146.pdf] पर देखा जा सकता है।
2010 की समीक्षा [http://www.icsi.berkeley.edu/~fractor/papers/friedland_146.pdf] पर देखी जा सकती है।


हाल ही में, [[कृत्रिम तंत्रिका नेटवर्क]] और भारी [[ ग्राफ़िक्स प्रोसेसिंग युनिट ]] कंप्यूटिंग के कारण स्पीकर डायराइजेशन किया जाता है, जिससे कुछ अधिक कुशल डायरेक्शन एल्गोरिथम संभव हो जाता है।<ref>{{cite arXiv |last1=Park |first1=Tae Jin |last2=Kanda |first2=Naoyuki |last3=Dimitriadis |first3=Dimitrios |last4=Han |first4=Kyu J. |last5=Watanabe |first5=Shinji |last6=Narayanan |first6=Shrikanth |date=2021-11-26 |title=A Review of Speaker Diarization: Recent Advances with Deep Learning |class=eess.AS |eprint=2101.09624 }}</ref>
शीघ्र ही, [[कृत्रिम तंत्रिका नेटवर्क]] एवं स्थूल [[ ग्राफ़िक्स प्रोसेसिंग युनिट ]]कंप्यूटिंग के कारण स्पीकर डायराइजेशन किया जाता है, जिससे कुछ अधिक कुशल डायरीकरण एल्गोरिथम संभव हो जाता है।<ref>{{cite arXiv |last1=Park |first1=Tae Jin |last2=Kanda |first2=Naoyuki |last3=Dimitriadis |first3=Dimitrios |last4=Han |first4=Kyu J. |last5=Watanabe |first5=Shinji |last6=Narayanan |first6=Shrikanth |date=2021-11-26 |title=A Review of Speaker Diarization: Recent Advances with Deep Learning |class=eess.AS |eprint=2101.09624 }}</ref>




== ओपन सोर्स स्पीकर डायराइजेशन सॉफ्टवेयर ==
== विवृत स्रोत स्पीकर डायराइजेशन प्रक्रिया सामग्री ==


स्पीकर डायरीकरण के लिए कुछ ओपन सोर्स पहलें हैं (वर्णानुक्रम में):
स्पीकर डायराइजेशन के लिए कुछ विवृत स्रोत प्रयत्न हैं (वर्णानुक्रम में)-


*[[ALIZE स्पीकर डायराइजेशन]] (अंतिम रिपॉजिटरी अपडेट: जुलाई 2016; अंतिम रिलीज़: फरवरी 2013, संस्करण: 3.0): एलीज़ डायराइज़ेशन सिस्टम, एविग्नन विश्वविद्यालय में विकसित किया गया, एक रिलीज़ 2.0 उपलब्ध है [http://alize.univ-avignon। fr/svn/LIA_RAL/branches/2.0/LIA_SpkSeg/]।
*[[ALIZE स्पीकर डायराइजेशन|एलीज़ स्पीकर डायराइजेशन]] (अंतिम संग्रह अद्यतन जुलाई 2016; अंतिम प्रदर्शन: फरवरी 2013, संस्करण: 3.0): एलीज़ डायरीकरण प्रणाली, एविग्नन विश्वविद्यालय में विकसित किया गया, प्रदर्शन 2.0 उपलब्ध होता है।
*[[ ऑडियो सेग ]] (अंतिम रिपॉजिटरी अपडेट: मई 2014; अंतिम रिलीज़: जनवरी 2010, संस्करण: 1.2): ऑडियोसेग एक टूलकिट है जो ऑडियो विभाजन और ऑडियो स्ट्रीम के वर्गीकरण के लिए समर्पित है। [http://gforge.inria.fr/projects/audioseg]
*[[ ऑडियो सेग | श्रवण अनुभाग]] (अंतिम संग्रह अद्यतन: मई 2014; अंतिम प्रदर्शन: जनवरी 2010, संस्करण: 1.2): श्रवण अनुभाग उपकरण है, जो श्रवण विभाजन एवं श्रवण धारा के वर्गीकरण के लिए समर्पित होता है। [http://gforge.inria.fr/projects/audioseg]
* pyannote.audio (अंतिम रिपॉजिटरी अपडेट: अगस्त 2022, अंतिम रिलीज़: जुलाई 2022, संस्करण: 2.0): pyannote.audio स्पीकर डायराइजेशन के लिए पायथन में लिखा गया एक ओपन-सोर्स टूलकिट है। [https://github.com/pyannote/pyannote-audio]
* पायनोट श्रवण (अंतिम संग्रह अद्यतन: अगस्त 2022, अंतिम प्रदर्शन: जुलाई 2022, संस्करण: 2.0): पायनोट श्रवण स्पीकर डायराइजेशन के लिए पायथन में लिखा गया विवृत स्रोत उपकरण है। [https://github.com/pyannote/pyannote-audio]
*[[pyAudioAnalysis]] (अंतिम रिपॉजिटरी अपडेट: अगस्त 2018): पायथन ऑडियो एनालिसिस लाइब्रेरी: फ़ीचर एक्सट्रैक्शन, क्लासिफिकेशन, सेगमेंटेशन और एप्लिकेशन [https://github.com/tyiannak/pyAudioAnalysis]
*[[pyAudioAnalysis|पायथन श्रवण विश्लेषण]] (अंतिम संग्रह अद्यतन: अगस्त 2018): पायथन श्रवण विश्लेषण पुस्तकालय: सुविधा निकालना, वर्गीकरण, विभाजन एवं अनुप्रयोग करना है। [https://github.com/tyiannak/pyAudioAnalysis]
*[[SHoUT]] (अंतिम अपडेट: दिसंबर 2010; संस्करण: 0.3): SHoUT एक सॉफ्टवेयर पैकेज है जिसे ट्वेंटी विश्वविद्यालय में वाक् पहचान अनुसंधान में सहायता के लिए विकसित किया गया है। SHoUT ट्वेंटी विश्वविद्यालय में वाक् पहचान अनुसंधान के लिए एक डच परिवर्णी शब्द है। [http://shout-toolkit.sourceforge.net/]
*[[SHoUT|शाउट]] (अंतिम अद्यतन: दिसंबर 2010; संस्करण: 0.3): शाउट सॉफ्टवेयर पैकेज है जिसे ट्वेंटी विश्वविद्यालय में वाक् प्रमाण अनुसंधान में सहायता के लिए विकसित किया गया है। शाउट ट्वेंटी विश्वविद्यालय में वाक् प्रमाण अनुसंधान के लिए डच परिवर्णी शब्द होता है। [http://shout-toolkit.sourceforge.net/]
*[http://www-lium.univ-lemans.fr/diarization/doku.php/welcome|LIUM SpkDiarization] (अंतिम रिलीज़: सितंबर 2013, संस्करण: 8.4.1): LIUM_SpkDiarization टूल [http://www- lium.univ-lemans.fr/fr/content/liumspkdiarization]।
*[http://www-lium.univ-lemans.fr/diarization/doku.php/welcome|LIUM SpkDiarization] (अंतिम प्रदर्शन: सितंबर 2013, संस्करण: 8.4.1): LIUM_SpkDiarization (डायरीकरण) उपकरण है।


==संदर्भ==
==संदर्भ==
Line 33: Line 30:
* {{Cite book|last=Beigi|first=Homayoon|url=https://www.springer.com/computer/image+processing/book/978-0-387-77591-3 |title=Fundamentals of Speaker Recognition|publisher=Springer|location=New York|year=2011|isbn=978-0-387-77591-3}}
* {{Cite book|last=Beigi|first=Homayoon|url=https://www.springer.com/computer/image+processing/book/978-0-387-77591-3 |title=Fundamentals of Speaker Recognition|publisher=Springer|location=New York|year=2011|isbn=978-0-387-77591-3}}


{{DEFAULTSORT:Speaker diarisation}}[[Category: वाक् पहचान]] [[Category: भाषण प्रसंस्करण]]
{{DEFAULTSORT:Speaker diarisation}}


 
[[Category:Created On 12/05/2023|Speaker diarisation]]
 
[[Category:Machine Translated Page|Speaker diarisation]]
[[Category: Machine Translated Page]]
[[Category:Templates Vigyan Ready|Speaker diarisation]]
[[Category:Created On 12/05/2023]]
[[Category:भाषण प्रसंस्करण|Speaker diarisation]]
[[Category:वाक् पहचान|Speaker diarisation]]

Latest revision as of 15:48, 30 October 2023

स्पीकर डायराइजेशन प्रत्येक स्पीकर की पहचान के अनुसार मानव भाषण युक्त श्रवण स्ट्रीम को सजातीय खंडों में विभाजित करने की प्रक्रिया है।[1] यह श्रवण स्ट्रीम को स्पीकर घुमाव में संरचित करके एवं स्पीकर की वास्तविक पहचान प्रदान करके, वाक् प्रमाण प्रणाली के साथ उपयोग किए जाने पर स्पीकर मान्यता की पठनीयता को विस्तृत कर सकता है।[2] इसका प्रयोग इस प्रश्न का उत्तर देने के लिए किया जाता है कि कौन कब बोला?[3] स्पीकर डायराइजेशन स्पीकर विभाजन एवं स्पीकर समूह का संयोजन है। पूर्व का उद्देश्य श्रवण स्ट्रीम में स्पीकर परिवर्तन बिंदु अवलोकन करना है। द्वितीय उद्देश्य स्पीकर की विशेषताओं के आधार पर भाषण खंडों को साथ में समूहीकृत करना है।

प्रसारण की विस्तृत संख्या के साथ, प्रत्येक वर्ष बैठक अभिलेख एवं स्वर-पत्र एकत्र किए जाते हैं, स्पीकर डायराइजेशन ने भाषण समुदाय द्वारा अधिक ध्यान आकर्षित किया है, जैसा कि टेलीफोन के लिए राष्ट्रीय मानक एवं प्रौद्योगिकी संस्थान के तत्वावधान में इसके लिए समर्पित विशिष्ट मूल्यांकन से प्रकट होता है। भाषण, प्रसारण समाचार एवं बैठकें होती है।[4]


डायरीकरण प्रणाली के मुख्य प्रकार

स्पीकर डायराइजेशन में, सबसे लोकप्रिय प्रविधियों में से है, प्रत्येक स्पीकर को प्रतिरूप करने के लिए मिश्रण प्रतिरूप का उपयोग करना, एवं छिपे मार्कोव प्रतिरूप की सहायता से प्रत्येक स्पीकर के लिए संबंधित आकृति नियुक्त करना है। क्लस्टरिंग परिदृश्य के दो मुख्य प्रकार हैं। प्रथम अब तक का सबसे लोकप्रिय है एवं इसे बॉटम-अप कहा जाता है। एल्गोरिथ्म क्लस्टर के उत्तराधिकार में पूर्ण श्रवण सामग्री को विभाजित करना प्रारम्भ करता है एवं ऐसी स्थिति तक पहुंचने के लिए उत्तरोत्तर निरर्थक समूहों को विलय करने का प्रयत्न करता है जहां प्रत्येक समूह वास्तविक स्पीकर से युग्मित होता है। द्वितीय क्लस्टरिंग रणनीति को टॉप-डाउन कहा जाता है एवं सभी श्रवण डेटा के लिए एकल समूह से प्रारम्भ होता है एवं इसे तब तक विभाजित करने का प्रयत्न करता है जब तक कि स्पीकरों की संख्या के समान समूहों की संख्या तक पहुँचना 2010 की समीक्षा [1] पर देखा जा सकता है।

शीघ्र ही, कृत्रिम तंत्रिका नेटवर्क एवं स्थूल ग्राफ़िक्स प्रोसेसिंग युनिट कंप्यूटिंग के कारण स्पीकर डायराइजेशन किया जाता है, जिससे कुछ अधिक कुशल डायरीकरण एल्गोरिथम संभव हो जाता है।[5]


विवृत स्रोत स्पीकर डायराइजेशन प्रक्रिया सामग्री

स्पीकर डायराइजेशन के लिए कुछ विवृत स्रोत प्रयत्न हैं (वर्णानुक्रम में)-

  • एलीज़ स्पीकर डायराइजेशन (अंतिम संग्रह अद्यतन जुलाई 2016; अंतिम प्रदर्शन: फरवरी 2013, संस्करण: 3.0): एलीज़ डायरीकरण प्रणाली, एविग्नन विश्वविद्यालय में विकसित किया गया, प्रदर्शन 2.0 उपलब्ध होता है।
  • श्रवण अनुभाग (अंतिम संग्रह अद्यतन: मई 2014; अंतिम प्रदर्शन: जनवरी 2010, संस्करण: 1.2): श्रवण अनुभाग उपकरण है, जो श्रवण विभाजन एवं श्रवण धारा के वर्गीकरण के लिए समर्पित होता है। [2]
  • पायनोट श्रवण (अंतिम संग्रह अद्यतन: अगस्त 2022, अंतिम प्रदर्शन: जुलाई 2022, संस्करण: 2.0): पायनोट श्रवण स्पीकर डायराइजेशन के लिए पायथन में लिखा गया विवृत स्रोत उपकरण है। [3]
  • पायथन श्रवण विश्लेषण (अंतिम संग्रह अद्यतन: अगस्त 2018): पायथन श्रवण विश्लेषण पुस्तकालय: सुविधा निकालना, वर्गीकरण, विभाजन एवं अनुप्रयोग करना है। [4]
  • शाउट (अंतिम अद्यतन: दिसंबर 2010; संस्करण: 0.3): शाउट सॉफ्टवेयर पैकेज है जिसे ट्वेंटी विश्वविद्यालय में वाक् प्रमाण अनुसंधान में सहायता के लिए विकसित किया गया है। शाउट ट्वेंटी विश्वविद्यालय में वाक् प्रमाण अनुसंधान के लिए डच परिवर्णी शब्द होता है। [5]
  • SpkDiarization (अंतिम प्रदर्शन: सितंबर 2013, संस्करण: 8.4.1): LIUM_SpkDiarization (डायरीकरण) उपकरण है।

संदर्भ

  1. Sahidullah, Md; Patino, Jose; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Herve; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vincent, Emmanuel; Evans, Nicholas; Marcel, Sebastien; Squartini, Stefano; Barras, Claude (2019-11-06). "The Speed Submission to DIHARD II: Contributions & Lessons Learned". arXiv:1911.02388 [eess.AS].
  2. Zhu, Xuan; Barras, Claude; Meignier, Sylvain; Gauvain, Jean-Luc. "स्पीकर पहचान का उपयोग करके बेहतर स्पीकर डायरीकरण". Retrieved 2012-01-25.
  3. Kotti, Margarita; Moschou, Vassiliki; Kotropoulos, Constantine. "अध्यक्ष विभाजन और क्लस्टरिंग" (PDF). Retrieved 2012-01-25.
  4. "रिच ट्रांसक्रिप्शन मूल्यांकन परियोजना". NIST. Retrieved 2012-01-25.
  5. Park, Tae Jin; Kanda, Naoyuki; Dimitriadis, Dimitrios; Han, Kyu J.; Watanabe, Shinji; Narayanan, Shrikanth (2021-11-26). "A Review of Speaker Diarization: Recent Advances with Deep Learning". arXiv:2101.09624 [eess.AS].


ग्रन्थसूची