स्पीकर डायराइजेशन: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 1: Line 1:
स्पीकर डायराइजेशन प्रत्येक स्पीकर की पहचान के अनुसार मानव भाषण युक्त श्रवण स्ट्रीम को सजातीय खंडों में विभाजित करने की प्रक्रिया है।<ref>{{cite arXiv |last1=Sahidullah |first1=Md |last2=Patino |first2=Jose |last3=Cornell |first3=Samuele |last4=Yin |first4=Ruiking |last5=Sivasankaran |first5=Sunit |last6=Bredin |first6=Herve |last7=Korshunov |first7=Pavel |last8=Brutti |first8=Alessio |last9=Serizel |first9=Romain |last10=Vincent |first10=Emmanuel |last11=Evans |first11=Nicholas |last12=Marcel |first12=Sebastien |last13=Squartini |first13=Stefano |last14=Barras |first14=Claude |date=2019-11-06 |title=The Speed Submission to DIHARD II: Contributions & Lessons Learned |class=eess.AS |eprint=1911.02388 }}</ref> यह श्रवण स्ट्रीम को स्पीकर घुमाव में संरचित करके एवं स्पीकर की वास्तविक पहचान प्रदान करके, [[वाक् पहचान]] प्रणाली के साथ उपयोग किए जाने पर [[वक्ता मान्यता|स्पीकर मान्यता]] की पठनीयता को बढ़ा सकता है।<ref>{{cite web|first1=Xuan |last1=Zhu |first2=Claude |last2=Barras |first3=Sylvain |last3=Meignier |first4=Jean-Luc |last4=Gauvain |url=http://www.limsi.fr/Rapports/RS2005/chm/tlp/tlp1/index.html |title=स्पीकर पहचान का उपयोग करके बेहतर स्पीकर डायरीकरण|accessdate=2012-01-25}}</ref> इसका प्रयोग इस प्रश्न का उत्तर देने के लिए किया जाता है कि कौन कब बोला?<ref>{{cite web|first1=Margarita |last1=Kotti |first2=Vassiliki |last2=Moschou |first3=Constantine |last3=Kotropoulos |url=http://poseidon.csd.auth.gr/papers/PUBLISHED/JOURNAL/pdf/Kotti08a.pdf |title=अध्यक्ष विभाजन और क्लस्टरिंग|accessdate=2012-01-25}}</ref> स्पीकर डायराइजेशन स्पीकर विभाजन एवं स्पीकर समूह का संयोजन है। पूर्व का उद्देश्य श्रवण स्ट्रीम में स्पीकर परिवर्तन बिंदु अवलोकन करना है। दूसरा उद्देश्य स्पीकर की विशेषताओं के आधार पर भाषण खंडों को साथ में समूहीकृत करना है।
स्पीकर डायराइजेशन प्रत्येक स्पीकर की पहचान के अनुसार मानव भाषण युक्त श्रवण स्ट्रीम को सजातीय खंडों में विभाजित करने की प्रक्रिया है।<ref>{{cite arXiv |last1=Sahidullah |first1=Md |last2=Patino |first2=Jose |last3=Cornell |first3=Samuele |last4=Yin |first4=Ruiking |last5=Sivasankaran |first5=Sunit |last6=Bredin |first6=Herve |last7=Korshunov |first7=Pavel |last8=Brutti |first8=Alessio |last9=Serizel |first9=Romain |last10=Vincent |first10=Emmanuel |last11=Evans |first11=Nicholas |last12=Marcel |first12=Sebastien |last13=Squartini |first13=Stefano |last14=Barras |first14=Claude |date=2019-11-06 |title=The Speed Submission to DIHARD II: Contributions & Lessons Learned |class=eess.AS |eprint=1911.02388 }}</ref> यह श्रवण स्ट्रीम को स्पीकर घुमाव में संरचित करके एवं स्पीकर की वास्तविक पहचान प्रदान करके, [[वाक् पहचान|वाक् प्रमाण]] प्रणाली के साथ उपयोग किए जाने पर [[वक्ता मान्यता|स्पीकर मान्यता]] की पठनीयता को विस्तृत कर सकता है।<ref>{{cite web|first1=Xuan |last1=Zhu |first2=Claude |last2=Barras |first3=Sylvain |last3=Meignier |first4=Jean-Luc |last4=Gauvain |url=http://www.limsi.fr/Rapports/RS2005/chm/tlp/tlp1/index.html |title=स्पीकर पहचान का उपयोग करके बेहतर स्पीकर डायरीकरण|accessdate=2012-01-25}}</ref> इसका प्रयोग इस प्रश्न का उत्तर देने के लिए किया जाता है कि कौन कब बोला?<ref>{{cite web|first1=Margarita |last1=Kotti |first2=Vassiliki |last2=Moschou |first3=Constantine |last3=Kotropoulos |url=http://poseidon.csd.auth.gr/papers/PUBLISHED/JOURNAL/pdf/Kotti08a.pdf |title=अध्यक्ष विभाजन और क्लस्टरिंग|accessdate=2012-01-25}}</ref> स्पीकर डायराइजेशन स्पीकर विभाजन एवं स्पीकर समूह का संयोजन है। पूर्व का उद्देश्य श्रवण स्ट्रीम में स्पीकर परिवर्तन बिंदु अवलोकन करना है। द्वितीय उद्देश्य स्पीकर की विशेषताओं के आधार पर भाषण खंडों को साथ में समूहीकृत करना है।


प्रसारण की बढ़ती संख्या के साथ, प्रत्येक वर्ष बैठक अभिलेख एवं स्वर-पत्र एकत्र किए जाते हैं, स्पीकर डायराइजेशन ने भाषण समुदाय द्वारा अधिक ध्यान आकर्षित किया है, जैसा कि टेलीफोन के लिए राष्ट्रीय मानक एवं प्रौद्योगिकी संस्थान के तत्वावधान में इसके लिए समर्पित विशिष्ट मूल्यांकन से प्रकट होता है। भाषण, प्रसारण समाचार एवं बैठकें होती है।<ref>{{cite web|url=http://www.itl.nist.gov/iad/mig/tests/rt/ |title=रिच ट्रांसक्रिप्शन मूल्यांकन परियोजना|publisher=[[National Institute of Standards and Technology|NIST]] |accessdate=2012-01-25}}</ref>
प्रसारण की विस्तृत संख्या के साथ, प्रत्येक वर्ष बैठक अभिलेख एवं स्वर-पत्र एकत्र किए जाते हैं, स्पीकर डायराइजेशन ने भाषण समुदाय द्वारा अधिक ध्यान आकर्षित किया है, जैसा कि टेलीफोन के लिए राष्ट्रीय मानक एवं प्रौद्योगिकी संस्थान के तत्वावधान में इसके लिए समर्पित विशिष्ट मूल्यांकन से प्रकट होता है। भाषण, प्रसारण समाचार एवं बैठकें होती है।<ref>{{cite web|url=http://www.itl.nist.gov/iad/mig/tests/rt/ |title=रिच ट्रांसक्रिप्शन मूल्यांकन परियोजना|publisher=[[National Institute of Standards and Technology|NIST]] |accessdate=2012-01-25}}</ref>




== डायरीकरण प्रणाली के मुख्य प्रकार ==
== डायरीकरण प्रणाली के मुख्य प्रकार ==
स्पीकर डायराइजेशन में, सबसे लोकप्रिय प्रविधियों में से है, प्रत्येक स्पीकर को प्रतिरूप करने के लिए [[मिश्रण मॉडल|मिश्रण प्रतिरूप]] का उपयोग करना, एवं [[हिडन मार्कोव मॉडल|छिपे मार्कोव प्रतिरूप]] की सहायता से प्रत्येक स्पीकर के लिए संबंधित आकृति नियुक्त करना है। क्लस्टरिंग परिदृश्य के दो मुख्य प्रकार हैं। प्रथम अब तक का सबसे लोकप्रिय है एवं इसे बॉटम-अप कहा जाता है। एल्गोरिथ्म क्लस्टर के उत्तराधिकार में पूर्ण श्रवण सामग्री को विभाजित करना प्रारम्भ करता है एवं ऐसी स्थिति तक पहुंचने के लिए उत्तरोत्तर निरर्थक समूहों को विलय करने का प्रयत्न करता है जहां प्रत्येक समूह वास्तविक स्पीकर से मेल खाता है। दूसरी क्लस्टरिंग रणनीति को [http://www.eurecom.fr/util/publidownload.fr.htm?id=3000 टॉप-डाउन] कहा जाता है एवं सभी श्रवण डेटा के लिए एकल समूह से प्रारम्भ होता है एवं इसे तब तक विभाजित करने का प्रयत्न करता है जब तक कि स्पीकरओं की संख्या के समान समूहों की संख्या तक पहुँचना 2010 की समीक्षा [http://www.icsi.berkeley.edu/~fractor/papers/friedland_146.pdf] पर देखा जा सकता है।
स्पीकर डायराइजेशन में, सबसे लोकप्रिय प्रविधियों में से है, प्रत्येक स्पीकर को प्रतिरूप करने के लिए [[मिश्रण मॉडल|मिश्रण प्रतिरूप]] का उपयोग करना, एवं [[हिडन मार्कोव मॉडल|छिपे मार्कोव प्रतिरूप]] की सहायता से प्रत्येक स्पीकर के लिए संबंधित आकृति नियुक्त करना है। क्लस्टरिंग परिदृश्य के दो मुख्य प्रकार हैं। प्रथम अब तक का सबसे लोकप्रिय है एवं इसे बॉटम-अप कहा जाता है। एल्गोरिथ्म क्लस्टर के उत्तराधिकार में पूर्ण श्रवण सामग्री को विभाजित करना प्रारम्भ करता है एवं ऐसी स्थिति तक पहुंचने के लिए उत्तरोत्तर निरर्थक समूहों को विलय करने का प्रयत्न करता है जहां प्रत्येक समूह वास्तविक स्पीकर से युग्मित होता है। द्वितीय क्लस्टरिंग रणनीति को [http://www.eurecom.fr/util/publidownload.fr.htm?id=3000 टॉप-डाउन] कहा जाता है एवं सभी श्रवण डेटा के लिए एकल समूह से प्रारम्भ होता है एवं इसे तब तक विभाजित करने का प्रयत्न करता है जब तक कि स्पीकरों की संख्या के समान समूहों की संख्या तक पहुँचना 2010 की समीक्षा [http://www.icsi.berkeley.edu/~fractor/papers/friedland_146.pdf] पर देखा जा सकता है।


शीघ्र में ही , [[कृत्रिम तंत्रिका नेटवर्क]] एवं स्थूल [[ ग्राफ़िक्स प्रोसेसिंग युनिट ]]कंप्यूटिंग के कारण स्पीकर डायराइजेशन किया जाता है, जिससे कुछ अधिक कुशल डायरीकरण एल्गोरिथम संभव हो जाता है।<ref>{{cite arXiv |last1=Park |first1=Tae Jin |last2=Kanda |first2=Naoyuki |last3=Dimitriadis |first3=Dimitrios |last4=Han |first4=Kyu J. |last5=Watanabe |first5=Shinji |last6=Narayanan |first6=Shrikanth |date=2021-11-26 |title=A Review of Speaker Diarization: Recent Advances with Deep Learning |class=eess.AS |eprint=2101.09624 }}</ref>
शीघ्र ही, [[कृत्रिम तंत्रिका नेटवर्क]] एवं स्थूल [[ ग्राफ़िक्स प्रोसेसिंग युनिट ]]कंप्यूटिंग के कारण स्पीकर डायराइजेशन किया जाता है, जिससे कुछ अधिक कुशल डायरीकरण एल्गोरिथम संभव हो जाता है।<ref>{{cite arXiv |last1=Park |first1=Tae Jin |last2=Kanda |first2=Naoyuki |last3=Dimitriadis |first3=Dimitrios |last4=Han |first4=Kyu J. |last5=Watanabe |first5=Shinji |last6=Narayanan |first6=Shrikanth |date=2021-11-26 |title=A Review of Speaker Diarization: Recent Advances with Deep Learning |class=eess.AS |eprint=2101.09624 }}</ref>




== विवृत स्रोत स्पीकर डायराइजेशन प्रक्रिया सामग्री ==
== विवृत स्रोत स्पीकर डायराइजेशन प्रक्रिया सामग्री ==


स्पीकर डायराइजेशन के लिए कुछ विवृत स्रोत प्रथम होते हैं (वर्णानुक्रम में):
स्पीकर डायराइजेशन के लिए कुछ विवृत स्रोत प्रयत्न हैं (वर्णानुक्रम में)-


*[[ALIZE स्पीकर डायराइजेशन|एलीज़ स्पीकर डायराइजेशन]] (अंतिम संग्रह अद्यतन जुलाई 2016; अंतिम प्रदर्शन: फरवरी 2013, संस्करण: 3.0): एलीज़ डायरीकरण प्रणाली, एविग्नन विश्वविद्यालय में विकसित किया गया, प्रदर्शन 2.0 उपलब्ध होता है।
*[[ALIZE स्पीकर डायराइजेशन|एलीज़ स्पीकर डायराइजेशन]] (अंतिम संग्रह अद्यतन जुलाई 2016; अंतिम प्रदर्शन: फरवरी 2013, संस्करण: 3.0): एलीज़ डायरीकरण प्रणाली, एविग्नन विश्वविद्यालय में विकसित किया गया, प्रदर्शन 2.0 उपलब्ध होता है।
Line 18: Line 18:
* पायनोट श्रवण (अंतिम संग्रह अद्यतन: अगस्त 2022, अंतिम प्रदर्शन: जुलाई 2022, संस्करण: 2.0): पायनोट श्रवण स्पीकर डायराइजेशन के लिए पायथन में लिखा गया विवृत स्रोत उपकरण है। [https://github.com/pyannote/pyannote-audio]
* पायनोट श्रवण (अंतिम संग्रह अद्यतन: अगस्त 2022, अंतिम प्रदर्शन: जुलाई 2022, संस्करण: 2.0): पायनोट श्रवण स्पीकर डायराइजेशन के लिए पायथन में लिखा गया विवृत स्रोत उपकरण है। [https://github.com/pyannote/pyannote-audio]
*[[pyAudioAnalysis|पायथन श्रवण विश्लेषण]] (अंतिम संग्रह अद्यतन: अगस्त 2018): पायथन श्रवण विश्लेषण पुस्तकालय: सुविधा निकालना, वर्गीकरण, विभाजन एवं अनुप्रयोग करना है। [https://github.com/tyiannak/pyAudioAnalysis]
*[[pyAudioAnalysis|पायथन श्रवण विश्लेषण]] (अंतिम संग्रह अद्यतन: अगस्त 2018): पायथन श्रवण विश्लेषण पुस्तकालय: सुविधा निकालना, वर्गीकरण, विभाजन एवं अनुप्रयोग करना है। [https://github.com/tyiannak/pyAudioAnalysis]
*[[SHoUT|शाउट]] (अंतिम अद्यतन: दिसंबर 2010; संस्करण: 0.3): शाउट सॉफ्टवेयर पैकेज है जिसे ट्वेंटी विश्वविद्यालय में वाक् पहचान अनुसंधान में सहायता के लिए विकसित किया गया है। शाउट ट्वेंटी विश्वविद्यालय में वाक् पहचान अनुसंधान के लिए डच परिवर्णी शब्द होता है। [http://shout-toolkit.sourceforge.net/]
*[[SHoUT|शाउट]] (अंतिम अद्यतन: दिसंबर 2010; संस्करण: 0.3): शाउट सॉफ्टवेयर पैकेज है जिसे ट्वेंटी विश्वविद्यालय में वाक् प्रमाण अनुसंधान में सहायता के लिए विकसित किया गया है। शाउट ट्वेंटी विश्वविद्यालय में वाक् प्रमाण अनुसंधान के लिए डच परिवर्णी शब्द होता है। [http://shout-toolkit.sourceforge.net/]
*[http://www-lium.univ-lemans.fr/diarization/doku.php/welcome|LIUM SpkDiarization] (अंतिम प्रदर्शन: सितंबर 2013, संस्करण: 8.4.1): LIUM_SpkDiarization (डायरीकरण) उपकरण है।
*[http://www-lium.univ-lemans.fr/diarization/doku.php/welcome|LIUM SpkDiarization] (अंतिम प्रदर्शन: सितंबर 2013, संस्करण: 8.4.1): LIUM_SpkDiarization (डायरीकरण) उपकरण है।



Revision as of 23:41, 22 May 2023

स्पीकर डायराइजेशन प्रत्येक स्पीकर की पहचान के अनुसार मानव भाषण युक्त श्रवण स्ट्रीम को सजातीय खंडों में विभाजित करने की प्रक्रिया है।[1] यह श्रवण स्ट्रीम को स्पीकर घुमाव में संरचित करके एवं स्पीकर की वास्तविक पहचान प्रदान करके, वाक् प्रमाण प्रणाली के साथ उपयोग किए जाने पर स्पीकर मान्यता की पठनीयता को विस्तृत कर सकता है।[2] इसका प्रयोग इस प्रश्न का उत्तर देने के लिए किया जाता है कि कौन कब बोला?[3] स्पीकर डायराइजेशन स्पीकर विभाजन एवं स्पीकर समूह का संयोजन है। पूर्व का उद्देश्य श्रवण स्ट्रीम में स्पीकर परिवर्तन बिंदु अवलोकन करना है। द्वितीय उद्देश्य स्पीकर की विशेषताओं के आधार पर भाषण खंडों को साथ में समूहीकृत करना है।

प्रसारण की विस्तृत संख्या के साथ, प्रत्येक वर्ष बैठक अभिलेख एवं स्वर-पत्र एकत्र किए जाते हैं, स्पीकर डायराइजेशन ने भाषण समुदाय द्वारा अधिक ध्यान आकर्षित किया है, जैसा कि टेलीफोन के लिए राष्ट्रीय मानक एवं प्रौद्योगिकी संस्थान के तत्वावधान में इसके लिए समर्पित विशिष्ट मूल्यांकन से प्रकट होता है। भाषण, प्रसारण समाचार एवं बैठकें होती है।[4]


डायरीकरण प्रणाली के मुख्य प्रकार

स्पीकर डायराइजेशन में, सबसे लोकप्रिय प्रविधियों में से है, प्रत्येक स्पीकर को प्रतिरूप करने के लिए मिश्रण प्रतिरूप का उपयोग करना, एवं छिपे मार्कोव प्रतिरूप की सहायता से प्रत्येक स्पीकर के लिए संबंधित आकृति नियुक्त करना है। क्लस्टरिंग परिदृश्य के दो मुख्य प्रकार हैं। प्रथम अब तक का सबसे लोकप्रिय है एवं इसे बॉटम-अप कहा जाता है। एल्गोरिथ्म क्लस्टर के उत्तराधिकार में पूर्ण श्रवण सामग्री को विभाजित करना प्रारम्भ करता है एवं ऐसी स्थिति तक पहुंचने के लिए उत्तरोत्तर निरर्थक समूहों को विलय करने का प्रयत्न करता है जहां प्रत्येक समूह वास्तविक स्पीकर से युग्मित होता है। द्वितीय क्लस्टरिंग रणनीति को टॉप-डाउन कहा जाता है एवं सभी श्रवण डेटा के लिए एकल समूह से प्रारम्भ होता है एवं इसे तब तक विभाजित करने का प्रयत्न करता है जब तक कि स्पीकरों की संख्या के समान समूहों की संख्या तक पहुँचना 2010 की समीक्षा [1] पर देखा जा सकता है।

शीघ्र ही, कृत्रिम तंत्रिका नेटवर्क एवं स्थूल ग्राफ़िक्स प्रोसेसिंग युनिट कंप्यूटिंग के कारण स्पीकर डायराइजेशन किया जाता है, जिससे कुछ अधिक कुशल डायरीकरण एल्गोरिथम संभव हो जाता है।[5]


विवृत स्रोत स्पीकर डायराइजेशन प्रक्रिया सामग्री

स्पीकर डायराइजेशन के लिए कुछ विवृत स्रोत प्रयत्न हैं (वर्णानुक्रम में)-

  • एलीज़ स्पीकर डायराइजेशन (अंतिम संग्रह अद्यतन जुलाई 2016; अंतिम प्रदर्शन: फरवरी 2013, संस्करण: 3.0): एलीज़ डायरीकरण प्रणाली, एविग्नन विश्वविद्यालय में विकसित किया गया, प्रदर्शन 2.0 उपलब्ध होता है।
  • श्रवण अनुभाग (अंतिम संग्रह अद्यतन: मई 2014; अंतिम प्रदर्शन: जनवरी 2010, संस्करण: 1.2): श्रवण अनुभाग उपकरण है, जो श्रवण विभाजन एवं श्रवण धारा के वर्गीकरण के लिए समर्पित होता है। [2]
  • पायनोट श्रवण (अंतिम संग्रह अद्यतन: अगस्त 2022, अंतिम प्रदर्शन: जुलाई 2022, संस्करण: 2.0): पायनोट श्रवण स्पीकर डायराइजेशन के लिए पायथन में लिखा गया विवृत स्रोत उपकरण है। [3]
  • पायथन श्रवण विश्लेषण (अंतिम संग्रह अद्यतन: अगस्त 2018): पायथन श्रवण विश्लेषण पुस्तकालय: सुविधा निकालना, वर्गीकरण, विभाजन एवं अनुप्रयोग करना है। [4]
  • शाउट (अंतिम अद्यतन: दिसंबर 2010; संस्करण: 0.3): शाउट सॉफ्टवेयर पैकेज है जिसे ट्वेंटी विश्वविद्यालय में वाक् प्रमाण अनुसंधान में सहायता के लिए विकसित किया गया है। शाउट ट्वेंटी विश्वविद्यालय में वाक् प्रमाण अनुसंधान के लिए डच परिवर्णी शब्द होता है। [5]
  • SpkDiarization (अंतिम प्रदर्शन: सितंबर 2013, संस्करण: 8.4.1): LIUM_SpkDiarization (डायरीकरण) उपकरण है।

संदर्भ

  1. Sahidullah, Md; Patino, Jose; Cornell, Samuele; Yin, Ruiking; Sivasankaran, Sunit; Bredin, Herve; Korshunov, Pavel; Brutti, Alessio; Serizel, Romain; Vincent, Emmanuel; Evans, Nicholas; Marcel, Sebastien; Squartini, Stefano; Barras, Claude (2019-11-06). "The Speed Submission to DIHARD II: Contributions & Lessons Learned". arXiv:1911.02388 [eess.AS].
  2. Zhu, Xuan; Barras, Claude; Meignier, Sylvain; Gauvain, Jean-Luc. "स्पीकर पहचान का उपयोग करके बेहतर स्पीकर डायरीकरण". Retrieved 2012-01-25.
  3. Kotti, Margarita; Moschou, Vassiliki; Kotropoulos, Constantine. "अध्यक्ष विभाजन और क्लस्टरिंग" (PDF). Retrieved 2012-01-25.
  4. "रिच ट्रांसक्रिप्शन मूल्यांकन परियोजना". NIST. Retrieved 2012-01-25.
  5. Park, Tae Jin; Kanda, Naoyuki; Dimitriadis, Dimitrios; Han, Kyu J.; Watanabe, Shinji; Narayanan, Shrikanth (2021-11-26). "A Review of Speaker Diarization: Recent Advances with Deep Learning". arXiv:2101.09624 [eess.AS].


ग्रन्थसूची