स्वचालित क्लस्टरिंग एल्गोरिदम: Difference between revisions

From Vigyanwiki
(Created page with "{{short description|Data processing algorithm}} स्वचालित क्लस्टरिंग एल्गोरिदम ऐसे एल्गोरिदम ह...")
 
No edit summary
 
(10 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{short description|Data processing algorithm}}
{{short description|Data processing algorithm}}


स्वचालित क्लस्टरिंग एल्गोरिदम ऐसे एल्गोरिदम हैं जो डेटा सेट के पूर्व ज्ञान के बिना क्लस्टरिंग कर सकते हैं। अन्य [[क्लस्टर विश्लेषण]] तकनीकों के विपरीत, स्वचालित क्लस्टरिंग एल्गोरिदम शोर और बाहरी बिंदुओं की उपस्थिति में भी क्लस्टर की इष्टतम संख्या निर्धारित कर सकते हैं।<ref>[[Outlier]]</ref>{{context needed|date=September 2021}}
'''स्वचालित क्लस्टरिंग एल्गोरिदम''' ऐसे एल्गोरिदम हैं जो डेटा समूह के पूर्व ज्ञान के बिना क्लस्टरिंग कर सकते हैं। इस प्रकार अन्य [[क्लस्टर विश्लेषण]] विधियों के विपरीत, स्वचालित क्लस्टरिंग एल्गोरिदम ध्वनि और बाहरी बिंदुओं की उपस्थिति में भी क्लस्टर की इष्टतम संख्या निर्धारित कर सकते हैं।<ref>[[Outlier]]</ref>


== सेंट्रोइड-आधारित ==
== केन्द्रक आधारित ==
n वस्तुओं के एक सेट को देखते हुए, सेंट्रोइड-आधारित एल्गोरिदम एक असमानता फ़ंक्शन के आधार पर k विभाजन बनाते हैं, जैसे कि k≤n। इस प्रकार के एल्गोरिदम को लागू करने में एक बड़ी समस्या बिना लेबल वाले डेटा के लिए क्लस्टर की उचित संख्या निर्धारित करना है। इसलिए, क्लस्टरिंग विश्लेषण में अधिकांश शोध प्रक्रिया के स्वचालन पर केंद्रित है।
n वस्तुओं के एक समूह को देखते हुए, सेंट्रोइड-आधारित एल्गोरिदम एक असमानता फलन के आधार पर k विभाजन बनाते हैं, इस प्रकार जैसे कि k≤n। इस प्रकार के एल्गोरिदम को प्रयुक्त करने में एक बड़ी समस्या बिना लेबल वाले डेटा के लिए क्लस्टर की उचित संख्या निर्धारित करना है। इसलिए, क्लस्टरिंग विश्लेषण में अधिकांश शोध प्रक्रिया के स्वचालन पर केंद्रित है।
 
K-मीन्स क्लस्टरिंग में k का स्वचालित चयन|K-मीन्स क्लस्टरिंग एल्गोरिदम, सबसे अधिक उपयोग किए जाने वाले सेंट्रोइड-आधारित क्लस्टरिंग एल्गोरिदम में से एक, अभी भी मशीन लर्निंग में एक बड़ी समस्या है। इस समस्या का सबसे स्वीकृत समाधान एल्बो विधि (क्लस्टरिंग) है। इसमें मानों की एक श्रृंखला के साथ डेटा सेट पर के-मीन्स क्लस्टरिंग चलाना, प्रत्येक के लिए वर्ग त्रुटियों के योग की गणना करना और उन्हें एक लाइन चार्ट में प्लॉट करना शामिल है। यदि चार्ट एक बांह की तरह दिखता है, तो k का सबसे अच्छा मान कोहनी पर होगा।<ref>{{Cite web|url=https://bl.ocks.org/rpgove/0060ff3b656618e9136b|title=के-मीन्स क्लस्टरिंग के लिए क्लस्टर की इष्टतम संख्या निर्धारित करने के लिए कोहनी विधि का उपयोग करना|website=bl.ocks.org|access-date=2018-11-12}}</ref>
एक अन्य विधि जो क्लस्टर की इष्टतम संख्या को स्वचालित रूप से चुनने के लिए के-मीन्स एल्गोरिदम को संशोधित करती है वह जी-मीन्स एल्गोरिदम है। इसे इस परिकल्पना से विकसित किया गया था कि डेटा का एक उपसमूह गाऊसी वितरण का अनुसरण करता है। इस प्रकार, k को तब तक बढ़ाया जाता है जब तक कि प्रत्येक k-साधन केंद्र का डेटा गॉसियन न हो जाए। इस एल्गोरिदम को एक पैरामीटर के रूप में केवल मानक सांख्यिकीय महत्व स्तर की आवश्यकता होती है और यह डेटा के सहप्रसरण के लिए सीमा निर्धारित नहीं करता है।<ref>{{cite conference |url=https://proceedings.neurips.cc/paper/2003/file/234833147b97bb6aed53a8f4f1c7a7d8-Paper.pdf |title=k को k-साधनों में सीखना|last1=Hamerly |first1=Greg |last2=Elkan |first2=Charles |date=9 December 2003 |year=2003 |conference=Proceedings of the 16th International Conference on Neural Information Processing Systems |conference-url=https://dl.acm.org/doi/proceedings/10.5555/2981345 |editor=Sebastian Thrun |editor2=Lawrence K Saul |editor3=Bernhard H Schölkopf|publisher=MIT Press |archive-url=https://web.archive.org/web/20221016235553/https://proceedings.neurips.cc/paper/2003/file/234833147b97bb6aed53a8f4f1c7a7d8-Paper.pdf |archive-date=16 October 2022 |location=Whistler, British Columbia, Canada |pages=281–288 |access-date=3 November 2022 |quote= |language=en-us }}</ref>


K-मीन्स क्लस्टरिंग एल्गोरिदम में k का स्वचालित चयन‚ सबसे अधिक उपयोग किए जाने वाले सेंट्रोइड-आधारित क्लस्टरिंग एल्गोरिदम में से एक, अभी भी मशीन लर्निंग में एक बड़ी समस्या है। इस प्रकार इस समस्या का सबसे स्वीकृत समाधान एल्बो विधि (क्लस्टरिंग) है। इसमें मानों की एक श्रृंखला के साथ डेटा समूह पर के-मीन्स क्लस्टरिंग चलाना, प्रत्येक के लिए वर्ग त्रुटियों के योग की गणना करना और उन्हें एक लाइन चार्ट में प्लॉट करना सम्मिलित है। इस प्रकार यदि चार्ट एक भुजा की तरह दिखता है, तब k का सबसे अच्छा मान "कोहनी" पर होगा।<ref>{{Cite web|url=https://bl.ocks.org/rpgove/0060ff3b656618e9136b|title=के-मीन्स क्लस्टरिंग के लिए क्लस्टर की इष्टतम संख्या निर्धारित करने के लिए कोहनी विधि का उपयोग करना|website=bl.ocks.org|access-date=2018-11-12}}</ref>


एक अन्य विधि जो क्लस्टर की इष्टतम संख्या को स्वचालित रूप से चुनने के लिए के-मीन्स एल्गोरिदम को संशोधित करती है वह जी-मीन्स एल्गोरिदम है। इस प्रकार इसे इस परिकल्पना से विकसित किया गया था कि डेटा का एक उपसमूह गाऊसी वितरण का अनुसरण करता है। इस प्रकार, k को तब तक बढ़ाया जाता है जब तक कि प्रत्येक k-साधन केंद्र का डेटा गॉसियन न हो जाए। इस एल्गोरिदम को एक पैरामीटर के रूप में केवल मानक सांख्यिकीय महत्व स्तर की आवश्यकता होती है और यह डेटा के सहप्रसरण के लिए सीमा निर्धारित नहीं करता है।<ref>{{cite conference |url=https://proceedings.neurips.cc/paper/2003/file/234833147b97bb6aed53a8f4f1c7a7d8-Paper.pdf |title=k को k-साधनों में सीखना|last1=Hamerly |first1=Greg |last2=Elkan |first2=Charles |date=9 December 2003 |year=2003 |conference=Proceedings of the 16th International Conference on Neural Information Processing Systems |conference-url=https://dl.acm.org/doi/proceedings/10.5555/2981345 |editor=Sebastian Thrun |editor2=Lawrence K Saul |editor3=Bernhard H Schölkopf|publisher=MIT Press |archive-url=https://web.archive.org/web/20221016235553/https://proceedings.neurips.cc/paper/2003/file/234833147b97bb6aed53a8f4f1c7a7d8-Paper.pdf |archive-date=16 October 2022 |location=Whistler, British Columbia, Canada |pages=281–288 |access-date=3 November 2022 |quote= |language=en-us }}</ref>
== कनेक्टिविटी-आधारित ([[पदानुक्रमित क्लस्टरिंग]]) ==
== कनेक्टिविटी-आधारित ([[पदानुक्रमित क्लस्टरिंग]]) ==
कनेक्टिविटी-आधारित क्लस्टरिंग या पदानुक्रमित क्लस्टरिंग इस विचार पर आधारित है कि वस्तुओं में दूर की तुलना में पास की अन्य वस्तुओं के साथ अधिक समानताएं होती हैं। इसलिए, इस प्रकार के एल्गोरिदम से उत्पन्न क्लस्टर विश्लेषण की गई वस्तुओं के बीच की दूरी का परिणाम होंगे।
कनेक्टिविटी-आधारित क्लस्टरिंग या पदानुक्रमित क्लस्टरिंग इस विचार पर आधारित है कि वस्तुओं में दूर की तुलना में पास की अन्य वस्तुओं के साथ अधिक समानताएं होती हैं। इसलिए, इस प्रकार के एल्गोरिदम से उत्पन्न क्लस्टर विश्लेषण की गई वस्तुओं के मध्य की दूरी का परिणाम होंगे।


पदानुक्रमित मॉडल या तो विभाजनकारी हो सकते हैं, जहां विभाजन उपलब्ध संपूर्ण डेटा सेट से बनाए जाते हैं, या एकत्रित होते हैं, जहां प्रत्येक विभाजन एक ही ऑब्जेक्ट से शुरू होता है और सेट में अतिरिक्त ऑब्जेक्ट जोड़े जाते हैं।<ref>{{Cite news|url=https://gameanalytics.com/blog/introducing-clustering-ii-clustering-algorithms.html|title=Introducing Clustering II: Clustering Algorithms - GameAnalytics|date=2014-05-20|work=GameAnalytics|access-date=2018-11-06|language=en-US}}</ref> यद्यपि पदानुक्रमित क्लस्टरिंग में किसी भी वैध मीट्रिक को परिभाषित दूरी के रूप में उपयोग करने की अनुमति देने का लाभ है, यह डेटा सेट में शोर और उतार-चढ़ाव के प्रति संवेदनशील है और इसे स्वचालित करना अधिक कठिन है।
पदानुक्रमित मॉडल या तब विभाजनकारी हो सकते हैं, जहां विभाजन उपलब्ध संपूर्ण डेटा समूह से बनाए जाते हैं, या एकत्रित होते हैं, जहां प्रत्येक विभाजन एक ही ऑब्जेक्ट से प्रारंभ होता है और समूह में अतिरिक्त ऑब्जेक्ट जोड़े जाते हैं।<ref>{{Cite news|url=https://gameanalytics.com/blog/introducing-clustering-ii-clustering-algorithms.html|title=Introducing Clustering II: Clustering Algorithms - GameAnalytics|date=2014-05-20|work=GameAnalytics|access-date=2018-11-06|language=en-US}}</ref> इस प्रकार यद्यपि पदानुक्रमित क्लस्टरिंग में किसी भी वैध मीट्रिक को परिभाषित दूरी के रूप में उपयोग करने की अनुमति देने का लाभ है, यह डेटा समूह में ध्वनि और उतार-चढ़ाव के प्रति संवेदनशील है और इसे स्वचालित करना अधिक कठिन है।
 
मौजूदा पदानुक्रमित क्लस्टरिंग एल्गोरिदम को बेहतर बनाने और स्वचालित करने के लिए तरीके विकसित किए गए हैं<ref>{{cite journal |last1=Almeida |first1=J.A.S. |last2=Barbosa |first2=L.M.S. |last3=Pais |first3=A.A.C.C. |last4=Formosinho |first4=S.J. |title=Improving hierarchical cluster analysis: A new method with outlier detection and automatic clustering |journal=Chemometrics and Intelligent Laboratory Systems |date=June 2007 |volume=87 |issue=2 |pages=208–217 |doi=10.1016/j.chemolab.2007.01.005 |url=https://core.ac.uk/download/pdf/19123336.pdf |access-date=3 November 2022 |publisher=Elsevier |hdl=10316/5042 |language=en}}</ref> जैसे एकल लिंकेज पदानुक्रमित क्लस्टर विश्लेषण (एचसीए) का एक स्वचालित संस्करण। यह कम्प्यूटरीकृत पद्धति अपनी सफलता को एक आत्मनिर्भर बाह्य कटौती दृष्टिकोण पर आधारित करती है जिसके बाद एक वर्णनात्मक फ़ंक्शन का निर्माण होता है जो प्राकृतिक समूहों को परिभाषित करने की अनुमति देता है। छोड़ी गई वस्तुओं को भी इन समूहों को सौंपा जा सकता है। मूलतः, किसी को प्राकृतिक समूहों की पहचान करने के लिए बाहरी मापदंडों का सहारा लेने की आवश्यकता नहीं है। एचसीए से एकत्रित जानकारी, स्वचालित और विश्वसनीय, प्राकृतिक समूहों की संख्या और संबंधित पृथक्करण के साथ एक [[डेंड्रोग्राम]] में फिर से शुरू की जा सकती है, यह विकल्प शास्त्रीय एचसीए में नहीं पाया जाता है। इस पद्धति में निम्नलिखित दो चरण शामिल हैं: आउटलेर्स को हटाया जा रहा है (यह कई फ़िल्टरिंग अनुप्रयोगों में लागू होता है) और एक वैकल्पिक वर्गीकरण जो वस्तुओं के पूरे सेट के साथ क्लस्टर का विस्तार करने की अनुमति देता है।<ref>{{Cite journal|date=2007-06-15|title=Improving hierarchical cluster analysis: A new method with outlier detection and automatic clustering|journal=Chemometrics and Intelligent Laboratory Systems|language=en|volume=87|issue=2|pages=208–217|doi=10.1016/j.chemolab.2007.01.005|issn=0169-7439|last1=Almeida|first1=J.A.S.|last2=Barbosa|first2=L.M.S.|last3=Pais|first3=A.A.C.C.|last4=Formosinho|first4=S.J.|hdl=10316/5042|url=https://estudogeral.sib.uc.pt//bitstream/10316/5042/1/filec983b44ba0b8489db5983985ef05dfd7.pdf|hdl-access=free}}</ref>
[[BIRCH]] (पदानुक्रम का उपयोग करके संतुलित पुनरावृत्त कम करना और क्लस्टरिंग) एक एल्गोरिदम है जिसका उपयोग बड़े डेटा-सेट के लिए कनेक्टिविटी-आधारित क्लस्टरिंग करने के लिए किया जाता है।<ref>{{Cite journal|last1=Zhang|first1=Tian|last2=Ramakrishnan|first2=Raghu|last3=Livny|first3=Miron|last4=Zhang|first4=Tian|last5=Ramakrishnan|first5=Raghu|last6=Livny|first6=Miron|date=1996-06-01|title=BIRCH: an efficient data clustering method for very large databases, BIRCH: an efficient data clustering method for very large databases|journal=ACM SIGMOD Record|volume=25|issue=2|pages=103, 103–114, 114|doi=10.1145/235968.233324|issn=0163-5808|doi-access=free}}</ref> इसे सबसे तेज़ क्लस्टरिंग एल्गोरिदम में से एक माना जाता है, लेकिन यह सीमित है क्योंकि इसमें इनपुट के रूप में क्लस्टर की संख्या की आवश्यकता होती है। इसलिए, BIRCH पर आधारित नए एल्गोरिदम विकसित किए गए हैं जिनमें शुरुआत से ही क्लस्टर गिनती प्रदान करने की आवश्यकता नहीं है, लेकिन यह क्लस्टर की गुणवत्ता और गति को बरकरार रखता है। मुख्य संशोधन BIRCH के अंतिम चरण को हटाना है, जहां उपयोगकर्ता को क्लस्टर गिनती इनपुट करना था, और डेटा से थ्रेशोल्ड पैरामीटर को अनुकूलित करके, बाकी एल्गोरिदम में सुधार करना है, जिसे ट्री-BIRCH कहा जाता है। इस परिणामी एल्गोरिदम में, थ्रेशोल्ड पैरामीटर की गणना अधिकतम क्लस्टर त्रिज्या और क्लस्टर के बीच न्यूनतम दूरी से की जाती है, जिसे अक्सर जाना जाता है। यह विधि हजारों समूहों के डेटा सेट के लिए कारगर साबित हुई। यदि उस राशि से आगे जाने पर, एक सुपरक्लस्टर विभाजन समस्या पेश की जाती है। इसके लिए, एमडीबी-बिर्च जैसे अन्य एल्गोरिदम विकसित किए गए हैं, जो अपेक्षाकृत उच्च गति के साथ सुपर क्लस्टर विभाजन को कम करता है।<ref>{{Cite journal|date=2018-03-01|title=क्लस्टरिंग एल्गोरिथम BIRCH पर बदलाव|journal=Big Data Research|language=en|volume=11|pages=44–53|doi=10.1016/j.bdr.2017.09.002|issn=2214-5796|last1=Lorbeer|first1=Boris|last2=Kosareva|first2=Ana|last3=Deva|first3=Bersant|last4=Softić|first4=Dženan|last5=Ruppel|first5=Peter|last6=Küpper|first6=Axel|doi-access=free}}</ref>


उपस्तिथ पदानुक्रमित क्लस्टरिंग एल्गोरिदम को उत्तम बनाने और स्वचालित करने के लिए तरीके विकसित किए गए हैं<ref>{{cite journal |last1=Almeida |first1=J.A.S. |last2=Barbosa |first2=L.M.S. |last3=Pais |first3=A.A.C.C. |last4=Formosinho |first4=S.J. |title=Improving hierarchical cluster analysis: A new method with outlier detection and automatic clustering |journal=Chemometrics and Intelligent Laboratory Systems |date=June 2007 |volume=87 |issue=2 |pages=208–217 |doi=10.1016/j.chemolab.2007.01.005 |url=https://core.ac.uk/download/pdf/19123336.pdf |access-date=3 November 2022 |publisher=Elsevier |hdl=10316/5042 |language=en}}</ref> इस प्रकार जैसे एकल लिंकेज पदानुक्रमित क्लस्टर विश्लेषण (एचसीए) का एक स्वचालित संस्करण हैं। यह कम्प्यूटरीकृत पद्धति अपनी सफलता को एक आत्मनिर्भर बाह्य कटौती दृष्टिकोण पर आधारित करती है जिसके पश्चात् एक वर्णनात्मक फलन का निर्माण होता है जो प्राकृतिक समूहों को परिभाषित करने की अनुमति देता है। छोड़ी गई वस्तुओं को भी इन समूहों को सौंपा जा सकता है। इस प्रकार मूलतः, किसी को प्राकृतिक समूहों की पहचान करने के लिए बाहरी मापदंडों का सहारा लेने की आवश्यकता नहीं है। इस प्रकार एचसीए से एकत्रित जानकारी, स्वचालित और विश्वसनीय, प्राकृतिक समूहों की संख्या और संबंधित पृथक्करण के साथ एक [[डेंड्रोग्राम]] में फिर से प्रारंभ की जा सकती है, यह विकल्प मौलिक एचसीए में नहीं पाया जाता है। इस पद्धति में निम्नलिखित दो चरण सम्मिलित हैं: आउटलेर्स को हटाया जा रहा है (यह अनेक फ़िल्टरिंग अनुप्रयोगों में प्रयुक्त होता है) और एक वैकल्पिक वर्गीकरण जो वस्तुओं के पूरे समूह के साथ क्लस्टर का विस्तार करने की अनुमति देता है।<ref>{{Cite journal|date=2007-06-15|title=Improving hierarchical cluster analysis: A new method with outlier detection and automatic clustering|journal=Chemometrics and Intelligent Laboratory Systems|language=en|volume=87|issue=2|pages=208–217|doi=10.1016/j.chemolab.2007.01.005|issn=0169-7439|last1=Almeida|first1=J.A.S.|last2=Barbosa|first2=L.M.S.|last3=Pais|first3=A.A.C.C.|last4=Formosinho|first4=S.J.|hdl=10316/5042|url=https://estudogeral.sib.uc.pt//bitstream/10316/5042/1/filec983b44ba0b8489db5983985ef05dfd7.pdf|hdl-access=free}}</ref>


[[BIRCH|बीआईआरसीएच]] (पदानुक्रम का उपयोग करके संतुलित पुनरावृत्त कम करना और क्लस्टरिंग) एक एल्गोरिदम है जिसका उपयोग बड़े डेटा-समूह के लिए कनेक्टिविटी-आधारित क्लस्टरिंग करने के लिए किया जाता है।<ref>{{Cite journal|last1=Zhang|first1=Tian|last2=Ramakrishnan|first2=Raghu|last3=Livny|first3=Miron|last4=Zhang|first4=Tian|last5=Ramakrishnan|first5=Raghu|last6=Livny|first6=Miron|date=1996-06-01|title=BIRCH: an efficient data clustering method for very large databases, BIRCH: an efficient data clustering method for very large databases|journal=ACM SIGMOD Record|volume=25|issue=2|pages=103, 103–114, 114|doi=10.1145/235968.233324|issn=0163-5808|doi-access=free}}</ref> इस प्रकार इसे सबसे तेज़ क्लस्टरिंग एल्गोरिदम में से एक माना जाता है, किन्तु यह सीमित है क्योंकि इसमें इनपुट के रूप में क्लस्टर की संख्या की आवश्यकता होती है। इसलिए, बीआईआरसीएच पर आधारित नए एल्गोरिदम विकसित किए गए हैं जिनमें शुरुआत से ही क्लस्टर गिनती प्रदान करने की आवश्यकता नहीं है, किन्तु यह क्लस्टर की गुणवत्ता और गति को निरंतर रखता है। मुख्य संशोधन बीआईआरसीएच के अंतिम चरण को हटाना है, जहां उपयोगकर्ता को क्लस्टर गिनती इनपुट करना था, और डेटा से थ्रेशोल्ड पैरामीटर को अनुकूलित करके, बाकी एल्गोरिदम में सुधार करना है, जिसे ट्री-बीआईआरसीएच कहा जाता है। इस प्रकार परिणामी एल्गोरिदम में, थ्रेशोल्ड पैरामीटर की गणना अधिकतम क्लस्टर त्रिज्या और क्लस्टर के मध्य न्यूनतम दूरी से की जाती है, जिसे अधिकांशतः जाना जाता है। इस प्रकार यह विधि हजारों समूहों के डेटा समूह के लिए कारगर सिद्ध हुई। यदि उस राशि से आगे जाने पर, एक सुपरक्लस्टर विभाजन समस्या प्रस्तुत की जाती है। इसके लिए, एमडीबी-बिर्च जैसे अन्य एल्गोरिदम विकसित किए गए हैं, जो अपेक्षाकृत उच्च गति के साथ सुपर क्लस्टर विभाजन को कम करता है।<ref>{{Cite journal|date=2018-03-01|title=क्लस्टरिंग एल्गोरिथम BIRCH पर बदलाव|journal=Big Data Research|language=en|volume=11|pages=44–53|doi=10.1016/j.bdr.2017.09.002|issn=2214-5796|last1=Lorbeer|first1=Boris|last2=Kosareva|first2=Ana|last3=Deva|first3=Bersant|last4=Softić|first4=Dženan|last5=Ruppel|first5=Peter|last6=Küpper|first6=Axel|doi-access=free}}</ref>
== घनत्व-आधारित ==
== घनत्व-आधारित ==
विभाजन और पदानुक्रमित तरीकों के विपरीत, [[घनत्व-आधारित क्लस्टरिंग]] एल्गोरिदम केवल गोले ही नहीं, बल्कि किसी भी मनमाने आकार के क्लस्टर ढूंढने में सक्षम हैं।
विभाजन और पदानुक्रमित तरीकों के विपरीत, [[घनत्व-आधारित क्लस्टरिंग]] एल्गोरिदम केवल गोले ही नहीं, किंतु किसी भी मनमाने आकार के क्लस्टर ढूंढने में सक्षम हैं।


घनत्व-आधारित क्लस्टरिंग एल्गोरिदम स्वायत्त मशीन लर्निंग का उपयोग करता है जो भौगोलिक स्थिति और पड़ोसियों की एक विशेष संख्या से दूरी के संबंध में पैटर्न की पहचान करता है। इसे स्वायत्त माना जाता है क्योंकि क्लस्टर क्या है, इस पर पूर्व ज्ञान की आवश्यकता नहीं होती है।<ref>{{Cite web|url=http://pro.arcgis.com/en/pro-app/tool-reference/spatial-statistics/how-density-based-clustering-works.htm|title=How Density-based Clustering works—ArcGIS Pro {{!}} ArcGIS Desktop|website=pro.arcgis.com|language=en|access-date=2018-11-05}}</ref> इस प्रकार का एल्गोरिदम डेटा में क्लस्टर खोजने के लिए विभिन्न तरीके प्रदान करता है। सबसे तेज़ विधि [[डीबीएससीएएन]] है, जो सूचना के घने समूहों और कम शोर के बीच अंतर करने के लिए एक परिभाषित दूरी का उपयोग करती है। इसके अलावा, HDBSCAN एक निर्दिष्ट दूरी के बजाय दूरियों की एक श्रृंखला का उपयोग करके स्वयं-समायोजित कर सकता है। अंत में, विधि [[प्रकाशिकी एल्गोरिथ्म]] अलग-अलग घनत्व के समूहों से शोर को अलग करने के लिए पड़ोसी सुविधाओं से दूरी के आधार पर एक रीचैबिलिटी प्लॉट बनाता है।
घनत्व-आधारित क्लस्टरिंग एल्गोरिदम स्वायत्त मशीन लर्निंग का उपयोग करता है जो भौगोलिक स्थिति और पड़ोसियों की एक विशेष संख्या से दूरी के संबंध में पैटर्न की पहचान करता है। इस प्रकार इसे स्वायत्त माना जाता है क्योंकि क्लस्टर क्या है, इस पर पूर्व ज्ञान की आवश्यकता नहीं होती है।<ref>{{Cite web|url=http://pro.arcgis.com/en/pro-app/tool-reference/spatial-statistics/how-density-based-clustering-works.htm|title=How Density-based Clustering works—ArcGIS Pro {{!}} ArcGIS Desktop|website=pro.arcgis.com|language=en|access-date=2018-11-05}}</ref> इस प्रकार का एल्गोरिदम डेटा में क्लस्टर खोजने के लिए विभिन्न तरीके प्रदान करता है। इस प्रकार सबसे तेज़ विधि [[डीबीएससीएएन]] है, जो सूचना के घने समूहों और कम ध्वनि के मध्य अंतर करने के लिए एक परिभाषित दूरी का उपयोग करती है। इसके अतिरिक्त, एचडीबीएससीएएन एक निर्दिष्ट दूरी के अतिरिक्त दूरियों की एक श्रृंखला का उपयोग करके स्वयं-समायोजित कर सकता है। इस प्रकार अंत में, ऑप्टिक्स विधि [[प्रकाशिकी एल्गोरिथ्म]] भिन्न- भिन्न घनत्व के समूहों से ध्वनि को भिन्न करने के लिए निकटतम सुविधाओं से दूरी के आधार पर एक रीचैबिलिटी प्लॉट बनाती है।
 
इन विधियों के लिए अभी भी उपयोगकर्ता को क्लस्टर केंद्र प्रदान करने की आवश्यकता होती है और इन्हें स्वचालित नहीं माना जा सकता है। स्वचालित स्थानीय घनत्व क्लस्टरिंग एल्गोरिदम (एएलडीसी) स्वचालित घनत्व-आधारित क्लस्टरिंग विकसित करने पर केंद्रित नए शोध का एक उदाहरण है। ALDC प्रत्येक बिंदु के स्थानीय घनत्व और दूरी विचलन पर काम करता है, इस प्रकार संभावित क्लस्टर केंद्र और अन्य बिंदुओं के बीच अंतर को बढ़ाता है। यह विस्तार मशीन को स्वचालित रूप से काम करने की अनुमति देता है। मशीन क्लस्टर केंद्रों की पहचान करती है और उन बिंदुओं को निर्दिष्ट करती है जो उच्च घनत्व वाले उनके निकटतम पड़ोसी द्वारा छोड़े गए हैं।<ref>{{Cite journal|title=स्थानीय घनत्व क्लस्टरिंग के आधार पर क्लस्टर केंद्रों की स्वचालित पहचान के लिए एक एल्गोरिदम - आईईईई सम्मेलन प्रकाशन|language=en-US|doi=10.1109/CCDC.2017.7978726|s2cid=23267464 }}</ref>समूहों की पहचान करने के लिए डेटा घनत्व के स्वचालन में, अनुसंधान को कृत्रिम रूप से एल्गोरिदम उत्पन्न करने पर भी ध्यान केंद्रित किया गया है। उदाहरण के लिए, वितरण एल्गोरिदम का अनुमान [[निर्देशित अचक्रीय ग्राफ]] (डीएजी) द्वारा वैध एल्गोरिदम की पीढ़ी की गारंटी देता है, जिसमें नोड्स प्रक्रियाओं (बिल्डिंग ब्लॉक) का प्रतिनिधित्व करते हैं और किनारे दो नोड्स के बीच संभावित निष्पादन अनुक्रमों का प्रतिनिधित्व करते हैं। बिल्डिंग ब्लॉक्स ईडीए की वर्णमाला या, दूसरे शब्दों में, किसी भी उत्पन्न एल्गोरिदम को निर्धारित करते हैं। प्रायोगिक परिणामों में कृत्रिम रूप से उत्पन्न क्लस्टरिंग एल्गोरिदम की तुलना DBSCAN, एक मैनुअल एल्गोरिदम से की जाती है।<ref>{{Cite journal|title=AutoClustering: An estimation of distribution algorithm for the automatic generation of clustering algorithms - IEEE Conference Publication|language=en-US|doi=10.1109/CEC.2012.6252874}}</ref>


इन विधियों के लिए अभी भी उपयोगकर्ता को क्लस्टर केंद्र प्रदान करने की आवश्यकता होती है और इन्हें स्वचालित नहीं माना जा सकता है। इस प्रकार स्वचालित स्थानीय घनत्व क्लस्टरिंग एल्गोरिदम (एएलडीसी) स्वचालित घनत्व-आधारित क्लस्टरिंग विकसित करने पर केंद्रित नए शोध का एक उदाहरण है। इस प्रकार एएलडीसी प्रत्येक बिंदु के स्थानीय घनत्व और दूरी विचलन पर काम करता है, इस प्रकार संभावित क्लस्टर केंद्र और अन्य बिंदुओं के मध्य अंतर को बढ़ाता है। यह विस्तार मशीन को स्वचालित रूप से काम करने की अनुमति देता है। इस प्रकार मशीन क्लस्टर केंद्रों की पहचान करती है और उन बिंदुओं को निर्दिष्ट करती है जो उच्च घनत्व वाले उनके निकटतम निकटतम द्वारा छोड़े गए हैं।<ref>{{Cite journal|title=स्थानीय घनत्व क्लस्टरिंग के आधार पर क्लस्टर केंद्रों की स्वचालित पहचान के लिए एक एल्गोरिदम - आईईईई सम्मेलन प्रकाशन|language=en-US|doi=10.1109/CCDC.2017.7978726|s2cid=23267464 }}</ref>


समूहों की पहचान करने के लिए डेटा घनत्व के स्वचालन में, अनुसंधान को कृत्रिम रूप से एल्गोरिदम उत्पन्न करने पर भी ध्यान केंद्रित किया गया है। उदाहरण के लिए, वितरण एल्गोरिदम का अनुमान [[निर्देशित अचक्रीय ग्राफ]] (डीएजी) द्वारा वैध एल्गोरिदम की पीढ़ी की गारंटी देता है, जिसमें नोड्स प्रक्रियाओं (बिल्डिंग ब्लॉक) का प्रतिनिधित्व करते हैं और किनारे दो नोड्स के मध्य संभावित निष्पादन अनुक्रमों का प्रतिनिधित्व करते हैं। इस प्रकार बिल्डिंग ब्लॉक्स ईडीए की वर्णमाला या, दूसरे शब्दों में, किसी भी उत्पन्न एल्गोरिदम को निर्धारित करते हैं। इस प्रकार प्रायोगिक परिणामों में कृत्रिम रूप से उत्पन्न क्लस्टरिंग एल्गोरिदम की तुलना डीबीएससीएएन, एक मैनुअल एल्गोरिदम से की जाती है।<ref>{{Cite journal|title=AutoClustering: An estimation of distribution algorithm for the automatic generation of clustering algorithms - IEEE Conference Publication|language=en-US|doi=10.1109/CEC.2012.6252874}}</ref>
== संदर्भ ==
== संदर्भ ==
{{Reflist}}
{{Reflist}}
[[Category: क्लस्टरिंग मानदंड]] [[Category: नेटवर्क विश्लेषण]] [[Category: क्लस्टर विश्लेषण एल्गोरिदम]] [[Category: डेटा खनन]]


[[Category: Machine Translated Page]]
[[Category:CS1 English-language sources (en)]]
[[Category:CS1 errors]]
[[Category:CS1 maint]]
[[Category:Created On 10/07/2023]]
[[Category:Created On 10/07/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:क्लस्टर विश्लेषण एल्गोरिदम]]
[[Category:क्लस्टरिंग मानदंड]]
[[Category:डेटा खनन]]
[[Category:नेटवर्क विश्लेषण]]

Latest revision as of 10:08, 2 August 2023

स्वचालित क्लस्टरिंग एल्गोरिदम ऐसे एल्गोरिदम हैं जो डेटा समूह के पूर्व ज्ञान के बिना क्लस्टरिंग कर सकते हैं। इस प्रकार अन्य क्लस्टर विश्लेषण विधियों के विपरीत, स्वचालित क्लस्टरिंग एल्गोरिदम ध्वनि और बाहरी बिंदुओं की उपस्थिति में भी क्लस्टर की इष्टतम संख्या निर्धारित कर सकते हैं।[1]

केन्द्रक आधारित

n वस्तुओं के एक समूह को देखते हुए, सेंट्रोइड-आधारित एल्गोरिदम एक असमानता फलन के आधार पर k विभाजन बनाते हैं, इस प्रकार जैसे कि k≤n। इस प्रकार के एल्गोरिदम को प्रयुक्त करने में एक बड़ी समस्या बिना लेबल वाले डेटा के लिए क्लस्टर की उचित संख्या निर्धारित करना है। इसलिए, क्लस्टरिंग विश्लेषण में अधिकांश शोध प्रक्रिया के स्वचालन पर केंद्रित है।

K-मीन्स क्लस्टरिंग एल्गोरिदम में k का स्वचालित चयन‚ सबसे अधिक उपयोग किए जाने वाले सेंट्रोइड-आधारित क्लस्टरिंग एल्गोरिदम में से एक, अभी भी मशीन लर्निंग में एक बड़ी समस्या है। इस प्रकार इस समस्या का सबसे स्वीकृत समाधान एल्बो विधि (क्लस्टरिंग) है। इसमें मानों की एक श्रृंखला के साथ डेटा समूह पर के-मीन्स क्लस्टरिंग चलाना, प्रत्येक के लिए वर्ग त्रुटियों के योग की गणना करना और उन्हें एक लाइन चार्ट में प्लॉट करना सम्मिलित है। इस प्रकार यदि चार्ट एक भुजा की तरह दिखता है, तब k का सबसे अच्छा मान "कोहनी" पर होगा।[2]

एक अन्य विधि जो क्लस्टर की इष्टतम संख्या को स्वचालित रूप से चुनने के लिए के-मीन्स एल्गोरिदम को संशोधित करती है वह जी-मीन्स एल्गोरिदम है। इस प्रकार इसे इस परिकल्पना से विकसित किया गया था कि डेटा का एक उपसमूह गाऊसी वितरण का अनुसरण करता है। इस प्रकार, k को तब तक बढ़ाया जाता है जब तक कि प्रत्येक k-साधन केंद्र का डेटा गॉसियन न हो जाए। इस एल्गोरिदम को एक पैरामीटर के रूप में केवल मानक सांख्यिकीय महत्व स्तर की आवश्यकता होती है और यह डेटा के सहप्रसरण के लिए सीमा निर्धारित नहीं करता है।[3]

कनेक्टिविटी-आधारित (पदानुक्रमित क्लस्टरिंग)

कनेक्टिविटी-आधारित क्लस्टरिंग या पदानुक्रमित क्लस्टरिंग इस विचार पर आधारित है कि वस्तुओं में दूर की तुलना में पास की अन्य वस्तुओं के साथ अधिक समानताएं होती हैं। इसलिए, इस प्रकार के एल्गोरिदम से उत्पन्न क्लस्टर विश्लेषण की गई वस्तुओं के मध्य की दूरी का परिणाम होंगे।

पदानुक्रमित मॉडल या तब विभाजनकारी हो सकते हैं, जहां विभाजन उपलब्ध संपूर्ण डेटा समूह से बनाए जाते हैं, या एकत्रित होते हैं, जहां प्रत्येक विभाजन एक ही ऑब्जेक्ट से प्रारंभ होता है और समूह में अतिरिक्त ऑब्जेक्ट जोड़े जाते हैं।[4] इस प्रकार यद्यपि पदानुक्रमित क्लस्टरिंग में किसी भी वैध मीट्रिक को परिभाषित दूरी के रूप में उपयोग करने की अनुमति देने का लाभ है, यह डेटा समूह में ध्वनि और उतार-चढ़ाव के प्रति संवेदनशील है और इसे स्वचालित करना अधिक कठिन है।

उपस्तिथ पदानुक्रमित क्लस्टरिंग एल्गोरिदम को उत्तम बनाने और स्वचालित करने के लिए तरीके विकसित किए गए हैं[5] इस प्रकार जैसे एकल लिंकेज पदानुक्रमित क्लस्टर विश्लेषण (एचसीए) का एक स्वचालित संस्करण हैं। यह कम्प्यूटरीकृत पद्धति अपनी सफलता को एक आत्मनिर्भर बाह्य कटौती दृष्टिकोण पर आधारित करती है जिसके पश्चात् एक वर्णनात्मक फलन का निर्माण होता है जो प्राकृतिक समूहों को परिभाषित करने की अनुमति देता है। छोड़ी गई वस्तुओं को भी इन समूहों को सौंपा जा सकता है। इस प्रकार मूलतः, किसी को प्राकृतिक समूहों की पहचान करने के लिए बाहरी मापदंडों का सहारा लेने की आवश्यकता नहीं है। इस प्रकार एचसीए से एकत्रित जानकारी, स्वचालित और विश्वसनीय, प्राकृतिक समूहों की संख्या और संबंधित पृथक्करण के साथ एक डेंड्रोग्राम में फिर से प्रारंभ की जा सकती है, यह विकल्प मौलिक एचसीए में नहीं पाया जाता है। इस पद्धति में निम्नलिखित दो चरण सम्मिलित हैं: आउटलेर्स को हटाया जा रहा है (यह अनेक फ़िल्टरिंग अनुप्रयोगों में प्रयुक्त होता है) और एक वैकल्पिक वर्गीकरण जो वस्तुओं के पूरे समूह के साथ क्लस्टर का विस्तार करने की अनुमति देता है।[6]

बीआईआरसीएच (पदानुक्रम का उपयोग करके संतुलित पुनरावृत्त कम करना और क्लस्टरिंग) एक एल्गोरिदम है जिसका उपयोग बड़े डेटा-समूह के लिए कनेक्टिविटी-आधारित क्लस्टरिंग करने के लिए किया जाता है।[7] इस प्रकार इसे सबसे तेज़ क्लस्टरिंग एल्गोरिदम में से एक माना जाता है, किन्तु यह सीमित है क्योंकि इसमें इनपुट के रूप में क्लस्टर की संख्या की आवश्यकता होती है। इसलिए, बीआईआरसीएच पर आधारित नए एल्गोरिदम विकसित किए गए हैं जिनमें शुरुआत से ही क्लस्टर गिनती प्रदान करने की आवश्यकता नहीं है, किन्तु यह क्लस्टर की गुणवत्ता और गति को निरंतर रखता है। मुख्य संशोधन बीआईआरसीएच के अंतिम चरण को हटाना है, जहां उपयोगकर्ता को क्लस्टर गिनती इनपुट करना था, और डेटा से थ्रेशोल्ड पैरामीटर को अनुकूलित करके, बाकी एल्गोरिदम में सुधार करना है, जिसे ट्री-बीआईआरसीएच कहा जाता है। इस प्रकार परिणामी एल्गोरिदम में, थ्रेशोल्ड पैरामीटर की गणना अधिकतम क्लस्टर त्रिज्या और क्लस्टर के मध्य न्यूनतम दूरी से की जाती है, जिसे अधिकांशतः जाना जाता है। इस प्रकार यह विधि हजारों समूहों के डेटा समूह के लिए कारगर सिद्ध हुई। यदि उस राशि से आगे जाने पर, एक सुपरक्लस्टर विभाजन समस्या प्रस्तुत की जाती है। इसके लिए, एमडीबी-बिर्च जैसे अन्य एल्गोरिदम विकसित किए गए हैं, जो अपेक्षाकृत उच्च गति के साथ सुपर क्लस्टर विभाजन को कम करता है।[8]

घनत्व-आधारित

विभाजन और पदानुक्रमित तरीकों के विपरीत, घनत्व-आधारित क्लस्टरिंग एल्गोरिदम केवल गोले ही नहीं, किंतु किसी भी मनमाने आकार के क्लस्टर ढूंढने में सक्षम हैं।

घनत्व-आधारित क्लस्टरिंग एल्गोरिदम स्वायत्त मशीन लर्निंग का उपयोग करता है जो भौगोलिक स्थिति और पड़ोसियों की एक विशेष संख्या से दूरी के संबंध में पैटर्न की पहचान करता है। इस प्रकार इसे स्वायत्त माना जाता है क्योंकि क्लस्टर क्या है, इस पर पूर्व ज्ञान की आवश्यकता नहीं होती है।[9] इस प्रकार का एल्गोरिदम डेटा में क्लस्टर खोजने के लिए विभिन्न तरीके प्रदान करता है। इस प्रकार सबसे तेज़ विधि डीबीएससीएएन है, जो सूचना के घने समूहों और कम ध्वनि के मध्य अंतर करने के लिए एक परिभाषित दूरी का उपयोग करती है। इसके अतिरिक्त, एचडीबीएससीएएन एक निर्दिष्ट दूरी के अतिरिक्त दूरियों की एक श्रृंखला का उपयोग करके स्वयं-समायोजित कर सकता है। इस प्रकार अंत में, ऑप्टिक्स विधि प्रकाशिकी एल्गोरिथ्म भिन्न- भिन्न घनत्व के समूहों से ध्वनि को भिन्न करने के लिए निकटतम सुविधाओं से दूरी के आधार पर एक रीचैबिलिटी प्लॉट बनाती है।

इन विधियों के लिए अभी भी उपयोगकर्ता को क्लस्टर केंद्र प्रदान करने की आवश्यकता होती है और इन्हें स्वचालित नहीं माना जा सकता है। इस प्रकार स्वचालित स्थानीय घनत्व क्लस्टरिंग एल्गोरिदम (एएलडीसी) स्वचालित घनत्व-आधारित क्लस्टरिंग विकसित करने पर केंद्रित नए शोध का एक उदाहरण है। इस प्रकार एएलडीसी प्रत्येक बिंदु के स्थानीय घनत्व और दूरी विचलन पर काम करता है, इस प्रकार संभावित क्लस्टर केंद्र और अन्य बिंदुओं के मध्य अंतर को बढ़ाता है। यह विस्तार मशीन को स्वचालित रूप से काम करने की अनुमति देता है। इस प्रकार मशीन क्लस्टर केंद्रों की पहचान करती है और उन बिंदुओं को निर्दिष्ट करती है जो उच्च घनत्व वाले उनके निकटतम निकटतम द्वारा छोड़े गए हैं।[10]

समूहों की पहचान करने के लिए डेटा घनत्व के स्वचालन में, अनुसंधान को कृत्रिम रूप से एल्गोरिदम उत्पन्न करने पर भी ध्यान केंद्रित किया गया है। उदाहरण के लिए, वितरण एल्गोरिदम का अनुमान निर्देशित अचक्रीय ग्राफ (डीएजी) द्वारा वैध एल्गोरिदम की पीढ़ी की गारंटी देता है, जिसमें नोड्स प्रक्रियाओं (बिल्डिंग ब्लॉक) का प्रतिनिधित्व करते हैं और किनारे दो नोड्स के मध्य संभावित निष्पादन अनुक्रमों का प्रतिनिधित्व करते हैं। इस प्रकार बिल्डिंग ब्लॉक्स ईडीए की वर्णमाला या, दूसरे शब्दों में, किसी भी उत्पन्न एल्गोरिदम को निर्धारित करते हैं। इस प्रकार प्रायोगिक परिणामों में कृत्रिम रूप से उत्पन्न क्लस्टरिंग एल्गोरिदम की तुलना डीबीएससीएएन, एक मैनुअल एल्गोरिदम से की जाती है।[11]

संदर्भ

  1. Outlier
  2. "के-मीन्स क्लस्टरिंग के लिए क्लस्टर की इष्टतम संख्या निर्धारित करने के लिए कोहनी विधि का उपयोग करना". bl.ocks.org. Retrieved 2018-11-12.
  3. Hamerly, Greg; Elkan, Charles (9 December 2003). Sebastian Thrun; Lawrence K Saul; Bernhard H Schölkopf (eds.). k को k-साधनों में सीखना (PDF). Proceedings of the 16th International Conference on Neural Information Processing Systems (in English). Whistler, British Columbia, Canada: MIT Press. pp. 281–288. Archived from the original (PDF) on 16 October 2022. Retrieved 3 November 2022.{{cite conference}}: CS1 maint: date and year (link)
  4. "Introducing Clustering II: Clustering Algorithms - GameAnalytics". GameAnalytics (in English). 2014-05-20. Retrieved 2018-11-06.
  5. Almeida, J.A.S.; Barbosa, L.M.S.; Pais, A.A.C.C.; Formosinho, S.J. (June 2007). "Improving hierarchical cluster analysis: A new method with outlier detection and automatic clustering" (PDF). Chemometrics and Intelligent Laboratory Systems (in English). Elsevier. 87 (2): 208–217. doi:10.1016/j.chemolab.2007.01.005. hdl:10316/5042. Retrieved 3 November 2022.
  6. Almeida, J.A.S.; Barbosa, L.M.S.; Pais, A.A.C.C.; Formosinho, S.J. (2007-06-15). "Improving hierarchical cluster analysis: A new method with outlier detection and automatic clustering" (PDF). Chemometrics and Intelligent Laboratory Systems (in English). 87 (2): 208–217. doi:10.1016/j.chemolab.2007.01.005. hdl:10316/5042. ISSN 0169-7439.
  7. Zhang, Tian; Ramakrishnan, Raghu; Livny, Miron; Zhang, Tian; Ramakrishnan, Raghu; Livny, Miron (1996-06-01). "BIRCH: an efficient data clustering method for very large databases, BIRCH: an efficient data clustering method for very large databases". ACM SIGMOD Record. 25 (2): 103, 103–114, 114. doi:10.1145/235968.233324. ISSN 0163-5808.
  8. Lorbeer, Boris; Kosareva, Ana; Deva, Bersant; Softić, Dženan; Ruppel, Peter; Küpper, Axel (2018-03-01). "क्लस्टरिंग एल्गोरिथम BIRCH पर बदलाव". Big Data Research (in English). 11: 44–53. doi:10.1016/j.bdr.2017.09.002. ISSN 2214-5796.
  9. "How Density-based Clustering works—ArcGIS Pro | ArcGIS Desktop". pro.arcgis.com (in English). Retrieved 2018-11-05.
  10. "स्थानीय घनत्व क्लस्टरिंग के आधार पर क्लस्टर केंद्रों की स्वचालित पहचान के लिए एक एल्गोरिदम - आईईईई सम्मेलन प्रकाशन" (in English). doi:10.1109/CCDC.2017.7978726. S2CID 23267464. {{cite journal}}: Cite journal requires |journal= (help)
  11. "AutoClustering: An estimation of distribution algorithm for the automatic generation of clustering algorithms - IEEE Conference Publication" (in English). doi:10.1109/CEC.2012.6252874. {{cite journal}}: Cite journal requires |journal= (help)