सर्वसम्मति क्लस्टरिंग

सर्वसम्मति क्लस्टरिंग कई क्लस्टरिंग एल्गोरिथ्म से परिणामों को एकत्र करने (संभावित रूप से परस्पर विरोधी) की एक विधि है। इसे क्लस्टर एन्सेम्बल भी कहा जाता है^[1] या क्लस्टरिंग (या विभाजन) का एकत्रीकरण, यह उस स्थिति को संदर्भित करता है जिसमें एक विशेष डेटासेट के लिए कई अलग-अलग (इनपुट) क्लस्टरिंग प्राप्त किए गए हैं और यह एक एकल (सर्वसम्मति) क्लस्टरिंग ढूंढना वांछित है जो कुछ में बेहतर फिट है मौजूदा क्लस्टरिंग की तुलना में अधिक समझदारी।^[2] इस प्रकार सर्वसम्मति क्लस्टरिंग विभिन्न स्रोतों से या एक ही एल्गोरिदम के विभिन्न रनों से आने वाले एक ही डेटा सेट के बारे में क्लस्टरिंग जानकारी को समेटने की समस्या है। जब अनुकूलन समस्या के रूप में डाला जाता है, तो सर्वसम्मति क्लस्टरिंग को मध्य विभाजन के रूप में जाना जाता है, और इसे एनपी-पूर्ण दिखाया गया है,^[3] तब भी जब इनपुट क्लस्टरिंग की संख्या तीन हो।^[4] बिना पर्यवेक्षित शिक्षण के लिए सर्वसम्मति क्लस्टरिंग पर्यवेक्षित शिक्षण में सामूहिक शिक्षण के समान है।

मौजूदा क्लस्टरिंग तकनीकों के साथ मुद्दे

वर्तमान क्लस्टरिंग तकनीकें सभी आवश्यकताओं को पर्याप्त रूप से संबोधित नहीं करती हैं।
समय की जटिलता के कारण बड़ी संख्या में आयामों और बड़ी संख्या में डेटा आइटम से निपटना समस्याग्रस्त हो सकता है;
विधि की प्रभावशीलता दूरी की परिभाषा पर निर्भर करती है (दूरी-आधारित क्लस्टरिंग के लिए)
यदि कोई स्पष्ट दूरी माप मौजूद नहीं है, तो हमें इसे परिभाषित करना होगा, जो हमेशा आसान नहीं होता है, खासकर बहुआयामी स्थानों में।
क्लस्टरिंग एल्गोरिदम का परिणाम (जो, कई मामलों में, स्वयं मनमाना हो सकता है) की व्याख्या अलग-अलग तरीकों से की जा सकती है।

सर्वसम्मति क्लस्टरिंग का उपयोग करने का औचित्य

सभी मौजूदा क्लस्टरिंग तकनीकों में संभावित कमियाँ हैं। इससे परिणामों की व्याख्या करना कठिन हो सकता है, विशेषकर तब जब समूहों की संख्या के बारे में कोई जानकारी न हो। क्लस्टरिंग विधियां प्रारंभिक क्लस्टरिंग सेटिंग्स के प्रति भी बहुत संवेदनशील होती हैं, जिसके कारण गैर-महत्वपूर्ण डेटा को गैर-दोहरावीय तरीकों में प्रवर्धित किया जा सकता है। क्लस्टर विश्लेषण में एक अत्यंत महत्वपूर्ण मुद्दा क्लस्टरिंग परिणामों का सत्यापन है, यानी क्लस्टरिंग तकनीक (क्लस्टर संख्या और क्लस्टर असाइनमेंट) द्वारा प्रदान किए गए क्लस्टर के महत्व के बारे में विश्वास कैसे हासिल किया जाए। बाहरी वस्तुनिष्ठ मानदंड (पर्यवेक्षित विश्लेषण में ज्ञात वर्ग लेबल के समतुल्य) के अभाव में, यह सत्यापन कुछ हद तक मायावी हो जाता है। पुनरावृत्त वंश क्लस्टरिंग विधियां, जैसे कि स्व-संगठित मानचित्र और k-मतलब क्लस्टरिंग , एकतरफा परिभाषित क्लस्टर और क्लस्टर सीमाओं को प्रदान करके पदानुक्रमित क्लस्टरिंग की कुछ कमियों को दूर करती हैं। सर्वसम्मति क्लस्टरिंग एक ऐसी विधि प्रदान करती है जो डेटा में क्लस्टर की संख्या निर्धारित करने और खोजे गए क्लस्टर की स्थिरता का आकलन करने के लिए क्लस्टरिंग एल्गोरिदम के कई रनों में सर्वसम्मति का प्रतिनिधित्व करती है। विधि का उपयोग यादृच्छिक पुनरारंभ (जैसे के-मीन्स, मॉडल-आधारित बायेसियन क्लस्टरिंग, एसओएम इत्यादि) के साथ क्लस्टरिंग एल्गोरिदम के कई रनों पर आम सहमति का प्रतिनिधित्व करने के लिए भी किया जा सकता है, ताकि प्रारंभिक स्थितियों के प्रति इसकी संवेदनशीलता को ध्यान में रखा जा सके। . यह क्लस्टर संख्या, सदस्यता और सीमाओं का निरीक्षण करने के लिए विज़ुअलाइज़ेशन टूल के लिए डेटा प्रदान कर सकता है। हालाँकि, उनमें पदानुक्रमित क्लस्टरिंग डेंड्रोग्राम की सहज और दृश्य अपील का अभाव है, और समूहों की संख्या को प्राथमिकता से चुना जाना चाहिए।

मोंटी सर्वसम्मति क्लस्टरिंग एल्गोरिदम

मोंटी सर्वसम्मति क्लस्टरिंग एल्गोरिथ्म^[5] सबसे लोकप्रिय सर्वसम्मति क्लस्टरिंग एल्गोरिदम में से एक है और इसका उपयोग क्लस्टर की संख्या निर्धारित करने के लिए किया जाता है, $K$ . का एक डेटासेट दिया गया है $N$ क्लस्टर में बिंदुओं की कुल संख्या, यह एल्गोरिदम प्रत्येक के लिए डेटा को पुन: नमूनाकरण और क्लस्टरिंग द्वारा काम करता है $K$ और ए $N\times N$ सर्वसम्मति मैट्रिक्स की गणना की जाती है, जहां प्रत्येक तत्व एक साथ क्लस्टर किए गए दो नमूनों के समय के अंश का प्रतिनिधित्व करता है। एक पूरी तरह से स्थिर मैट्रिक्स में पूरी तरह से शून्य और एक शामिल होंगे, जो सभी नमूना जोड़े को सभी पुन: नमूनाकरण पुनरावृत्तियों पर हमेशा एक साथ क्लस्टर करते हैं या एक साथ नहीं दर्शाते हैं। सर्वसम्मति मैट्रिक्स की सापेक्ष स्थिरता का उपयोग इष्टतम का अनुमान लगाने के लिए किया जा सकता है $K$ .

अधिक विशेष रूप से, क्लस्टर के लिए बिंदुओं का एक सेट दिया गया है, $D=\{e_{1},e_{2},...e_{N}\}$ , होने देना $D^{1},D^{2},...,D^{H}$ की सूची हो $H$ मूल डेटासेट के अव्यवस्थित (पुन:नमूनाबद्ध) डेटासेट $D$ , और जाने $M^{h}$ निरूपित करें $N\times N$ डेटासेट में क्लस्टरिंग एल्गोरिदम लागू करने से उत्पन्न कनेक्टिविटी मैट्रिक्स $D^{h}$ . की प्रविष्टियाँ $M^{h}$ निम्नानुसार परिभाषित हैं:

$M^{h}(i,j)={\begin{cases}1,&{\text{if}}{\text{ points i and j belong to the same cluster}}\\0,&{\text{otherwise}}\end{cases}}$ होने देना $I^{h}$ हो $N\times N$ पहचानकर्ता मैट्रिक्स जहां $(i,j)$ -वीं प्रविष्टि 1 के बराबर है यदि अंक $i$ और $j$ एक ही परेशान डेटासेट में हैं $D^{h}$ , और 0 अन्यथा। सूचक मैट्रिक्स का उपयोग यह ट्रैक करने के लिए किया जाता है कि सामान्यीकरण चरण के लिए प्रत्येक पुन: नमूनाकरण पुनरावृत्ति के दौरान कौन से नमूने चुने गए थे। सर्वसम्मति मैट्रिक्स $C$ सभी विकृत डेटासेटों के सभी कनेक्टिविटी मैट्रिक्स के सामान्यीकृत योग के रूप में परिभाषित किया गया है और प्रत्येक के लिए एक अलग गणना की जाती है $K$ .

$C(i,j)=\left({\frac {\textstyle \sum _{h=1}^{H}M^{h}(i,j)\displaystyle }{\sum _{h=1}^{H}I^{h}(i,j)}}\right)$ वह प्रवेश है $(i,j)$ सर्वसम्मति मैट्रिक्स में अंकों की संख्या होती है $i$ और $j$ एक साथ समूहित किए गए को एक साथ चुने जाने की कुल संख्या से विभाजित किया गया। मैट्रिक्स सममित है और प्रत्येक तत्व को सीमा के भीतर परिभाषित किया गया है $[0,1]$ . प्रत्येक के लिए एक सर्वसम्मति मैट्रिक्स की गणना की जाती है $K$ परीक्षण किया जाना है, और प्रत्येक मैट्रिक्स की स्थिरता, अर्थात मैट्रिक्स सही स्थिरता के मैट्रिक्स (केवल शून्य और एक) की ओर कितनी दूर है, का उपयोग इष्टतम निर्धारित करने के लिए किया जाता है $K$ . की स्थिरता को मापने का एक तरीका $K$ वें सर्वसम्मति मैट्रिक्स अपने सीडीएफ वक्र की जांच कर रहा है (नीचे देखें)।

मोंटी सर्वसम्मति क्लस्टरिंग एल्गोरिदम की अति-व्याख्या क्षमता

पीएसी माप (अस्पष्ट क्लस्टरिंग का अनुपात) समझाया गया। इष्टतम K न्यूनतम PAC मान वाला K है।

मोंटी सर्वसम्मति क्लस्टरिंग समूहों की पहचान करने के लिए एक शक्तिशाली उपकरण हो सकता है, लेकिन इसे सावधानी के साथ लागू करने की आवश्यकता है जैसा कि सेनबाबाओग्लू एट अल द्वारा दिखाया गया है। ^[6]यह दिखाया गया है कि मोंटी सर्वसम्मति क्लस्टरिंग एल्गोरिदम एक यूनिमॉडल वितरण से खींचे गए अशक्त डेटासेट के मौका विभाजन की स्पष्ट स्थिरता का दावा करने में सक्षम है, और इस प्रकार एक वास्तविक अध्ययन में क्लस्टर स्थिरता की अधिक व्याख्या करने की क्षमता है।^[6]^[7] यदि समूहों को अच्छी तरह से अलग नहीं किया गया है, तो आम सहमति क्लस्टरिंग किसी को स्पष्ट संरचना का निष्कर्ष निकालने के लिए प्रेरित कर सकती है जब कोई नहीं है, या सूक्ष्म होने पर क्लस्टर स्थिरता की घोषणा कर सकता है। पूरे क्लस्टर अनुसंधान में झूठे सकारात्मक समूहों की पहचान करना एक आम समस्या है,^[8] और इसे सिगक्लस्ट जैसी विधियों द्वारा संबोधित किया गया है^[8]और GAP-सांख्यिकी।^[9] हालाँकि, ये विधियाँ शून्य मॉडल के लिए कुछ मान्यताओं पर निर्भर करती हैं जो हमेशा उपयुक्त नहीं हो सकती हैं।

सेनबाबाओग्लू एट अल ^[6]निर्णय लेने के लिए मूल डेल्टा K मीट्रिक का प्रदर्शन किया $K$ मोंटी एल्गोरिदम में खराब प्रदर्शन किया गया, और उनके सीडीएफ वक्रों का उपयोग करके सर्वसम्मति मैट्रिक्स की स्थिरता को मापने के लिए एक नया बेहतर मीट्रिक प्रस्तावित किया गया। सर्वसम्मति मैट्रिक्स के सीडीएफ वक्र में, निचला बायां भाग नमूना जोड़े का प्रतिनिधित्व करता है जो शायद ही कभी एक साथ क्लस्टर होते हैं, ऊपरी दायां भाग उन लोगों का प्रतिनिधित्व करता है जो लगभग हमेशा एक साथ क्लस्टर होते हैं, जबकि मध्य खंड अलग-अलग क्लस्टरिंग रन में अस्पष्ट असाइनमेंट वाले लोगों का प्रतिनिधित्व करता है। अस्पष्ट क्लस्टरिंग (पीएसी) स्कोर माप का अनुपात इस मध्य खंड की मात्रा निर्धारित करता है; और इसे अंतराल (यू) में आने वाले सर्वसम्मति सूचकांकों के साथ नमूना जोड़े के अंश के रूप में परिभाषित किया गया है₁, में₂) ∈ [0, 1] जहां आप₁ 0 और u के करीब एक मान है₂ 1 के करीब का मान है (उदाहरण के लिए u₁=0.1 और यू₂=0.9). पीएसी का कम मूल्य एक सपाट मध्य खंड को इंगित करता है, और क्रमबद्ध क्लस्टरिंग रन में असंगत असाइनमेंट की कम दर को इंगित करता है। इसलिए कोई भी क्लस्टरों की इष्टतम संख्या का अनुमान लगा सकता है $K$ सबसे कम पीएसी वाला मूल्य।^[6]^[7]

कठिन पहनावा क्लस्टरिंग

स्ट्रेहल और घोष का यह दृष्टिकोण इन विभाजनों को निर्धारित करने वाली सुविधाओं या एल्गोरिदम तक पहुंच के बिना वस्तुओं के एक सेट के कई विभाजनों को एक एकल समेकित क्लस्टरिंग में संयोजित करने की समस्या का परिचय देता है। वे उच्च गुणवत्ता वाले सर्वसम्मति कार्यों को प्राप्त करने के लिए इस समस्या को हल करने की दिशा में तीन दृष्टिकोणों पर चर्चा करते हैं। उनकी तकनीकों की कम्प्यूटेशनल लागत कम है और इससे नीचे चर्चा की गई प्रत्येक तकनीक का मूल्यांकन करना और उद्देश्य फ़ंक्शन के विरुद्ध परिणामों की तुलना करके सर्वोत्तम समाधान पर पहुंचना संभव हो जाता है।

कुशल सर्वसम्मति कार्य

क्लस्टर-आधारित समानता विभाजन एल्गोरिदम (सीएसपीए): सीएसपीए में दो डेटा-बिंदुओं के बीच समानता को उस समूह के घटक क्लस्टरिंग की संख्या के सीधे आनुपातिक के रूप में परिभाषित किया गया है जिसमें वे एक साथ क्लस्टर किए गए हैं। अंतर्ज्ञान यह है कि दो डेटा-बिंदु जितने अधिक समान होंगे, उतनी ही अधिक संभावना होगी कि घटक क्लस्टरिंग उन्हें एक ही क्लस्टर में रखेगी। सीएसपीए सबसे सरल अनुमान है, लेकिन इसकी कम्प्यूटेशनल और भंडारण जटिलता दोनों एन में द्विघात हैं। SC3 CSPA प्रकार के एल्गोरिदम का एक उदाहरण है।^[11] निम्नलिखित दो विधियाँ कम्प्यूटेशनल रूप से कम महंगी हैं:
हाइपर-ग्राफ विभाजन एल्गोरिदम (एचजीपीए): एचजीपीए एल्गोरिदम पिछली पद्धति की तुलना में सर्वसम्मति क्लस्टरिंग को खोजने के लिए एक बहुत अलग दृष्टिकोण अपनाता है। क्लस्टर एन्सेम्बल समस्या को न्यूनतम संख्या में हाइपरएज को काटकर हाइपरग्राफ को विभाजित करने के रूप में तैयार किया गया है। वे hMETIS का उपयोग करते हैं जो एक हाइपरग्राफ विभाजन पैकेज सिस्टम है।
मेटा-क्लस्टरिंग एल्गोरिदम (एमसीएलए): मेटा-क्लस्टरिंग एल्गोरिदम (एमसीएलए) क्लस्टरिंग क्लस्टर पर आधारित है। सबसे पहले, यह क्लस्टर पत्राचार समस्या को हल करने का प्रयास करता है और फिर डेटा-बिंदुओं को अंतिम सर्वसम्मति क्लस्टर में रखने के लिए वोटिंग का उपयोग करता है। क्लस्टर पत्राचार समस्या को समूह के अलग-अलग समूहों में पहचाने गए समूहों को समूहीकृत करके हल किया जाता है। क्लस्टरिंग METIS और स्पेक्ट्रल क्लस्टरिंग का उपयोग करके की जाती है।

नरम क्लस्टरिंग पहनावा

पुनेरा और घोष ने हार्ड क्लस्टरिंग पहनावे के विचार को सॉफ्ट क्लस्टरिंग परिदृश्य तक बढ़ाया। नरम संयोजन में प्रत्येक उदाहरण को घटक क्लस्टरिंग एल्गोरिदम से प्राप्त आर पोस्टीरियर सदस्यता संभाव्यता वितरण के संयोजन द्वारा दर्शाया जाता है। हम कुल्बैक-लीब्लर डाइवर्जेंस | कुल्बैक-लीब्लर (केएल) डाइवर्जेंस का उपयोग करके दो उदाहरणों के बीच दूरी माप को परिभाषित कर सकते हैं, जो दो संभाव्यता वितरणों के बीच की दूरी की गणना करता है।^[12]

sCSPA: समानता मैट्रिक्स की गणना करके CSPA का विस्तार करता है। प्रत्येक वस्तु को आयामी स्थान में एक बिंदु के रूप में देखा जाता है, प्रत्येक आयाम एक क्लस्टर से संबंधित होने की संभावना के अनुरूप होता है। यह तकनीक पहले वस्तुओं को एक लेबल-स्पेस में बदल देती है और फिर वस्तुओं का प्रतिनिधित्व करने वाले वैक्टरों के बीच डॉट उत्पाद को उनकी समानता के रूप में व्याख्या करती है।
sMCLA: सॉफ्ट क्लस्टरिंग को इनपुट के रूप में स्वीकार करके MCLA का विस्तार करता है। एसएमसीएलए की कार्यप्रणाली को निम्नलिखित चरणों में विभाजित किया जा सकता है:
- क्लस्टरों का सॉफ्ट मेटा-ग्राफ़ बनाएं
- क्लस्टरों को मेटा-क्लस्टरों में समूहित करें
- वेटिंग का उपयोग करके मेटा-क्लस्टर को संक्षिप्त करें
- वस्तुओं के लिए प्रतिस्पर्धा करें
sHBGF: समूहों और उदाहरणों को नोड्स के रूप में एक द्विदलीय ग्राफ के रूप में दर्शाता है, और उदाहरणों और जिन समूहों से वे संबंधित हैं, उनके बीच किनारों को दर्शाता है।^[13] इस दृष्टिकोण को नरम संयोजनों पर विचार करने के लिए तुच्छ रूप से अनुकूलित किया जा सकता है क्योंकि ग्राफ़ विभाजन एल्गोरिथ्म METIS विभाजित होने वाले ग्राफ़ के किनारों पर भार स्वीकार करता है। sHBGF में, ग्राफ़ में n+t शीर्ष हैं, जहां t अंतर्निहित समूहों की कुल संख्या है।
'बायेसियन सर्वसम्मति क्लस्टरिंग (बीसीसी)': नरम सर्वसम्मति क्लस्टरिंग के लिए पूरी तरह से बायेसियन संभाव्यता मॉडल को परिभाषित करता है जिसमें विभिन्न इनपुट डेटा या विभिन्न संभाव्यता मॉडल द्वारा परिभाषित एकाधिक स्रोत क्लस्टरिंग को आम सहमति क्लस्टरिंग के लिए शिथिल रूप से पालन करने के लिए माना जाता है।^[14] अलग-अलग क्लस्टरिंग और सर्वसम्मति क्लस्टरिंग के लिए पूर्ण पश्च भाग का अनुमान गिब्स नमूनाकरण के माध्यम से एक साथ लगाया जाता है।
एनसेंबल क्लस्टरिंग फ़ज़िफिकेशन मीन्स (ईसीएफ-मीन्स): ईसीएफ-मीन्स एक क्लस्टरिंग एल्गोरिदम है, जो चुने हुए एल्गोरिदम (k-साधन ) के विभिन्न रन द्वारा प्राप्त किए गए अलग-अलग क्लस्टरिंग परिणामों को एक ही अंतिम क्लस्टरिंग कॉन्फ़िगरेशन में जोड़ता है।^[15]

संदर्भ

↑ ^1.0 ^1.1 Strehl, Alexander; Ghosh, Joydeep (2002). "Cluster ensembles – a knowledge reuse framework for combining multiple partitions" (PDF). Journal on Machine Learning Research (JMLR). 3: 583–617. doi:10.1162/153244303321897735. This paper introduces the problem of combining multiple partitionings of a set of objects into a single consolidated clustering without accessing the features or algorithms that determined these partitionings. We first identify several application scenarios for the resultant 'knowledge reuse' framework that we call cluster ensembles. The cluster ensemble problem is then formalized as a combinatorial optimization problem in terms of shared mutual information
↑ VEGA-PONS, SANDRO; RUIZ-SHULCLOPER, JOSÉ (1 May 2011). "A Survey of Clustering Ensemble Algorithms". International Journal of Pattern Recognition and Artificial Intelligence. 25 (3): 337–372. doi:10.1142/S0218001411008683. S2CID 4643842.
↑ Filkov, Vladimir (2003). "Integrating microarray data by consensus clustering". Proceedings. 15th IEEE International Conference on Tools with Artificial Intelligence. pp. 418–426. CiteSeerX 10.1.1.116.8271. doi:10.1109/TAI.2003.1250220. ISBN 978-0-7695-2038-4. S2CID 1515525. {{cite book}}: |journal= ignored (help)
↑ Bonizzoni, Paola; Della Vedova, Gianluca; Dondi, Riccardo; Jiang, Tao (2008). "सहसंबंध क्लस्टरिंग और सर्वसम्मति क्लस्टरिंग के अनुमान पर". Journal of Computer and System Sciences. 74 (5): 671–696. doi:10.1016/j.jcss.2007.06.024.
↑ Monti, Stefano; Tamayo, Pablo; Mesirov, Jill; Golub, Todd (2003-07-01). "Consensus Clustering: A Resampling-Based Method for Class Discovery and Visualization of Gene Expression Microarray Data". Machine Learning (in English). 52 (1): 91–118. doi:10.1023/A:1023949509487. ISSN 1573-0565.
↑ ^6.0 ^6.1 ^6.2 ^6.3 Şenbabaoğlu, Y.; Michailidis, G.; Li, J. Z. (2014). "वर्ग खोज में सर्वसम्मति क्लस्टरिंग की महत्वपूर्ण सीमाएँ". Scientific Reports. 4: 6207. Bibcode:2014NatSR...4E6207.. doi:10.1038/srep06207. PMC 4145288. PMID 25158761.
↑ ^7.0 ^7.1 Şenbabaoğlu, Y.; Michailidis, G.; Li, J. Z. (Feb 2014). "वर्ग खोज के लिए सर्वसम्मति क्लस्टरिंग का पुनर्मूल्यांकन". bioRxiv 10.1101/002642.
↑ ^8.0 ^8.1 Liu, Yufeng; Hayes, David Neil; Nobel, Andrew; Marron, J. S. (2008-09-01). "Statistical Significance of Clustering for High-Dimension, Low–Sample Size Data". Journal of the American Statistical Association. 103 (483): 1281–1293. doi:10.1198/016214508000000454. ISSN 0162-1459. S2CID 120819441.
↑ Tibshirani, Robert; Walther, Guenther; Hastie, Trevor (2001). "अंतराल आँकड़ों के माध्यम से डेटा सेट में समूहों की संख्या का अनुमान लगाना". Journal of the Royal Statistical Society, Series B (Statistical Methodology) (in English). 63 (2): 411–423. doi:10.1111/1467-9868.00293. ISSN 1467-9868. S2CID 59738652.
↑ Fern, Xiaoli; Brodley, Carla (2004). "Cluster ensembles for high dimensional clustering: an empirical study". J Mach Learn Res. 22.
↑ Kiselev, Vladimir Yu; Kirschner, Kristina; Schaub, Michael T; Andrews, Tallulah; Yiu, Andrew; Chandra, Tamir; Natarajan, Kedar N; Reik, Wolf; Barahona, Mauricio; Green, Anthony R; Hemberg, Martin (May 2017). "SC3: consensus clustering of single-cell RNA-seq data". Nature Methods (in English). 14 (5): 483–486. doi:10.1038/nmeth.4236. ISSN 1548-7091. PMC 5410170. PMID 28346451.
↑ Kunal Punera, Joydeep Ghosh. Consensus Based Ensembles of Soft Clusterings
↑ Solving cluster ensemble problems by bipartite graph partitioning, Xiaoli Zhang Fern and Carla Brodley, Proceedings of the twenty-first international conference on Machine learning
↑ Lock, E.F.; Dunson, D.B. (2013). "बायेसियन सर्वसम्मति क्लस्टरिंग". Bioinformatics. 29 (20): 2610–2616. arXiv:1302.7280. Bibcode:2013arXiv1302.7280L. doi:10.1093/bioinformatics/btt425. PMC 3789539. PMID 23990412.
↑ Zazzaro, Gaetano; Martone, Angelo (2018). "ईसीएफ-साधन - एन्सेम्बल क्लस्टरिंग फ़ज़िफिकेशन साधन। क्लस्टरिंग एकत्रीकरण, फ़ज़िफ़िकेशन और अनुकूलन के लिए एक नया एल्गोरिदम". IMM 2018: The Eighth International Conference on Advances in Information Mining and Management. [1]

Aristides Gionis, Heikki Mannila, Panayiotis Tsaparas. Clustering Aggregation. 21st International Conference on Data Engineering (ICDE 2005)
Hongjun Wang, Hanhuai Shan, Arindam Banerjee. Bayesian Cluster Ensembles^{[permanent dead link]}, SIAM International Conference on Data Mining, SDM 09
Nguyen, Nam; Caruana, Rich (2007). "Consensus Clusterings". Seventh IEEE International Conference on Data Mining (ICDM 2007). IEEE. pp. 607–612. doi:10.1109/icdm.2007.73. ISBN 978-0-7695-3018-5. ...we address the problem of combining multiple clusterings without access to the underlying features of the data. This process is known in the literature as clustering ensembles, clustering aggregation, or consensus clustering. Consensus clustering yields a stable and robust final clustering that is in agreement with multiple clusterings. We find that an iterative EM-like method is remarkably effective for this problem. We present an iterative algorithm and its variations for finding clustering consensus. An extensive empirical study compares our proposed algorithms with eleven other consensus clustering methods on four data sets using three different clustering performance metrics. The experimental results show that the new ensemble clustering methods produce clusterings that are as good as, and often better than, these other methods.

[StrehlEnsembles-1] 1.0 ^1.1 Strehl, Alexander; Ghosh, Joydeep (2002). "Cluster ensembles – a knowledge reuse framework for combining multiple partitions" (PDF). Journal on Machine Learning Research (JMLR). 3: 583–617. doi:10.1162/153244303321897735. This paper introduces the problem of combining multiple partitionings of a set of objects into a single consolidated clustering without accessing the features or algorithms that determined these partitionings. We first identify several application scenarios for the resultant 'knowledge reuse' framework that we call cluster ensembles. The cluster ensemble problem is then formalized as a combinatorial optimization problem in terms of shared mutual information

[RuizSurvey2011-2] VEGA-PONS, SANDRO; RUIZ-SHULCLOPER, JOSÉ (1 May 2011). "A Survey of Clustering Ensemble Algorithms". International Journal of Pattern Recognition and Artificial Intelligence. 25 (3): 337–372. doi:10.1142/S0218001411008683. S2CID 4643842.

[Filkov2003-3] Filkov, Vladimir (2003). "Integrating microarray data by consensus clustering". Proceedings. 15th IEEE International Conference on Tools with Artificial Intelligence. pp. 418–426. CiteSeerX 10.1.1.116.8271. doi:10.1109/TAI.2003.1250220. ISBN 978-0-7695-2038-4. S2CID 1515525. {{cite book}}: |journal= ignored (help)

[Bonizzoni2008-4] Bonizzoni, Paola; Della Vedova, Gianluca; Dondi, Riccardo; Jiang, Tao (2008). "सहसंबंध क्लस्टरिंग और सर्वसम्मति क्लस्टरिंग के अनुमान पर". Journal of Computer and System Sciences. 74 (5): 671–696. doi:10.1016/j.jcss.2007.06.024.

[5] Monti, Stefano; Tamayo, Pablo; Mesirov, Jill; Golub, Todd (2003-07-01). "Consensus Clustering: A Resampling-Based Method for Class Discovery and Visualization of Gene Expression Microarray Data". Machine Learning (in English). 52 (1): 91–118. doi:10.1023/A:1023949509487. ISSN 1573-0565.

[SenbabaogluSREP-6] 6.0 ^6.1 ^6.2 ^6.3 Şenbabaoğlu, Y.; Michailidis, G.; Li, J. Z. (2014). "वर्ग खोज में सर्वसम्मति क्लस्टरिंग की महत्वपूर्ण सीमाएँ". Scientific Reports. 4: 6207. Bibcode:2014NatSR...4E6207.. doi:10.1038/srep06207. PMC 4145288. PMID 25158761.

[SenbabaogluRXV-7] 7.0 ^7.1 Şenbabaoğlu, Y.; Michailidis, G.; Li, J. Z. (Feb 2014). "वर्ग खोज के लिए सर्वसम्मति क्लस्टरिंग का पुनर्मूल्यांकन". bioRxiv 10.1101/002642.

[:0-8] 8.0 ^8.1 Liu, Yufeng; Hayes, David Neil; Nobel, Andrew; Marron, J. S. (2008-09-01). "Statistical Significance of Clustering for High-Dimension, Low–Sample Size Data". Journal of the American Statistical Association. 103 (483): 1281–1293. doi:10.1198/016214508000000454. ISSN 0162-1459. S2CID 120819441.

[9] Tibshirani, Robert; Walther, Guenther; Hastie, Trevor (2001). "अंतराल आँकड़ों के माध्यम से डेटा सेट में समूहों की संख्या का अनुमान लगाना". Journal of the Royal Statistical Society, Series B (Statistical Methodology) (in English). 63 (2): 411–423. doi:10.1111/1467-9868.00293. ISSN 1467-9868. S2CID 59738652.

[10] Fern, Xiaoli; Brodley, Carla (2004). "Cluster ensembles for high dimensional clustering: an empirical study". J Mach Learn Res. 22.

[11] Kiselev, Vladimir Yu; Kirschner, Kristina; Schaub, Michael T; Andrews, Tallulah; Yiu, Andrew; Chandra, Tamir; Natarajan, Kedar N; Reik, Wolf; Barahona, Mauricio; Green, Anthony R; Hemberg, Martin (May 2017). "SC3: consensus clustering of single-cell RNA-seq data". Nature Methods (in English). 14 (5): 483–486. doi:10.1038/nmeth.4236. ISSN 1548-7091. PMC 5410170. PMID 28346451.

[12] Kunal Punera, Joydeep Ghosh. Consensus Based Ensembles of Soft Clusterings

[13] Solving cluster ensemble problems by bipartite graph partitioning, Xiaoli Zhang Fern and Carla Brodley, Proceedings of the twenty-first international conference on Machine learning

[LockBCC-14] Lock, E.F.; Dunson, D.B. (2013). "बायेसियन सर्वसम्मति क्लस्टरिंग". Bioinformatics. 29 (20): 2610–2616. arXiv:1302.7280. Bibcode:2013arXiv1302.7280L. doi:10.1093/bioinformatics/btt425. PMC 3789539. PMID 23990412.

[ZazzECF-15] Zazzaro, Gaetano; Martone, Angelo (2018). "ईसीएफ-साधन - एन्सेम्बल क्लस्टरिंग फ़ज़िफिकेशन साधन। क्लस्टरिंग एकत्रीकरण, फ़ज़िफ़िकेशन और अनुकूलन के लिए एक नया एल्गोरिदम". IMM 2018: The Eighth International Conference on Advances in Information Mining and Management. [1]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Anonymous

Search

सर्वसम्मति क्लस्टरिंग

Namespaces

More

Page actions

Contents

मौजूदा क्लस्टरिंग तकनीकों के साथ मुद्दे