पूर्ण-लिंकेज क्लस्टरिंग

From Vigyanwiki

पूर्ण-सहलग्न गुच्छन संकुल पदानुक्रमिक गुच्छन की कई विधियों में से एक है। प्रक्रिया की शुरुआत में, प्रत्येक अवयव अपने स्वयं के गुच्छ में होते है। तब गुच्छों को क्रमानुसार बड़े गुच्छों में संयोजित किया जाता है जब तक कि सभी अवयव एक ही गुच्छ में न हो जाएं। इस विधि को सुदूर पड़ोसी गुच्छन के रूप में भी जाना जाता है। गुच्छन के परिणाम को डेंड्रोग्राम के रूप में देखा जा सकता है, जो गुच्छ फ्यूजन के अनुक्रम और प्रत्येक फ्यूजन की दूरी को दर्शाता है।[1][2][3]

गुच्छन प्रक्रिया

प्रत्येक चरण में, लघुतम दूरी से अलग किए गए दो गुच्छों को संयोजित किया जाता है। 'लघुतम दूरी' की परिभाषा ही विभिन्न संकुलन गुच्छन विधियों के बीच अवकलन करती है। पूर्ण-सहलग्न गुच्छन में, दो गुच्छों के बीच के सहलग्‍न में सभी अवयव युग्म होते हैं, और गुच्छों के बीच की दूरी उन दो अवयवों (प्रत्येक गुच्छ में एक) के बीच की दूरी के बराबर होती है जो एक दूसरे से सबसे दूर हैं। इनमें से सबसे छोटा सहलग्‍न जो किसी भी चरण पर बना रहता है, उन दो गुच्छों के संलयन का कारण बनता है जिनके अवयव सम्मिलित होते हैं।

गणितीय रूप से, पूर्ण सहलग्न फलन - गुच्छों और के बीच की दूरी D(X,Y) - निम्नलिखित व्यंजकों द्वारा वर्णित है:

जहां

  • अवयवों के बीच की दूरी और है;
  • और अवयवों (गुच्छों) के दो समुच्चय हैं।

कलन विधि

सरल पद्धति

निम्नलिखित कलन विधि एक संकुलन गुच्छन पद्धति है जो सामीप्य आव्यूह में पंक्तियों और स्तंभों को मिटा देती है क्योंकि पुराने गुच्छ नए में विलयित हो जाते हैं। सामीप्य आव्यूह D में सभी दूरियाँ d(i,j) सम्मिलित हैं। गुच्छनों को अनुक्रम संख्याएँ 0,1,......, (n − 1) समनुदिष्‍ट की गई है और L(k) kth गुच्छनों का स्तर है। अनुक्रम संख्या m वाले गुच्छ को (m) से दर्शाया गया है और गुच्छों (r) तथा (s) के बीच सामीप्य को d[(r),(s)] से दर्शाया गया है।

पूर्ण सहलग्न गुच्छन कलन विधि में निम्नलिखित चरण सम्मिलित हैं:

  1. स्तर और अनुक्रम संख्या वाले असंयुक्त गुच्छन से शुरू करें।
  2. वर्तमान गुच्छन में गुच्छों के सबसे समान युग्म खोजे, युग्म मान ले, के अनुसार जहां न्यूनतम वर्तमान गुच्छन में गुच्छों के सभी युग्मों पर है।
  3. अनुक्रम संख्या बढ़ाएँ: | अगले गुच्छन बनाने के लिए गुच्छों और को एक गुच्छ में मिलाएं। इस गुच्छन का स्तर पर समुच्चय करें|
  4. गुच्छों और के अनुरूप पंक्तियों और स्तंभों को हटाकर और नवगठित गुच्छ के अनुरूप एक पंक्ति और स्तंभ जोड़कर सामीप्य आव्यूह, D को अद्यतन करें। नए गुच्छ, जिसे से दर्शाया गया है, और पुराने गुच्छ के बीच सामीप्य को इस प्रकार परिभाषित किया गया है
  5. |
  6. यदि सभी वस्तुएं एक गुच्छ में हैं, तो रुकें। अन्यथा, चरण 2 पर जाएँ |

इष्टतम दक्ष पद्धति

ऊपर बताए गए एल्गोरिदम को समझना सरल है लेकिन सम्मिश्रता है| मई 1976 में, डी. डिफ़ेज़ ने केवल सम्मिश्रता का एक इष्टतम दक्ष एल्गोरिदम प्रस्तावित किया जिसे क्लीनक (प्रकाशित 1977) के रूप में जाना जाता है, जो एकल सहलग्न गुच्छन के लिए समान एल्गोरिदम स्लिंक से प्रेरित है।[4]

कार्यकारी उदाहरण

कार्यकारी उदाहरण, पांच बैक्टीरियों के 5S राइबोसोमल RNA अनुक्रम संरेखण से गणना की गई JC69 आनुवंशिक दूरी आव्यूह पर आधारित है: बेसिलस सुबटिलिस (), बैसिलस स्टीयरोथर्मोफिलस (), वीसेल्ला विरिडेसेंस (), अकोलेप्लाज्मा मोडिकम (), और माइक्रोकॉकस ल्यूटस () |[5][6]

पहला चरण

  • पहला गुच्छन

आइए मान लें कि हमारे पास पाँच अवयव और उनके बीच युग्‍मानूसार दूरी का निम्नलिखित आव्यूह है:

a b c d e
a 0 17 21 31 23
b 17 0 30 34 21
c 21 30 0 28 39
d 31 34 28 0 43
e 23 21 39 43 0

इस उदाहरण में, , का सबसे छोटा मान है, इसलिए हम अवयवों और को जोड़ते हैं |

  • पहले शाखा की लंबाई का आकलन

मान लीजिए उस नोड को दर्शाता है जिससे और अब जोड़ते हैं| समुच्चयन करने से यह सुनिश्चित होता है कि अवयव और , से समान दूरी पर हैं। यह अल्ट्रामेट्रीसिटी परिकल्पना की अपेक्षा से मेल खाता है। और को से जोड़ने वाली शाखाओं की लंबाई होती है (अंतिम डेंड्रोग्राम देखें)

  • 'पहला दूरी आव्यूह अद्यतन'

फिर हम प्रारंभिक सामीप्य आव्यूह को एक नए सामीप्य आव्यूह (नीचे देखें) में अद्यतन करने के लिए आगे बढ़ते हैं, जिसका आकार साथ के गुच्छन कारण एक पंक्ति और एक कॉलम से कम हो गया है। में बोल्ड मान नई दूरियों के अनुरूप हैं, जिनकी गणना पहले गुच्छ के प्रत्येक अवयव और शेष प्रत्येक अवयव के बीच अधिकतम दूरी को बनाए रखकर की जाती है:

में इटालिक मान आव्यूह अद्यतन से प्रभावित नहीं होते हैं क्योंकि वे पहले गुच्छ में सम्मिलित नहीं होने वाले अवयवों के बीच की दूरी के अनुरूप होते हैं।

दूसरा चरण

  • दूसरा गुच्छन

अब हम नए दूरी आव्यूह से शुरू करते हुए, पिछले तीन चरणों को दोहराते हैं:

(a,b) c d e
(a,b) 0 30 34 23
c 30 0 28 39
d 34 28 0 43
e 23 39 43 0

यहाँ, का न्यूनतम मान है, इसलिए हम गुच्छ को अवयव के साथ जोड़ते हैं।

  • दूसरी शाखा की लंबाई का आकलन

मान लीजिए उस नोड को दर्शाता है जिससे और अब जुड़े हुए हैं| अल्ट्रामेट्रिकिटी प्रतिबंध के कारण, या से , तथा और को जोड़ने वाली शाखाएं बराबर होती हैं और उनकी कुल लंबाई निम्नलिखित होती है:

हम लुप्त शाखा की लंबाई निकालते हैं: (अंतिम डेंड्रोग्राम देखें)

  • दूसरी दूरी आव्यूह अद्यतन

फिर हम आव्यूह को एक नए दूरी आव्यूह में (नीचे देखें) में अघतन करने के लिए आगे बढ़ते हैं, जिसका आकार के साथ के गुच्छन के कारण एक पंक्ति और एक स्तम्भ से कम हो गया है:

तीसरा चरण

  • तीसरा गुच्छन

हम अद्यतन दूरी आव्यूह से शुरू करते हुए, पिछले तीन चरणों को फिर से दोहराते हैं|

((a,b),e) c d
((a,b),e) 0 39 43
c 39 0 28
d 43 28 0

यहाँ, का सबसे छोटा मान है , इसलिए हम अवयवों को और से जोड़ते हैं|

  • तीसरी शाखा की लंबाई का आकलन

मान लीजिए कि उस नोड को दर्शाता है जिससे और अब जुड़े हुए हैं। वह शाखाओं और को से जोड़ती हैं तो उनकी लंबाई होती है (अंतिम डेंड्रोग्राम देखें)

  • तीसरी दूरी आव्यूह अद्यतन

अद्यतन करने के लिए एक ही प्रविष्टि है:

अंतिम चरण

अंतिम आव्यूह है:

((a,b),e) (c,d)
((a,b),e) 0 43
(c,d) 43 0

इसलिए हम गुच्छों को और से जोड़ते हैं।

मान लीजिए उस (रूट) नोड को दर्शाता है जिससे और अब जुड़े हुए हैं| और को r से जोड़ने वाली शाखाओं की लंबाई होती है:

हम शेष दो शाखाओं की लंबाई निकालते हैं:


पूर्ण-सहलग्न डेंड्रोग्राम

WPGMA डेंड्रोग्राम 5S डेटा

डेंड्रोग्राम अब पूर्ण हो गया है। यह अल्ट्रामेट्रिक है क्योंकि यह सभी समांतराली ( से ), से समान दूरी पर हैं:

इसलिए डेंड्रोग्राम को इसके सबसे गहरे नोड द्वारा रूट किया जाता है।

अन्य सहलग्नों के साथ तुलना

वैकल्पिक सहलग्न पद्धतियों में एकल सहलग्न गुच्छन और औसत सहलग्न गुच्छन सम्मिलित हैं - अनुभवहीन कलन विधि में एक अलग सहलग्न को लागू करना, सामीप्य आव्यूह की प्रारंभिक गणना और उपरोक्त कलन विधि के चरण 4 में अंतर-गुच्छ दूरी की गणना करने के लिए एक अलग सूत्र के उपयोग करने की स्थिति है। हालाँकि, स्वेच्छ सहलग्नों के लिए एक इष्टतम कुशल कलन विधि उपलब्ध नहीं है। जिस सूत्र को समायोजित किया जाना चाहिए उसे बोल्ड टेक्स्ट का उपयोग करके हाइलाइट किया गया है।

पूर्ण सहलग्न गुच्छन वैकल्पिक एकल सहलग्न गुच्छन विधि की कमी से बचाता है - तथाकथित शृंखलन परिघटना, जहां एकल सहलग्न गुच्छन के माध्यम से बने गुच्छों के एकल अवयवों को एक-दूसरे के सटीक होने के कारण एक साथ प्रणोदित किया जा सकता है, समान रूप से प्रत्येक गुच्छ में कई अवयव एक दूसरे से बहुत दूर हो सकते हैं। पूर्ण सहलग्न से लगभग समान व्यास के सघन (कॉम्पैक्ट) गुच्छ मिलते हैं।[7]

समान दूरी आव्यूह से विभिन्न गुच्छन विधियों के अंतर्गत प्राप्त डेंड्रोग्राम की तुलना।
Simple linkage-5S.svg
Complete linkage Dendrogram 5S data.svg
WPGMA Dendrogram 5S data.svg
UPGMA Dendrogram 5S data.svg
एकल-सहलग्न गुच्छन | पूर्ण-सहलग्न गुच्छन | औसत सहलग्न गुच्छन: डब्ल्यूपीजीएमए औसत सहलग्न गुच्छन: यूपीजीएमए |


यह भी देखें

संदर्भ

  1. Sorensen T (1948). "प्रजातियों की समानता और डेनिश कॉमन्स पर वनस्पति के विश्लेषण के लिए इसके अनुप्रयोग के आधार पर पादप समाजशास्त्र में समान आयाम के समूह स्थापित करने की एक विधि।". Biologiske Skrifter. 5: 1–34.
  2. Legendre P, Legendre L (1998). संख्यात्मक पारिस्थितिकी (Second English ed.). p. 853.
  3. Everitt BS, Landau S, Leese M (2001). क्लस्टर विश्लेषण (Fourth ed.). London: Arnold. ISBN 0-340-76119-9.
  4. Defays D (1977). "संपूर्ण लिंक विधि के लिए एक कुशल एल्गोरिदम". The Computer Journal. British Computer Society. 20 (4): 364–366. doi:10.1093/comjnl/20.4.364.
  5. Erdmann VA, Wolters J (1986). "Collection of published 5S, 5.8S and 4.5S ribosomal RNA sequences". Nucleic Acids Research. 14 Suppl (Suppl): r1-59. doi:10.1093/nar/14.suppl.r1. PMC 341310. PMID 2422630.
  6. Olsen GJ (1988). "राइबोसोमल आरएनए का उपयोग करके फाइलोजेनेटिक विश्लेषण". Methods in Enzymology. 164: 793–812. doi:10.1016/s0076-6879(88)64084-5. PMID 3241556.
  7. Everitt, Landau and Leese (2001), pp. 62-64.


अग्रिम पठन

  • Späth H (1980). Cluster Analysis Algorithms. Chichester: Ellis Horwood.