फजी क्लस्टरिंग

From Vigyanwiki

फजी क्लस्टरिंग या अस्पष्ट क्लस्टरिंग (जिसे सॉफ्ट क्लस्टरिंग या सॉफ्ट k-मीन्स भी कहा जाता है) क्लस्टरिंग का एक रूप है जिसमें प्रत्येक डेटा बिंदु एक से अधिक क्लस्टर से संबंधित हो सकता है।

क्लस्टरिंग या क्लस्टर विश्लेषण में क्लस्टर को डेटा बिंदु निर्दिष्ट करना सम्मिलित है ताकि एक ही क्लस्टर में वस्तु यथासंभव समान हों, जबकि विभिन्न क्लस्टर से संबंधित वस्तु यथासंभव भिन्न हों। समानता उपायों के माध्यम से समूहों की पहचान की जाती है। इन समानता उपायों में दूरी, संबद्धता और तीव्रता सम्मिलित हैं। डेटा या अनुप्रयोग के आधार पर विभिन्न समानता उपाय चुने जा सकते हैं।[1]

ठोस क्लस्टरिंग से तुलना

गैर-फजी क्लस्टरिंग (जिसे ठोस क्लस्टरिंग के रूप में भी जाना जाता है) में, डेटा को अलग-अलग क्लस्टर में विभाजित किया जाता है, जहां प्रत्येक डेटा बिंदु केवल एक क्लस्टर से संबंधित हो सकता है। फजी क्लस्टरिंग में, डेटा बिंदु संभावित रूप से एकाधिक क्लस्टर से संबंधित हो सकते हैं। उदाहरण के लिए, सेब लाल या हरा (कठोर क्लस्टरिंग) हो सकता है, लेकिन सेब लाल और हरा (फजी क्लस्टरिंग) भी हो सकता है। यहां, सेब कुछ हद तक लाल और कुछ हद तक हरा भी हो सकता है। सेब हरे [हरा = 1] और लाल नहीं [लाल = 0] के स्थान पर, सेब हरे [हरा = 0.5] और लाल [लाल = 0.5] से संबंधित हो सकता है। ये मान 0 और 1 के बीच सामान्यीकृत होते हैं हालाँकि, वे संभावनाओं का प्रतिनिधित्व नहीं करते हैं, इसलिए दोनों मानों को 1 तक जोड़ने की आवश्यकता नहीं है।

सदस्यता

प्रत्येक डेटा बिंदु (टैग) को सदस्यता ग्रेड निर्दिष्ट किए गए हैं। ये सदस्यता ग्रेड उस डिग्री को दर्शाते हैं जिस तक डेटा बिंदु प्रत्येक क्लस्टर से संबंधित हैं। इस प्रकार, क्लस्टर के किनारे पर स्थित बिंदु, कम सदस्यता ग्रेड के साथ, क्लस्टर के केंद्र में बिंदुओं की तुलना में निम्न डिग्री क्लस्टर में हो सकते हैं।

फजी C-मीन्स क्लस्टरिंग

सबसे व्यापक रूप से उपयोग की जाने वाली फजी क्लस्टरिंग एल्गोरिदम में से एक फजी C-मीन्स क्लस्टरिंग (एफसीएम) एल्गोरिदम है।

इतिहास

फजी c-मीन्स (एफसीएम) क्लस्टरिंग को जे.सी. डन द्वारा 1973 में विकसित किया गया था,[2] और 1981 में जे.सी. बेजडेक द्वारा इसमें सुधार किया गया था।[3]

सामान्य विवरण

फजी c-मीन्स एल्गोरिथम, के-मीन्स एल्गोरिथम के बहुत समान है-

  • अनेक क्लस्टर चुनें
  • क्लस्टर में रहने के लिए प्रत्येक डेटा बिंदु पर यादृच्छिक रूप से गुणांक निर्दिष्ट करें।
  • तब तक दोहराएँ जब तक एल्गोरिथ्म अभिसरण न हो जाए (अर्थात, दो पुनरावृत्तियों के बीच गुणांक का परिवर्तन दी गई संवेदनशीलता सीमा से अधिक नहीं है)-
    • प्रत्येक क्लस्टर के लिए केन्द्रक की गणना करें (नीचे दिखाया गया है)।
    • प्रत्येक डेटा बिंदु के लिए, क्लस्टर में होने के गुणांक की गणना करें।

केन्द्रक

किसी भी बिंदु x में गुणांकों का समुच्चय होता है जो kth क्लस्टर wk(x) में होने की डिग्री देता है। फजी c-मीन्स के साथ, क्लस्टर का केन्द्रक सभी बिंदुओं का माध्य होता है, जिसे क्लस्टर से संबंधित उनकी डिग्री के आधार पर, या, गणितीय रूप से भारित किया जाता है,

जहां m हाइपर-पैरामीटर है जो नियंत्रित करता है कि क्लस्टर कितना फजी होगा। यह जितना अधिक होगा, अंत में क्लस्टर उतना ही अधिक फजी होगा।

एल्गोरिथम

एफसीएम (FCM) एल्गोरिदम कुछ दिए गए मानदंडों के संबंध में तत्वों के सीमित संग्रह को c फजी क्लस्टर के संग्रह में विभाजित करने का प्रयास करता है।

डेटा के सीमित सेट को देखते हुए, एल्गोरिदम क्लस्टर केंद्रों और विभाजन मैट्रिक्स की सूची देता है जहां प्रत्येक तत्व, , डिग्री को बताता है कि कौन सा तत्व, , क्लस्टर से संबंधित है।

एफसीएम का उद्देश्य वस्तुनिष्ठ कार्य को न्यूनतम करना है-

,

जहाँ-

.

K-मीन्स क्लस्टरिंग से तुलना

K-मीन्स क्लस्टरिंग भी ऊपर दिखाए गए उद्देश्य फ़ंक्शन को कम करने का प्रयास करती है, सिवाय इसके कि के-मीन्स में, सदस्यता मान या तो शून्य या एक होते हैं, और बीच में मान नहीं ले सकते हैं, अर्थात । फजी c-मीन्स में, फजीता की डिग्री को द्वारा पैरामीट्रिज़ किया जाता है, जहाँ बड़े के परिणामस्वरूप फजी क्लस्टर बनते हैं। सीमा में, सदस्यताएँ, , 0 या 1 में परिवर्तित हो जाती हैं, और फजी c-मीन्स उद्देश्य के-मीन्स के साथ मेल खाता है। प्रयोग या डोमेन ज्ञान के अभाव में, को प्रायः 2 पर सेट किया जाता है। एल्गोरिदम अंतः-क्लस्टर विचरण को भी कम करता है, लेकिन इसमें 'के'-मीन्स जैसी ही समस्याएं हैं न्यूनतम स्थानीय न्यूनतम है, और परिणाम वज़न के प्रारंभिक चयन पर निर्भर करते हैं।

कार्यान्वयन

इस एल्गोरिथम के कई कार्यान्वयन हैं जो सार्वजनिक रूप से उपलब्ध हैं।[4][5]

संबंधित एल्गोरिदम

क्लस्टरों की संख्या के लिए स्वचालित रूप से निर्धारित फजी C-मीन्स (एफसीएम) पहचान सटीकता को बढ़ा सकता है।[6] अपेक्षा-अधिकतमकरण एल्गोरिदम के साथ गॉसियन के मिश्रण का उपयोग करना अधिक सांख्यिकीय रूप से औपचारिक विधि है जिसमें इनमें से कुछ विचार सम्मिलित हैं- कक्षाओं में आंशिक सदस्यता।

उदाहरण

इस सिद्धांत को बेहतर ढंग से समझने के लिए, x अक्ष पर एक-आयामी डेटा का उत्कृष्ट उदाहरण नीचे दिया गया है।

342x342पिक्सेल

इस डेटा सेट को परंपरागत रूप से दो समूहों में समूहीकृत किया जा सकता है। x-अक्ष पर सीमा का चयन करके, डेटा को दो समूहों में विभाजित किया जाता है। परिणामी समूहों को 'A' और 'B' लेबल किया गया है, जैसा कि निम्नलिखित चित्र में देखा गया है। इसलिए डेटा सेट से संबंधित प्रत्येक बिंदु का सदस्यता गुणांक 1 या 0 होगा। प्रत्येक संगत डेटा बिंदु का यह सदस्यता गुणांक y-अक्ष के समावेशन द्वारा दर्शाया गया है।

363x363पीएक्स

फजी क्लस्टरिंग में, प्रत्येक डेटा बिंदु में एकाधिक क्लस्टर की सदस्यता हो सकती है। सदस्यता गुणांकों की परिभाषा को दृढ़ता से 1 या 0 से शिथिल करके, ये मान 1 से 0 तक किसी भी मान तक हो सकते हैं। निम्नलिखित चित्र पिछले क्लस्टरिंग से डेटा सेट दिखाती है, लेकिन अब फजी c-मीन्स क्लस्टरिंग लागू की गई है। सबसे पहले, दो समूहों को परिभाषित करने वाला नया सीमा मान उत्पन्न किया जा सकता है। इसके बाद, प्रत्येक डेटा बिंदु के लिए नए सदस्यता गुणांक क्लस्टर केन्द्रक के साथ-साथ प्रत्येक क्लस्टर केन्द्रक से दूरी के आधार पर उत्पन्न होते हैं।

फ्रेमलेस

जैसा कि कोई देख सकता है, मध्य डेटा बिंदु क्लस्टर A और क्लस्टर B से संबंधित है। 0.3 का मान क्लस्टर A के लिए इस डेटा बिंदु का सदस्यता गुणांक है।[7]

अनुप्रयोग

सतह विज्ञान, जीव विज्ञान, चिकित्सा, मनोविज्ञान, अर्थशास्त्र और कई अन्य विषयों में क्लस्टरिंग समस्याओं का अनुप्रयोग होता है।[8]

जैव सूचना विज्ञान

जैव सूचना विज्ञान के क्षेत्र में, क्लस्टरिंग का उपयोग कई अनुप्रयोगों के लिए किया जाता है। एक उपयोग आरएनए (RNA)-अनुक्रमण डेटा या अन्य प्रौद्योगिकियों से जीन अभिव्यक्ति डेटा का विश्लेषण करने के लिए पैटर्न पहचान तकनीक के रूप में है।[9] इस स्थिति में, समान अभिव्यक्ति पैटर्न वाले जीनों को एक ही क्लस्टर में समूहीकृत किया जाता है, और अलग-अलग क्लस्टर अभिव्यक्ति के अलग-अलग, अच्छी तरह से अलग किए गए पैटर्न प्रदर्शित करते हैं। क्लस्टरिंग का उपयोग जीन कार्य और नियमन में अंतर्दृष्टि प्रदान कर सकता है।[8] क्योंकि फजी क्लस्टरिंग जीन को एक से अधिक क्लस्टर से संबंधित होने की अनुमति देती है, यह उन जीनों की पहचान की अनुमति देती है जो सशर्त रूप से सह-विनियमित या सह-व्यक्त होते हैं।[10] उदाहरण के लिए, एक जीन पर एक से अधिक प्रतिलेखन कारकों द्वारा कार्य किया जा सकता है, और एक जीन प्रोटीन को एन्कोड कर सकता है जिसमें एक से अधिक कार्य होते हैं। इस प्रकार, फजी क्लस्टरिंग ठोस क्लस्टरिंग की तुलना में अधिक उपयुक्त है।

चित्र विश्लेषण

फजी c-मीन्स किसी चित्र में ऑब्जेक्ट्स को क्लस्टर करने में चित्र प्रसंस्करण के लिए एक बहुत ही महत्वपूर्ण उपकरण रहा है। 1970 के दशक में, गणितज्ञों ने ध्वनि के तहत क्लस्टरिंग की सटीकता में सुधार करने के लिए एफसीएम एल्गोरिदम में स्थानिक शब्द पेश किया था।[11] इसके अलावा, एफसीएम एल्गोरिदम का उपयोग हू और ज़र्निक मोमेंट्स जैसी चित्र-आधारित सुविधाओं का उपयोग करके विभिन्न गतिविधियों के बीच अंतर करने के लिए किया गया है।[12] वैकल्पिक रूप से, फजी लॉजिक मॉडल को फजी सेट पर वर्णित किया जा सकता है जो एचएसएल (HSL) रंग स्थान एचएसएल और एचएसवी (HSV) के तीन घटकों पर परिभाषित किया गया है सदस्यता कार्यों का उद्देश्य रंगों की पहचान के मानवीय अंतर्ज्ञान का पालन करते हुए रंगों का वर्णन करना है।[13]

मार्केटिंग

मार्केटिंग में, ग्राहकों को उनकी ज़रूरतों, ब्रांड विकल्पों, साइको-ग्राफ़िक प्रोफ़ाइल या अन्य मार्केटिंग संबंधी विभाजनों के आधार पर फजी समूहों में समूहीकृत किया जा सकता है।

चित्र प्रसंस्करण उदाहरण

मूल (ऊपरी बाएँ), क्लस्टर्ड (ऊपरी दाएँ), और सदस्यता मानचित्र (नीचे) के साथ फजी क्लस्टरिंग द्वारा चित्र को खंडित किया गया है

K-मीन्स क्लस्टरिंग एल्गोरिदम का उपयोग करके चित्र विभाजन का उपयोग पैटर्न पहचान, ऑब्जेक्ट पहचान और मेडिकल प्रतिबिंबन के लिए लंबे समय से किया जाता है। हालाँकि, वास्तविक दुनिया की सीमाओं जैसे कि ध्वनि, छाया और कैमरों में भिन्नता के कारण, पारंपरिक ठोस क्लस्टरिंग प्रायः चित्र प्रसंस्करण कार्यों को विश्वसनीय रूप से करने में असमर्थ होती है जैसा कि ऊपर बताया गया है। इन कार्यों के प्रदर्शन में फजी क्लस्टरिंग को अधिक लागू एल्गोरिदम के रूप में प्रस्तावित किया गया है। ग्रे स्केल चित्र दिया गया है जो मैटलैब में फजी क्लस्टरिंग से गुज़रा है।[14] मूल चित्र क्लस्टर चित्र के पास में दिखाई देती है। प्रत्येक पिक्सेल की सदस्यता की पहचान करने के लिए तीन अलग-अलग समूहों का दृश्य प्रतिनिधित्व देने के लिए रंगों का उपयोग किया जाता है। नीचे, एक चार्ट दिया गया है जो उनके संगत तीव्रता मानों के फजी सदस्यता गुणांक को परिभाषित करता है।

उस अनुप्रयोग के आधार पर जिसके लिए फजी क्लस्टरिंग गुणांक का उपयोग किया जाना है, विभिन्न प्री-प्रोसेसिंग तकनीकों को आरजीबी (RGB) चित्रों पर लागू किया जा सकता है। आरजीबी से एचसीएल (HCL) रूपांतरण सामान्य बात है।[15]

यह भी देखें

  • एफएलएएमई (FLAME) क्लस्टरिंग
  • क्लस्टर विश्लेषण
  • अपेक्षा-अधिकतमकरण एल्गोरिथ्म (एक समान, लेकिन अधिक सांख्यिकीय रूप से औपचारिक विधि)

संदर्भ

  1. "फजी क्लस्टरिंग". reference.wolfram.com. Retrieved 2016-04-26.
  2. Dunn, J. C. (1973-01-01). "ISODATA प्रक्रिया का एक अस्पष्ट सापेक्ष और कॉम्पैक्ट अच्छी तरह से अलग किए गए क्लस्टर का पता लगाने में इसका उपयोग". Journal of Cybernetics. 3 (3): 32–57. doi:10.1080/01969727308546046. ISSN 0022-0280.
  3. Bezdek, James C. (1981). Pattern Recognition with Fuzzy Objective Function Algorithms. ISBN 0-306-40671-3.
  4. Alobaid, Ahmad, fuzzycmeans: Fuzzy c-means according to the research paper by James C. Bezdek et. al, retrieved 2023-01-18
  5. Dias, Madson, fuzzy-c-means: A simple python implementation of Fuzzy C-means algorithm., retrieved 2023-01-18
  6. Said, E El-Khamy; Rowayda A Sadek; Mohamed A El-Khoreby (October 2015). "अनुकूली क्लस्टर आधारित फ़ज़ी सी-मीन और थ्रेशोल्डिंग के साथ एक कुशल मस्तिष्क द्रव्यमान का पता लगाना". 2015 IEEE International Conference on Signal and Image Processing Applications (ICSIPA): 429–433.
  7. "क्लस्टरिंग - फ़ज़ी सी-साधन". home.deib.polimi.it. Retrieved 2017-05-01.
  8. Jump up to: 8.0 8.1 Ben-Dor, Amir; Shamir, Ron; Yakhini, Zohar (1999-10-01). "क्लस्टरिंग जीन अभिव्यक्ति पैटर्न". Journal of Computational Biology. 6 (3–4): 281–297. CiteSeerX 10.1.1.34.5341. doi:10.1089/106652799318274. ISSN 1066-5277. PMID 10582567.
  9. Valafar, Faramarz (2002-12-01). "माइक्रोएरे डेटा विश्लेषण में पैटर्न पहचान तकनीक". Annals of the New York Academy of Sciences (in English). 980 (1): 41–64. CiteSeerX 10.1.1.199.6445. doi:10.1111/j.1749-6632.2002.tb04888.x. ISSN 1749-6632. PMID 12594081.
  10. Valafar F. Pattern recognition techniques in microarray data analysis. Annals of the New York Academy of Sciences. 2002 Dec 1;980(1):41-64.
  11. Ahmed, Mohamed N.; Yamany, Sameh M.; Mohamed, Nevin; Farag, Aly A.; Moriarty, Thomas (2002). "पूर्वाग्रह क्षेत्र अनुमान और एमआरआई डेटा के विभाजन के लिए एक संशोधित फ़ज़ी सी-मीन्स एल्गोरिदम" (PDF). IEEE Transactions on Medical Imaging. 21 (3): 193–199. CiteSeerX 10.1.1.331.9742. doi:10.1109/42.996338. PMID 11989844..
  12. Banerjee, Tanvi (2014). "फ़ज़ी क्लस्टरिंग तकनीकों का उपयोग करके वीडियो से दिन या रात की गतिविधि की पहचान". IEEE Transactions on Fuzzy Systems. 22 (3): 483–493. CiteSeerX 10.1.1.652.2819. doi:10.1109/TFUZZ.2013.2260756.
  13. Alireza, Kashani; Kashani, Amir; Milani, Nargess; Akhlaghi, Peyman; Khezri, Kaveh (2008). रोबोकप सॉकर लीग में फ़ज़ी रीज़निंग और जेनेटिक एल्गोरिदम का उपयोग करके मजबूत रंग वर्गीकरण. pp. 548–555. doi:10.1007/978-3-540-68847-1_59. ISBN 978-3-540-68846-4. {{cite book}}: |journal= ignored (help)
  14. "फ़ज़ी क्लस्टरिंग - मैटलैब और सिमुलिंक". www.mathworks.com. Retrieved 2017-05-03.
  15. Lecca, Paola (2011). जैव सूचना विज्ञान और कम्प्यूटेशनल सिस्टम जीव विज्ञान में प्रणालीगत दृष्टिकोण. IGI Global. p. 9. ISBN 9781613504369.