वैचारिक क्लस्टरिंग: Difference between revisions

From Vigyanwiki
(Created page with "{{short description|Machine learning paradigm}} संकल्पनात्मक क्लस्टरिंग अप्रशिक्षित वर्गीकर...")
 
No edit summary
Line 1: Line 1:
{{short description|Machine learning paradigm}}
{{short description|Machine learning paradigm}}
संकल्पनात्मक क्लस्टरिंग अप्रशिक्षित [[वर्गीकरण]] के लिए एक [[ यंत्र अधिगम ]] प्रतिमान है जिसे 1980 में रिस्ज़र्ड एस. माइकल्स्की द्वारा परिभाषित किया गया है (फिशर 1987, माइकल्स्की 1980) और मुख्य रूप से 1980 के दशक के दौरान विकसित किया गया था। प्रत्येक उत्पन्न वर्ग के लिए एक अवधारणा विवरण तैयार करके इसे सामान्य [[क्लस्टर विश्लेषण]] से अलग किया जाता है। अधिकांश वैचारिक क्लस्टरिंग विधियां पदानुक्रमित श्रेणी संरचनाएं उत्पन्न करने में सक्षम हैं; पदानुक्रम पर अधिक जानकारी के लिए वर्गीकरण देखें। वैचारिक क्लस्टरिंग [[औपचारिक अवधारणा विश्लेषण]], निर्णय वृक्ष सीखने और [[मिश्रण मॉडल]] सीखने से निकटता से संबंधित है।
संकल्पनात्मक क्लस्टरिंग अप्रशिक्षित [[वर्गीकरण]] के लिए एक [[ यंत्र अधिगम |यंत्र अधिगम]] प्रतिमान है जिसे 1980 में रिस्ज़र्ड एस. माइकल्स्की द्वारा परिभाषित किया गया है (फिशर 1987, माइकल्स्की 1980) और मुख्य रूप से 1980 के दशक के दौरान विकसित किया गया था। प्रत्येक उत्पन्न वर्ग के लिए अवधारणा विवरण तैयार करके इसे सामान्य [[क्लस्टर विश्लेषण]] से अलग किया जाता है। अधिकांश वैचारिक क्लस्टरिंग विधियां पदानुक्रमित श्रेणी संरचनाएं उत्पन्न करने में सक्षम हैं; पदानुक्रम पर अधिक जानकारी के लिए वर्गीकरण देखें। वैचारिक क्लस्टरिंग [[औपचारिक अवधारणा विश्लेषण]], निर्णय वृक्ष सीखने और [[मिश्रण मॉडल]] सीखने से निकटता से संबंधित है।


== वैचारिक क्लस्टरिंग बनाम डेटा क्लस्टरिंग ==
== वैचारिक क्लस्टरिंग बनाम डेटा क्लस्टरिंग ==
वैचारिक क्लस्टरिंग स्पष्ट रूप से डेटा क्लस्टरिंग से निकटता से संबंधित है; हालाँकि, वैचारिक क्लस्टरिंग में यह न केवल डेटा की अंतर्निहित संरचना है जो क्लस्टर गठन को संचालित करती है, बल्कि [[विशिष्टता और विवरण भाषा]] भी है जो सीखने वाले के लिए उपलब्ध है। इस प्रकार, यदि प्रचलित अवधारणा विवरण भाषा उस विशेष नियमितता का वर्णन करने में असमर्थ है, तो डेटा में सांख्यिकीय रूप से मजबूत समूहीकरण शिक्षार्थी द्वारा निकालने में विफल हो सकता है। अधिकांश कार्यान्वयनों में, विवरण भाषा फीचर [[तार्किक संयोजन]] तक सीमित है, हालांकि COBWEB में (#उदाहरण देखें: एक बुनियादी वैचारिक क्लस्टरिंग एल्गोरिदम, COBWEB नीचे), फीचर भाषा [[संभाव्य]] है।
वैचारिक क्लस्टरिंग स्पष्ट रूप से डेटा क्लस्टरिंग से निकटता से संबंधित है; हालाँकि, वैचारिक क्लस्टरिंग में यह न केवल डेटा की अंतर्निहित संरचना है जो क्लस्टर गठन को संचालित करती है, बल्कि [[विशिष्टता और विवरण भाषा]] भी है जो सीखने वाले के लिए उपलब्ध है। इस प्रकार, यदि प्रचलित अवधारणा विवरण भाषा उस विशेष नियमितता का वर्णन करने में असमर्थ है, तो डेटा में सांख्यिकीय रूप से मजबूत समूहीकरण शिक्षार्थी द्वारा निकालने में विफल हो सकता है। अधिकांश कार्यान्वयनों में, विवरण भाषा फीचर [[तार्किक संयोजन]] तक सीमित है, हालांकि COBWEB में (#उदाहरण देखें: बुनियादी वैचारिक क्लस्टरिंग एल्गोरिदम, COBWEB नीचे), फीचर भाषा [[संभाव्य]] है।


== प्रकाशित एल्गोरिदम की सूची ==
== प्रकाशित एल्गोरिदम की सूची ==
Line 28: Line 28:
* स्टेप और माइकल्स्की (1986)
* स्टेप और माइकल्स्की (1986)


== उदाहरण: एक बुनियादी वैचारिक क्लस्टरिंग एल्गोरिथ्म ==
== उदाहरण: बुनियादी वैचारिक क्लस्टरिंग एल्गोरिथ्म ==
यह खंड वैचारिक क्लस्टरिंग एल्गोरिदम COBWEB की मूल बातों पर चर्चा करता है। विभिन्न अनुमानों और [[श्रेणी अच्छाई]] या श्रेणी मूल्यांकन मानदंडों का उपयोग करने वाले कई अन्य एल्गोरिदम हैं, लेकिन COBWEB सबसे प्रसिद्ध में से एक है। पाठक को अन्य तरीकों के लिए #संदर्भों का संदर्भ दिया जाता है।
यह खंड वैचारिक क्लस्टरिंग एल्गोरिदम COBWEB की मूल बातों पर चर्चा करता है। विभिन्न अनुमानों और [[श्रेणी अच्छाई]] या श्रेणी मूल्यांकन मानदंडों का उपयोग करने वाले कई अन्य एल्गोरिदम हैं, लेकिन COBWEB सबसे प्रसिद्ध में से है। पाठक को अन्य तरीकों के लिए #संदर्भों का संदर्भ दिया जाता है।


===ज्ञान प्रतिनिधित्व===
===ज्ञान प्रतिनिधित्व===
COBWEB डेटा संरचना एक पदानुक्रम (वृक्ष) है जिसमें प्रत्येक नोड एक दी गई अवधारणा का प्रतिनिधित्व करता है। प्रत्येक अवधारणा वस्तुओं के एक सेट (वास्तव में, एक [[मल्टीसेट]] या बैग) का प्रतिनिधित्व करती है, प्रत्येक वस्तु को बाइनरी-मूल्यवान संपत्ति सूची के रूप में दर्शाया जाता है। प्रत्येक ट्री नोड (यानी, अवधारणा) से जुड़ा डेटा उस अवधारणा में वस्तुओं के लिए पूर्णांक संपत्ति गणना है। उदाहरण के लिए, (चित्र देखें), एक अवधारणा दें <math>C_1</math> निम्नलिखित चार वस्तुएं शामिल हैं (दोहराई जाने वाली वस्तुओं की अनुमति है)।
COBWEB डेटा संरचना पदानुक्रम (वृक्ष) है जिसमें प्रत्येक नोड दी गई अवधारणा का प्रतिनिधित्व करता है। प्रत्येक अवधारणा वस्तुओं के सेट (वास्तव में, [[मल्टीसेट]] या बैग) का प्रतिनिधित्व करती है, प्रत्येक वस्तु को बाइनरी-मूल्यवान संपत्ति सूची के रूप में दर्शाया जाता है। प्रत्येक ट्री नोड (यानी, अवधारणा) से जुड़ा डेटा उस अवधारणा में वस्तुओं के लिए पूर्णांक संपत्ति गणना है। उदाहरण के लिए, (चित्र देखें), अवधारणा दें <math>C_1</math> निम्नलिखित चार वस्तुएं शामिल हैं (दोहराई जाने वाली वस्तुओं की अनुमति है)।
  [[File:Concept tree.png|thumb|450 px|नमूना COBWEB ज्ञान प्रतिनिधित्व, संभाव्य अवधारणा पदानुक्रम। नीले बक्से वास्तविक वस्तुओं की सूची बनाते हैं, बैंगनी बक्से विशेषता गणनाओं की सूची बनाते हैं। विवरण के लिए पाठ देखें. ध्यान दें: आरेख का उद्देश्य केवल COBWEB की डेटा संरचना का उदाहरण देना है; यह आवश्यक रूप से एक अच्छे अवधारणा वृक्ष का प्रतिनिधित्व नहीं करता है, या ऐसा वृक्ष जिसे COBWEB वास्तव में वास्तविक डेटा से निर्मित करेगा।]]#<code>[1 0 1]</code>
  [[File:Concept tree.png|thumb|450 px|नमूना COBWEB ज्ञान प्रतिनिधित्व, संभाव्य अवधारणा पदानुक्रम। नीले बक्से वास्तविक वस्तुओं की सूची बनाते हैं, बैंगनी बक्से विशेषता गणनाओं की सूची बनाते हैं। विवरण के लिए पाठ देखें. ध्यान दें: आरेख का उद्देश्य केवल COBWEB की डेटा संरचना का उदाहरण देना है; यह आवश्यक रूप से अच्छे अवधारणा वृक्ष का प्रतिनिधित्व नहीं करता है, या ऐसा वृक्ष जिसे COBWEB वास्तव में वास्तविक डेटा से निर्मित करेगा।]]#<code>[1 0 1]</code>
#<code>[0 1 1]</code>
#<code>[0 1 1]</code>
#<code>[0 1 0]</code>
#<code>[0 1 0]</code>
#<code>[0 1 1]</code>
#<code>[0 1 1]</code>
उदाहरण के लिए, तीन गुण हो सकते हैं, <code>[is_male, has_wings, is_nocturnal]</code>. फिर इस अवधारणा नोड पर जो संग्रहीत किया जाता है वह संपत्ति गणना है <code>[1 3 3]</code>, यह दर्शाता है कि अवधारणा में 1 वस्तु पुरुष है, 3 वस्तुओं के पंख हैं, और 3 वस्तुएँ रात्रिचर हैं। अवधारणा विवरण नोड पर गुणों की श्रेणी-सशर्त संभाव्यता (संभावना) है। इस प्रकार, यह देखते हुए कि एक वस्तु श्रेणी (अवधारणा) का सदस्य है <math>C_1</math>, संभावना यह है कि यह पुरुष है <math>1/4 = 0.25</math>. इसी तरह, संभावना यह है कि वस्तु के पंख हैं और संभावना यह है कि वस्तु रात्रिचर है या दोनों हैं <math> 3/4 = 0.75</math>. इसलिए अवधारणा का विवरण बस इस प्रकार दिया जा सकता है <code>[.25 .75 .75]</code>, जो से मेल खाता है <math>C_1</math>-सशर्त सुविधा संभावना, यानी, <math>p(x|C_1) = (0.25, 0.75, 0.75)</math>.
उदाहरण के लिए, तीन गुण हो सकते हैं, <code>[is_male, has_wings, is_nocturnal]</code>. फिर इस अवधारणा नोड पर जो संग्रहीत किया जाता है वह संपत्ति गणना है <code>[1 3 3]</code>, यह दर्शाता है कि अवधारणा में 1 वस्तु पुरुष है, 3 वस्तुओं के पंख हैं, और 3 वस्तुएँ रात्रिचर हैं। अवधारणा विवरण नोड पर गुणों की श्रेणी-सशर्त संभाव्यता (संभावना) है। इस प्रकार, यह देखते हुए कि वस्तु श्रेणी (अवधारणा) का सदस्य है <math>C_1</math>, संभावना यह है कि यह पुरुष है <math>1/4 = 0.25</math>. इसी तरह, संभावना यह है कि वस्तु के पंख हैं और संभावना यह है कि वस्तु रात्रिचर है या दोनों हैं <math> 3/4 = 0.75</math>. इसलिए अवधारणा का विवरण बस इस प्रकार दिया जा सकता है <code>[.25 .75 .75]</code>, जो से मेल खाता है <math>C_1</math>-सशर्त सुविधा संभावना, यानी, <math>p(x|C_1) = (0.25, 0.75, 0.75)</math>.


दाईं ओर का चित्र पाँच अवधारणाओं वाला एक अवधारणा वृक्ष दिखाता है। <math>C_0</math> मूल अवधारणा है, जिसमें डेटा सेट में सभी दस ऑब्जेक्ट शामिल हैं। अवधारणाओं <math>C_1</math> और <math>C_2</math> के बच्चे हैं <math>C_0</math>, पहले में चार वस्तुएँ हैं, और बाद में छह वस्तुएँ हैं। अवधारणा <math>C_2</math> अवधारणाओं का जनक भी है <math>C_3</math>, <math>C_4</math>, और <math>C_5</math>, जिसमें क्रमशः तीन, दो और एक वस्तु शामिल है। ध्यान दें कि प्रत्येक मूल नोड (सापेक्ष अधीनस्थ अवधारणा) में उसके चाइल्ड नोड्स (सापेक्ष अधीनस्थ अवधारणा) में निहित सभी वस्तुएं शामिल हैं। फिशर (1987) के COBWEB के विवरण में, वह इंगित करता है कि नोड्स पर केवल कुल विशेषता गणना (सशर्त संभावनाएं नहीं, और ऑब्जेक्ट सूचियां नहीं) संग्रहीत की जाती हैं। किसी भी संभावना की गणना आवश्यकतानुसार विशेषता गणना से की जाती है।
दाईं ओर का चित्र पाँच अवधारणाओं वाला अवधारणा वृक्ष दिखाता है। <math>C_0</math> मूल अवधारणा है, जिसमें डेटा सेट में सभी दस ऑब्जेक्ट शामिल हैं। अवधारणाओं <math>C_1</math> और <math>C_2</math> के बच्चे हैं <math>C_0</math>, पहले में चार वस्तुएँ हैं, और बाद में छह वस्तुएँ हैं। अवधारणा <math>C_2</math> अवधारणाओं का जनक भी है <math>C_3</math>, <math>C_4</math>, और <math>C_5</math>, जिसमें क्रमशः तीन, दो और वस्तु शामिल है। ध्यान दें कि प्रत्येक मूल नोड (सापेक्ष अधीनस्थ अवधारणा) में उसके चाइल्ड नोड्स (सापेक्ष अधीनस्थ अवधारणा) में निहित सभी वस्तुएं शामिल हैं। फिशर (1987) के COBWEB के विवरण में, वह इंगित करता है कि नोड्स पर केवल कुल विशेषता गणना (सशर्त संभावनाएं नहीं, और ऑब्जेक्ट सूचियां नहीं) संग्रहीत की जाती हैं। किसी भी संभावना की गणना आवश्यकतानुसार विशेषता गणना से की जाती है।


====मकड़ी का जाल भाषा====
====मकड़ी का जाल भाषा====
COBWEB की विवरण भाषा केवल ढीले अर्थों में एक भाषा है, क्योंकि पूर्णतः संभाव्य होने के कारण यह किसी भी अवधारणा का वर्णन करने में सक्षम है। हालाँकि, यदि संभाव्यता सीमाओं पर बाधाएँ रखी जाती हैं जो अवधारणाएँ प्रतिनिधित्व कर सकती हैं, तो एक मजबूत भाषा प्राप्त होती है। उदाहरण के लिए, हम केवल उन अवधारणाओं की अनुमति दे सकते हैं जिनमें कम से कम एक संभावना 0.5 से अधिक भिन्न हो <math>\alpha</math>. इस बाधा के तहत, साथ <math>\alpha=0.3</math>, एक अवधारणा जैसे <code>[.6 .5 .7]</code> शिक्षार्थी द्वारा निर्माण नहीं किया जा सका; हालाँकि एक अवधारणा जैसे <code>[.6 .5 .9]</code> पहुंच योग्य होगा क्योंकि कम से कम एक संभावना 0.5 से अधिक भिन्न होती है <math>\alpha</math>. इस प्रकार, इस तरह की बाधाओं के तहत, हम एक पारंपरिक अवधारणा भाषा की तरह कुछ प्राप्त करते हैं। सीमित मामले में जहां <math>\alpha=0.5</math> प्रत्येक विशेषता के लिए, और इस प्रकार एक अवधारणा में प्रत्येक संभावना 0 या 1 होनी चाहिए, परिणाम संयोजन पर आधारित एक फीचर भाषा है; अर्थात्, प्रत्येक अवधारणा जिसे प्रस्तुत किया जा सकता है, उसे विशेषताओं (और उनके निषेध) के संयोजन के रूप में वर्णित किया जा सकता है, और जिन अवधारणाओं को इस तरह से वर्णित नहीं किया जा सकता है, उन्हें प्रस्तुत नहीं किया जा सकता है।
COBWEB की विवरण भाषा केवल ढीले अर्थों में भाषा है, क्योंकि पूर्णतः संभाव्य होने के कारण यह किसी भी अवधारणा का वर्णन करने में सक्षम है। हालाँकि, यदि संभाव्यता सीमाओं पर बाधाएँ रखी जाती हैं जो अवधारणाएँ प्रतिनिधित्व कर सकती हैं, तो मजबूत भाषा प्राप्त होती है। उदाहरण के लिए, हम केवल उन अवधारणाओं की अनुमति दे सकते हैं जिनमें कम से कम संभावना 0.5 से अधिक भिन्न हो <math>\alpha</math>. इस बाधा के तहत, साथ <math>\alpha=0.3</math>, अवधारणा जैसे <code>[.6 .5 .7]</code> शिक्षार्थी द्वारा निर्माण नहीं किया जा सका; हालाँकि अवधारणा जैसे <code>[.6 .5 .9]</code> पहुंच योग्य होगा क्योंकि कम से कम संभावना 0.5 से अधिक भिन्न होती है <math>\alpha</math>. इस प्रकार, इस तरह की बाधाओं के तहत, हम पारंपरिक अवधारणा भाषा की तरह कुछ प्राप्त करते हैं। सीमित मामले में जहां <math>\alpha=0.5</math> प्रत्येक विशेषता के लिए, और इस प्रकार अवधारणा में प्रत्येक संभावना 0 या 1 होनी चाहिए, परिणाम संयोजन पर आधारित फीचर भाषा है; अर्थात्, प्रत्येक अवधारणा जिसे प्रस्तुत किया जा सकता है, उसे विशेषताओं (और उनके निषेध) के संयोजन के रूप में वर्णित किया जा सकता है, और जिन अवधारणाओं को इस तरह से वर्णित नहीं किया जा सकता है, उन्हें प्रस्तुत नहीं किया जा सकता है।


===मूल्यांकन मानदंड===
===मूल्यांकन मानदंड===
फिशर (1987) के COBWEB के विवरण में, पदानुक्रम की गुणवत्ता का मूल्यांकन करने के लिए वह जिस माप का उपयोग करता है वह ग्लुक और कॉर्टर (1985) [[श्रेणी उपयोगिता]] (सीयू) माप है, जिसे वह अपने पेपर में फिर से प्राप्त करता है। माप की प्रेरणा निर्णय वृक्ष सीखने के लिए क्विनलान द्वारा शुरू की गई [[सूचना लाभ]] माप के समान है। यह पहले दिखाया गया है कि फीचर-आधारित वर्गीकरण के लिए सीयू फीचर वेरिएबल और क्लास वेरिएबल (ग्लक एंड कॉर्टर, 1985; कॉर्टर एंड ग्लक, 1992) के बीच पारस्परिक जानकारी के समान है, और चूंकि यह माप बहुत बेहतर ज्ञात है , हम यहां श्रेणी की अच्छाई के माप के रूप में पारस्परिक जानकारी के साथ आगे बढ़ते हैं।
फिशर (1987) के COBWEB के विवरण में, पदानुक्रम की गुणवत्ता का मूल्यांकन करने के लिए वह जिस माप का उपयोग करता है वह ग्लुक और कॉर्टर (1985) [[श्रेणी उपयोगिता]] (सीयू) माप है, जिसे वह अपने पेपर में फिर से प्राप्त करता है। माप की प्रेरणा निर्णय वृक्ष सीखने के लिए क्विनलान द्वारा शुरू की गई [[सूचना लाभ]] माप के समान है। यह पहले दिखाया गया है कि फीचर-आधारित वर्गीकरण के लिए सीयू फीचर वेरिएबल और क्लास वेरिएबल (ग्लक एंड कॉर्टर, 1985; कॉर्टर एंड ग्लक, 1992) के बीच पारस्परिक जानकारी के समान है, और चूंकि यह माप बहुत बेहतर ज्ञात है , हम यहां श्रेणी की अच्छाई के माप के रूप में पारस्परिक जानकारी के साथ आगे बढ़ते हैं।


हम जो मूल्यांकन करना चाहते हैं वह वस्तुओं को एक विशेष श्रेणीबद्ध वर्गीकरण संरचना में समूहीकृत करने की समग्र उपयोगिता है। संभावित वर्गीकरण संरचनाओं के एक सेट को देखते हुए, हमें यह निर्धारित करने की आवश्यकता है कि क्या कोई दूसरे से बेहतर है।
हम जो मूल्यांकन करना चाहते हैं वह वस्तुओं को विशेष श्रेणीबद्ध वर्गीकरण संरचना में समूहीकृत करने की समग्र उपयोगिता है। संभावित वर्गीकरण संरचनाओं के सेट को देखते हुए, हमें यह निर्धारित करने की आवश्यकता है कि क्या कोई दूसरे से बेहतर है।


== संदर्भ ==
== संदर्भ ==

Revision as of 08:34, 18 July 2023

संकल्पनात्मक क्लस्टरिंग अप्रशिक्षित वर्गीकरण के लिए एक यंत्र अधिगम प्रतिमान है जिसे 1980 में रिस्ज़र्ड एस. माइकल्स्की द्वारा परिभाषित किया गया है (फिशर 1987, माइकल्स्की 1980) और मुख्य रूप से 1980 के दशक के दौरान विकसित किया गया था। प्रत्येक उत्पन्न वर्ग के लिए अवधारणा विवरण तैयार करके इसे सामान्य क्लस्टर विश्लेषण से अलग किया जाता है। अधिकांश वैचारिक क्लस्टरिंग विधियां पदानुक्रमित श्रेणी संरचनाएं उत्पन्न करने में सक्षम हैं; पदानुक्रम पर अधिक जानकारी के लिए वर्गीकरण देखें। वैचारिक क्लस्टरिंग औपचारिक अवधारणा विश्लेषण, निर्णय वृक्ष सीखने और मिश्रण मॉडल सीखने से निकटता से संबंधित है।

वैचारिक क्लस्टरिंग बनाम डेटा क्लस्टरिंग

वैचारिक क्लस्टरिंग स्पष्ट रूप से डेटा क्लस्टरिंग से निकटता से संबंधित है; हालाँकि, वैचारिक क्लस्टरिंग में यह न केवल डेटा की अंतर्निहित संरचना है जो क्लस्टर गठन को संचालित करती है, बल्कि विशिष्टता और विवरण भाषा भी है जो सीखने वाले के लिए उपलब्ध है। इस प्रकार, यदि प्रचलित अवधारणा विवरण भाषा उस विशेष नियमितता का वर्णन करने में असमर्थ है, तो डेटा में सांख्यिकीय रूप से मजबूत समूहीकरण शिक्षार्थी द्वारा निकालने में विफल हो सकता है। अधिकांश कार्यान्वयनों में, विवरण भाषा फीचर तार्किक संयोजन तक सीमित है, हालांकि COBWEB में (#उदाहरण देखें: बुनियादी वैचारिक क्लस्टरिंग एल्गोरिदम, COBWEB नीचे), फीचर भाषा संभाव्य है।

प्रकाशित एल्गोरिदम की सूची

वैचारिक क्लस्टरिंग के लिए उचित संख्या में एल्गोरिदम प्रस्तावित किए गए हैं। कुछ उदाहरण नीचे दिये गये हैं:

  • क्लस्टर/2 (माइकल्स्की और स्टेप 1983)
  • मकड़ी का जाला (क्लस्टरिंग) (फिशर 1987)
  • साइरस (कोलोडनर 1983)
  • गैलोइस (कारपिनेटो और रोमानो 1993),
  • जीसीएफ (तलावेरा और बेज़ार 2001)
  • आईएनसी (हडज़िकाडिक और यूं 1989)
  • पुनरावृत्त (बिस्वास, वेनबर्ग और फिशर 1998),
  • भूलभुलैया (थॉम्पसन और लैंगली 1989)
  • सबड्यू (जोनीर, कुक और होल्डर 2001)।
  • UNIMEM (लेबोविट्ज़ 1987)
  • विट (हैनसन और बाउर 1989),

वैचारिक क्लस्टरिंग की अधिक सामान्य चर्चाएँ और समीक्षाएँ निम्नलिखित प्रकाशनों में पाई जा सकती हैं:

  • माइकल्स्की (1980)
  • गेनारी, लैंगली, और फिशर (1989)
  • फिशर एंड पज़ानी (1991)
  • फिशर एंड लैंगली (1986)
  • स्टेप और माइकल्स्की (1986)

उदाहरण: बुनियादी वैचारिक क्लस्टरिंग एल्गोरिथ्म

यह खंड वैचारिक क्लस्टरिंग एल्गोरिदम COBWEB की मूल बातों पर चर्चा करता है। विभिन्न अनुमानों और श्रेणी अच्छाई या श्रेणी मूल्यांकन मानदंडों का उपयोग करने वाले कई अन्य एल्गोरिदम हैं, लेकिन COBWEB सबसे प्रसिद्ध में से है। पाठक को अन्य तरीकों के लिए #संदर्भों का संदर्भ दिया जाता है।

ज्ञान प्रतिनिधित्व

COBWEB डेटा संरचना पदानुक्रम (वृक्ष) है जिसमें प्रत्येक नोड दी गई अवधारणा का प्रतिनिधित्व करता है। प्रत्येक अवधारणा वस्तुओं के सेट (वास्तव में, मल्टीसेट या बैग) का प्रतिनिधित्व करती है, प्रत्येक वस्तु को बाइनरी-मूल्यवान संपत्ति सूची के रूप में दर्शाया जाता है। प्रत्येक ट्री नोड (यानी, अवधारणा) से जुड़ा डेटा उस अवधारणा में वस्तुओं के लिए पूर्णांक संपत्ति गणना है। उदाहरण के लिए, (चित्र देखें), अवधारणा दें निम्नलिखित चार वस्तुएं शामिल हैं (दोहराई जाने वाली वस्तुओं की अनुमति है)।

File:Concept tree.png
नमूना COBWEB ज्ञान प्रतिनिधित्व, संभाव्य अवधारणा पदानुक्रम। नीले बक्से वास्तविक वस्तुओं की सूची बनाते हैं, बैंगनी बक्से विशेषता गणनाओं की सूची बनाते हैं। विवरण के लिए पाठ देखें. ध्यान दें: आरेख का उद्देश्य केवल COBWEB की डेटा संरचना का उदाहरण देना है; यह आवश्यक रूप से अच्छे अवधारणा वृक्ष का प्रतिनिधित्व नहीं करता है, या ऐसा वृक्ष जिसे COBWEB वास्तव में वास्तविक डेटा से निर्मित करेगा।

#[1 0 1]

  1. [0 1 1]
  2. [0 1 0]
  3. [0 1 1]

उदाहरण के लिए, तीन गुण हो सकते हैं, [is_male, has_wings, is_nocturnal]. फिर इस अवधारणा नोड पर जो संग्रहीत किया जाता है वह संपत्ति गणना है [1 3 3], यह दर्शाता है कि अवधारणा में 1 वस्तु पुरुष है, 3 वस्तुओं के पंख हैं, और 3 वस्तुएँ रात्रिचर हैं। अवधारणा विवरण नोड पर गुणों की श्रेणी-सशर्त संभाव्यता (संभावना) है। इस प्रकार, यह देखते हुए कि वस्तु श्रेणी (अवधारणा) का सदस्य है , संभावना यह है कि यह पुरुष है . इसी तरह, संभावना यह है कि वस्तु के पंख हैं और संभावना यह है कि वस्तु रात्रिचर है या दोनों हैं . इसलिए अवधारणा का विवरण बस इस प्रकार दिया जा सकता है [.25 .75 .75], जो से मेल खाता है -सशर्त सुविधा संभावना, यानी, .

दाईं ओर का चित्र पाँच अवधारणाओं वाला अवधारणा वृक्ष दिखाता है। मूल अवधारणा है, जिसमें डेटा सेट में सभी दस ऑब्जेक्ट शामिल हैं। अवधारणाओं और के बच्चे हैं , पहले में चार वस्तुएँ हैं, और बाद में छह वस्तुएँ हैं। अवधारणा अवधारणाओं का जनक भी है , , और , जिसमें क्रमशः तीन, दो और वस्तु शामिल है। ध्यान दें कि प्रत्येक मूल नोड (सापेक्ष अधीनस्थ अवधारणा) में उसके चाइल्ड नोड्स (सापेक्ष अधीनस्थ अवधारणा) में निहित सभी वस्तुएं शामिल हैं। फिशर (1987) के COBWEB के विवरण में, वह इंगित करता है कि नोड्स पर केवल कुल विशेषता गणना (सशर्त संभावनाएं नहीं, और ऑब्जेक्ट सूचियां नहीं) संग्रहीत की जाती हैं। किसी भी संभावना की गणना आवश्यकतानुसार विशेषता गणना से की जाती है।

मकड़ी का जाल भाषा

COBWEB की विवरण भाषा केवल ढीले अर्थों में भाषा है, क्योंकि पूर्णतः संभाव्य होने के कारण यह किसी भी अवधारणा का वर्णन करने में सक्षम है। हालाँकि, यदि संभाव्यता सीमाओं पर बाधाएँ रखी जाती हैं जो अवधारणाएँ प्रतिनिधित्व कर सकती हैं, तो मजबूत भाषा प्राप्त होती है। उदाहरण के लिए, हम केवल उन अवधारणाओं की अनुमति दे सकते हैं जिनमें कम से कम संभावना 0.5 से अधिक भिन्न हो . इस बाधा के तहत, साथ , अवधारणा जैसे [.6 .5 .7] शिक्षार्थी द्वारा निर्माण नहीं किया जा सका; हालाँकि अवधारणा जैसे [.6 .5 .9] पहुंच योग्य होगा क्योंकि कम से कम संभावना 0.5 से अधिक भिन्न होती है . इस प्रकार, इस तरह की बाधाओं के तहत, हम पारंपरिक अवधारणा भाषा की तरह कुछ प्राप्त करते हैं। सीमित मामले में जहां प्रत्येक विशेषता के लिए, और इस प्रकार अवधारणा में प्रत्येक संभावना 0 या 1 होनी चाहिए, परिणाम संयोजन पर आधारित फीचर भाषा है; अर्थात्, प्रत्येक अवधारणा जिसे प्रस्तुत किया जा सकता है, उसे विशेषताओं (और उनके निषेध) के संयोजन के रूप में वर्णित किया जा सकता है, और जिन अवधारणाओं को इस तरह से वर्णित नहीं किया जा सकता है, उन्हें प्रस्तुत नहीं किया जा सकता है।

मूल्यांकन मानदंड

फिशर (1987) के COBWEB के विवरण में, पदानुक्रम की गुणवत्ता का मूल्यांकन करने के लिए वह जिस माप का उपयोग करता है वह ग्लुक और कॉर्टर (1985) श्रेणी उपयोगिता (सीयू) माप है, जिसे वह अपने पेपर में फिर से प्राप्त करता है। माप की प्रेरणा निर्णय वृक्ष सीखने के लिए क्विनलान द्वारा शुरू की गई सूचना लाभ माप के समान है। यह पहले दिखाया गया है कि फीचर-आधारित वर्गीकरण के लिए सीयू फीचर वेरिएबल और क्लास वेरिएबल (ग्लक एंड कॉर्टर, 1985; कॉर्टर एंड ग्लक, 1992) के बीच पारस्परिक जानकारी के समान है, और चूंकि यह माप बहुत बेहतर ज्ञात है , हम यहां श्रेणी की अच्छाई के माप के रूप में पारस्परिक जानकारी के साथ आगे बढ़ते हैं।

हम जो मूल्यांकन करना चाहते हैं वह वस्तुओं को विशेष श्रेणीबद्ध वर्गीकरण संरचना में समूहीकृत करने की समग्र उपयोगिता है। संभावित वर्गीकरण संरचनाओं के सेट को देखते हुए, हमें यह निर्धारित करने की आवश्यकता है कि क्या कोई दूसरे से बेहतर है।

संदर्भ

  • Biswas, G.; Weinberg, J. B.; Fisher, Douglas H. (1998). "Iterate: A conceptual clustering algorithm for data mining". IEEE Transactions on Systems, Man, and Cybernetics - Part C: Applications and Reviews. 28 (2): 100–111. doi:10.1109/5326.669556.
  • Jonyer, I.; Cook, D. J.; Holder, L. B. (2001). "Graph-based hierarchical conceptual clustering". Journal of Machine Learning Research. 2: 19–43. doi:10.1162/153244302760185234.
  • Talavera, L.; Béjar, J. (2001). "Generality-based conceptual clustering with probabilistic concepts". IEEE Transactions on Pattern Analysis and Machine Intelligence. 23 (2): 196–206. doi:10.1109/34.908969.


बाहरी संबंध