ग्रैन्युलर कम्प्यूटिंग
ग्रैन्युलर कम्प्यूटिंग सूचना प्रसंस्करण का उभरता हुआ कंप्यूटिंग प्रतिमान है जो सूचना ग्रैन्यूल्स नामक जटिल सूचना संस्थाओं के प्रसंस्करण से संबंधित है, जो सूचना या डेटा से डेटा अमूर्त और ज्ञान निष्कर्षण की प्रक्रिया में उत्पन्न होता है। साधारण तौर पर बोलते हुए, सूचना ग्रैन्यूल संस्थाओं का संग्रह होता है जो साधारण तौर पर संख्यात्मक स्तर पर उत्पन्न होते हैं और उनकी समानता माप, कार्यात्मक या भौतिक निकटता, अप्रभेद्यता, सुसंगतता या इसी तरह के कारण एक साथ व्यवस्थित होते हैं।
वर्तमान में, ग्रैन्युलर कंप्यूटिंग विधियों या सिद्धांतों के सुसंगत सेट की तुलना में अधिक सैद्धांतिक परिप्रेक्ष्य है। एक सैद्धांतिक परिप्रेक्ष्य के रूप में, यह डेटा के प्रति ऐसे दृष्टिकोण को प्रोत्साहित करता है जो रिज़ॉल्यूशन या स्केल के विभिन्न स्तरों पर डेटा में उपस्थित ज्ञान को पहचानता है और उसका शोषण करता है। इस अर्थ में, यह उन सभी विधियों को सम्मलित करता है जो उस रिज़ॉल्यूशन में लचीलापन और अनुकूलनशीलता प्रदान करते हैं जिस पर ज्ञान या सुचना निकाली और प्रस्तुत की जाती है।
ग्रैन्युलेशन के प्रकार
जैसा कि ऊपर उल्लेख किया गया है, ग्रैन्युलर कंप्यूटिंग कोई एल्गोरिदम या प्रक्रिया नहीं है; ऐसी कोई विशेष विधि नहीं है जिसे ग्रैन्युलर कंप्यूटिंग कहा जाता हैं। यह डेटा को देखने का दृष्टिकोण है जो यह पहचानता है कि डेटा में विभिन्न और आकर्षक नियमितताएं ग्रैन्युलैरिटी के विभिन्न स्तरों पर कैसे दिखाई दे सकती हैं, जैसे कि अधिक या कम रिज़ॉल्यूशन के उपग्रह चित्र में विभिन्न विशेषताएं प्रमुख हो जाती हैं। उदाहरण के लिए, कम-रिज़ॉल्यूशन वाली उपग्रह छवि पर, कोई व्यक्ति चक्रवात या अन्य बड़े पैमाने की मौसम संबंधी घटनाओं का प्रतिनिधित्व करने वाले आकर्षक बादल पैटर्न को देख सकता है, जबकि उच्च-रिज़ॉल्यूशन वाली छवि में, कोई इन बड़े पैमाने की वायुमंडलीय घटनाओं को अनदेखा कर देता है, लेकिन इसके स्थान पर छोटे पैमाने की घटनाओं को अंकित करता है, जैसे कि मैनहट्टन की सड़कों का आकर्षक पैटर्न है। यही बात साधारणतया सभी डेटा के लिए सच है: अलग-अलग रिज़ॉल्यूशन या ग्रैन्युलैरिटी पर, अलग-अलग विशेषताएं और रिश्ते उभर कर आते हैं। ग्रैन्युलर कंप्यूटिंग का उद्देश्य अधिक प्रभावी मशीन-लर्निंग और रीजनिंग सिस्टम को डिजाइन करने में इस तथ्य का लाभ उठाने का प्रयास करना है।
डेटा खनन और यंत्र अधिगम में प्रायः कई प्रकार की ग्रैन्युलैरिटी का सामना करना पड़ता है, और हम नीचे उनकी समीक्षा करते हैं।
मूल्य कणीकरण (विवेकीकरण/परिमाणीकरण)
एक प्रकार का कणीकरण चरों का परिमाणीकरण (सिग्नल प्रोसेसिंग) है। यह बहुत सामान्य बात है कि डेटा माइनिंग या मशीन-लर्निंग अनुप्रयोगों में सार्थक नियमितताएं निकालने के लिए चर के रिज़ॉल्यूशन को कम करने की आवश्यकता होती है। इसका एक उदाहरण एक चर होगा जैसे बाहरी तापमान (temp), जिसे किसी दिए गए एप्लिकेशन में अंकगणित परिशुद्धता के कई दशमलव स्थानों (संवेदन तंत्र के आधार पर) में अंकित किया जा सकता है। यद्यपि की, बाहरी तापमान और, स्वास्थ्य-क्लब अनुप्रयोगों की संख्या के बीच संबंध निकालने के प्रयोजनों के लिए (club), बाहर के तापमान को कम अंतरालों में मापना साधारणतया लाभप्रद होता हैं।
प्रेरणाएँ
इस तरह से चरों को ग्रेन्युलर बनाने के कई परस्पर संबंधित कारण हैं:
- पूर्व डोमेन ज्ञान के आधार पर, ऐसी कोई आशा नहीं है कि तापमान में सामान्य बदलाव (उदाहरण के लिए 80–80.7 °F (26.7–27.1 °C)) के बीच का अंतर)। स्वास्थ्य-क्लब अनुप्रयोगों की संख्या बढ़ाने वाले व्यवहारों पर प्रभाव डाल सकता है। इस कारण से, कोई भी नियमितता जिसे हमारे सीखने के एल्गोरिदम रिज़ॉल्यूशन के इस स्तर पर पहचान सकते हैं, ओवरफिटिंग की कलाकृति के रूप में नकली होती हैं। तापमान चर को अंतरालों में मोटा करके, जिसके बीच का अंतर हम अनुमान लगाते हैं (पूर्व डोमेन ज्ञान के आधार पर) स्वास्थ्य-क्लब अनुप्रयोगों की संख्या को प्रभावित कर सकता है, हम इन नकली पैटर्न का पता लगाने की संभावना को खत्म कर देते हैं। इस प्रकार, इस स्थिति में, रिज़ॉल्यूशन को कम करना ओवरफिटिंग को नियंत्रित करने की एक विधि है।
- तापमान चर में अंतराल की संख्या को कम करके (अर्थात, इसके ग्रेन के आकार को बढ़ाकर), हम प्रत्येक अंतराल पदनाम द्वारा अनुक्रमित नमूना डेटा की मात्रा को बढ़ाते हैं। इस प्रकार, चर को मोटा करके, हम नमूना आकार बढ़ाते हैं और बेहतर सांख्यिकीय अनुमान प्राप्त करते हैं। इस अर्थ में, बढ़ती ग्रैन्युलैरिटी आयामीता के तथाकथित अभिशाप के लिए मारक प्रदान करती है, जो आयामों की संख्या या चर कार्डिनैलिटी में वृद्धि के साथ सांख्यिकीय शक्ति में तेजी से कमी से संबंधित है।
- पूर्व डोमेन ज्ञान से स्वतंत्र, प्रायः ऐसा होता है कि सार्थक नियमितताएं (अर्थात, जो किसी दी गई सीखने की पद्धति, प्रतिनिधित्वात्मक भाषा इत्यादि द्वारा पता लगाई जा सकती हैं) संकल्प के एक स्तर पर उपस्थित हो सकती हैं और दूसरे पर नहीं होती हैं।
उदाहरण के लिए, एक साधारण शिक्षार्थी या पैटर्न पहचान प्रणाली सशर्त संभाव्यता सीमा को संतुष्ट करने वाली नियमितत निकालने की कोशिश कर सकती है। विशेष स्थितियों में जहां यह पहचान प्रणाली अनिवार्य रूप से फॉर्म के तार्किक निहितार्थका पता लगा रही है या, शब्दों में, यदि तब ". होता हैं। ऐसे निहितार्थों (या, सामान्य तौर पर, सीमा से अधिक सशर्त संभावनाओं) को पहचानने की सिस्टम की क्षमता आंशिक रूप से उस रिज़ॉल्यूशन पर निर्भर करती है जिसके साथ सिस्टम चर का विश्लेषण करता है।
इस अंतिम बिंदु के उदाहरण के रूप में, दाईं ओर दिखाए गए फीचर स्थान पर विचार किया जाता हैं। प्रत्येक चर को दो अलग-अलग प्रस्तावों पर माना जा सकता है। चर इसे उच्च (चतुर्थक) रिज़ॉल्यूशन पर माना जा सकता है जिसमें यह चार मान लेता है या निम्न (बाइनरी) रिज़ॉल्यूशन पर जहां यह दो मान लेता है इसी प्रकार, परिवर्तनशील इसे उच्च (चतुर्थक) रिज़ॉल्यूशन या निम्न (बाइनरी) रिज़ॉल्यूशन पर माना जा सकता है, जहां यह या मान लेता है। उच्च रिज़ॉल्यूशन पर, फ़ॉर्म का कोई पता लगाने योग्य निहितार्थ नहीं है प्रत्येक के बाद से एक से अधिक के साथ जुड़ा हुआ है और इस प्रकार, सभी के लिए यद्यपि की, निम्न (बाइनरी) परिवर्तनीय रिज़ॉल्यूशन पर, दो द्विपक्षीय निहितार्थ पता लगाने योग्य हो जाते हैं: और , प्रत्येक के बाद से होता है यदि और होता है यदि होता हैं। इस प्रकार, इस प्रकार के निहितार्थों की स्कैनिंग करने वाली एक पैटर्न पहचान प्रणाली उन्हें बाइनरी वैरिएबल रिज़ॉल्यूशन पर ढूंढ लेगी, लेकिन उच्च चतुर्धातुक वैरिएबल रिज़ॉल्यूशन पर उन्हें ढूंढने में विफल हो जाती हैं।
मुद्दे तथा विधिया
यह देखने के लिए कि संकल्पों का कौन सा संयोजन आकर्षक या महत्वपूर्ण परिणाम देता है, सभी चरों पर सभी संभावित विवेकाधीन संकल्पों का विस्तृत परीक्षण करना संभव नहीं है। इसके अतिरिक्त, फीचर स्पेस को पूर्व-संसाधित किया जाना चाहिए (प्रायः किसी प्रकार की सूचना एन्ट्रॉपी विश्लेषण द्वारा) ताकि कुछ मार्गदर्शन दिया जा सके कि विवेकाधीन प्रक्रिया कैसे आगे बढ़ती हो। इसके अतिरिक्त, साधारणतया प्रत्येक चर का स्वतंत्र रूप से विश्लेषण और विवेक करके अच्छे परिणाम प्राप्त नहीं किए जा सकते हैं, क्योंकि यह उन अंतःक्रियाओं को नष्ट कर सकता है जिनकी हमने खोज करने की आशा की थी।
कागज का एक नमूना जो सामान्य रूप से परिवर्तनीय विवेकीकरण की समस्या और विशेष रूप से बहु-परिवर्तनीय विवेकीकरण की समस्या को संबोधित करता है, इस प्रकार है: ची, वॉन्ग & चॉन्ग (1991) , बे (2001) , लिउ et al. (2002) , वांग & लिउ (1998) , ज़िग़ड़, राबसेडा & राकोटोमाला (1998) , कटलेट (1991) , डोगरथी, कोहवी & साहमी (1995) , मोंटी & कूपर (1999) , फयाद & ईरानी (1993) , ची, चॉन्ग & वॉन्ग (1990) , न्गुयेन & न्गुयेन (1998) , गर्ज़ीमाला-ब्रूइसे & स्टेफनोवोस्की (2001) , टिंग (1994) , लुडी & विड़मेर (2000) , पफहिंगर (1995) , अन & सेरकोन (1999) ,
चिउ & चेउंग (1989) , कमीलेवेस्की & गर्ज़ीमाला-बुस्से (1996) , ली & शिन (1994) , लिउ & वेलमैन (2002) , लिउ & वेलमैन (2004) .
चर ग्रैन्युलेशन (क्लस्टरिंग/एकत्रीकरण/परिवर्तन)
परिवर्तनीय ग्रैन्यूलेशन एक ऐसा शब्द है जो विभिन्न तकनीकों का वर्णन कर सकता है, जिनमें से अधिकांश का उद्देश्य आयामीता, अतिरेक और भंडारण आवश्यकताओं को कम करना है। हम यहां कुछ विचारों का संक्षेप में वर्णन करते हैं, और साहित्य के लिए संकेत प्रस्तुत करते हैं।
चर परिवर्तन
कई प्राचीन विधियाँ, जैसे प्रमुख घटक विश्लेषण, बहुआयामी स्केलिंग, कारक विश्लेषण, और संरचनात्मक समीकरण मॉडलिंग, और उनके प्रासंगिक, चर परिवर्तन के अंतर्गत आते हैं। इसके अतिरिक्त इस श्रेणी में अध्ययन के अधिक आधुनिक क्षेत्र भी हैं जैसे आयामीता में कमी, प्रक्षेपण खोज और स्वतंत्र घटक विश्लेषण हैं। सामान्य तौर पर इन विधियों का सामान्य लक्ष्य नए चर के संदर्भ में डेटा का प्रतिनिधित्व खोजना है, जो मूल चर का एक रैखिक या अरेखीय परिवर्तन है, और जिसमें महत्वपूर्ण सांख्यिकीय संबंध उभरते हैं। परिणामी चर समुच्चय लगभग हमेशा मूल चर समुच्चय से छोटे होते हैं, और इसलिए इन प्रकारो को फीचर स्पेस पर ग्रेन्युलर बनाने के लिए कहा जा सकता है। इन आयामीता कटौती विधियों की समीक्षा मानक पाठों में की गई है, जैसे डूडा, हार्ट & स्टोर्क (2001) , विटेन & फ्रैंक (2005) , और हासिये, तिबशिरानी & फ्रीडमैन (2001) .
चर एकत्रीकरण
चर ग्रैनुलेशन विधियों का एक अलग वर्ग उपरोक्त विधियों को सूचित करने वाले रैखिक प्रणाली सिद्धांत की तुलना में डेटा क्लस्टरिंग विधियों से अधिक प्राप्त होता है। यह बहुत पहले ही अंकित कर लिया गया था कि कोई क्लस्टरिंग से संबंधित चर पर उसी तरह विचार कर सकता है जैसे कोई क्लस्टरिंग से संबंधित डेटा पर विचार करता है। डेटा क्लस्टरिंग में, कोई समान संस्थाओं के समूह की पहचान करता है (डोमेन के लिए उपयुक्त समानता के माप का उपयोग करके - मार्टिनो, गिउलिआनी & रिज़्ज़ी (2018) ), और फिर कुछ अर्थों में उन संस्थाओं को किसी प्रकार के प्रतिमान से बदल देता है। प्रतिमान पहचाने गए समूह में डेटा का साधारण औसत या कोई अन्य प्रतिनिधि माप हो सकता है। लेकिन मुख्य विचार यह है कि बाद के ऑपरेशनों में, हम उदाहरणों के बहुत बड़े सेट के लिए खड़े होने के लिए डेटा समूह के लिए एकल प्रतिमान का उपयोग करने में सक्षम हो सकते हैं (शायद एक सांख्यिकीय मॉडल जो बताता है कि प्रतिमान से उदाहरण कैसे प्राप्त होते हैं)। ये प्रतिमान साधारणतया ऐसे होते हैं जो संस्थाओं से संबंधित रुचि की अधिकांश सुचना प्राप्त करते हैं।
![](https://upload.wikimedia.org/wikipedia/commons/thumb/0/0f/Kraskov_tree.png/400px-Kraskov_tree.png)
इसी प्रकार, यह पूछना उचित है कि क्या चर के एक बड़े समुच्चय को प्रतिमान चर के एक छोटे समुच्चय में एकत्रित किया जा सकता है जो चर के बीच सबसे प्रमुख संबंधों को ग्रहण करता है। यद्यपि की रैखिक सहसंबंध पर आधारित परिवर्तनीय समूहन विधियाँ प्रस्तावित की गई हैं (डूडा, हार्ट & स्टोर्क 2001 ;रेंचर 2002 ), चर समूहन के अधिक शक्तिशाली प्रकार चरों के बीच पारस्परिक सुचना पर आधारित होते हैं। वतनबे ने दिखाया है (वतनबे 1960 ;वतनबे 1969 ) कि चर के किसी भी समुच्चय के लिए कोई एक बहुविश्लेषण (अर्थात, एन-एरी) ट्री का निर्माण कर सकता है जो परिवर्तनीय समूहों की एक श्रृंखला का प्रतिनिधित्व करता है जिसमें पूर्ण चर समुच्चय के बीच अंतिम कुल सहसंबंध प्रत्येक समूहित उपसमुच्चय द्वारा प्रदर्शित आंशिक सहसंबंधों का योग है (रेखा - चित्र देखें)। वतनबे का सुझाव है कि पर्यवेक्षक एक प्रणाली को इस तरह से विभाजित करने की कोशिश कर सकता है जिससे की भागों के बीच परस्पर निर्भरता को कम किया जा सके ... जैसे कि वे एक प्राकृतिक विभाजन या हिडन क्रैक की खोज कर रहे हों।
इस तरह के ट्री के निर्माण के लिए एक व्यावहारिक दृष्टिकोण क्रमिक रूप से समूह के लिए दो चर (या तो परमाणु चर या पहले से एकत्रित चर) का चयन करना है, जिनकी जोड़ीदार पारस्परिक सुचना सबसे अधिक है। (क्रास्कोव et al. 2003) । प्रत्येक समूह का उत्पाद एक नया (निर्मित) चर होता है जो दो समूहित चर के स्थानीय संयुक्त वितरण को दर्शाता है, और इस प्रकार उनकी संयुक्त एन्ट्रॉपी के बराबर एक एन्ट्रॉपी होती है।
प्रक्रियात्मक दृष्टिकोण से, इस समूहन चरण में विशेषता-मूल्य तालिका में दो स्तंभों को बदलना सम्मलित है - जो दो समूहीकृत चर का प्रतिनिधित्व करते हैं - एक एकल स्तंभ के साथ जिसमें प्रतिस्थापित स्तंभों में मानों के प्रत्येक अद्वितीय संयोजन के लिए एक अद्वितीय मान होता है (क्रास्कोव et al. 2003) . ऐसे ऑपरेशन से कोई सुचना नष्ट नहीं होती; यद्यपि की, यदि कोई अंतर-परिवर्तनीय संबंधों के लिए डेटा की खोज कर रहा है, तो साधारणतया इस तरह से अनावश्यक चर को मर्ज करना वांछनीय नहीं होगा, क्योंकि ऐसे संदर्भ में चर के बीच अतिरेक या निर्भरता ही रुचिकर होने की संभावना है; और एक बार जब अनावश्यक चर विलीन हो जाते हैं, तो एक दूसरे से उनके संबंध का अध्ययन नहीं किया जा सकता है।
प्रणाली ग्रेनुलेशन (एकत्रीकरण)
डेटाबेस प्रणाली में, एकत्रीकरण (उदाहरण के लिए ओएलएपी और व्यापारिक सूचना प्रणाली देखें) के परिणामस्वरूप मूल डेटा तालिकाओं (प्रायः सूचना प्रणाली कहा जाता है) को पंक्तियों और स्तंभों के विभिन्न शब्दार्थों के साथ तालिकाओं में बदल दिया जाता है, जिसमें पंक्तियाँ मूल टुपल्स के समूहों (ग्रैन्यूल्स) के अनुरूप होती हैं और कॉलम प्रत्येक समूह के भीतर मूल मूल्यों के बारे में एकत्रित सुचना व्यक्त करते हैं। ऐसे एकत्रीकरण साधारणतया एसक्यूएल और उसके एक्सटेंशन पर आधारित होते हैं। परिणामी ग्रेन साधारणतया कुछ पूर्व-चयनित मूल स्तंभों पर समान मान (या श्रेणियों) के साथ मूल टुपल्स के समूहों के अनुरूप होते हैं।
ऐसे अन्य दृष्टिकोण भी हैं जिनमें समूहों को पंक्तियों की भौतिक निकटता के आधार पर परिभाषित किया जाता है। उदाहरण के लिए, इन्फोब्राइट ने डेटाबेस इंजन क्रियान्वित किया जिसमें डेटा को रफ पंक्तियों में विभाजित किया गया था, प्रत्येक में 64K भौतिक रूप से लगातार (या लगभग लगातार) पंक्तियाँ थीं। रफ पंक्तियों को स्वचालित रूप से डेटा कॉलम पर उनके मूल्यों के बारे में कॉम्पैक्ट जानकारी के साथ लेबल किया गया था, जिसमें प्रायः मल्टी-कॉलम और मल्टी-टेबल संबंध सम्मलित होते थे। इसके परिणामस्वरूप ग्रेन्युलर सुचना की एक उच्च परत तैयार हुई जहां वस्तुएं कच्ची पंक्तियों और विशेषताओं के अनुरूप थीं - कच्ची सुचना के विभिन्न स्थितियों के लिए होता हैं। ऐसे नए ढांचे के भीतर डेटाबेस संचालन को कुशलतापूर्वक समर्थित किया जा सकता है, जिसमें मूल डेटा टुकड़ों तक पहुंच अभी भी उपलब्ध है (स्लेज़क et al. 2013) ।
संकल्पना ग्रैन्युलेशन (घटक विश्लेषण)
ग्रैन्युलर कंप्यूटिंग विचारधारा की उत्पत्ति रफ सेट और फजी सेट साहित्य में पाई जाती है। रफ सेट अनुसंधान की प्रमुख अंतर्दृष्टियों में से एक - यद्यपि की यह किसी भी तरह से अद्वितीय नहीं है - यह है कि, सामान्य तौर पर, सुविधाओं या चर के विभिन्न सेटों के चयन से अलग-अलग अवधारणा ग्रैन्यूलेशन प्राप्त होते हैं। यहां, जैसा कि प्रारंभिक रफ सेट सिद्धांत में होता है, अवधारणा से हमारा तात्पर्य ऐसी संस्थाओं का समूह है जो पर्यवेक्षक के लिए अप्रभेद्य या अविभाज्य है (अर्थात, एक सरल अवधारणा), या संस्थाओं का सेट जो ऐसी सरल अवधारणाओं से बना है (अर्थात, एक जटिल अवधारणा)। इसे दूसरे शब्दों में कहें तो, एक डेटा सेट (मूल्य-विशेषता प्रणाली) को चर के विभिन्न सेटों पर प्रक्षेपित करके, हम डेटा में समतुल्य-वर्ग अवधारणाओं के वैकल्पिक सेटों को पहचानते हैं, और अवधारणाओं के ये विभिन्न सेट सामान्य रूप से अनुकूल विभिन्न प्रसंग और नियमितताओं का निष्कर्षण होते हैं।
समतुल्यता वर्ग ग्रैन्युलेशन
हम एक उदाहरण से समझाते हैं। नीचे दी गई विशेषता-मूल्य प्रणाली पर विचार करें:
प्रतिरूप सूचना प्रणाली ऑब्जेक्ट 1 2 0 1 1 1 2 0 1 1 2 0 0 1 0 0 0 1 2 1 2 1 0 2 1 0 0 1 2 2 2 0 0 1 0 0 1 2 2 1 2 1 0 2 2 2 0 0 1 0
जब गुणों का पूरा सेट विचार करने पर, हम देखते हैं कि हमारे पास निम्नलिखित सात समतुल्य वर्ग या प्राचीन (सरल) अवधारणाएँ हैं:
इस प्रकार, प्रथम तुल्यता वर्ग के अंदर दो ऑब्जेक्ट्स, उपलब्ध विशेषताओं और दूसरे समतुल्य वर्ग के अंदर तीन ऑब्जेक्ट्स के आधार पर एक दूसरे से अलग नहीं किया जा सकता है, उपलब्ध विशेषताओं के आधार पर इन्हें एक दूसरे से अलग नहीं किया जा सकता है। शेष पाँच ऑब्जेक्ट्स अन्य सभी वस्तुओं से भिन्न हैं। अब, आइए हम विशेषता पर विशेषता मान प्रणाली के प्रक्षेपण की एकल कल्पना करें, जो उदाहरण के लिए, एक पर्यवेक्षक के दृश्य का प्रतिनिधित्व करेगा जो केवल इस एकल विशेषता का पता लगाने में सक्षम है। फिर हमें निम्नलिखित अधिक स्थूलतर तुल्यता वर्ग संरचना प्राप्त होती है।
यह एक निश्चित संबंध में पहले जैसी ही संरचना है, लेकिन रिज़ॉल्यूशन की कम डिग्री (बड़े ग्रेन का आकार) पर है। जैसे वैल्यू ग्रैन्यूलेशन (विवेकाधीन/परिमाणीकरण)|वैल्यू ग्रैन्यूलेशन (विवेकाधीन/क्वांटाइजेशन) की स्थिति में, यह संभव है कि ग्रैन्युलैरिटी के एक स्तर पर प्रसंग (निर्भरताएं) उभर सकते हैं जो दूसरे स्तर पर उपस्थित नहीं हैं। इसके उदाहरण के रूप में, हम विशेषता निर्भरता (पारस्परिक सुचना का सरल सापेक्ष) के रूप में ज्ञात माप पर अवधारणा ग्रैनुलेशन के प्रभाव पर विचार कर सकते हैं।
निर्भरता की इस धारणा को स्थापित करने के लिए (रफ़ सेट भी देखें), आइए एक विशेष अवधारणा कणीकरण का प्रतिनिधित्व करते हैं, जहां प्रत्येक विशेषता सेट द्वारा प्रेरित अवधारणा संरचना से एक समतुल्य वर्ग Q है। उदाहरण के लिए, यदि विशेषता सेट Q है एकल विशेषता से युक्त है, जैसा कि ऊपर है, फिर अवधारणा संरचना से बना होता हैं
- विशेषता सेट की निर्भरता Q किसी अन्य विशेषता सेट पर P, द्वारा दिया गया है
अर्थात् प्रत्येक समतुल्य वर्ग के लिए में हम इसके निचले सन्निकटन के आकार को विशेषताओं के आधार पर जोड़ते हैं (रफ सेट देखें)। P, अर्थात। अधिक सरलता से, यह सन्निकटन उन ऑब्जेक्ट्स की संख्या है जो विशेषता सेट P पर हैं को लक्ष्य निर्धारित से संबंधित के रूप में सकारात्मक रूप से पहचाना जा सकता है। सभी समतुल्य वर्गों में जोड़ा गया उपरोक्त अंश वस्तुओं की कुल संख्या को दर्शाता है, जो विशेषता सेट P पर आधारित है— Q विशेषताओं द्वारा प्रेरित वर्गीकरण के अनुसार सकारात्मक रूप से वर्गीकृत किया जा सकता है। इसलिए निर्भरता अनुपात ऐसी वर्गीकृत वस्तुओं के अनुपात (संपूर्ण ब्रह्मांड के भीतर) को व्यक्त करता है, एक अर्थ में दो अवधारणा संरचनाओं और के सिंक्रनाइज़ेशन को कैप्चर करता है। निर्भरता सूचना प्रणाली में ऐसी वस्तुओं के अनुपात के रूप में व्याख्या की जा सकती है जिसके लिए P विशेषताओं के मूल्यों को जानना Q में विशेषताओं के मान निर्धारित करने के लिए पर्याप्त है (ज़िआर्को और शान 1995)।
अब परिभाषाएं प्राप्त करने के बाद, हम सरल अवलोकन कर सकते हैं कि अवधारणा ग्रैन्युलैरिटी (अर्थात, विशेषताओं की पसंद) की पसंद विशेषताओं के बीच ज्ञात निर्भरता को प्रभावित करती हैं। ऊपर से विशेषता मान तालिका पर फिर से विचार करें:
प्रतिरूप सूचना प्रणाली ऑब्जेक्ट 1 2 0 1 1 1 2 0 1 1 2 0 0 1 0 0 0 1 2 1 2 1 0 2 1 0 0 1 2 2 2 0 0 1 0 0 1 2 2 1 2 1 0 2 2 2 0 0 1 0
विशेषता सेट की विशेषता सेट पर निर्भरता पर विचार करते हैं। अर्थात्, हम यह जानना चाहते हैं कि ऑब्जेक्ट्स के किस अनुपात को को के ज्ञान पर आधारित है सही प्रकार से वर्गों में वर्गीकृत किया जा सकता है। और के समतुल्य वर्ग नीचे दिखाए गए हैं.
वे ऑब्जेक्ट्स जिन्हें अवधारणा संरचना के अनुसार निश्चित रूप से वर्गीकृत किया जा सकता है पर आधारित क्या वे सेट में हैं और चूँकि इनमें से छह हैं, Q की निर्भरता P पर, होती हैं। इसे अपने आप में एक रुचिकर निर्भरता माना जा सकता है, लेकिन शायद किसी विशेष डेटा माइनिंग एप्लिकेशन में केवल मजबूत निर्भरता ही वांछित होती है।
फिर हम छोटे विशेषता सेट की विशेषता सेट पर निर्भरता पर विचार कर सकते हैं। से चाल को वर्ग संरचना में कठोरता उत्पन्न करता है जैसा कि जल्द ही देखा जाता हैं। हम फिर से यह जानना चाहते हैं कि किस अनुपात में ऑब्जेक्ट्स को (अब बड़े) वर्गों में सही ढंग से वर्गीकृत किया जा सकता है के ज्ञान पर आधारित है। नए और के समतुल्य वर्ग नीचे दिखाए गए हैं.
स्पष्ट रूप से, पहले की तुलना में इसकी ग्रैन्युलैरिटी अधिक चौड़ी है। ऑब्जेक्ट्स को अब अवधारणा संरचना पर आधारित के अनुसार निश्चित रूप से वर्गीकृत किया जा सकता है संपूर्ण यूनिवर्स का निर्माण करें, और इस प्रकार की Q पर P निर्भरता होती हैं। अर्थात श्रेणी निर्धारित के अनुसार सदस्यता का ज्ञान में श्रेणी सदस्यता निर्धारित करने के लिए पर्याप्त है पूरी निश्चितता के साथ; इस स्थिति में हम ऐसा कह सकते हैं होता हैं। इस प्रकार, अवधारणा संरचना को मोटा करके, हम एक मजबूत (नियतात्मक) निर्भरता खोजने में सक्षम थे। यद्यपि की, हम यह भी ध्यान देते हैं कि जिन कक्षाओं को प्रेरित किया गया है इस नियतात्मक निर्भरता को प्राप्त करने के लिए आवश्यक संकल्प में कमी से अब स्वयं बड़ी और संख्या में कम हैं; परिणामस्वरूप, हमने जो निर्भरता पाई, वह मजबूत होते हुए भी, उच्च रिज़ॉल्यूशन दृश्य के तहत पहले पाई गई कमजोर निर्भरता की तुलना में हमारे लिए कम मूल्यवान हो सकती है।
सामान्य तौर पर यह देखने के लिए विशेषताओं के सभी सेटों का परीक्षण करना संभव नहीं है कि कौन सी प्रेरित अवधारणा संरचनाएं सबसे मजबूत निर्भरता उत्पन्न करती हैं, और इसलिए इस खोज को कुछ बुद्धिमत्ता के साथ निर्देशित किया जाना चाहिए। जो प्रलेख इस कथन पर चर्चा करते हैं, और अन्य जो ग्रेन्युलर बनाने के बुद्धिमान उपयोग से संबंधित हैं, वे वाई.वाई. द्वारा लिखे गए हैं। याओ और लोटफ़ी ज़ादेह नीचे #संदर्भ में सूचीबद्ध हैं।
घटक ग्रैन्युलेशन
अवधारणा ग्रैनुलेशन पर एक और परिप्रेक्ष्य श्रेणियों के पैरामीट्रिक मॉडल पर काम से प्राप्त किया जा सकता है। उदाहरण के लिए, मिश्रण मॉडल सीखने में, डेटा के सेट को विशिष्ट गाऊसी वितरण (या अन्य) वितरण के मिश्रण के रूप में समझाया जाता है। इस प्रकार, बड़ी मात्रा में डेटा को छोटी संख्या में वितरण द्वारा प्रतिस्थापित किया जाता है। इन वितरणों की संख्या और उनके आकार की पसंद को फिर से अवधारणा ग्रैनुलेशन की समस्या के रूप में देखा जा सकता है। सामान्य तौर पर, बड़ी संख्या में वितरण या मापदंडों द्वारा डेटा के लिए अच्छे से फिट प्राप्त किया जाता है, लेकिन सार्थक पैटर्न निकालने के लिए, वितरण की संख्या को सीमित करना आवश्यक है, इस प्रकार जानबूझकर अवधारणा संकल्प को चौड़ा किया जाता है। सही अवधारणा समाधान ढूंढना कठिन समस्या है जिसके लिए कई विधिया प्रस्तावित किए गए हैं (उदाहरण के लिए, अकाइक सूचना मानदंड, बायेसियन सूचना मानदंड, न्यूनतम विवरण लंबाई इत्यादि), और इन्हें प्रायः मॉडल नियमितीकरण के अंतर्गत माना जाता है।
ग्रेन्युलर कंप्यूटिंग की विभिन्न व्याख्याएँ
ग्रैन्युलर कंप्यूटिंग की कल्पना सिद्धांतों, पद्धतियों, तकनीकों और उपकरणों के एक ढांचे के रूप में की जा सकती है जो समस्या समाधान की प्रक्रिया में सूचना ग्रैन्यूल का उपयोग करते हैं। इस अर्थ में, ग्रैन्युलर कंप्यूटिंग का उपयोग उन विषयों को कवर करने के लिए एक व्यापक शब्द के रूप में किया जाता है जिनका विभिन्न क्षेत्रों में अलग-अलग अध्ययन किया गया है। ग्रैन्युलर कंप्यूटिंग के एकीकृत ढांचे के आलोक में इन सभी उपस्थित अध्ययनों की जांच करके और उनकी समानताएं निकालकर, समस्या समाधान के लिए एक सामान्य सिद्धांत विकसित करना संभव हो सकता है।
अधिक दार्शनिक अर्थ में, ग्रैन्युलर कंप्यूटिंग सोचने के एक विधि का वर्णन कर सकता है जो ग्रैन्युलैरिटी के विभिन्न स्तरों (अर्थात, अमूर्तता) के अनुसार वास्तविक दुनिया को समझने की मानवीय क्षमता पर निर्भर करता है जिससे की केवल उन चीजों को अमूर्त और विचार किया जा सके जो एक विशिष्ट रुचि की सेवा करते हैं और विभिन्न ग्रैन्युलैरिटी के बीच स्विच करते हैं। ग्रैन्युलैरिटी के विभिन्न स्तरों पर ध्यान केंद्रित करके, कोई भी ज्ञान के विभिन्न स्तरों को प्राप्त कर सकता है, साथ ही अंतर्निहित ज्ञान संरचना की अच्छा समझ भी प्राप्त कर सकता है। इस प्रकार मानव समस्या समाधान में ग्रैन्युलर कंप्यूटिंग आवश्यक है और इसलिए इंटेलीजेंट प्रणालियों के डिजाइन और कार्यान्वयन पर इसका बहुत महत्वपूर्ण प्रभाव पड़ता है।
यह भी देखें
- रफ़ सेट, डिसक्रेटाइज़शन
- टाइप-2 फ़ज़ी सेट और सिस्टम
संदर्भ
- An, Aijun; Cercone, Nick (1999), "Discretization of continuous attributes for learning classification rules", in Ning Zhong; Lizhu Zhou (eds.), Methodologies for Knowledge Discovery and Data Mining: Proceedings of the Third Pacific-Asia Conference, PAKDD-99, Lecture Notes in Computer Science, vol. 1574, Beijing, China, pp. 509–514, doi:10.1007/3-540-48912-6_69, ISBN 978-3-540-65866-5
{{citation}}
: CS1 maint: location missing publisher (link). - Bargiela, A. and Pedrycz, W. (2003) Granular Computing. An introduction, Kluwer Academic Publishers
- Bay, Stephen D. (2001), "Multivariate discretization for set mining", Knowledge and Information Systems, 3 (4): 491–512, CiteSeerX 10.1.1.217.921, doi:10.1007/PL00011680.
- Catlett, J. (1991), "On changing continuous attributes into ordered discrete attributes", in Y. Kodratoff (ed.), Machine Learning—EWSL-91: European Working Session on Learning, Porto, Portugal, pp. 164–178
{{citation}}
: CS1 maint: location missing publisher (link). - Chiu, David K. Y.; Cheung, Benny (1989), "Hierarchical maximum entropy discretization", in Ryszard Janicki; Waldemar W. Koczkodaj (eds.), Computing and Information: Proceedings of the International Conference on Computing and Information (ICCI '89), Toronto, Ontario, Canada: North-Holland, pp. 237–242.
- Chiu, David K. Y.; Cheung, Benny; Wong, Andrew K. C. (1990), "Information synthesis based on hierarchical maximum entropy discretization", Journal of Experimental and Theoretical Artificial Intelligence, 2 (2): 117–129, doi:10.1080/09528139008953718.
- Chiu, David K. Y.; Wong, Andrew K. C.; Cheung, Benny (1991), "Information discovery through hierarchical maximum entropy discretization and synthesis", in Gregory Piatetsky-Shapiro; William J. Frawley (eds.), Knowledge Discovery in Databases, Cambridge, MA: MIT Press, pp. 126–140.
- Chmielewski, Michal R.; Grzymala-Busse, Jerzy W. (1996), "Global discretization of continuous attributes as preprocessing for machine learning" (PDF), International Journal of Approximate Reasoning, 15 (4): 319–331, doi:10.1016/s0888-613x(96)00074-6.
- Dougherty, James; Kohavi, Ron; Sahami, Mehran (1995), "Supervised and unsupervised discretization of continuous features", in Armand Prieditis; Stuart Russell (eds.), Machine Learning: Proceedings of the Twelfth International Conference (ICML 1995), Tahoe City, CA: Morgan Kaufmann, pp. 194–202.
- Duda, Richard O.; Hart, Peter E.; Stork, David G. (2001), Pattern Classification (2nd ed.), New York City: John Wiley & Sons, ISBN 978-0-471-05669-0
- Fayyad, Usama M.; Irani, Keki B. (1993), "Multi-interval discretization of continuous-valued attributes for classification learning", Proceedings of the Thirteenth International Joint Conference on Artificial Intelligence (IJCAI-93), Chambéry, France, pp. 1022–1027
{{citation}}
: CS1 maint: location missing publisher (link). - Grzymala-Busse, Jerzy W.; Stefanowski, Jerzy (2001), "Three discretization methods for rule induction", International Journal of Intelligent Systems, 16 (1): 29–38, CiteSeerX 10.1.1.330.2975, doi:10.1002/1098-111X(200101)16:1<29::AID-INT4>3.0.CO;2-0.
- Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2001), The Elements of Statistical Learning: Data Mining, Inference, and Prediction, New York City: Springer, ISBN 978-0-387-84857-0
- Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G.; Grassberger, Peter (2003), Hierarchical clustering based on mutual information, arXiv:q-bio/0311039, Bibcode:2003q.bio....11039K.
- Lee, Changhwan; Shin, Dong-Guk (1994), "A context-sensitive discretization of numeric attributes for classification learning", in A. G. Cohn (ed.), Proceedings of the 11th European Conference on Artificial Intelligence (ECAI 94), NL, pp. 428–432
{{citation}}
: CS1 maint: location missing publisher (link). - Liu, Chao-Lin; Wellman, Michael (2002), "Evaluation of Bayesian networks with flexible state-space abstraction methods", International Journal of Approximate Reasoning, 30 (1): 1–39, CiteSeerX 10.1.1.127.7040, doi:10.1016/S0888-613X(01)00067-6.
- Liu, Chao-Lin; Wellman, Michael (2004), "Bounding probabilistic relationships in Bayesian networks using qualitative influences: Methods and applications", International Journal of Approximate Reasoning, 36 (1): 31–73, doi:10.1016/j.ijar.2003.06.002.
- Liu, Huan; Hussain, Farhad; Tan, Chew Lim; Dasii, Manoranjan (2002), "Discretization: An enabling technique", Data Mining and Knowledge Discovery, 6 (4): 393–423, doi:10.1023/A:1016304305535.
- Ludl, Marcus-Christopher; Widmer, Gerhard (2000), "Relative unsupervised discretization for association rule mining", in Djamel A. Zighed; Jan Komorowski; Jan Zytkow (eds.), Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery (PKDD 2000), Lecture Notes in Computer Science, vol. 1910, Lyon, France, pp. 148–158, doi:10.1007/3-540-45372-5_15, ISBN 978-3-540-41066-9
{{citation}}
: CS1 maint: location missing publisher (link). - Monti, Stefano; Cooper, Gregory F. (1999), "A latent variable model for multivariate discretization", Uncertainty 99: The 7th International Workshop on Artificial Intelligence and Statistics, Fort Lauderdale, FL
{{citation}}
: CS1 maint: location missing publisher (link). - Martino, Alessio; Giuliani, Alessandro; Rizzi, Antonello (2018), "Granular Computing Techniques for Bioinformatics Pattern Recognition Problems in Non-metric Spaces", in Pedrycz W.; Chen SM. (eds.), Computational Intelligence for Pattern Recognition, Studies in Computational Intelligence, vol. 777, Springer International Publishing, pp. 53–81, doi:10.1007/978-3-319-89629-8_3, ISBN 978-3-319-89628-1.
- Nguyen, Hung Son; Nguyen, Sinh Hoa (1998), "Discretization methods in data mining", in Lech Polkowski; Andrzej Skowron (eds.), Rough Sets in Knowledge Discovery 1: Methodology and Applications, Heidelberg: Physica-Verlag, pp. 451–482.
- Pfahringer, Bernhard (1995), "Compression-based discretization of continuous attributes", in Armand Prieditis; Stuart Russell (eds.), Machine Learning: Proceedings of the Twelfth International Conference (ICML 1995), Tahoe City, CA: Morgan Kaufmann, pp. 456–463.
- Rencher, Alvin C. (2002), Methods of Multivariate Analysis, New York City: Wiley.
- Simon, Herbert A.; Ando, Albert (1963), "Aggregation of variables in dynamic systems", in Albert Ando; Franklin M. Fisher; Herbert A. Simon (eds.), Essays on the Structure of Social Science Models, Cambridge, MA: MIT Press, pp. 64–91
- Simon, Herbert A. (1996), "The architecture of complexity: Hierarchic systems", in Herbert A. Simon (ed.), The Sciences of the Artificial (2nd ed.), Cambridge, MA: MIT Press, pp. 183–216
- Slezak, Dominik; Synak, Piotr; Wojna, Arkadiusz; Wroblewski, Jakub (2013), "Two Database Related Interpretations of Rough Approximations: Data Organization and Query Execution", Fundamenta Informaticae, 127 (1–4): 445–459, doi:10.3233/FI-2013-920.
- Ting, Kai Ming (1994), Discretization of continuous-valued attributes and instance-based learning (Technical Report No.491), Sydney: Basser Department of Computer Science.
- Wang, Ke; Liu, Bing (1998), "Concurrent discretization of multiple attributes", in Springer (ed.), Proceedings of the 5th Pacific Rim International Conference on Artificial Intelligence, London: Springer-Verlag, pp. 250–259.
- Watanabe, Satosi (1960), "Information theoretical analysis of multivariate correlation", IBM Journal of Research and Development, 4 (1): 66–82, doi:10.1147/rd.41.0066.
- Watanabe, Satosi (1969), Knowing and Guessing: A Quantitative Study of Inference and Information, New York City: Wiley.
- Witten, Ian H.; Frank, Eibe (2005), Data Mining: Practical Machine Learning Tools and Techniques (2 ed.), Amsterdam: Morgan Kaufmann
- Yao, Y.Y. (2004) "A Partition Model of Granular Computing", Lecture Notes in Computer Science (to appear)
- Yao, Y. Y. (2001). "On modeling data mining with granular computing". Proceedings of the 25th Annual International Computer Software and Applications Conference (COMPSAC 2001). pp. 638–643.
- Yao, Yiyu (2006). "Granular computing for data mining" (PDF). In Dasarathy, Belur V. (ed.). Proceedings of the SPIE Conference on Data Mining, Intrusion Detection, Information Assurance, and Data Networks Security. Archived from the original (PDF) on 2007-04-18.
- Yao, J. T.; Yao, Y. Y. (2002). "Induction of classification rules by granular computing" (PDF). Proceedings of the Third International Conference on Rough Sets and Current Trends in Computing (TSCTC'02). London, UK: Springer-Verlag. pp. 331–338.
- Zadeh, L.A. (1997) "Toward a Theory of Fuzzy Information Granulation and its Centrality in Human Reasoning and Fuzzy Logic", Fuzzy Sets and Systems, 90:111-127
- Zighed, D. A.; Rabaséda, S.; Rakotomalala, R. (1998), "FUSINTER: A method for discretization of continuous attributes", International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 6 (3): 307–326, doi:10.1142/s0218488598000264.