क्लाउड के लिए वितरित फाइल सिस्टम: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 1: Line 1:
'''क्लाउड के लिए वितरित फ़ाइल सिस्टम''' डब्ल्यू: फाइल सिस्टम है जो कई क्लाइंट्स को डेटा तक पहुंच की अनुमति देता है और उस डेटा पर संचालन (निर्माण, हटाना, संशोधित करना, पढ़ना, लिखना) का समर्थन करता है। प्रत्येक डेटा फ़ाइल को चंक (सूचना) नामक कई भागों में विभाजित किया जा सकता है। प्रत्येक चंक को अलग-अलग रिमोट मशीनों पर संग्रहीत किया जा सकता है, जिससे अनुप्रयोगों के समानांतर निष्पादन में सरलता होती है। सामान्यतः, डेटा को [[ पदानुक्रमित वृक्ष संरचना ]] में फ़ाइलों में संग्रहीत किया जाता है, जहाँ नोड निर्देशिकाओं का प्रतिनिधित्व करते हैं। वितरित वास्तुकला में फ़ाइलों को साझा करने के कई विधियाँ हैं: प्रत्येक समाधान निश्चित प्रकार के अनुप्रयोग के लिए उपयुक्त होना चाहिए, यह इस बात पर निर्भर करता है कि अनुप्रयोग कितना जटिल है। इस बीच, सिस्टम की सुरक्षा सुनिश्चित की जानी चाहिए। डब्ल्यू की गोपनीयता को डब्ल्यू उपलब्धता और डब्ल्यू अखंडता के लिए सुरक्षित प्रणाली हेतु मुख्य कुंजी के रूप में उपयोग किया जाता हैं।
'''क्लाउड के लिए वितरित फ़ाइल सिस्टम''' डब्ल्यू: फाइल सिस्टम है जो कई क्लाइंट्स को डेटा तक पहुंच की अनुमति देता है और उस डेटा पर संचालन (निर्माण, हटाना, संशोधित करना, पढ़ना, लिखना) का समर्थन करता है। प्रत्येक डेटा फ़ाइल को चंक (सूचना) नामक कई भागों में विभाजित किया जा सकता है। प्रत्येक चंक को अलग-अलग रिमोट मशीनों पर संग्रहीत किया जा सकता है, जिससे अनुप्रयोगों के समानांतर निष्पादन में सरलता होती है। सामान्यतः, डेटा को [[ पदानुक्रमित वृक्ष संरचना |पदानुक्रमित वृक्ष संरचना]] में फ़ाइलों में संग्रहीत किया जाता है, जहाँ नोड निर्देशिकाओं का प्रतिनिधित्व करते हैं। वितरित वास्तुकला में फ़ाइलों को साझा करने के कई विधियाँ हैं: प्रत्येक समाधान निश्चित प्रकार के अनुप्रयोग के लिए उपयुक्त होना चाहिए, यह इस बात पर निर्भर करता है कि अनुप्रयोग कितना जटिल है। इस बीच, सिस्टम की सुरक्षा सुनिश्चित की जानी चाहिए। डब्ल्यू की गोपनीयता को डब्ल्यू उपलब्धता और डब्ल्यू अखंडता के लिए सुरक्षित प्रणाली हेतु मुख्य कुंजी के रूप में उपयोग किया जाता हैं।


उपयोगकर्ता [[ क्लाउड कंप्यूटिंग ]] के लिए [[ इंटरनेट ]] के माध्यम से कंप्यूटिंग संसाधनों को साझा कर सकते हैं, जो सामान्यतः डब्ल्यू: स्केलेबिलिटी और डब्ल्यू: लोच (क्लाउड कंप्यूटिंग) संसाधनों की विशेषता है - जैसे कि भौतिक डब्ल्यू: सर्वर (कंप्यूटिंग), एप्लिकेशन और कोई भी सेवा जो डब्ल्यू: वर्चुअलाइजेशन और गतिशील रूप से आवंटित किया जाता हैं। डब्ल्यू: यह सुनिश्चित करने के लिए सिंक्रनाइज़ेशन आवश्यक है कि सभी डिवाइस अप-टू-डेट हैं।
उपयोगकर्ता [[ क्लाउड कंप्यूटिंग |क्लाउड कंप्यूटिंग]] के लिए [[ इंटरनेट |इंटरनेट]] के माध्यम से कंप्यूटिंग संसाधनों को साझा कर सकते हैं, जो सामान्यतः डब्ल्यू: स्केलेबिलिटी और डब्ल्यू: लोच (क्लाउड कंप्यूटिंग) संसाधनों की विशेषता है - जैसे कि भौतिक डब्ल्यू: सर्वर (कंप्यूटिंग), एप्लिकेशन और कोई भी सेवा जो डब्ल्यू: वर्चुअलाइजेशन और गतिशील रूप से आवंटित किया जाता हैं। डब्ल्यू: यह सुनिश्चित करने के लिए सिंक्रनाइज़ेशन आवश्यक है कि सभी डिवाइस नवीनतम हैं।


'''वितरित फाइल सिस्टम''' कई बड़े, मध्यम और छोटे उद्यमों को अपने दूरस्थ डेटा को स्टोर करने और एक्सेस करने में सक्षम बनाता है क्योंकि वे स्थानीय डेटा करते हैं, इस प्रकार के वैरिएबल संसाधनों के उपयोग को सुविधाजनक बनाते हैं।
'''वितरित फाइल सिस्टम''' कई बड़े, मध्यम और छोटे उद्यमों को अपने दूरस्थ डेटा को स्टोर करने और एक्सेस करने में सक्षम बनाता है क्योंकि वे स्थानीय डेटा करते हैं, इस प्रकार के वैरिएबल संसाधनों के उपयोग को सुविधाजनक बनाते हैं।


== अवलोकन ==
==अवलोकन==


=== इतिहास ===
===इतिहास===
आज, वितरित फाइल सिस्टम के कई कार्यान्वयन हैं। पहला फ़ाइल सर्वर 1970 के दशक में शोधकर्ताओं द्वारा विकसित किया गया था। सन माइक्रोसिस्टम का [[ नेटवर्क फ़ाइल सिस्टम ]] 1980 के दशक में उपलब्ध हुआ। इससे पहले, जो लोग फ़ाइलें साझा करना चाहते थे, वे [[ स्नीकर नेट ]] विधि का उपयोग करते थे, भौतिक रूप से भंडारण मीडिया पर फ़ाइलों को स्थान से दूसरे स्थान पर ले जाते थे। बार जब कंप्यूटर नेटवर्क का प्रसार शुरू हो गया, तो यह स्पष्ट हो गया कि सम्मलित फ़ाइल सिस्टम की कई सीमाएँ थीं और बहु-उपयोगकर्ता वातावरण के लिए अनुपयुक्त थीं। उपयोगकर्ता प्रारंभ में फ़ाइलों को साझा करने के लिए [[ FTP | एफटीपी]] का उपयोग करते थे।<ref>{{harvnb|Sun microsystem|p=1}}</ref> एफ़टीपी पहली बार 1973 के अंत में [[ पीडीपी-10 ]] पर चलाया गया था। एफ़टीपी के साथ फ़ाइलों को सोर्स कंप्यूटर से सर्वर पर और फिर सर्वर से गंतव्य कंप्यूटर पर कॉपी करने की आवश्यकता होती है। उपयोगकर्ताओं को फ़ाइल साझाकरण में सम्मलित सभी कंप्यूटरों के भौतिक पते को जानने की आवश्यकता पड़ती थी।<ref>{{harvnb|Fabio Kon|p=1}}</ref>
आज, वितरित फाइल सिस्टम के कई कार्यान्वयन हैं। पहला फ़ाइल सर्वर 1970 के दशक में शोधकर्ताओं द्वारा विकसित किया गया था। सन माइक्रोसिस्टम का [[ नेटवर्क फ़ाइल सिस्टम |नेटवर्क फ़ाइल सिस्टम]] 1980 के दशक में उपलब्ध हुआ। इससे पहले, जो लोग फ़ाइलें साझा करना चाहते थे, वे [[ स्नीकर नेट |स्नीकर नेट]] विधि का उपयोग करते थे, भौतिक रूप से भंडारण मीडिया पर फ़ाइलों को स्थान से दूसरे स्थान पर ले जाते थे। बार जब कंप्यूटर नेटवर्क का प्रसार शुरू हो गया, तो यह स्पष्ट हो गया कि सम्मलित फ़ाइल सिस्टम की कई सीमाएँ थीं और बहु-उपयोगकर्ता वातावरण के लिए अनुपयुक्त थीं। उपयोगकर्ता प्रारंभ में फ़ाइलों को साझा करने के लिए [[ FTP |एफटीपी]] का उपयोग करते थे।<ref>{{harvnb|Sun microsystem|p=1}}</ref> एफ़टीपी पहली बार 1973 के अंत में [[ पीडीपी-10 |पीडीपी-10]] पर चलाया गया था। एफ़टीपी के साथ फ़ाइलों को सोर्स कंप्यूटर से सर्वर पर और फिर सर्वर से गंतव्य कंप्यूटर पर कॉपी करने की आवश्यकता होती है। उपयोगकर्ताओं को फ़ाइल साझाकरण में सम्मलित सभी कंप्यूटरों के भौतिक पते को जानने की आवश्यकता पड़ती थी।<ref>{{harvnb|Fabio Kon|p=1}}</ref>
=== सहायक विधि ===
===सहायक विधि===
आधुनिक डेटा केंद्रों को बड़े, विषम वातावरणों का समर्थन करना चाहिए, जिसमें विभिन्न क्षमताओं के बड़ी संख्या में कंप्यूटर सम्मलित हैं। क्लाउड कंप्यूटिंग [[ डेटा सेंटर नेटवर्क आर्किटेक्चर ]] (DCN), मैपरेडस फ्रेमवर्क जैसी विधिों के साथ ऐसी सभी प्रणालियों के संचालन का समन्वय करती है, जो समानांतर और वितरित प्रणालियों में [[ डेटा-गहन कंप्यूटिंग ]] अनुप्रयोगों का समर्थन करती है, और [[ वर्चुअलाइजेशन ]] विधियाँ जो गतिशील संसाधन आवंटन प्रदान करती हैं, जिससे कई भौतिक सर्वर पर सह-अस्तित्व के लिए ऑपरेटिंग सिस्टम उपयोग में लाए गए थे।
आधुनिक डेटा केंद्रों को बड़े, विषम वातावरणों का समर्थन करना चाहिए, जिसमें विभिन्न क्षमताओं के बड़ी संख्या में कंप्यूटर सम्मलित हैं। क्लाउड कंप्यूटिंग [[ डेटा सेंटर नेटवर्क आर्किटेक्चर |डेटा सेंटर नेटवर्क आर्किटेक्चर]] (DCN), मैपरेडस फ्रेमवर्क जैसी विधिों के साथ ऐसी सभी प्रणालियों के संचालन का समन्वय करती है, जो समानांतर और वितरित प्रणालियों में [[ डेटा-गहन कंप्यूटिंग |डेटा-गहन कंप्यूटिंग]] अनुप्रयोगों का समर्थन करती है, और [[ वर्चुअलाइजेशन |वर्चुअलाइजेशन]] विधियाँ जो गतिशील संसाधन आवंटन प्रदान करती हैं, जिससे कई भौतिक सर्वर पर सह-अस्तित्व के लिए ऑपरेटिंग सिस्टम उपयोग में लाए गए थे।


=== अनुप्रयोग ===
===अनुप्रयोग===
क्लाउड कंप्यूटिंग उपयोगकर्ता को पूरी पारदर्शिता के साथ आवश्यक सीपीयू और स्टोरेज संसाधन प्रदान करने की क्षमता के कारण बड़े पैमाने पर कंप्यूटिंग प्रदान करता है। यह क्लाउड कंप्यूटिंग को विशेष रूप से विभिन्न प्रकार के अनुप्रयोगों का समर्थन करने के लिए उपयुक्त बनाता है जिनके लिए बड़े पैमाने पर वितरित प्रसंस्करण की आवश्यकता होती है। इस डेटा-गहन कंप्यूटिंग के लिए उच्च प्रदर्शन [[ फाइल सिस्टम ]] की आवश्यकता होती है जो [[ आभाषी दुनिया |आभाषी दुनिया]] (VM) के बीच डेटा साझा कर सके।<ref>{{harvnb|Kobayashi| Mikami| Kimura|Tatebe|2011|p=1}}</ref> क्लाउड कंप्यूटिंग गतिशील रूप से आवश्यक संसाधनों को आवंटित करता है, कार्य समाप्त होने के बाद उन्हें जारी करता है, उपयोगकर्ताओं को केवल आवश्यक सेवाओं के लिए भुगतान करने की आवश्यकता होती है, अधिकांशतः सेवा-स्तरीय समझौते के माध्यम से उपयोग किए जाते थे। क्लाउड कंप्यूटिंग और [[ कंप्यूटर क्लस्टर ]] प्रतिमान औद्योगिक डेटा प्रोसेसिंग और [[ खगोल ]] विज्ञान और भौतिकी जैसे वैज्ञानिक अनुप्रयोगों के लिए तेजी से महत्वपूर्ण होते जा रहे हैं, जिन्हें प्रयोग करने के लिए अधिकांशतः बड़ी संख्या में कंप्यूटर की उपलब्धता की आवश्यकता होती है।<ref>{{harvnb|Angabini|Yazdani|Mundt|Hassani |2011|p=1}}</ref>
क्लाउड कंप्यूटिंग उपयोगकर्ता को पूरी पारदर्शिता के साथ आवश्यक सीपीयू और स्टोरेज संसाधन प्रदान करने की क्षमता के कारण बड़े पैमाने पर कंप्यूटिंग प्रदान करता है। यह क्लाउड कंप्यूटिंग को विशेष रूप से विभिन्न प्रकार के अनुप्रयोगों का समर्थन करने के लिए उपयुक्त बनाता है जिनके लिए बड़े पैमाने पर वितरित प्रसंस्करण की आवश्यकता होती है। इस डेटा-गहन कंप्यूटिंग के लिए उच्च प्रदर्शन [[ फाइल सिस्टम |फाइल सिस्टम]] की आवश्यकता होती है जो [[ आभाषी दुनिया |आभाषी दुनिया]] (VM) के बीच डेटा साझा कर सके।<ref>{{harvnb|Kobayashi| Mikami| Kimura|Tatebe|2011|p=1}}</ref> क्लाउड कंप्यूटिंग गतिशील रूप से आवश्यक संसाधनों को आवंटित करता है, कार्य समाप्त होने के बाद उन्हें जारी करता है, उपयोगकर्ताओं को केवल आवश्यक सेवाओं के लिए भुगतान करने की आवश्यकता होती है, अधिकांशतः सेवा-स्तरीय समझौते के माध्यम से उपयोग किए जाते थे। क्लाउड कंप्यूटिंग और [[ कंप्यूटर क्लस्टर |कंप्यूटर क्लस्टर]] प्रतिमान औद्योगिक डेटा प्रोसेसिंग और [[ खगोल |खगोल]] विज्ञान और भौतिकी जैसे वैज्ञानिक अनुप्रयोगों के लिए तेजी से महत्वपूर्ण होते जा रहे हैं, जिन्हें प्रयोग करने के लिए अधिकांशतः बड़ी संख्या में कंप्यूटर की उपलब्धता की आवश्यकता होती है।<ref>{{harvnb|Angabini|Yazdani|Mundt|Hassani |2011|p=1}}</ref>
== आर्किटेक्चर ==
==आर्किटेक्चर==
अधिकांश वितरित फ़ाइल सिस्टम क्लाइंट-सर्वर आर्किटेक्चर पर बनाए गए हैं, लेकिन अन्य विकेंद्रीकृत समाधान भी सम्मलित हैं।
अधिकांश वितरित फ़ाइल सिस्टम क्लाइंट-सर्वर आर्किटेक्चर पर बनाए गए हैं, लेकिन अन्य विकेंद्रीकृत समाधान भी सम्मलित हैं।


=== [[ क्लाइंट-सर्वर आर्किटेक्चर ]] ===
===[[ क्लाइंट-सर्वर आर्किटेक्चर | क्लाइंट-सर्वर आर्किटेक्चर]]===
नेटवर्क फाइल सिस्टम (एनएफएस) क्लाइंट-सर्वर आर्किटेक्चर का उपयोग करता है, जो नेटवर्क पर कई मशीनों के बीच फ़ाइलों को साझा करने की अनुमति देता है जैसे कि मानकीकृत दृश्य प्रदान करते हुए वे स्थानीय रूप से स्थित किए जाते हैं। एनएफएस प्रोटोकॉल विषम ग्राहकों की प्रक्रियाओं की अनुमति देता है, संभवत: विभिन्न मशीनों पर और विभिन्न ऑपरेटिंग सिस्टम के अनुसार, फाइलों के वास्तविक स्थान की अनदेखी करते हुए दूर के सर्वर पर फाइलों को पहुँचाया जाता हैं। संभावित रूप से कम उपलब्धता और खराब मापनीयता के कारण एनएफएस प्रोटोकॉल में एकल सर्वर पर निर्भर होने का परिणाम है। एक से अधिक सर्वरों का उपयोग करने से उपलब्धता की समस्या का समाधान नहीं होता है क्योंकि प्रत्येक सर्वर स्वतंत्र रूप से कार्य कर रहा है।<ref>{{harvnb|Di Sano| Di Stefano|Morana|Zito|2012|p=2}}</ref> एनएफएस का मॉडल दूरस्थ फ़ाइल सेवा है। इस मॉडल को रिमोट एक्सेस मॉडल भी कहा जाता है, जो अपलोड/डाउनलोड मॉडल के विपरीत कार्य करते है:
नेटवर्क फाइल सिस्टम (एनएफएस) क्लाइंट-सर्वर आर्किटेक्चर का उपयोग करता है, जो नेटवर्क पर कई मशीनों के बीच फ़ाइलों को साझा करने की अनुमति देता है जैसे कि मानकीकृत दृश्य प्रदान करते हुए वे स्थानीय रूप से स्थित किए जाते हैं। एनएफएस प्रोटोकॉल विषम ग्राहकों की प्रक्रियाओं की अनुमति देता है, संभवत: विभिन्न मशीनों पर और विभिन्न ऑपरेटिंग सिस्टम के अनुसार, फाइलों के वास्तविक स्थान की अनदेखी करते हुए दूर के सर्वर पर फाइलों को पहुँचाया जाता हैं। संभावित रूप से कम उपलब्धता और खराब मापनीयता के कारण एनएफएस प्रोटोकॉल में एकल सर्वर पर निर्भर होने का परिणाम है। एक से अधिक सर्वरों का उपयोग करने से उपलब्धता की समस्या का समाधान नहीं होता है क्योंकि प्रत्येक सर्वर स्वतंत्र रूप से कार्य कर रहा है।<ref>{{harvnb|Di Sano| Di Stefano|Morana|Zito|2012|p=2}}</ref> एनएफएस का मॉडल दूरस्थ फ़ाइल सेवा है। इस मॉडल को रिमोट एक्सेस मॉडल भी कहा जाता है, जो अपलोड/डाउनलोड मॉडल के विपरीत कार्य करते है:
* रिमोट एक्सेस मॉडल: पारदर्शिता प्रदान करता है, क्लाइंट के पास फ़ाइल तक पहुंच होती है। वह दूरस्थ फ़ाइल के लिए अनुरोध भेजता है (जबकि फ़ाइल सर्वर पर रहती है)।<ref>{{harvnb|Andrew|Maarten|2006|p=492}}</ref>
*रिमोट एक्सेस मॉडल: पारदर्शिता प्रदान करता है, क्लाइंट के पास फ़ाइल तक पहुंच होती है। वह दूरस्थ फ़ाइल के लिए अनुरोध भेजता है (जबकि फ़ाइल सर्वर पर रहती है)।<ref>{{harvnb|Andrew|Maarten|2006|p=492}}</ref>
* अपलोड/डाउनलोड मॉडल: क्लाइंट फ़ाइल को केवल स्थानीय रूप से एक्सेस कर सकता है। इसका अर्थ है कि क्लाइंट को फ़ाइल को डाउनलोड करना होगा, संशोधन करना होगा और इसे पुनः अपलोड करना होगा, जिससे कि दूसरों के क्लाइंट इसका उपयोग कर सकें।
*अपलोड/डाउनलोड मॉडल: क्लाइंट फ़ाइल को केवल स्थानीय रूप से एक्सेस कर सकता है। इसका अर्थ है कि क्लाइंट को फ़ाइल को डाउनलोड करना होगा, संशोधन करना होगा और इसे पुनः अपलोड करना होगा, जिससे कि दूसरों के क्लाइंट इसका उपयोग कर सकें।


एनएफएस द्वारा उपयोग की जाने वाली फ़ाइल प्रणाली लगभग वही है जो [[ यूनिक्स ]] सिस्टम द्वारा उपयोग की जाती है। फाइलों को नामकरण ग्राफ में श्रेणीबद्ध रूप से व्यवस्थित किया जाता है जिसमें निर्देशिकाओं और फाइलों को नोड्स द्वारा दर्शाया जाता है।
एनएफएस द्वारा उपयोग की जाने वाली फ़ाइल प्रणाली लगभग वही है जो [[ यूनिक्स |यूनिक्स]] सिस्टम द्वारा उपयोग की जाती है। फाइलों को नामकरण ग्राफ में श्रेणीबद्ध रूप से व्यवस्थित किया जाता है जिसमें निर्देशिकाओं और फाइलों को नोड्स द्वारा दर्शाया जाता है।


=== क्लस्टर-आधारित आर्किटेक्चर ===
===क्लस्टर-आधारित आर्किटेक्चर===
[[ क्लस्टर फ़ाइल सिस्टम ]] | क्लस्टर-आधारित आर्किटेक्चर क्लाइंट-सर्वर आर्किटेक्चर में कुछ मुद्दों को सुधारता है, समानांतर में अनुप्रयोगों के निष्पादन में सुधार करता है। यहां उपयोग की जाने वाली विधि फ़ाइल-स्ट्रिपिंग है: फ़ाइल कई भागों में विभाजित होती है, जो कई स्टोरेज सर्वरों में उत्कृष्ट होता है। टार्गेटेड फ़ाइल के विभिन्न भागों को समानांतर में एक्सेस करने की अनुमति देना है। यदि एप्लिकेशन इस विधि से लाभान्वित नहीं होता है, तो विभिन्न सर्वरों पर विभिन्न फ़ाइलों को संग्रहीत करना अधिक सुविधाजनक होगा। चूंकि, जब बड़े डेटा केंद्रों, जैसे कि अमेज़ॅन और गूगल के लिए वितरित फ़ाइल सिस्टम को व्यवस्थित करने की बात आती है, जो वेब क्लाइंट को कई ऑपरेशन (पढ़ने, अपडेट करने, हटाने, ...) के बीच वितरित बड़ी संख्या में फ़ाइलों की अनुमति देता है। बड़ी संख्या में कंप्यूटर, तब क्लस्टर-आधारित समाधान अधिक लाभदायक हो जाते हैं। ध्यान दें कि बड़ी संख्या में कंप्यूटर होने का अर्थ अधिक हार्डवेयर विफलता हो सकता है।<ref>{{harvnb|Andrew |Maarten |2006|p=496}}</ref> इस प्रकार के दो सबसे व्यापक रूप से उपयोग किए जाने वाले वितरित फ़ाइल सिस्टम (डिएफएस) गूगल फ़ाइल सिस्टम (जीएफएस) और [[ Apache Hadoop | अपाचे हडूप]] (एचडीएफसी) हैं। दोनों [[ गूगल फाइल सिस्टम ]] मानक ऑपरेटिंग सिस्टम (जीएफएस के स्थिति में [[ लिनक्स ]]) के शीर्ष पर चलने वाली उपयोगकर्ता स्तर की प्रक्रियाओं द्वारा कार्यान्वित किए जाते हैं।<ref>{{harvnb|Humbetov|2012|p=2}}</ref>
[[ क्लस्टर फ़ाइल सिस्टम | क्लस्टर फ़ाइल सिस्टम]] | क्लस्टर-आधारित आर्किटेक्चर क्लाइंट-सर्वर आर्किटेक्चर में कुछ मुद्दों को सुधारता है, समानांतर में अनुप्रयोगों के निष्पादन में सुधार करता है। यहां उपयोग की जाने वाली विधि फ़ाइल-स्ट्रिपिंग है: फ़ाइल कई भागों में विभाजित होती है, जो कई स्टोरेज सर्वरों में उत्कृष्ट होता है। टार्गेटेड फ़ाइल के विभिन्न भागों को समानांतर में एक्सेस करने की अनुमति देना है। यदि एप्लिकेशन इस विधि से लाभान्वित नहीं होता है, तो विभिन्न सर्वरों पर विभिन्न फ़ाइलों को संग्रहीत करना अधिक सुविधाजनक होगा। चूंकि, जब बड़े डेटा केंद्रों, जैसे कि अमेज़ॅन और गूगल के लिए वितरित फ़ाइल सिस्टम को व्यवस्थित करने की बात आती है, जो वेब क्लाइंट को कई ऑपरेशन (पढ़ने, अपडेट करने, हटाने, ...) के बीच वितरित बड़ी संख्या में फ़ाइलों की अनुमति देता है। बड़ी संख्या में कंप्यूटर, तब क्लस्टर-आधारित समाधान अधिक लाभदायक हो जाते हैं। ध्यान दें कि बड़ी संख्या में कंप्यूटर होने का अर्थ अधिक हार्डवेयर विफलता हो सकता है।<ref>{{harvnb|Andrew |Maarten |2006|p=496}}</ref> इस प्रकार के दो सबसे व्यापक रूप से उपयोग किए जाने वाले वितरित फ़ाइल सिस्टम (डिएफएस) गूगल फ़ाइल सिस्टम (जीएफएस) और [[ Apache Hadoop |अपाचे हडूप]] (एचडीएफसी) हैं। दोनों [[ गूगल फाइल सिस्टम |गूगल फाइल सिस्टम]] मानक ऑपरेटिंग सिस्टम (जीएफएस के स्थिति में [[ लिनक्स |लिनक्स]] ) के शीर्ष पर चलने वाली उपयोगकर्ता स्तर की प्रक्रियाओं द्वारा कार्यान्वित किए जाते हैं।<ref>{{harvnb|Humbetov|2012|p=2}}</ref>
==== डिजाइन सिद्धांत ====
====डिजाइन सिद्धांत====


===== टार्गेटेड फाइल =====
=====टार्गेटेड फाइल=====
गूगल फाइल सिस्टम (जीएफएस) और हडूप [[ Hadoop वितरित फ़ाइल सिस्टम | हडूप वितरित फ़ाइल सिस्टम]] एचडीएफसी) विशेष रूप से बहुत बड़े डेटा सेट पर [[ प्रचय संसाधन ]] को संभालने के लिए बनाए गए हैं। उसके लिए, निम्नलिखित परिकल्पनाओं को ध्यान में रखा जाना चाहिए:<ref name="Krzyzanowski_p2" />* उच्च उपलब्धता: कंप्यूटर क्लस्टर में हजारों फ़ाइल सर्वर हो सकते हैं और उनमें से कुछ किसी भी समय बंद हो सकते हैं
गूगल फाइल सिस्टम (जीएफएस) और हडूप [[ Hadoop वितरित फ़ाइल सिस्टम |हडूप वितरित फ़ाइल सिस्टम]] एचडीएफसी) विशेष रूप से बहुत बड़े डेटा सेट पर [[ प्रचय संसाधन |प्रचय संसाधन]] को संभालने के लिए बनाए गए हैं। उसके लिए, निम्नलिखित परिकल्पनाओं को ध्यान में रखा जाना चाहिए:<ref name="Krzyzanowski_p2" />* उच्च उपलब्धता: कंप्यूटर क्लस्टर में हजारों फ़ाइल सर्वर हो सकते हैं और उनमें से कुछ किसी भी समय बंद हो सकते हैं
* एक सर्वर रैक, कमरे, डाटा सेंटर, देश और महाद्वीप से संबंधित होता है, जिससे कि इसकी भौगोलिक स्थिति की सटीक पहचान की जा सके।
*एक सर्वर रैक, कमरे, डाटा सेंटर, देश और महाद्वीप से संबंधित होता है, जिससे कि इसकी भौगोलिक स्थिति की सटीक पहचान की जा सके।
* फ़ाइल का आकार कई गीगाबाइट्स से कई टेराबाइट्स तक भिन्न हो सकता है। फाइल सिस्टम बड़ी संख्या में फाइलों का समर्थन करने में सक्षम होना चाहिए।
*फ़ाइल का आकार कई गीगाबाइट्स से कई टेराबाइट्स तक भिन्न हो सकता है। फाइल सिस्टम बड़ी संख्या में फाइलों का समर्थन करने में सक्षम होना चाहिए।
* एपेंड ऑपरेशंस को सपोर्ट करने और फाइल लिखे जाने के समय भी फाइल कंटेंट को दिखने की अनुमति देने की जरूरत होती है।
*एपेंड ऑपरेशंस को सपोर्ट करने और फाइल लिखे जाने के समय भी फाइल कंटेंट को दिखने की अनुमति देने की जरूरत होती है।
* कार्य करने वाली मशीनों के बीच संचार विश्वसनीय है: ट्रांसमिशन कंट्रोल प्रोटोकॉल या टीसीपी / आईपी का उपयोग [[ दुरस्तह प्रकिया कॉल ]] कम्युनिकेशन एब्स्ट्रैक्शन के साथ किया जाता है। टीसीपी क्लाइंट को समस्या होने पर और नया कनेक्शन बनाने की आवश्यकता होने पर लगभग तुरंत जानने की अनुमति देता है।<ref>{{harvnb|Pavel Bžoch |p=7}}</ref>
*कार्य करने वाली मशीनों के बीच संचार विश्वसनीय है: ट्रांसमिशन कंट्रोल प्रोटोकॉल या टीसीपी / आईपी का उपयोग [[ दुरस्तह प्रकिया कॉल |दुरस्तह प्रकिया कॉल]] कम्युनिकेशन एब्स्ट्रैक्शन के साथ किया जाता है। टीसीपी क्लाइंट को समस्या होने पर और नया कनेक्शन बनाने की आवश्यकता होने पर लगभग तुरंत जानने की अनुमति देता है।<ref>{{harvnb|Pavel Bžoch |p=7}}</ref>
===== भार संतुलन =====
=====भार संतुलन=====


वितरित वातावरण में कुशल संचालन के लिए भार संतुलन आवश्यक है। इसका प्रकार विभिन्न सर्वरों के बीच कार्य बांटना,<ref>{{harvnb|Kai|Dayang|Hui|Yintang|2013|p=23}}</ref> निष्पक्ष रूप से, समान समय में अधिक कार्य करने के लिए और ग्राहकों को तेजी से सेवा देने के लिए इसका उपयोग किया जाता हैं। क्लाउड में एन चंकसर्वर वाले सिस्टम में (एन 1000, 10000, या अधिक), जहां फाइलों की निश्चित संख्या संग्रहीत की जाती है, प्रत्येक फ़ाइल को कई भागों में विभाजित किया जाता है या निश्चित आकार के टुकड़े (उदाहरण के लिए, 64 मेगाबाइट्स), प्रत्येक चंकसर्वर का लोड सर्वर द्वारा होस्ट किए गए चंक्स की संख्या के समानुपाती होता है।<ref name="ReferenceA">{{harvnb|Hsiao|Chung|Shen|Chao|2013|p=2}}</ref> लोड-संतुलित क्लाउड में, मैपरेड्यूस- आधारित अनुप्रयोगों के प्रदर्शन को अधिकतम करते हुए संसाधनों का कुशलतापूर्वक उपयोग किया जा सकता है।
वितरित वातावरण में कुशल संचालन के लिए भार संतुलन आवश्यक है। इसका प्रकार विभिन्न सर्वरों के बीच कार्य बांटना,<ref>{{harvnb|Kai|Dayang|Hui|Yintang|2013|p=23}}</ref> निष्पक्ष रूप से, समान समय में अधिक कार्य करने के लिए और ग्राहकों को तेजी से सेवा देने के लिए इसका उपयोग किया जाता हैं। क्लाउड में एन चंकसर्वर वाले सिस्टम में (एन 1000, 10000, या अधिक), जहां फाइलों की निश्चित संख्या संग्रहीत की जाती है, प्रत्येक फ़ाइल को कई भागों में विभाजित किया जाता है या निश्चित आकार के टुकड़े (उदाहरण के लिए, 64 मेगाबाइट्स), प्रत्येक चंकसर्वर का लोड सर्वर द्वारा होस्ट किए गए चंक्स की संख्या के समानुपाती होता है।<ref name="ReferenceA">{{harvnb|Hsiao|Chung|Shen|Chao|2013|p=2}}</ref> लोड-संतुलित क्लाउड में, मैपरेड्यूस- आधारित अनुप्रयोगों के प्रदर्शन को अधिकतम करते हुए संसाधनों का कुशलतापूर्वक उपयोग किया जा सकता है।


===== भार पुनर्संतुलन =====
=====भार पुनर्संतुलन =====


क्लाउड कम्प्यूटिंग परिवेश में, विफलता आदर्श है,<ref>{{harvnb|Hsiao|Chung|Shen|Chao|2013|p=952}}</ref><ref>{{harvnb|Ghemawat|Gobioff|Leung|2003|p=1}}</ref> और चंकसर्वर्स को अपग्रेड, रिप्लेस और सिस्टम में जोड़ा जा सकता है। फ़ाइलें भी गतिशील रूप से बनाई, हटाई और संलग्न की जा सकती हैं। इससे वितरित फ़ाइल सिस्टम में असंतुलन लोड हो जाता है, जिसका अर्थ है कि फ़ाइल भाग सर्वरों के बीच समान रूप से वितरित नहीं होते हैं।
क्लाउड कम्प्यूटिंग परिवेश में, विफलता आदर्श है,<ref>{{harvnb|Hsiao|Chung|Shen|Chao|2013|p=952}}</ref><ref>{{harvnb|Ghemawat|Gobioff|Leung|2003|p=1}}</ref> और चंकसर्वर्स को अपग्रेड, रिप्लेस और सिस्टम में जोड़ा जा सकता है। फ़ाइलें भी गतिशील रूप से बनाई, हटाई और संलग्न की जा सकती हैं। इससे वितरित फ़ाइल सिस्टम में असंतुलन लोड हो जाता है, जिसका अर्थ है कि फ़ाइल भाग सर्वरों के बीच समान रूप से वितरित नहीं होते हैं।
Line 45: Line 45:


सहयोग में कार्य करने के लिए बड़ी संख्या में चंकसर्वर प्राप्त करने के लिए, और वितरित फ़ाइल सिस्टम में लोड संतुलन की समस्या को हल करने के लिए, कई दृष्टिकोण प्रस्तावित किए गए हैं, जैसे कि फ़ाइल चंक्स को पुनः प्राप्त करना जिससे कि आंदोलन लागत जितना संभव हो चंक्स को कम करते हुए समान रूप से वितरित किया जा सके।<ref name="ReferenceA" />
सहयोग में कार्य करने के लिए बड़ी संख्या में चंकसर्वर प्राप्त करने के लिए, और वितरित फ़ाइल सिस्टम में लोड संतुलन की समस्या को हल करने के लिए, कई दृष्टिकोण प्रस्तावित किए गए हैं, जैसे कि फ़ाइल चंक्स को पुनः प्राप्त करना जिससे कि आंदोलन लागत जितना संभव हो चंक्स को कम करते हुए समान रूप से वितरित किया जा सके।<ref name="ReferenceA" />
==== गूगल फाइल सिस्टम ====
====गूगल फाइल सिस्टम====
===== विवरण =====
=====विवरण=====
गूगल, सबसे बड़ी इंटरनेट कंपनियों में से एक, ने गूगल की डेटा प्रोसेसिंग आवश्यकताओं की तेजी से बढ़ती मांगों को पूरा करने के लिए गूगल फ़ाइल सिस्टम (जीएफएस) नाम से अपना स्वयं का वितरित फ़ाइल सिस्टम बनाया है, और इसका उपयोग सभी क्लाउड सेवाओं के लिए किया जाता है। जीएफएस डेटा-गहन अनुप्रयोगों के लिए मापनीय वितरित फ़ाइल सिस्टम है। यह दोष-सहिष्णु, उच्च-प्रदर्शन डेटा भंडारण प्रदान करता है, बड़ी संख्या में ग्राहक इसे साथ एक्सेस करते हैं।
गूगल, सबसे बड़ी इंटरनेट कंपनियों में से एक, ने गूगल की डेटा प्रोसेसिंग आवश्यकताओं की तेजी से बढ़ती मांगों को पूरा करने के लिए गूगल फ़ाइल सिस्टम (जीएफएस) नाम से अपना स्वयं का वितरित फ़ाइल सिस्टम बनाया है, और इसका उपयोग सभी क्लाउड सेवाओं के लिए किया जाता है। जीएफएस डेटा-गहन अनुप्रयोगों के लिए मापनीय वितरित फ़ाइल सिस्टम है। यह दोष-सहिष्णु, उच्च-प्रदर्शन डेटा भंडारण प्रदान करता है, बड़ी संख्या में ग्राहक इसे साथ एक्सेस करते हैं।


जीएफएस मैपरेड्यूस का उपयोग करता है, जो उपयोगकर्ताओं को समांतरता और लोड-बैलेंसिंग मुद्दों के बारे में सोचे बिना प्रोग्राम बनाने और उन्हें कई मशीनों पर चलाने की अनुमति देता है। जीएफएस आर्किटेक्चर कई चंकसर्वर्स और कई क्लाइंट्स के लिए मास्टर सर्वर होने पर आधारित है।<ref>{{harvnb|Di Sano|Di Stefano|Morana|Zito|2012|pp=1–2}}</ref>
जीएफएस मैपरेड्यूस का उपयोग करता है, जो उपयोगकर्ताओं को समांतरता और लोड-बैलेंसिंग मुद्दों के बारे में सोचे बिना प्रोग्राम बनाने और उन्हें कई मशीनों पर चलाने की अनुमति देता है। जीएफएस आर्किटेक्चर कई चंकसर्वर्स और कई क्लाइंट्स के लिए मास्टर सर्वर होने पर आधारित है।<ref>{{harvnb|Di Sano|Di Stefano|Morana|Zito|2012|pp=1–2}}</ref>


समर्पित नोड में चलने वाला मास्टर सर्वर भंडारण संसाधनों के समन्वय और फाइलों के [[ मेटा डेटा | मेटा डेटा]] (उदाहरण के लिए, क्लासिकल फाइल सिस्टम में इनोड्स के समतुल्य) के प्रबंधन के लिए जिम्मेदार है।<ref name="Krzyzanowski_p2">{{harvnb|Krzyzanowski|2012|p=2}}</रेफरी>
समर्पित नोड में चलने वाला मास्टर सर्वर भंडारण संसाधनों के समन्वय और फाइलों के [[ मेटा डेटा |मेटा डेटा]] (उदाहरण के लिए, क्लासिकल फाइल सिस्टम में इनोड्स के समतुल्य) के प्रबंधन के लिए जिम्मेदार है।<ref name="Krzyzanowski_p2">{{harvnb|Krzyzanowski|2012|p=2}}</रेफरी>
प्रत्येक फ़ाइल 64 मेगाबाइट के कई हिस्सों में विभाजित है। प्रत्येक चंक को एक चंक सर्वर में संग्रहित किया जाता है। चंक की पहचान चंक हैंडल द्वारा की जाती है, जो विश्व स्तर पर अद्वितीय 64-बिट संख्या है जिसे मास्टर द्वारा असाइन किया जाता है जब चंक पहली बार बनाया जाता है।
प्रत्येक फ़ाइल 64 मेगाबाइट के कई हिस्सों में विभाजित है। प्रत्येक चंक को एक चंक सर्वर में संग्रहित किया जाता है। चंक की पहचान चंक हैंडल द्वारा की जाती है, जो विश्व स्तर पर अद्वितीय 64-बिट संख्या है जिसे मास्टर द्वारा असाइन किया जाता है जब चंक पहली बार बनाया जाता है।


Line 62: Line 62:
मास्टर इस बात पर नज़र रखता है कि चंक कहाँ स्थित है। चूंकि, यह चंक स्थानों को ठीक से बनाए रखने का प्रयास नहीं करता है, लेकिन केवल कभी-कभार ही चंक सर्वर से संपर्क करता है, यह देखने के लिए कि उन्होंने कौन से चंक को संग्रहीत किया है।<ref>{{harvnb|Andrew |Maarten |2006|p=497}}</ref> यह मापनीयता के लिए अनुमति देता है, और बढ़ते वर्कलोड के कारण बाधाओं को रोकने में मदद करता है।<ref>{{harvnb|Humbetov|2012|p=3}}</ref>
मास्टर इस बात पर नज़र रखता है कि चंक कहाँ स्थित है। चूंकि, यह चंक स्थानों को ठीक से बनाए रखने का प्रयास नहीं करता है, लेकिन केवल कभी-कभार ही चंक सर्वर से संपर्क करता है, यह देखने के लिए कि उन्होंने कौन से चंक को संग्रहीत किया है।<ref>{{harvnb|Andrew |Maarten |2006|p=497}}</ref> यह मापनीयता के लिए अनुमति देता है, और बढ़ते वर्कलोड के कारण बाधाओं को रोकने में मदद करता है।<ref>{{harvnb|Humbetov|2012|p=3}}</ref>
जीएफएस में, अधिकांश फाइलें नए डेटा को जोड़कर और सम्मलित डेटा को अधिलेखित नहीं करके संशोधित की जाती हैं। बार लिखे जाने के बाद, फ़ाइलों को सामान्यतः बेतरतीब ढंग से पढ़ने के अतिरिक्त केवल क्रमिक रूप से पढ़ा जाता है, और यह इस डिएफएस को उन परिदृश्यों के लिए सबसे उपयुक्त बनाता है जिनमें कई बड़ी फाइलें बार बनाई जाती हैं लेकिन कई बार पढ़ी जाती हैं।<ref>{{harvnb|Humbetov|2012|p=5}}</ref><ref>{{harvnb|Andrew|Maarten|2006|p=498}}</ref>
जीएफएस में, अधिकांश फाइलें नए डेटा को जोड़कर और सम्मलित डेटा को अधिलेखित नहीं करके संशोधित की जाती हैं। बार लिखे जाने के बाद, फ़ाइलों को सामान्यतः बेतरतीब ढंग से पढ़ने के अतिरिक्त केवल क्रमिक रूप से पढ़ा जाता है, और यह इस डिएफएस को उन परिदृश्यों के लिए सबसे उपयुक्त बनाता है जिनमें कई बड़ी फाइलें बार बनाई जाती हैं लेकिन कई बार पढ़ी जाती हैं।<ref>{{harvnb|Humbetov|2012|p=5}}</ref><ref>{{harvnb|Andrew|Maarten|2006|p=498}}</ref>
===== फाइल प्रोसेसिंग =====
=====फाइल प्रोसेसिंग=====
जब क्लाइंट किसी फ़ाइल को लिखना/अद्यतन करना चाहता है, तो मास्टर प्रतिकृति असाइन करेगा, जो प्राथमिक प्रतिकृति होगी यदि यह पहला संशोधन है। लेखन की प्रक्रिया दो चरणों से बनी है:<ref name="Krzyzanowski_p2" />* भेजना: सबसे पहले, और अब तक का सबसे महत्वपूर्ण, क्लाइंट यह पता लगाने के लिए मास्टर से संपर्क करता है कि कौन सा चंक सर्वर डेटा रखता है। क्लाइंट को प्राथमिक और द्वितीयक चंक सर्वर की पहचान करने वाली प्रतिकृतियों की सूची दी जाती है। क्लाइंट तब निकटतम प्रतिकृति चंक सर्वर से संपर्क करता है और उसे डेटा भेजता है। यह सर्वर डेटा को अगले निकटतम को भेजेगा, जो फिर इसी प्रकार इसे और प्रतिकृति के लिए अग्रेषित करेगा। डेटा को तब प्रचारित किया जाता है और मेमोरी में कैश किया जाता है लेकिन अभी तक फ़ाइल में नहीं लिखा गया है।
जब क्लाइंट किसी फ़ाइल को लिखना/अद्यतन करना चाहता है, तो मास्टर प्रतिकृति असाइन करेगा, जो प्राथमिक प्रतिकृति होगी यदि यह पहला संशोधन है। लेखन की प्रक्रिया दो चरणों से बनी है:<ref name="Krzyzanowski_p2" />* भेजना: सबसे पहले, और अब तक का सबसे महत्वपूर्ण, क्लाइंट यह पता लगाने के लिए मास्टर से संपर्क करता है कि कौन सा चंक सर्वर डेटा रखता है। क्लाइंट को प्राथमिक और द्वितीयक चंक सर्वर की पहचान करने वाली प्रतिकृतियों की सूची दी जाती है। क्लाइंट तब निकटतम प्रतिकृति चंक सर्वर से संपर्क करता है और उसे डेटा भेजता है। यह सर्वर डेटा को अगले निकटतम को भेजेगा, जो फिर इसी प्रकार इसे और प्रतिकृति के लिए अग्रेषित करेगा। डेटा को तब प्रचारित किया जाता है और मेमोरी में कैश किया जाता है लेकिन अभी तक फ़ाइल में नहीं लिखा गया है।
* लेखन: जब सभी प्रतिकृतियां डेटा प्राप्त कर लेती हैं, तो ग्राहक प्राथमिक चंक सर्वर को लिखित अनुरोध भेजता है, जो भेजने के चरण में भेजे गए डेटा की पहचान करता है। प्राथमिक सर्वर तब प्राप्त होने वाले लेखन कार्यों के लिए अनुक्रम संख्या निर्दिष्ट करेगा, क्रम संख्या क्रम में फ़ाइल को लिखता है, और उस क्रम में लिखने के अनुरोधों को द्वितीयक को अग्रेषित करेगा। इस बीच, मास्टर को पाश से बाहर रखा जाता है।
* लेखन: जब सभी प्रतिकृतियां डेटा प्राप्त कर लेती हैं, तो ग्राहक प्राथमिक चंक सर्वर को लिखित अनुरोध भेजता है, जो भेजने के चरण में भेजे गए डेटा की पहचान करता है। प्राथमिक सर्वर तब प्राप्त होने वाले लेखन कार्यों के लिए अनुक्रम संख्या निर्दिष्ट करेगा, क्रम संख्या क्रम में फ़ाइल को लिखता है, और उस क्रम में लिखने के अनुरोधों को द्वितीयक को अग्रेषित करेगा। इस बीच, मास्टर को पाश से बाहर रखा जाता है।


परिणाम स्वरुप, हम दो प्रकार के प्रवाहों में अंतर कर सकते हैं: डेटा प्रवाह और नियंत्रण प्रवाह। डेटा प्रवाह भेजने के चरण से जुड़ा है और नियंत्रण प्रवाह लेखन चरण से जुड़ा है। यह आश्वासन देता है कि प्राथमिक चंक सर्वर लेखन क्रम को नियंत्रित करता है। ध्यान दें कि जब मास्टर किसी रेप्लिका को राइट ऑपरेशन असाइन करता है, तो यह चंक वर्जन नंबर को बढ़ाता है और सभी रेप्लिका को नए वर्जन नंबर के उस चंक को सूचित करता है। चंक वर्जन नंबर अपडेट एरर-डिटेक्शन की अनुमति देते हैं, यदि प्रतिकृति को अपडेट नहीं किया गया था क्योंकि इसका चंक सर्वर डाउन था।<ref>{{harvnb|Krzyzanowski|2012|p=5}}</ref> कुछ नए गूगल एप्लिकेशन 64-मेगाबाइट चंक आकार के साथ ठीक से कार्य नहीं कर पाए। उस समस्या को हल करने के लिए, जीएफएस ने 2004 में [[ बड़े मेज ]] दृष्टिकोण को लागू करना शुरू किया।<ref>{{Cite web | url=https://arstechnica.com/business/2012/01/the-big-disk-drive-in-the-sky-how-the-giants-of-the-web-store-big-data/ | title=द ग्रेट डिस्क ड्राइव इन द स्काई: कैसे वेब दिग्गज बड़े स्टोर करते हैं - और हमारा मतलब बड़ा डेटा है| date=2012-01-27}}</ref>
परिणाम स्वरुप, हम दो प्रकार के प्रवाहों में अंतर कर सकते हैं: डेटा प्रवाह और नियंत्रण प्रवाह। डेटा प्रवाह भेजने के चरण से जुड़ा है और नियंत्रण प्रवाह लेखन चरण से जुड़ा है। यह आश्वासन देता है कि प्राथमिक चंक सर्वर लेखन क्रम को नियंत्रित करता है। ध्यान दें कि जब मास्टर किसी रेप्लिका को राइट ऑपरेशन असाइन करता है, तो यह चंक वर्जन नंबर को बढ़ाता है और सभी रेप्लिका को नए वर्जन नंबर के उस चंक को सूचित करता है। चंक वर्जन नंबर अपडेट एरर-डिटेक्शन की अनुमति देते हैं, यदि प्रतिकृति को अपडेट नहीं किया गया था क्योंकि इसका चंक सर्वर डाउन था।<ref>{{harvnb|Krzyzanowski|2012|p=5}}</ref> कुछ नए गूगल एप्लिकेशन 64-मेगाबाइट चंक आकार के साथ ठीक से कार्य नहीं कर पाए। उस समस्या को हल करने के लिए, जीएफएस ने 2004 में [[ बड़े मेज |बड़े मेज]] दृष्टिकोण को लागू करना शुरू किया।<ref>{{Cite web | url=https://arstechnica.com/business/2012/01/the-big-disk-drive-in-the-sky-how-the-giants-of-the-web-store-big-data/ | title=द ग्रेट डिस्क ड्राइव इन द स्काई: कैसे वेब दिग्गज बड़े स्टोर करते हैं - और हमारा मतलब बड़ा डेटा है| date=2012-01-27}}</ref>
==== हडूप वितरित फाइल सिस्टम ====
====हडूप वितरित फाइल सिस्टम====






{{abbr|एचडीएफसी|हडूप वितरित फ़ाइल सिस्टम}}, [[ Apache Software Foundation | अपाचे साफ्टवेयर फाउडेंशन]] द्वारा विकसित, [[वितरित फ़ाइल सिस्टम]] है जिसे बहुत बड़ी मात्रा में डेटा (टेराबाइट्स या पेटाबाइट्स) रखने के लिए डिज़ाइन किया गया है। इसका आर्किटेक्चर जीएफएस के समान है, अर्ताथ मास्टर/स्लेव आर्किटेक्चर। एचडीएफएस सामान्यतः कंप्यूटर के क्लस्टर पर स्थापित होता है। हडूप की डिज़ाइन अवधारणा को गूगल द्वारा सूचित किया गया है, गूगल फाइल सिस्टम, गूगल मैपरेड्यूस और बिगटेबल के साथ, क्रमशः हडूप डिस्ट्रिब्यूटेड फ़ाइल सिस्टम (एचडीएफसी), हडूप मैपरेड्यूस और हडूप बेस (Hबेस) द्वारा कार्यान्वित किया जा रहा है।<ref>{{harvnb|Fan-Hsun|Chi-Yuan| Li-Der| Han-Chieh|2012|p=2}}</ref> जीएफएस की प्रकार, एचडीएफएस राइट-वन्स-रीड-मैनी फाइल एक्सेस वाले परिदृश्यों के लिए अनुकूल है, और डेटा सुसंगतता के मुद्दों को सरल बनाने के लिए रैंडम रीड और राइट के बदले फाइल एपेंड और ट्रंकेट का समर्थन करता है।<ref>{{Cite web | url=http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html#Assumptions_and_Goals | title=Apache Hadoop 2.9.2 – HDFS आर्किटेक्चर}}</ref> एचडीएफसी क्लस्टर में नेमनोड और कई डेटानोड मशीनें होती हैं। नेमनोड, मास्टर सर्वर, अपने रैम में स्टोरेज डेटानोडs के मेटाडेटा का प्रबंधन और रखरखाव करता है। डेटानोड्स उन नोड्स से जुड़े स्टोरेज का प्रबंधन करता है जिन पर वे चलते हैं। नेमनोड और डेटानोड ऐसे सॉफ़्टवेयर हैं जिन्हें दैनिक उपयोग की मशीनों पर चलाने के लिए डिज़ाइन किया गया है, जो सामान्यतः लाइनेक्स ओएस के अंतर्गत चलते हैं। एचडीएफसी को किसी भी मशीन पर चलाया जा सकता है जो जावा का समर्थन करती है और इसलिए नेमनोड या डेटानोड सॉफ़्टवेयर चला सकती है।<ref>{{harvnb|Azzedin|2013|p=2}}</ref>
{{abbr|एचडीएफसी|हडूप वितरित फ़ाइल सिस्टम}}, [[ Apache Software Foundation |अपाचे साफ्टवेयर फाउडेंशन]] द्वारा विकसित, [[वितरित फ़ाइल सिस्टम]] है जिसे बहुत बड़ी मात्रा में डेटा (टेराबाइट्स या पेटाबाइट्स) रखने के लिए डिज़ाइन किया गया है। इसका आर्किटेक्चर जीएफएस के समान है, अर्ताथ मास्टर/स्लेव आर्किटेक्चर। एचडीएफएस सामान्यतः कंप्यूटर के क्लस्टर पर स्थापित होता है। हडूप की डिज़ाइन अवधारणा को गूगल द्वारा सूचित किया गया है, गूगल फाइल सिस्टम, गूगल मैपरेड्यूस और बिगटेबल के साथ, क्रमशः हडूप डिस्ट्रिब्यूटेड फ़ाइल सिस्टम (एचडीएफसी), हडूप मैपरेड्यूस और हडूप बेस (Hबेस) द्वारा कार्यान्वित किया जा रहा है।<ref>{{harvnb|Fan-Hsun|Chi-Yuan| Li-Der| Han-Chieh|2012|p=2}}</ref> जीएफएस की प्रकार, एचडीएफएस राइट-वन्स-रीड-मैनी फाइल एक्सेस वाले परिदृश्यों के लिए अनुकूल है, और डेटा सुसंगतता के मुद्दों को सरल बनाने के लिए रैंडम रीड और राइट के बदले फाइल एपेंड और ट्रंकेट का समर्थन करता है।<ref>{{Cite web | url=http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html#Assumptions_and_Goals | title=Apache Hadoop 2.9.2 – HDFS आर्किटेक्चर}}</ref> एचडीएफसी क्लस्टर में नेमनोड और कई डेटानोड मशीनें होती हैं। नेमनोड, मास्टर सर्वर, अपने रैम में स्टोरेज डेटानोडs के मेटाडेटा का प्रबंधन और रखरखाव करता है। डेटानोड्स उन नोड्स से जुड़े स्टोरेज का प्रबंधन करता है जिन पर वे चलते हैं। नेमनोड और डेटानोड ऐसे सॉफ़्टवेयर हैं जिन्हें दैनिक उपयोग की मशीनों पर चलाने के लिए डिज़ाइन किया गया है, जो सामान्यतः लाइनेक्स ओएस के अंतर्गत चलते हैं। एचडीएफसी को किसी भी मशीन पर चलाया जा सकता है जो जावा का समर्थन करती है और इसलिए नेमनोड या डेटानोड सॉफ़्टवेयर चला सकती है।<ref>{{harvnb|Azzedin|2013|p=2}}</ref>


एचडीएफसी क्लस्टर पर, अंतिम ब्लॉक के छोटे होने की संभावना को छोड़कर, फ़ाइल को या अधिक समान आकार के ब्लॉक में विभाजित किया जाता है। प्रत्येक ब्लॉक को कई डेटानोड्स पर संग्रहीत किया जाता है, और उपलब्धता की गारंटी के लिए प्रत्येक को कई डेटानोड्स पर दोहराया जा सकता है। डिफ़ॉल्ट रूप से, प्रत्येक ब्लॉक को तीन बार दोहराया जाता है, प्रक्रिया जिसे ब्लॉक लेवल प्रतिकृति कहा जाता है।<ref name="admaov_2">{{harvnb|Adamov|2012|p=2}}</रेफरी>
एचडीएफसी क्लस्टर पर, अंतिम ब्लॉक के छोटे होने की संभावना को छोड़कर, फ़ाइल को या अधिक समान आकार के ब्लॉक में विभाजित किया जाता है। प्रत्येक ब्लॉक को कई डेटानोड्स पर संग्रहीत किया जाता है, और उपलब्धता की गारंटी के लिए प्रत्येक को कई डेटानोड्स पर दोहराया जा सकता है। डिफ़ॉल्ट रूप से, प्रत्येक ब्लॉक को तीन बार दोहराया जाता है, प्रक्रिया जिसे ब्लॉक लेवल प्रतिकृति कहा जाता है।<ref name="admaov_2">{{harvnb|Adamov|2012|p=2}}</रेफरी>
Line 83: Line 83:


====अन्य उदाहरण====
====अन्य उदाहरण====
वितरित फ़ाइल सिस्टम को विभिन्न उद्देश्यों के लिए अनुकूलित किया जा सकता है। कुछ, जैसे कि जीएफएस सहित इंटरनेट सेवाओं के लिए डिज़ाइन किए गए, स्केलेबिलिटी के लिए अनुकूलित हैं। वितरित फ़ाइल सिस्टम के लिए अन्य डिज़ाइन प्रदर्शन-गहन अनुप्रयोगों का समर्थन करते हैं जो आमतौर पर समानांतर में निष्पादित होते हैं।<nowiki><ref></nowiki>{{harvnb|Soares| Dantas†|de Macedo|Bauer|2013|p=158}}</ref> कुछ उदाहरणों में सम्मलित हैं: [[ मैपआर एफएस | मैपआर एफएस]] (मैपआर-एफएस), सेफ (स्टोरेज) | सेफ-एफएस, [[ बीईजीएफएस | बीईजीएफएस]] या फ्राउनहोफर फाइल सिस्टम (बीईजीएफएस), लस्टर (फाइल सिस्टम), [[ आईबीएम जनरल समानांतर फाइल सिस्टम | आईबीएम जनरल समानांतर फाइल सिस्टम]] (जीपीएफएस), और [[ समानांतर वर्चुअल फाइल सिस्टम | समानांतर वर्चुअल फाइल सिस्टम]] इसका मुख्य उदाहरण हैं।  
वितरित फ़ाइल सिस्टम को विभिन्न उद्देश्यों के लिए अनुकूलित किया जा सकता है। कुछ, जैसे कि जीएफएस सहित इंटरनेट सेवाओं के लिए डिज़ाइन किए गए, स्केलेबिलिटी के लिए अनुकूलित हैं। वितरित फ़ाइल सिस्टम के लिए अन्य डिज़ाइन प्रदर्शन-गहन अनुप्रयोगों का समर्थन करते हैं जो आमतौर पर समानांतर में निष्पादित होते हैं।<nowiki><ref></nowiki>{{harvnb|Soares| Dantas†|de Macedo|Bauer|2013|p=158}}</ref> कुछ उदाहरणों में सम्मलित हैं: [[ मैपआर एफएस |मैपआर एफएस]] (मैपआर-एफएस), सेफ (स्टोरेज) | सेफ-एफएस, [[ बीईजीएफएस |बीईजीएफएस]] या फ्राउनहोफर फाइल सिस्टम (बीईजीएफएस), लस्टर (फाइल सिस्टम), [[ आईबीएम जनरल समानांतर फाइल सिस्टम |आईबीएम जनरल समानांतर फाइल सिस्टम]] (जीपीएफएस), और [[ समानांतर वर्चुअल फाइल सिस्टम |समानांतर वर्चुअल फाइल सिस्टम]] इसका मुख्य उदाहरण हैं।  


मैपआर-एफएस वितरित फाइल सिस्टम है जो मैपआर कन्वर्जेड प्लेटफॉर्म का आधार है, जिसमें वितरित फाइल स्टोरेज की क्षमता, कई एपीआई के साथ नोएसक्यूएल डेटाबेस और एकीकृत संदेश स्ट्रीमिंग सिस्टम है। मैपआर-एफएस मापनीयता, प्रदर्शन, विश्वसनीयता और उपलब्धता के लिए अनुकूलित है। इसकी फाइल स्टोरेज क्षमता अपाचे हडूप डिस्ट्रिब्यूटेड फाइल सिस्टम (एचडीएफसी) एपीआई के साथ संगत है, लेकिन कई डिज़ाइन विशेषताओं के साथ जो इसे एचडीएफसी से अलग करती हैं। सबसे उल्लेखनीय अंतरों में से यह है कि मैपआर-एफएस पूरी प्रकार से पढ़ने/लिखने वाला फाइल सिस्टम है जिसमें फाइलों और निर्देशिकाओं के लिए मेटाडेटा नामस्थान में वितरित किया जाता है, इसलिए कोई नामनोड नहीं है।<ref name="mapr-productivity">{{cite web|last1=Perez|first1=Nicolas|title=कैसे MapR हमारी उत्पादकता में सुधार करता है और हमारे डिजाइन को सरल करता है|url=https://medium.com/@anicolaspp/how-mapr-improves-our-productivity-and-simplify-our-design-2d777ab53120#.mvr6mmydr|website=Medium|publisher=Medium|access-date=June 21, 2016|date=2016-01-02}}</ref><ref>{{cite web|last1=Woodie|first1=Alex|title=Hadoop से Zeta तक: MapR के अभिसरण रूपांतरण के अंदर|url=http://www.datanami.com/2016/03/08/from-hadoop-to-zeta-inside-maprs-convergence-conversion/|website=Datanami|publisher=Tabor Communications Inc.|access-date=June 21, 2016|date=2016-03-08}}</ref><ref>{{cite web|last1=Brennan|first1=Bob|title=फ्लैश मेमोरी समिट|url=https://www.youtube.com/watch?v=fOT63zR7PvU&t=1682|website=youtube|publisher=Samsung|access-date=June 21, 2016}}</ref><ref name="maprfs-video">{{cite web|last1=Srivas|first1=MC|title=मैपआर फाइल सिस्टम|url=https://www.youtube.com/watch?v=fP4HnvZmpZI|website=Hadoop Summit 2011|publisher=Hortonworks|access-date=June 21, 2016}}</ref><ref name="real-world-hadoop">{{cite book|last1=Dunning|first1=Ted|last2=Friedman|first2=Ellen|title=रियल वर्ल्ड हडूप|date=January 2015|publisher=O'Reilly Media, Inc|location=Sebastopol, CA|isbn=978-1-4919-2395-5|pages=23–28|edition=First|chapter-url=http://shop.oreilly.com/product/0636920038450.do|access-date=June 21, 2016|language=en|chapter=Chapter 3: Understanding the MapR Distribution for Apache Hadoop}}</ref> सेफ-एफएस वितरित फाइल सिस्टम है जो उत्कृष्ट प्रदर्शन और विश्वसनीयता प्रदान करता है।<ref>{{harvnb|Weil|Brandt|Miller|Long|2006|p=307}}</ref> यह बड़ी फ़ाइलों और निर्देशिकाओं से निपटने की चुनौतियों का जवाब देता है, हजारों डिस्क की गतिविधि का समन्वय करता है, बड़े पैमाने पर मेटाडेटा तक समानांतर पहुंच प्रदान करता है, वैज्ञानिक और सामान्य-उद्देश्य दोनों वर्कलोड में हेरफेर करता है, बड़े पैमाने पर प्रमाणीकरण और एन्क्रिप्ट करता है, और बढ़ता है या बार-बार डिवाइस डीकमीशनिंग, डिवाइस विफलताओं और क्लस्टर विस्तार के कारण गतिशील रूप से कम हो रहा है।<ref>{{harvnb|Maltzahn|Molina-Estolano|Khurana|Nelson|2010|p=39}}</ref> बीजीएफएस उच्च प्रदर्शन कम्प्यूटिंग के लिए फ्राउनहाफर कन्पेटेंस केंद्र का उच्च-प्रदर्शन समानांतर फ़ाइल सिस्टम है। बीजीएफएस के वितरित मेटाडेटा आर्किटेक्चर को उच्च I/O मांगों के साथ [[ उच्च प्रदर्शन कंप्यूटिंग | उच्च प्रदर्शन कंप्यूटिंग]] और इसी प्रकार के अनुप्रयोगों को चलाने के लिए आवश्यक मापनीयता और लचीलापन प्रदान करने के लिए डिज़ाइन किया गया है।<ref>{{harvnb|Jacobi|Lingemann|p=10}}</ref>
मैपआर-एफएस वितरित फाइल सिस्टम है जो मैपआर कन्वर्जेड प्लेटफॉर्म का आधार है, जिसमें वितरित फाइल स्टोरेज की क्षमता, कई एपीआई के साथ नोएसक्यूएल डेटाबेस और एकीकृत संदेश स्ट्रीमिंग सिस्टम है। मैपआर-एफएस मापनीयता, प्रदर्शन, विश्वसनीयता और उपलब्धता के लिए अनुकूलित है। इसकी फाइल स्टोरेज क्षमता अपाचे हडूप डिस्ट्रिब्यूटेड फाइल सिस्टम (एचडीएफसी) एपीआई के साथ संगत है, लेकिन कई डिज़ाइन विशेषताओं के साथ जो इसे एचडीएफसी से अलग करती हैं। सबसे उल्लेखनीय अंतरों में से यह है कि मैपआर-एफएस पूरी प्रकार से पढ़ने/लिखने वाला फाइल सिस्टम है जिसमें फाइलों और निर्देशिकाओं के लिए मेटाडेटा नामस्थान में वितरित किया जाता है, इसलिए कोई नामनोड नहीं है।<ref name="mapr-productivity">{{cite web|last1=Perez|first1=Nicolas|title=कैसे MapR हमारी उत्पादकता में सुधार करता है और हमारे डिजाइन को सरल करता है|url=https://medium.com/@anicolaspp/how-mapr-improves-our-productivity-and-simplify-our-design-2d777ab53120#.mvr6mmydr|website=Medium|publisher=Medium|access-date=June 21, 2016|date=2016-01-02}}</ref><ref>{{cite web|last1=Woodie|first1=Alex|title=Hadoop से Zeta तक: MapR के अभिसरण रूपांतरण के अंदर|url=http://www.datanami.com/2016/03/08/from-hadoop-to-zeta-inside-maprs-convergence-conversion/|website=Datanami|publisher=Tabor Communications Inc.|access-date=June 21, 2016|date=2016-03-08}}</ref><ref>{{cite web|last1=Brennan|first1=Bob|title=फ्लैश मेमोरी समिट|url=https://www.youtube.com/watch?v=fOT63zR7PvU&t=1682|website=youtube|publisher=Samsung|access-date=June 21, 2016}}</ref><ref name="maprfs-video">{{cite web|last1=Srivas|first1=MC|title=मैपआर फाइल सिस्टम|url=https://www.youtube.com/watch?v=fP4HnvZmpZI|website=Hadoop Summit 2011|publisher=Hortonworks|access-date=June 21, 2016}}</ref><ref name="real-world-hadoop">{{cite book|last1=Dunning|first1=Ted|last2=Friedman|first2=Ellen|title=रियल वर्ल्ड हडूप|date=January 2015|publisher=O'Reilly Media, Inc|location=Sebastopol, CA|isbn=978-1-4919-2395-5|pages=23–28|edition=First|chapter-url=http://shop.oreilly.com/product/0636920038450.do|access-date=June 21, 2016|language=en|chapter=Chapter 3: Understanding the MapR Distribution for Apache Hadoop}}</ref> सेफ-एफएस वितरित फाइल सिस्टम है जो उत्कृष्ट प्रदर्शन और विश्वसनीयता प्रदान करता है।<ref>{{harvnb|Weil|Brandt|Miller|Long|2006|p=307}}</ref> यह बड़ी फ़ाइलों और निर्देशिकाओं से निपटने की चुनौतियों का जवाब देता है, हजारों डिस्क की गतिविधि का समन्वय करता है, बड़े पैमाने पर मेटाडेटा तक समानांतर पहुंच प्रदान करता है, वैज्ञानिक और सामान्य-उद्देश्य दोनों वर्कलोड में हेरफेर करता है, बड़े पैमाने पर प्रमाणीकरण और एन्क्रिप्ट करता है, और बढ़ता है या बार-बार डिवाइस डीकमीशनिंग, डिवाइस विफलताओं और क्लस्टर विस्तार के कारण गतिशील रूप से कम हो रहा है।<ref>{{harvnb|Maltzahn|Molina-Estolano|Khurana|Nelson|2010|p=39}}</ref> बीजीएफएस उच्च प्रदर्शन कम्प्यूटिंग के लिए फ्राउनहाफर कन्पेटेंस केंद्र का उच्च-प्रदर्शन समानांतर फ़ाइल सिस्टम है। बीजीएफएस के वितरित मेटाडेटा आर्किटेक्चर को उच्च I/O मांगों के साथ [[ उच्च प्रदर्शन कंप्यूटिंग |उच्च प्रदर्शन कंप्यूटिंग]] और इसी प्रकार के अनुप्रयोगों को चलाने के लिए आवश्यक मापनीयता और लचीलापन प्रदान करने के लिए डिज़ाइन किया गया है।<ref>{{harvnb|Jacobi|Lingemann|p=10}}</ref>


वितरित सिस्टम में पारंपरिक रूप से पाई जाने वाली अड़चनों के विवाद से निपटने के लिए लस्टर फाइल सिस्टम को डिजाइन और कार्यान्वित किया गया है। चमक इसकी दक्षता, मापनीयता और अतिरेक की विशेषता है।<ref>{{harvnb|Schwan Philip|2003 |p=401}}</ref> GPFS को भी ऐसी अड़चनों को दूर करने के टार्गेटेड के साथ डिजाइन किया गया था।<ref>{{harvnb|Jones|Koniges|Yates|2000 |p=1}}</ref>
वितरित सिस्टम में पारंपरिक रूप से पाई जाने वाली अड़चनों के विवाद से निपटने के लिए लस्टर फाइल सिस्टम को डिजाइन और कार्यान्वित किया गया है। चमक इसकी दक्षता, मापनीयता और अतिरेक की विशेषता है।<ref>{{harvnb|Schwan Philip|2003 |p=401}}</ref> GPFS को भी ऐसी अड़चनों को दूर करने के टार्गेटेड के साथ डिजाइन किया गया था।<ref>{{harvnb|Jones|Koniges|Yates|2000 |p=1}}</ref>
== संचार ==
==संचार==
वितरित फाइल सिस्टम के उच्च प्रदर्शन के लिए कंप्यूटिंग नोड्स और स्टोरेज सिस्टम तक तेजी से पहुंच के बीच कुशल संचार की आवश्यकता होती है। उस प्रदर्शन को सुनिश्चित करने के लिए ओपन, क्लोज, रीड, राइट, सेंड और रिसीव जैसे ऑपरेशन तेज होने चाहिए। उदाहरण के लिए, प्रत्येक पढ़ने या लिखने का अनुरोध डिस्क स्टोरेज तक पहुंचता है, जो खोज, घूर्णी और नेटवर्क विलंबता का परिचय देता है।<ref>{{harvnb|Upadhyaya|Azimov|Doan|Choi|2008|p=400}}</ref>
वितरित फाइल सिस्टम के उच्च प्रदर्शन के लिए कंप्यूटिंग नोड्स और स्टोरेज सिस्टम तक तेजी से पहुंच के बीच कुशल संचार की आवश्यकता होती है। उस प्रदर्शन को सुनिश्चित करने के लिए ओपन, क्लोज, रीड, राइट, सेंड और रिसीव जैसे ऑपरेशन तेज होने चाहिए। उदाहरण के लिए, प्रत्येक पढ़ने या लिखने का अनुरोध डिस्क स्टोरेज तक पहुंचता है, जो खोज, घूर्णी और नेटवर्क विलंबता का परिचय देता है।<ref>{{harvnb|Upadhyaya|Azimov|Doan|Choi|2008|p=400}}</ref>


डेटा संचार (भेजें / प्राप्त करें) संचालन डेटा को एप्लिकेशन बफर से मशीन कर्नेल में स्थानांतरित करता है, [[ प्रसारण नियंत्रण प्रोटोकॉल | प्रसारण नियंत्रण प्रोटोकॉल]] प्रक्रिया को नियंत्रित करता है और कर्नेल में कार्यान्वित किया जाता है। चूंकि, नेटवर्क की भीड़ या त्रुटियों के स्थिति में, टीसीपी सीधे डेटा नहीं भेज सकता है। [[ कर्नेल (ऑपरेटिंग सिस्टम) | कर्नेल (ऑपरेटिंग सिस्टम)]] में बफर से डेटा को एप्लिकेशन में स्थानांतरित करते समय, मशीन रिमोट मशीन से बाइट स्ट्रीम नहीं पढ़ती है। वास्तव में, टीसीपी एप्लिकेशन के डेटा को बफ़र करने के लिए उत्तरदायी है।<ref>{{harvnb|Upadhyaya|Azimov|Doan|Choi|2008|p=403}}</ref>
डेटा संचार (भेजें / प्राप्त करें) संचालन डेटा को एप्लिकेशन बफर से मशीन कर्नेल में स्थानांतरित करता है, [[ प्रसारण नियंत्रण प्रोटोकॉल |प्रसारण नियंत्रण प्रोटोकॉल]] प्रक्रिया को नियंत्रित करता है और कर्नेल में कार्यान्वित किया जाता है। चूंकि, नेटवर्क की भीड़ या त्रुटियों के स्थिति में, टीसीपी सीधे डेटा नहीं भेज सकता है। [[ कर्नेल (ऑपरेटिंग सिस्टम) |कर्नेल (ऑपरेटिंग सिस्टम)]] में बफर से डेटा को एप्लिकेशन में स्थानांतरित करते समय, मशीन रिमोट मशीन से बाइट स्ट्रीम नहीं पढ़ती है। वास्तव में, टीसीपी एप्लिकेशन के डेटा को बफ़र करने के लिए उत्तरदायी है।<ref>{{harvnb|Upadhyaya|Azimov|Doan|Choi|2008|p=403}}</ref>


फ़ाइल पढ़ने और लिखने, या फ़ाइल भेजने और प्राप्त करने के लिए बफ़र-आकार का चयन, आवेदन स्तर पर किया जाता है। लिंक की गई सूची का उपयोग करके बफर को बनाए रखा जाता है।<ref>{{harvnb|Upadhyaya|Azimov|Doan|Choi|2008|p=401}}</ref> इसमें बफ़रनोड्स का सेट होता है। प्रत्येक बफ़रनोड में डेटाफ़ील्ड होता है। डेटाफील्ड में डेटा और पॉइंटर होता है जिसे नेक्सटबफरनोड कहा जाता है जो अगले बफरनोड को इंगित करता है। वर्तमान स्थिति का पता लगाने के लिए, दो पॉइंटर (कंप्यूटर प्रोग्रामिंग) का उपयोग किया जाता है: करेंट बफरनोड और इंड बफरनोड, जो अंतिम लिखने और पढ़ने की स्थिति के लिए बफरनोड में स्थिति का प्रतिनिधित्व करते हैं। यदि [[बफ़रनोड]] के पास कोई खाली स्थान नहीं है, तो यह क्लाइंट को प्रतीक्षा करने के लिए प्रतीक्षा संकेत भेजेगा जब तक कि वहाँ उपलब्ध स्थान न हो।<ref>{{harvnb|Upadhyaya|Azimov|Doan|Choi|2008|p=402}}</ref>
फ़ाइल पढ़ने और लिखने, या फ़ाइल भेजने और प्राप्त करने के लिए बफ़र-आकार का चयन, आवेदन स्तर पर किया जाता है। लिंक की गई सूची का उपयोग करके बफर को बनाए रखा जाता है।<ref>{{harvnb|Upadhyaya|Azimov|Doan|Choi|2008|p=401}}</ref> इसमें बफ़रनोड्स का सेट होता है। प्रत्येक बफ़रनोड में डेटाफ़ील्ड होता है। डेटाफील्ड में डेटा और पॉइंटर होता है जिसे नेक्सटबफरनोड कहा जाता है जो अगले बफरनोड को इंगित करता है। वर्तमान स्थिति का पता लगाने के लिए, दो पॉइंटर (कंप्यूटर प्रोग्रामिंग) का उपयोग किया जाता है: करेंट बफरनोड और इंड बफरनोड, जो अंतिम लिखने और पढ़ने की स्थिति के लिए बफरनोड में स्थिति का प्रतिनिधित्व करते हैं। यदि [[बफ़रनोड]] के पास कोई खाली स्थान नहीं है, तो यह क्लाइंट को प्रतीक्षा करने के लिए प्रतीक्षा संकेत भेजेगा जब तक कि वहाँ उपलब्ध स्थान न हो।<ref>{{harvnb|Upadhyaya|Azimov|Doan|Choi|2008|p=402}}</ref>
== वितरित फ़ाइल सिस्टम का क्लाउड-आधारित तुल्यकालन ==
==वितरित फ़ाइल सिस्टम का क्लाउड-आधारित तुल्यकालन==
अधिक से अधिक उपयोगकर्ताओं के पास तदर्थ कनेक्टिविटी के साथ कई डिवाइस हैं। इन उपकरणों पर दोहराए जाने वाले डेटा सेट को सर्वरों की मनमानी संख्या के बीच सिंक्रनाइज़ करने की आवश्यकता होती है। यह बैकअप के लिए और ऑफलाइन ऑपरेशन के लिए भी उपयोगी है। वास्तव में, जब उपयोगकर्ता नेटवर्क की स्थिति अच्छी नहीं होती है, तो उपयोगकर्ता डिवाइस डेटा के भाग को प्रमुख रूप से दोहराएगा जिसे बाद में और ऑफ-लाइन संशोधित किया जाएगा। बार जब नेटवर्क की स्थिति अच्छी हो जाती है, तो डिवाइस सिंक्रोनाइज़ हो जाता है।<ref name="Uppoor">{{harvnb|Uppoor|Flouris|Bilas|2010|p=1}}</ref> वितरित तुल्यकालन समस्या से निपटने के लिए दो दृष्टिकोण सम्मलित हैं: उपयोगकर्ता-नियंत्रित पीयर-टू-पीयर तुल्यकालन और क्लाउड मास्टर-प्रतिकृति तुल्यकालन।<ref name="Uppoor" />* उपयोगकर्ता-नियंत्रित पीयर-टू-पीयर: [[ rsync ]] जैसे सॉफ़्टवेयर को उन सभी उपयोगकर्ताओं के कंप्यूटरों में स्थापित किया जाना चाहिए जिनमें उनका डेटा होता है। फ़ाइलें पीयर-टू-पीयर सिंक्रनाइज़ेशन द्वारा सिंक्रनाइज़ की जाती हैं जहां उपयोगकर्ताओं को नेटवर्क पते और सिंक्रनाइज़ेशन पैरामीटर निर्दिष्ट करना होगा, और इस प्रकार यह मैन्युअल प्रक्रिया है।
अधिक से अधिक उपयोगकर्ताओं के पास तदर्थ कनेक्टिविटी के साथ कई डिवाइस हैं। इन उपकरणों पर दोहराए जाने वाले डेटा सेट को सर्वरों की मनमानी संख्या के बीच सिंक्रनाइज़ करने की आवश्यकता होती है। यह बैकअप के लिए और ऑफलाइन ऑपरेशन के लिए भी उपयोगी है। वास्तव में, जब उपयोगकर्ता नेटवर्क की स्थिति अच्छी नहीं होती है, तो उपयोगकर्ता डिवाइस डेटा के भाग को प्रमुख रूप से दोहराएगा जिसे बाद में और ऑफ-लाइन संशोधित किया जाएगा। बार जब नेटवर्क की स्थिति अच्छी हो जाती है, तो डिवाइस सिंक्रोनाइज़ हो जाता है।<ref name="Uppoor">{{harvnb|Uppoor|Flouris|Bilas|2010|p=1}}</ref> वितरित तुल्यकालन समस्या से निपटने के लिए दो दृष्टिकोण सम्मलित हैं: उपयोगकर्ता-नियंत्रित पीयर-टू-पीयर तुल्यकालन और क्लाउड मास्टर-प्रतिकृति तुल्यकालन।<ref name="Uppoor" />* उपयोगकर्ता-नियंत्रित पीयर-टू-पीयर: [[ rsync |rsync]] जैसे सॉफ़्टवेयर को उन सभी उपयोगकर्ताओं के कंप्यूटरों में स्थापित किया जाना चाहिए जिनमें उनका डेटा होता है। फ़ाइलें पीयर-टू-पीयर सिंक्रनाइज़ेशन द्वारा सिंक्रनाइज़ की जाती हैं जहां उपयोगकर्ताओं को नेटवर्क पते और सिंक्रनाइज़ेशन पैरामीटर निर्दिष्ट करना होगा, और इस प्रकार यह मैन्युअल प्रक्रिया है।
* क्लाउड मास्टर-रेप्लिका सिंक्रोनाइज़ेशन: क्लाउड सेवाओं द्वारा व्यापक रूप से उपयोग किया जाता है, जिसमें क्लाउड में मास्टर प्रतिकृति बनाए रखी जाती है, और सभी अपडेट और सिंक्रोनाइज़ेशन ऑपरेशन इस मास्टर कॉपी के लिए होते हैं, जो विफलताओं के स्थिति में उच्च स्तर की उपलब्धता और विश्वसनीयता प्रदान करते हैं।
*क्लाउड मास्टर-रेप्लिका सिंक्रोनाइज़ेशन: क्लाउड सेवाओं द्वारा व्यापक रूप से उपयोग किया जाता है, जिसमें क्लाउड में मास्टर प्रतिकृति बनाए रखी जाती है, और सभी अपडेट और सिंक्रोनाइज़ेशन ऑपरेशन इस मास्टर कॉपी के लिए होते हैं, जो विफलताओं के स्थिति में उच्च स्तर की उपलब्धता और विश्वसनीयता प्रदान करते हैं।


== [[ सुरक्षा ]] कुंजी ==
==[[ सुरक्षा | सुरक्षा]] कुंजी==


क्लाउड कंप्यूटिंग में, सबसे महत्वपूर्ण सुरक्षा अवधारणाएँ गोपनीयता, अखंडता और उपलब्धता ([[ सूचना सुरक्षा ]]) हैं। निजी डेटा को प्रकट होने से बचाने के लिए गोपनीयता अपरिहार्य हो जाती है। अखंडता सुनिश्चित करती है कि डेटा दूषित नहीं है।<ref name="Zhifeng 2013 854">{{harvnb|Zhifeng |Yang|2013|p=854}}</ref>
क्लाउड कंप्यूटिंग में, सबसे महत्वपूर्ण सुरक्षा अवधारणाएँ गोपनीयता, अखंडता और उपलब्धता ([[ सूचना सुरक्षा | सूचना सुरक्षा]] ) हैं। निजी डेटा को प्रकट होने से बचाने के लिए गोपनीयता अपरिहार्य हो जाती है। अखंडता सुनिश्चित करती है कि डेटा दूषित नहीं है।<ref name="Zhifeng 2013 854">{{harvnb|Zhifeng |Yang|2013|p=854}}</ref>
=== [[ गोपनीयता ]] ===
===[[ गोपनीयता | गोपनीयता]]===


गोपनीयता का अर्थ है कि डेटा और संगणना कार्य गोपनीय हैं: न तो क्लाउड प्रदाता और न ही अन्य क्लाइंट क्लाइंट के डेटा तक पहुंच सकते हैं। गोपनीयता के बारे में काफी शोध किया गया है, क्योंकि यह उन महत्वपूर्ण बिंदुओं में से है जो अभी भी क्लाउड कंप्यूटिंग के लिए चुनौतियां प्रस्तुत करता है। क्लाउड प्रदाताओं में विश्वास की कमी भी संबंधित विवाद है।<ref>{{harvnb|Zhifeng |Yang|2013|pp=845–846}}</ref> क्लाउड के बुनियादी ढांचे को यह सुनिश्चित करना चाहिए कि ग्राहकों के डेटा को अनधिकृत पार्टियों द्वारा एक्सेस नहीं किया जाएगा।
गोपनीयता का अर्थ है कि डेटा और संगणना कार्य गोपनीय हैं: न तो क्लाउड प्रदाता और न ही अन्य क्लाइंट क्लाइंट के डेटा तक पहुंच सकते हैं। गोपनीयता के बारे में काफी शोध किया गया है, क्योंकि यह उन महत्वपूर्ण बिंदुओं में से है जो अभी भी क्लाउड कंप्यूटिंग के लिए चुनौतियां प्रस्तुत करता है। क्लाउड प्रदाताओं में विश्वास की कमी भी संबंधित विवाद है।<ref>{{harvnb|Zhifeng |Yang|2013|pp=845–846}}</ref> क्लाउड के बुनियादी ढांचे को यह सुनिश्चित करना चाहिए कि ग्राहकों के डेटा को अनधिकृत पार्टियों द्वारा एक्सेस नहीं किया जाएगा।


यदि सेवा प्रदाता निम्नलिखित सभी कार्य कर सकता है तो पर्यावरण असुरक्षित हो जाता है:<ref>{{harvnb|Yau|An|2010|p=353}}</ref>
यदि सेवा प्रदाता निम्नलिखित सभी कार्य कर सकता है तो पर्यावरण असुरक्षित हो जाता है:<ref>{{harvnb|Yau|An|2010|p=353}}</ref>
* क्लाउड में उपभोक्ता के डेटा का पता लगाएं
*क्लाउड में उपभोक्ता के डेटा का पता लगाएं
* उपभोक्ता के डेटा तक पहुंचें और पुनः प्राप्त करें
*उपभोक्ता के डेटा तक पहुंचें और पुनः प्राप्त करें
* डेटा के अर्थ को समझें (डेटा के प्रकार, कार्यात्मकताएं और एप्लिकेशन के इंटरफेस और डेटा का प्रारूप)।
*डेटा के अर्थ को समझें (डेटा के प्रकार, कार्यात्मकताएं और एप्लिकेशन के इंटरफेस और डेटा का प्रारूप)।


डेटा की भौगोलिक स्थिति गोपनीयता और गोपनीयता निर्धारित करने में मदद करती है। ग्राहकों के स्थान को ध्यान में रखा जाना चाहिए। उदाहरण के लिए, यूरोप के ग्राहक संयुक्त राज्य अमेरिका में स्थित डेटा केंद्रों का उपयोग करने में रुचि नहीं लेंगे, क्योंकि इससे डेटा की गोपनीयता की गारंटी प्रभावित होती है। उस समस्या से निपटने के लिए, कुछ क्लाउड कंप्यूटिंग विक्रेताओं ने ग्राहक के साथ किए गए सर्विस-लेवल एग्रीमेंट के पैरामीटर के रूप में होस्ट की भौगोलिक स्थिति को सम्मलित किया है,<ref>{{harvnb|Vecchiola|Pandey|Buyya|2009|p=14}}</ref> उपयोगकर्ताओं को स्वयं उन सर्वरों के स्थान चुनने की अनुमति देता है जो उनके डेटा को होस्ट करेंगे।
डेटा की भौगोलिक स्थिति गोपनीयता और गोपनीयता निर्धारित करने में मदद करती है। ग्राहकों के स्थान को ध्यान में रखा जाना चाहिए। उदाहरण के लिए, यूरोप के ग्राहक संयुक्त राज्य अमेरिका में स्थित डेटा केंद्रों का उपयोग करने में रुचि नहीं लेंगे, क्योंकि इससे डेटा की गोपनीयता की गारंटी प्रभावित होती है। उस समस्या से निपटने के लिए, कुछ क्लाउड कंप्यूटिंग विक्रेताओं ने ग्राहक के साथ किए गए सर्विस-लेवल एग्रीमेंट के पैरामीटर के रूप में होस्ट की भौगोलिक स्थिति को सम्मलित किया है,<ref>{{harvnb|Vecchiola|Pandey|Buyya|2009|p=14}}</ref> उपयोगकर्ताओं को स्वयं उन सर्वरों के स्थान चुनने की अनुमति देता है जो उनके डेटा को होस्ट करेंगे।


गोपनीयता के लिए अन्य दृष्टिकोण में डेटा एन्क्रिप्शन सम्मलित है।<ref>{{harvnb|Yau|An|2010|p=352}}</ref> अन्यथा, अनधिकृत उपयोग का गंभीर खतरा होगा। विभिन्न प्रकार के समाधान सम्मलित हैं, जैसे केवल संवेदनशील डेटा को एन्क्रिप्ट करना,<ref>{{harvnb|Miranda|Siani|2009}}</ref> और संगणना को सरल बनाने के लिए केवल कुछ संचालनों का समर्थन करता हैं।<ref>{{harvnb|Naehrig|Lauter|2013}}</ref> इसके अतिरिक्त, क्रिप्टोग्राफ़िक विधि और [[ होमोमोर्फिक एन्क्रिप्शन ]] के रूप में उपकरण, क्लाउड में गोपनीयता बनाए रखने के लिए उपयोग किए जाते हैं।<ref name="Zhifeng 2013 854" />
गोपनीयता के लिए अन्य दृष्टिकोण में डेटा एन्क्रिप्शन सम्मलित है।<ref>{{harvnb|Yau|An|2010|p=352}}</ref> अन्यथा, अनधिकृत उपयोग का गंभीर खतरा होगा। विभिन्न प्रकार के समाधान सम्मलित हैं, जैसे केवल संवेदनशील डेटा को एन्क्रिप्ट करना,<ref>{{harvnb|Miranda|Siani|2009}}</ref> और संगणना को सरल बनाने के लिए केवल कुछ संचालनों का समर्थन करता हैं।<ref>{{harvnb|Naehrig|Lauter|2013}}</ref> इसके अतिरिक्त, क्रिप्टोग्राफ़िक विधि और [[ होमोमोर्फिक एन्क्रिप्शन |होमोमोर्फिक एन्क्रिप्शन]] के रूप में उपकरण, क्लाउड में गोपनीयता बनाए रखने के लिए उपयोग किए जाते हैं।<ref name="Zhifeng 2013 854" />
=== अखंडता ===
===अखंडता===


क्लाउड कंप्यूटिंग में अखंडता का तात्पर्य [[ डेटा अखंडता ]] के साथ-साथ [[ कंप्यूटिंग अखंडता ]] से है। इस प्रकार की अखंडता का मतलब है कि डेटा को क्लाउड सर्वर पर सही ढंग से संग्रहीत करना होगा और विफलता या गलत कंप्यूटिंग के स्थिति में समस्याओं का पता लगाना होगा।
क्लाउड कंप्यूटिंग में अखंडता का तात्पर्य [[ डेटा अखंडता |डेटा अखंडता]] के साथ-साथ [[ कंप्यूटिंग अखंडता |कंप्यूटिंग अखंडता]] से है। इस प्रकार की अखंडता का मतलब है कि डेटा को क्लाउड सर्वर पर सही ढंग से संग्रहीत करना होगा और विफलता या गलत कंप्यूटिंग के स्थिति में समस्याओं का पता लगाना होगा।


डेटा अखंडता दुर्भावनापूर्ण घटनाओं या प्रशासन त्रुटियों से प्रभावित हो सकती है (उदाहरण के लिए [[ बैकअप ]] और पुनर्स्थापना के समय, [[ आंकड़ों का विस्थापन ]], या [[ पीयर टू पीयर ]] सिस्टम में सदस्यता बदलना)।<ref>{{harvnb|Zhifeng|Yang|2013|p=5}}</ref>
डेटा अखंडता दुर्भावनापूर्ण घटनाओं या प्रशासन त्रुटियों से प्रभावित हो सकती है (उदाहरण के लिए [[ बैकअप |बैकअप]] और पुनर्स्थापना के समय, [[ आंकड़ों का विस्थापन |आंकड़ों का विस्थापन]] , या [[ पीयर टू पीयर |पीयर टू पीयर]] सिस्टम में सदस्यता बदलना)।<ref>{{harvnb|Zhifeng|Yang|2013|p=5}}</ref>


क्रिप्टोग्राफी (सामान्यतः डेटा ब्लॉक पर संदेश-प्रमाणीकरण कोड, या एमएसीएस के माध्यम से) का उपयोग करके अखंडता हासिल करना आसान है।<ref>{{harvnb|Juels|Oprea|2013|p=4}}</ref>
क्रिप्टोग्राफी (सामान्यतः डेटा ब्लॉक पर संदेश-प्रमाणीकरण कोड, या एमएसीएस के माध्यम से) का उपयोग करके अखंडता हासिल करना आसान है।<ref>{{harvnb|Juels|Oprea|2013|p=4}}</ref>
Line 123: Line 123:
डेटा अखंडता को प्रभावित करने वाले जाँच तंत्र सम्मलित हैं। उदाहरण के लिए:
डेटा अखंडता को प्रभावित करने वाले जाँच तंत्र सम्मलित हैं। उदाहरण के लिए:
* हेल (उच्च-उपलब्धता और अखंडता परत) वितरित क्रिप्टोग्राफ़िक प्रणाली है जो सर्वर के सेट को क्लाइंट को यह सिद्ध करने की अनुमति देती है कि संग्रहीत फ़ाइल अक्षुण्ण और पुनर्प्राप्ति योग्य है।<ref>{{harvnb|Bowers |Juels |Oprea|2009 }}</ref>
* हेल (उच्च-उपलब्धता और अखंडता परत) वितरित क्रिप्टोग्राफ़िक प्रणाली है जो सर्वर के सेट को क्लाइंट को यह सिद्ध करने की अनुमति देती है कि संग्रहीत फ़ाइल अक्षुण्ण और पुनर्प्राप्ति योग्य है।<ref>{{harvnb|Bowers |Juels |Oprea|2009 }}</ref>
* हच पीओआरएस (बड़ी फाइलों के लिए [[ पुनर्प्राप्ति | पुनर्प्राप्ति]] योग्यता का सबूत)<ref>{{harvnb|Juels |S. Kaliski |2007|p=2 }}</ref> सममित क्रिप्टोग्राफ़िक प्रणाली पर आधारित है, जहाँ केवल सत्यापन कुंजी है जिसे इसकी अखंडता में सुधार के लिए फ़ाइल में संग्रहीत किया जाना चाहिए। यह विधि फ़ाइल एफ को एन्क्रिप्ट करने के लिए कार्य करती है और पुनः टीनेल नामक यादृच्छिक स्ट्रिंग उत्पन्न करती है जिसे एन्क्रिप्टेड फ़ाइल के अंत में जोड़ा जाना चाहिए। सर्वर सेंटिनल का पता नहीं लगा सकता है, जो कि अन्य ब्लॉकों से अलग करना असंभव है, इसलिए छोटा सा परिवर्तन इंगित करेगा कि फ़ाइल बदली गई है या नहीं।
*हच पीओआरएस (बड़ी फाइलों के लिए [[ पुनर्प्राप्ति |पुनर्प्राप्ति]] योग्यता का सबूत)<ref>{{harvnb|Juels |S. Kaliski |2007|p=2 }}</ref> सममित क्रिप्टोग्राफ़िक प्रणाली पर आधारित है, जहाँ केवल सत्यापन कुंजी है जिसे इसकी अखंडता में सुधार के लिए फ़ाइल में संग्रहीत किया जाना चाहिए। यह विधि फ़ाइल एफ को एन्क्रिप्ट करने के लिए कार्य करती है और पुनः टीनेल नामक यादृच्छिक स्ट्रिंग उत्पन्न करती है जिसे एन्क्रिप्टेड फ़ाइल के अंत में जोड़ा जाना चाहिए। सर्वर सेंटिनल का पता नहीं लगा सकता है, जो कि अन्य ब्लॉकों से अलग करना असंभव है, इसलिए छोटा सा परिवर्तन इंगित करेगा कि फ़ाइल बदली गई है या नहीं।
* पीडीपी (सिद्ध डेटा कब्ज़ा) जाँच कुशल और व्यावहारिक तरीकों का वर्ग है जो अविश्वसनीय सर्वरों पर डेटा अखंडता की जाँच करने का कुशल तरीका प्रदान करता है:
*पीडीपी (सिद्ध डेटा कब्ज़ा) जाँच कुशल और व्यावहारिक तरीकों का वर्ग है जो अविश्वसनीय सर्वरों पर डेटा अखंडता की जाँच करने का कुशल तरीका प्रदान करता है:
** पीडीपी:<ref>{{harvnb|Ateniese |Burns |Curtmola|Herring|Kissner|Peterson|Song|2007}}</ref> सर्वर पर डेटा स्टोर करने से पहले, क्लाइंट को स्थानीय रूप से कुछ मेटा-डेटा स्टोर करना चाहिए। बाद में, और डेटा डाउनलोड किए बिना, क्लाइंट सर्वर से यह जांचने के लिए कह सकता है कि डेटा गलत नहीं हुआ है। इस दृष्टिकोण का उपयोग स्थैतिक डेटा के लिए किया जाता है।
**पीडीपी:<ref>{{harvnb|Ateniese |Burns |Curtmola|Herring|Kissner|Peterson|Song|2007}}</ref> सर्वर पर डेटा स्टोर करने से पहले, क्लाइंट को स्थानीय रूप से कुछ मेटा-डेटा स्टोर करना चाहिए। बाद में, और डेटा डाउनलोड किए बिना, क्लाइंट सर्वर से यह जांचने के लिए कह सकता है कि डेटा गलत नहीं हुआ है। इस दृष्टिकोण का उपयोग स्थैतिक डेटा के लिए किया जाता है।
** स्केलेबल पीडीपी:<ref>{{harvnb|Ateniese |Di Pietro |V. Mancini|Tsudik|2008 |pp=5, 9}}</ref> यह दृष्टिकोण सममित-कुंजी पर आधारित है, जो सार्वजनिक-कुंजी एन्क्रिप्शन से अधिक कुशल है। यह कुछ गतिशील संचालन (संशोधन, विलोपन और संलग्न) का समर्थन करता है लेकिन इसका उपयोग सार्वजनिक सत्यापन के लिए नहीं किया जा सकता है।
**स्केलेबल पीडीपी:<ref>{{harvnb|Ateniese |Di Pietro |V. Mancini|Tsudik|2008 |pp=5, 9}}</ref> यह दृष्टिकोण सममित-कुंजी पर आधारित है, जो सार्वजनिक-कुंजी एन्क्रिप्शन से अधिक कुशल है। यह कुछ गतिशील संचालन (संशोधन, विलोपन और संलग्न) का समर्थन करता है लेकिन इसका उपयोग सार्वजनिक सत्यापन के लिए नहीं किया जा सकता है।
** गतिशील पीडीपी:<ref>{{harvnb|Erway |Küpçü |Tamassia|Papamanthou|2009|p=2}}</ref> यह दृष्टिकोण पीडीपी मॉडल को कई अपडेट ऑपरेशंस जैसे एपेंड, इन्सर्ट, मॉडिफाई और डिलीट का समर्थन करने के लिए विस्तारित करता है, जो गहन संगणना के लिए अच्छी प्रकार से अनुकूल है।
**गतिशील पीडीपी:<ref>{{harvnb|Erway |Küpçü |Tamassia|Papamanthou|2009|p=2}}</ref> यह दृष्टिकोण पीडीपी मॉडल को कई अपडेट ऑपरेशंस जैसे एपेंड, इन्सर्ट, मॉडिफाई और डिलीट का समर्थन करने के लिए विस्तारित करता है, जो गहन संगणना के लिए अच्छी प्रकार से अनुकूल है।


=== [[ उपलब्धता ]] ===
===[[ उपलब्धता | उपलब्धता]]===
उपलब्धता सामान्यतः [[ प्रतिकृति (कंप्यूटिंग) ]] द्वारा प्रभावित होती है।<ref name="availability">{{harvnb|Bonvin|Papaioannou|Aberer|2009|p=206}}</ref><ref>{{harvnb|Cuong|Cao|Kalbarczyk|Iyer|2012|p=5}}</ref><ref>{{harvnb|A.| A.|P.|2011|p=3}}</ref><ref>{{harvnb|Qian |D.|T.|2011|p=3}}</ref> इस बीच, निरंतरता की गारंटी होनी चाहिए। चूंकि, निरंतरता और उपलब्धता ही समय में प्राप्त नहीं की जा सकती है; प्रत्येक को दूसरे के कुछ बलिदान पर प्राथमिकता दी जाती है। संतुलन होना चाहिए।<ref>{{harvnb|Vogels|2009|p=2}}</ref> पहुंच योग्य होने के लिए डेटा की पहचान होनी चाहिए। उदाहरण के लिए, स्कूट <ref name="availability" />कुंजी/मूल्य भंडारण पर आधारित तंत्र है जो कुशल विधियाँ से गतिशील डेटा आवंटन की अनुमति देता है। प्रत्येक सर्वर को महाद्वीप-देश-डेटासेंटर-रूम-रैक-सर्वर के रूप में लेबल द्वारा पहचाना जाना चाहिए। सर्वर कई वर्चुअल नोड्स को संदर्भित कर सकता है, प्रत्येक नोड में डेटा का चयन (या एकाधिक डेटा के कई विभाजन) होते हैं। डेटा के प्रत्येक टुकड़े को प्रमुख स्थान द्वारा पहचाना जाता है जो तरफ़ा क्रिप्टोग्राफ़िक हैश फ़ंक्शन (जैसे डब्ल्यू:MD5) द्वारा उत्पन्न होता है और इस कुंजी के हैश फ़ंक्शन मान द्वारा स्थानीयकृत होता है। कुंजी स्थान को डेटा के टुकड़े के संदर्भ में प्रत्येक विभाजन के साथ कई विभाजनों में विभाजित किया जा सकता है। प्रतिकृति करने के लिए, वर्चुअल नोड्स को अन्य सर्वरों द्वारा दोहराया और संदर्भित किया जाना चाहिए। डेटा स्थायित्व और डेटा उपलब्धता को अधिकतम करने के लिए, प्रतिकृतियों को अलग-अलग सर्वरों पर रखा जाना चाहिए और प्रत्येक सर्वर को अलग भौगोलिक स्थान पर होना चाहिए, क्योंकि डेटा की उपलब्धता भौगोलिक विविधता के साथ बढ़ती है। प्रतिकृति की प्रक्रिया में स्थान की उपलब्धता का मूल्यांकन सम्मलित है, जो प्रत्येक चंक सर्वर पर निश्चित न्यूनतम थ्रेश-होल्ड से ऊपर होना चाहिए। अन्यथा, डेटा को दूसरे चंक सर्वर पर दोहराया जाता है। प्रत्येक विभाजन, i, में उपलब्धता मान है जो निम्न सूत्र द्वारा दर्शाया गया है:
उपलब्धता सामान्यतः [[ प्रतिकृति (कंप्यूटिंग) |प्रतिकृति (कंप्यूटिंग)]] द्वारा प्रभावित होती है।<ref name="availability">{{harvnb|Bonvin|Papaioannou|Aberer|2009|p=206}}</ref><ref>{{harvnb|Cuong|Cao|Kalbarczyk|Iyer|2012|p=5}}</ref><ref>{{harvnb|A.| A.|P.|2011|p=3}}</ref><ref>{{harvnb|Qian |D.|T.|2011|p=3}}</ref> इस बीच, निरंतरता की गारंटी होनी चाहिए। चूंकि, निरंतरता और उपलब्धता ही समय में प्राप्त नहीं की जा सकती है; प्रत्येक को दूसरे के कुछ बलिदान पर प्राथमिकता दी जाती है। संतुलन होना चाहिए।<ref>{{harvnb|Vogels|2009|p=2}}</ref> पहुंच योग्य होने के लिए डेटा की पहचान होनी चाहिए। उदाहरण के लिए, स्कूट <ref name="availability" />कुंजी/मूल्य भंडारण पर आधारित तंत्र है जो कुशल विधियाँ से गतिशील डेटा आवंटन की अनुमति देता है। प्रत्येक सर्वर को महाद्वीप-देश-डेटासेंटर-रूम-रैक-सर्वर के रूप में लेबल द्वारा पहचाना जाना चाहिए। सर्वर कई वर्चुअल नोड्स को संदर्भित कर सकता है, प्रत्येक नोड में डेटा का चयन (या एकाधिक डेटा के कई विभाजन) होते हैं। डेटा के प्रत्येक टुकड़े को प्रमुख स्थान द्वारा पहचाना जाता है जो तरफ़ा क्रिप्टोग्राफ़िक हैश फ़ंक्शन (जैसे डब्ल्यू:MD5) द्वारा उत्पन्न होता है और इस कुंजी के हैश फ़ंक्शन मान द्वारा स्थानीयकृत होता है। कुंजी स्थान को डेटा के टुकड़े के संदर्भ में प्रत्येक विभाजन के साथ कई विभाजनों में विभाजित किया जा सकता है। प्रतिकृति करने के लिए, वर्चुअल नोड्स को अन्य सर्वरों द्वारा दोहराया और संदर्भित किया जाना चाहिए। डेटा स्थायित्व और डेटा उपलब्धता को अधिकतम करने के लिए, प्रतिकृतियों को अलग-अलग सर्वरों पर रखा जाना चाहिए और प्रत्येक सर्वर को अलग भौगोलिक स्थान पर होना चाहिए, क्योंकि डेटा की उपलब्धता भौगोलिक विविधता के साथ बढ़ती है। प्रतिकृति की प्रक्रिया में स्थान की उपलब्धता का मूल्यांकन सम्मलित है, जो प्रत्येक चंक सर्वर पर निश्चित न्यूनतम थ्रेश-होल्ड से ऊपर होना चाहिए। अन्यथा, डेटा को दूसरे चंक सर्वर पर दोहराया जाता है। प्रत्येक विभाजन, i, में उपलब्धता मान है जो निम्न सूत्र द्वारा दर्शाया गया है:


<math>avail_i=\sum_{i=0}^{|s_i|}\sum_{j=i+1}^{|s_i|} conf_i.conf_j.diversity(s_i,s_j)</math>
<math>avail_i=\sum_{i=0}^{|s_i|}\sum_{j=i+1}^{|s_i|} conf_i.conf_j.diversity(s_i,s_j)</math>
Line 136: Line 136:


डेटा उपलब्धता सुनिश्चित करने के लिए प्रतिकृति बढ़िया समाधान है, लेकिन मेमोरी स्पेस के स्थिति में इसकी लागत बहुत अधिक है।<ref name="ReferenceB">{{harvnb|Carnegie|Tantisiriroj|Xiao|Gibson|2009|p=1}}</ref> डिस्क कम करें<ref name="ReferenceB" />एचडीएफसी का संशोधित संस्करण है जो डब्ल्यू:रेड विधि (रेड-5 और रेड-6) पर आधारित है और प्रतिकृति डेटा के अतुल्यकालिक एन्कोडिंग की अनुमति देता है। वास्तव में, पृष्ठभूमि प्रक्रिया है जो व्यापक रूप से दोहराए गए डेटा की खोज करती है और इसे एन्कोड करने के बाद अतिरिक्त प्रतियों को हटा देती है। अन्य दृष्टिकोण प्रतिकृति को इरेज़र कोडिंग के साथ बदलना है।<ref name="ReferenceC">{{harvnb|Wang|Gong|P.|Xie|2012|p=1}}</ref> इसके के अतिरिक्त, डेटा की उपलब्धता सुनिश्चित करने के लिए कई विधियाँ हैं जो डेटा रिकवरी की अनुमति देते हैं। वास्तव में, डेटा को कोडित किया जाना चाहिए, और यदि यह खो जाता है, तो इसे कोडिंग चरण के समय बनाए गए टुकड़ों से पुनर्प्राप्त किया जा सकता है।<ref>{{harvnb|Abu-Libdeh|Princehouse|Weatherspoon|2010|p=2}}</ref> कुछ अन्य दृष्टिकोण जो उपलब्धता की गारंटी के लिए विभिन्न तंत्रों को लागू करते हैं, वे हैं: माइक्रोसाफ्ट अज़ूर का रीड-सोलोमन कोड और एचडीएफसी के लिए रेडनोड का उपयोग किया जाता है। इसके के अतिरिक्त, गूगल अभी भी इरेज़र-कोडिंग मैकेनिज्म पर आधारित नए दृष्टिकोण पर कार्य कर रहा है।<ref>{{harvnb|Wang|Gong|P.|Xie|2012|p=9}}</ref> क्लाउड स्टोरेज के लिए कोई रेड कार्यान्वयन नहीं है।<ref name="ReferenceC" />
डेटा उपलब्धता सुनिश्चित करने के लिए प्रतिकृति बढ़िया समाधान है, लेकिन मेमोरी स्पेस के स्थिति में इसकी लागत बहुत अधिक है।<ref name="ReferenceB">{{harvnb|Carnegie|Tantisiriroj|Xiao|Gibson|2009|p=1}}</ref> डिस्क कम करें<ref name="ReferenceB" />एचडीएफसी का संशोधित संस्करण है जो डब्ल्यू:रेड विधि (रेड-5 और रेड-6) पर आधारित है और प्रतिकृति डेटा के अतुल्यकालिक एन्कोडिंग की अनुमति देता है। वास्तव में, पृष्ठभूमि प्रक्रिया है जो व्यापक रूप से दोहराए गए डेटा की खोज करती है और इसे एन्कोड करने के बाद अतिरिक्त प्रतियों को हटा देती है। अन्य दृष्टिकोण प्रतिकृति को इरेज़र कोडिंग के साथ बदलना है।<ref name="ReferenceC">{{harvnb|Wang|Gong|P.|Xie|2012|p=1}}</ref> इसके के अतिरिक्त, डेटा की उपलब्धता सुनिश्चित करने के लिए कई विधियाँ हैं जो डेटा रिकवरी की अनुमति देते हैं। वास्तव में, डेटा को कोडित किया जाना चाहिए, और यदि यह खो जाता है, तो इसे कोडिंग चरण के समय बनाए गए टुकड़ों से पुनर्प्राप्त किया जा सकता है।<ref>{{harvnb|Abu-Libdeh|Princehouse|Weatherspoon|2010|p=2}}</ref> कुछ अन्य दृष्टिकोण जो उपलब्धता की गारंटी के लिए विभिन्न तंत्रों को लागू करते हैं, वे हैं: माइक्रोसाफ्ट अज़ूर का रीड-सोलोमन कोड और एचडीएफसी के लिए रेडनोड का उपयोग किया जाता है। इसके के अतिरिक्त, गूगल अभी भी इरेज़र-कोडिंग मैकेनिज्म पर आधारित नए दृष्टिकोण पर कार्य कर रहा है।<ref>{{harvnb|Wang|Gong|P.|Xie|2012|p=9}}</ref> क्लाउड स्टोरेज के लिए कोई रेड कार्यान्वयन नहीं है।<ref name="ReferenceC" />
== आर्थिक पहलू ==
==आर्थिक पहलू==


क्लाउड कंप्यूटिंग अर्थव्यवस्था तेजी से बढ़ रही है। अमेरिकी सरकार ने अपनी [[ चक्रवृद्धि वार्षिक वृद्धि दर ]] (CAGR) का 40% खर्च करने का निर्णय लिया है, जिसके 2015 तक 7 बिलियन डॉलर होने की उम्मीद है।<ref>{{harvnb|Lori M. Kaufman|2009|p=2}}</ref> अधिक से अधिक कंपनियां बड़ी मात्रा में डेटा का प्रबंधन करने और भंडारण क्षमता की कमी को दूर करने के लिए क्लाउड कंप्यूटिंग का उपयोग कर रही हैं, और क्योंकि यह उन्हें सेवा के रूप में ऐसे संसाधनों का उपयोग करने में सक्षम बनाता है, यह सुनिश्चित करता है कि निवेश किए बिना उनकी कंप्यूटिंग जरूरतों को पूरा किया जाएगा। इंफ्रास्ट्रक्चर में (पे-एज़-यू-गो मॉडल)।<ref>{{harvnb|Angabini|Yazdani|Mundt|Hassani|2011|p=1}}</ref> प्रत्येक एप्लिकेशन प्रदाता को समय-समय पर प्रत्येक सर्वर की लागत का भुगतान करना पड़ता है जहां डेटा की प्रतिकृतियां संग्रहीत की जाती हैं। सर्वर की लागत हार्डवेयर की गुणवत्ता, भंडारण क्षमता और इसके क्वेरी-प्रोसेसिंग और संचार ओवरहेड द्वारा निर्धारित की जाती है।<ref>{{harvnb|Bonvin|Papaioannou|Aberer|2009|p=3}}</ref> क्लाउड कंप्यूटिंग प्रदाताओं को क्लाइंट की मांगों के अनुसार अपनी सेवाओं को स्केल करने की अनुमति देती है।
क्लाउड कंप्यूटिंग अर्थव्यवस्था तेजी से बढ़ रही है। अमेरिकी सरकार ने अपनी [[ चक्रवृद्धि वार्षिक वृद्धि दर |चक्रवृद्धि वार्षिक वृद्धि दर]] (CAGR) का 40% खर्च करने का निर्णय लिया है, जिसके 2015 तक 7 बिलियन डॉलर होने की उम्मीद है।<ref>{{harvnb|Lori M. Kaufman|2009|p=2}}</ref> अधिक से अधिक कंपनियां बड़ी मात्रा में डेटा का प्रबंधन करने और भंडारण क्षमता की कमी को दूर करने के लिए क्लाउड कंप्यूटिंग का उपयोग कर रही हैं, और क्योंकि यह उन्हें सेवा के रूप में ऐसे संसाधनों का उपयोग करने में सक्षम बनाता है, यह सुनिश्चित करता है कि निवेश किए बिना उनकी कंप्यूटिंग जरूरतों को पूरा किया जाएगा। इंफ्रास्ट्रक्चर में (पे-एज़-यू-गो मॉडल)।<ref>{{harvnb|Angabini|Yazdani|Mundt|Hassani|2011|p=1}}</ref> प्रत्येक एप्लिकेशन प्रदाता को समय-समय पर प्रत्येक सर्वर की लागत का भुगतान करना पड़ता है जहां डेटा की प्रतिकृतियां संग्रहीत की जाती हैं। सर्वर की लागत हार्डवेयर की गुणवत्ता, भंडारण क्षमता और इसके क्वेरी-प्रोसेसिंग और संचार ओवरहेड द्वारा निर्धारित की जाती है।<ref>{{harvnb|Bonvin|Papaioannou|Aberer|2009|p=3}}</ref> क्लाउड कंप्यूटिंग प्रदाताओं को क्लाइंट की मांगों के अनुसार अपनी सेवाओं को स्केल करने की अनुमति देती है।


पे-एज-यू-गो मॉडल ने स्टार्टअप कंपनियों पर बोझ को भी कम कर दिया है जो कम्प्यूट-इंटेंसिव बिजनेस से लाभ उठाना चाहते हैं। क्लाउड कंप्यूटिंग कई तीसरी दुनिया के देशों को भी अवसर प्रदान करता है जिनके पास अन्यथा ऐसे कंप्यूटिंग संसाधन नहीं होती हैं। क्लाउड कंप्यूटिंग नवाचार के लिए आईटी बाधाओं को कम कर सकती है।<ref>{{harvnb|Marston|Lia|Bandyopadhyaya|Zhanga|2011|p=3}}</ref> क्लाउड कंप्यूटिंग के व्यापक उपयोग के अतिरिक्त, अविश्वसनीय क्लाउड में बड़ी मात्रा में डेटा का कुशल साझाकरण अभी भी चुनौती है।
पे-एज-यू-गो मॉडल ने स्टार्टअप कंपनियों पर बोझ को भी कम कर दिया है जो कम्प्यूट-इंटेंसिव बिजनेस से लाभ उठाना चाहते हैं। क्लाउड कंप्यूटिंग कई तीसरी दुनिया के देशों को भी अवसर प्रदान करता है जिनके पास अन्यथा ऐसे कंप्यूटिंग संसाधन नहीं होती हैं। क्लाउड कंप्यूटिंग नवाचार के लिए आईटी बाधाओं को कम कर सकती है।<ref>{{harvnb|Marston|Lia|Bandyopadhyaya|Zhanga|2011|p=3}}</ref> क्लाउड कंप्यूटिंग के व्यापक उपयोग के अतिरिक्त, अविश्वसनीय क्लाउड में बड़ी मात्रा में डेटा का कुशल साझाकरण अभी भी चुनौती है।


== संदर्भ ==
==संदर्भ==
{{reflist|30em}}
{{reflist|30em}}




*
*
== ग्रन्थसूची ==
==ग्रन्थसूची==
* {{cite book
*{{cite book
  | last1 = Andrew | first1 = S.Tanenbaum
  | last1 = Andrew | first1 = S.Tanenbaum
  | last2 = Maarten | first2 = Van Steen
  | last2 = Maarten | first2 = Van Steen
Line 156: Line 155:
  | url=http://net.pku.edu.cn/~course/cs501/2011/resource/2006-Book-distributed%20systems%20principles%20and%20paradigms%202nd%20edition.pdf
  | url=http://net.pku.edu.cn/~course/cs501/2011/resource/2006-Book-distributed%20systems%20principles%20and%20paradigms%202nd%20edition.pdf
}}
}}
* {{cite journal
*
{{cite journal
  | author = Fabio Kon
  | author = Fabio Kon
  | title =Distributed File Systems, The State of the Art and concept of Ph.D. Thesis
  | title =Distributed File Systems, The State of the Art and concept of Ph.D. Thesis
Line 162: Line 162:
  | year = 1996
  | year = 1996
  }}
  }}
* {{cite web
*{{cite web
  | author = Pavel Bžoch
  | author = Pavel Bžoch
  | url = http://www.kiv.zcu.cz/site/documents/verejne/vyzkum/publikace/technicke-zpravy/2012/tr-2012-02.pdf
  | url = http://www.kiv.zcu.cz/site/documents/verejne/vyzkum/publikace/technicke-zpravy/2012/tr-2012-02.pdf
Line 172: Line 172:
  | title = Distributed file systems – an overview
  | title = Distributed file systems – an overview
}}
}}
* {{cite web
*{{cite web
  | last1 = Jacobi
  | last1 = Jacobi
  |first1= Tim-Daniel
  |first1= Tim-Daniel
Line 181: Line 181:
}}
}}
# Architecture, structure, and design:
# Architecture, structure, and design:
#* {{cite book
#*{{cite book
  | last1 = Zhang
  | last1 = Zhang
  | first1 = Qi-fei
  | first1 = Qi-fei
Line 199: Line 199:
  | isbn = 978-0-7695-4844-9
  | isbn = 978-0-7695-4844-9
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = Azzedin
  | last1 = Azzedin
  | first1 =Farag
  | first1 =Farag
Line 211: Line 211:
  | isbn = 978-1-4673-6404-1
  | isbn = 978-1-4673-6404-1
  }}
  }}
#* {{Cite web
#*{{Cite web
  | last1 = Krzyzanowski
  | last1 = Krzyzanowski
  | first1 = Paul
  | first1 = Paul
Line 218: Line 218:
  | url = http://www.cs.rutgers.edu/~pxk/417/notes/16-dfs.pdf
  | url = http://www.cs.rutgers.edu/~pxk/417/notes/16-dfs.pdf
}}
}}
#* {{cite conference
#*{{cite conference
  | last1 = Kobayashi | first1 = K
  | last1 = Kobayashi | first1 = K
  | last2 = Mikami| first2 = S
  | last2 = Mikami| first2 = S
Line 230: Line 230:
  | others = Grad. Sch. of Syst. & Inf. Eng., Univ. of Tsukuba, Tsukuba, Japan
  | others = Grad. Sch. of Syst. & Inf. Eng., Univ. of Tsukuba, Tsukuba, Japan
}}
}}
#* {{cite book
#*{{cite book
  | last1 = Humbetov
  | last1 = Humbetov
  | first1 = Shamil
  | first1 = Shamil
Line 242: Line 242:
  | isbn = 978-1-4673-1740-5
  | isbn = 978-1-4673-1740-5
  }}
  }}
#* {{cite journal
#*{{cite journal
  | last1 = Hsiao
  | last1 = Hsiao
  | first1 =Hung-Chang
  | first1 =Hung-Chang
Line 261: Line 261:
| issue = 5
| issue = 5
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = Kai
  | last1 = Kai
  | first1 = Fan
  | first1 = Fan
Line 279: Line 279:
  | isbn = 978-0-7695-4988-0
  | isbn = 978-0-7695-4988-0
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = Upadhyaya
  | last1 = Upadhyaya
  | first1 = B
  | first1 = B
Line 301: Line 301:
  | isbn = 978-0-7695-3322-3
  | isbn = 978-0-7695-3322-3
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = Soares
  | last1 = Soares
  | first1 = Tiago S.
  | first1 = Tiago S.
Line 331: Line 331:
  | isbn = 978-1-4673-1740-5
  | isbn = 978-1-4673-1740-5
  }}
  }}
#* {{cite journal
#*{{cite journal
  | author = Schwan Philip
  | author = Schwan Philip
  | title = Lustre: Building a File System for 1,000-node Clusters
  | title = Lustre: Building a File System for 1,000-node Clusters
Line 340: Line 340:
  | pages = 400–407
  | pages = 400–407
}}
}}
#* {{cite journal
#*{{cite journal
  | last1 = Jones
  | last1 = Jones
  |first1=Terry
  |first1=Terry
Line 353: Line 353:
  | others = Lawrence Livermore National Laboratory
  | others = Lawrence Livermore National Laboratory
}}
}}
#* {{cite journal
#*{{cite journal
  | last1 = Weil
  | last1 = Weil
  | first1 = Sage A.
  | first1 = Sage A.
Line 367: Line 367:
  | others = University of California, Santa Cruz
  | others = University of California, Santa Cruz
}}
}}
#* {{cite journal
#*{{cite journal
  | last1 = Maltzahn
  | last1 = Maltzahn
  | first1 = Carlos
  | first1 = Carlos
Line 403: Line 403:
  | s2cid = 5548463
  | s2cid = 5548463
  }}
  }}
#* {{cite journal
#*{{cite journal
  | last1 = Garth A.
  | last1 = Garth A.
  | first1 = Gibson
  | first1 = Gibson
Line 418: Line 418:
| s2cid = 207644891
| s2cid = 207644891
  }}
  }}
#* {{cite arXiv
#*{{cite arXiv
  | last1 = Yee
  | last1 = Yee
  | first1 = Tin Tin
  | first1 = Tin Tin
Line 441: Line 441:
  | isbn = 978-1-61284-203-5
  | isbn = 978-1-61284-203-5
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = S.A.
  | last1 = S.A.
  | first1 = Brandt
  | first1 = Brandt
Line 459: Line 459:
  | isbn = 978-1-4577-0211-2
  | isbn = 978-1-4577-0211-2
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = Ghemawat
  | last1 = Ghemawat
  | first1 =Sanjay
  | first1 =Sanjay
Line 475: Line 475:
  | chapter-url = https://www.semanticscholar.org/paper/7b56847e641168aed58f3603bc00af84d414c9aa
  | chapter-url = https://www.semanticscholar.org/paper/7b56847e641168aed58f3603bc00af84d414c9aa
  }}
  }}
# Security
#Security
#* {{cite book
#*{{cite book
  | last1 = Vecchiola
  | last1 = Vecchiola
  | first1 = C
  | first1 = C
Line 493: Line 493:
  | s2cid = 1810240
  | s2cid = 1810240
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = Miranda
  | last1 = Miranda
  | first1 = Mowbray
  | first1 = Mowbray
Line 506: Line 506:
  | isbn = 978-1-60558-353-2
  | isbn = 978-1-60558-353-2
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = Naehrig
  | last1 = Naehrig
  | first1 = Michael
  | first1 = Michael
Line 520: Line 520:
  | s2cid = 12274859
  | s2cid = 12274859
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = Du
  | last1 = Du
  | first1 = Hongtao
  | first1 = Hongtao
Line 535: Line 535:
  | isbn = 978-1-4577-1604-1
  | isbn = 978-1-4577-1604-1
  }}
  }}
#* {{cite journal
#*{{cite journal
  | last1 = A.Brandt
  | last1 = A.Brandt
  | first1 = Scott
  | first1 = Scott
Line 550: Line 550:
  | others = Storage Systems Research Center University of California, Santa Cruz
  | others = Storage Systems Research Center University of California, Santa Cruz
}}
}}
#* {{cite journal
#*{{cite journal
  | author = Lori M. Kaufman
  | author = Lori M. Kaufman
  | s2cid = 16233643
  | s2cid = 16233643
Line 561: Line 561:
| issue = 4
| issue = 4
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = Bowers
  | last1 = Bowers
  | first1 = Kevin
  | first1 = Kevin
Line 576: Line 576:
  | isbn = 978-1-60558-894-0
  | isbn = 978-1-60558-894-0
  }}
  }}
#* {{cite journal
#*{{cite journal
  | last1 = Juels
  | last1 = Juels
  | first1 = Ari
  | first1 = Ari
Line 587: Line 587:
  | journal=Communications of the ACM | volume = 56 |number= 2 |date=February 2013
  | journal=Communications of the ACM | volume = 56 |number= 2 |date=February 2013
}}
}}
#* {{cite book
#*{{cite book
  | last1 = Zhang
  | last1 = Zhang
  | first1 = Jing
  | first1 = Jing
Line 605: Line 605:
  | isbn = 978-1-4673-2901-9
  | isbn = 978-1-4673-2901-9
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = A.
  | last1 = A.
  | first1 = Pan
  | first1 = Pan
Line 643: Line 643:
  | isbn = 978-1-4673-5082-2
  | isbn = 978-1-4673-5082-2
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = Di Sano
  | last1 = Di Sano
  | first1 = M
  | first1 = M
Line 661: Line 661:
  | isbn = 978-1-4673-1888-4
  | isbn = 978-1-4673-1888-4
  }}
  }}
#* {{cite journal
#*{{cite journal
  | last1 = Zhifeng
  | last1 = Zhifeng
  | first1 = Xiao
  | first1 = Xiao
Line 676: Line 676:
  | citeseerx = 10.1.1.707.3980
  | citeseerx = 10.1.1.707.3980
  }}
  }}
#* {{Cite web
#*{{Cite web
  | last1 = John B
  | last1 = John B
  | first1 = Horrigan
  | first1 = Horrigan
Line 683: Line 683:
  | url = http://www.pewinternet.org/~/media//Files/Reports/2008/PIP_Cloud.Memo.pdf.pdf
  | url = http://www.pewinternet.org/~/media//Files/Reports/2008/PIP_Cloud.Memo.pdf.pdf
}}
}}
#* {{cite journal
#*{{cite journal
  | last1 = Yau
  | last1 = Yau
  | first1 = Stephen
  | first1 = Stephen
Line 694: Line 694:
  | pages = 351–365
  | pages = 351–365
}}
}}
#* {{cite book
#*{{cite book
  | last1 = Carnegie
  | last1 = Carnegie
  | first1 = Bin Fan
  | first1 = Bin Fan
Line 711: Line 711:
  | isbn = 978-1-60558-883-4
  | isbn = 978-1-60558-883-4
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = Wang
  | last1 = Wang
  | first1 = Jianzong
  | first1 = Jianzong
Line 728: Line 728:
  | isbn = 978-1-4673-2901-9
  | isbn = 978-1-4673-2901-9
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = Abu-Libdeh
  | last1 = Abu-Libdeh
  | first1 = Hussam
  | first1 = Hussam
Line 743: Line 743:
  | isbn = 978-1-4503-0036-0
  | isbn = 978-1-4503-0036-0
  }}
  }}
#* {{cite journal
#*{{cite journal
  | last1 = Vogels
  | last1 = Vogels
  | first1 = Werner
  | first1 = Werner
Line 753: Line 753:
| doi-access = free
| doi-access = free
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = Cuong
  | last1 = Cuong
  | first1 = Pham
  | first1 = Pham
Line 770: Line 770:
  | isbn = 978-1-4673-2266-9
  | isbn = 978-1-4673-2266-9
  }}
  }}
#* {{cite book
#*
{{cite book
  | last1 = A.
  | last1 = A.
  | first1 = Undheim
  | first1 = Undheim
Line 785: Line 786:
  | isbn = 978-1-4577-1904-2
  | isbn = 978-1-4577-1904-2
  }}
  }}
#* {{cite journal
#*{{cite journal
  | last1 = Qian
  | last1 = Qian
  | first1 = Haiyang
  | first1 = Haiyang
Line 800: Line 801:
  | s2cid = 15912111
  | s2cid = 15912111
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = Ateniese
  | last1 = Ateniese
  | first1 = Giuseppe
  | first1 = Giuseppe
Line 823: Line 824:
  | isbn = 978-1-59593-703-2
  | isbn = 978-1-59593-703-2
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = Ateniese
  | last1 = Ateniese
  | first1 = Giuseppe
  | first1 = Giuseppe
Line 841: Line 842:
  | s2cid = 207170639
  | s2cid = 207170639
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = Erway
  | last1 = Erway
  | first1 = Chris
  | first1 = Chris
Line 858: Line 859:
  | isbn = 978-1-60558-894-0
  | isbn = 978-1-60558-894-0
  }}
  }}
#* {{cite book
#*{{cite book
  | last1 = Juels
  | last1 = Juels
  | first1 = Ari
  | first1 = Ari
Line 887: Line 888:
  | url =http://infoscience.epfl.ch/record/146774
  | url =http://infoscience.epfl.ch/record/146774
  }}
  }}
#* {{cite journal
#*{{cite journal
  | last1 = Tim
  | last1 = Tim
  | first1 = Kraska
  | first1 = Kraska
Line 901: Line 902:
  | journal=Proceedings of the VLDB Endowment | volume = 2 |issue= 1|doi=10.14778/1687627.1687657
  | journal=Proceedings of the VLDB Endowment | volume = 2 |issue= 1|doi=10.14778/1687627.1687657
  }}
  }}
#* {{cite journal
#*{{cite journal
  | last1 = Daniel
  | last1 = Daniel
  | first1 = J. Abadi
  | first1 = J. Abadi
Line 908: Line 909:
  | year = 2009
  | year = 2009
}}
}}
#* {{cite journal
#*{{cite journal
  | last1 = Ari
  | last1 = Ari
  | first1 = Juels
  | first1 = Juels
Line 922: Line 923:
  | journal=Communications of the ACM| volume = 56|number= 2
  | journal=Communications of the ACM| volume = 56|number= 2
}}
}}
#* {{cite book
#*
{{cite book
  | last1 = Ari
  | last1 = Ari
  | first1 = Ateniese
  | first1 = Ateniese
Line 948: Line 950:
  }}
  }}
# Synchronization
# Synchronization
#* {{cite book
#*{{cite book
  | last1 = Uppoor
  | last1 = Uppoor
  | first1 = S
  | first1 = S
Line 964: Line 966:
  | isbn = 978-1-4244-8395-2
  | isbn = 978-1-4244-8395-2
  }}
  }}
# Economic aspects
#Economic aspects
#* {{cite journal
#*{{cite journal
  | last1 = Lori M.
  | last1 = Lori M.
  | first1 = Kaufman
  | first1 = Kaufman
Line 977: Line 979:
| issue = 4
| issue = 4
  }}
  }}
#* {{cite conference
#*{{cite conference
  | last1 = Marston
  | last1 = Marston
  | first1 = Sean
  | first1 = Sean
Line 994: Line 996:
  | pages = 176–189
  | pages = 176–189
}}
}}
#* {{cite book
#*{{cite book
  | last1 = Angabini
  | last1 = Angabini
  | first1 = A
  | first1 = A
Line 1,014: Line 1,016:


{{Cloud computing}}
{{Cloud computing}}
[[Category: Machine Translated Page]]
[[Category:Created On 31/12/2022]]

Revision as of 22:51, 12 January 2023

क्लाउड के लिए वितरित फ़ाइल सिस्टम डब्ल्यू: फाइल सिस्टम है जो कई क्लाइंट्स को डेटा तक पहुंच की अनुमति देता है और उस डेटा पर संचालन (निर्माण, हटाना, संशोधित करना, पढ़ना, लिखना) का समर्थन करता है। प्रत्येक डेटा फ़ाइल को चंक (सूचना) नामक कई भागों में विभाजित किया जा सकता है। प्रत्येक चंक को अलग-अलग रिमोट मशीनों पर संग्रहीत किया जा सकता है, जिससे अनुप्रयोगों के समानांतर निष्पादन में सरलता होती है। सामान्यतः, डेटा को पदानुक्रमित वृक्ष संरचना में फ़ाइलों में संग्रहीत किया जाता है, जहाँ नोड निर्देशिकाओं का प्रतिनिधित्व करते हैं। वितरित वास्तुकला में फ़ाइलों को साझा करने के कई विधियाँ हैं: प्रत्येक समाधान निश्चित प्रकार के अनुप्रयोग के लिए उपयुक्त होना चाहिए, यह इस बात पर निर्भर करता है कि अनुप्रयोग कितना जटिल है। इस बीच, सिस्टम की सुरक्षा सुनिश्चित की जानी चाहिए। डब्ल्यू की गोपनीयता को डब्ल्यू उपलब्धता और डब्ल्यू अखंडता के लिए सुरक्षित प्रणाली हेतु मुख्य कुंजी के रूप में उपयोग किया जाता हैं।

उपयोगकर्ता क्लाउड कंप्यूटिंग के लिए इंटरनेट के माध्यम से कंप्यूटिंग संसाधनों को साझा कर सकते हैं, जो सामान्यतः डब्ल्यू: स्केलेबिलिटी और डब्ल्यू: लोच (क्लाउड कंप्यूटिंग) संसाधनों की विशेषता है - जैसे कि भौतिक डब्ल्यू: सर्वर (कंप्यूटिंग), एप्लिकेशन और कोई भी सेवा जो डब्ल्यू: वर्चुअलाइजेशन और गतिशील रूप से आवंटित किया जाता हैं। डब्ल्यू: यह सुनिश्चित करने के लिए सिंक्रनाइज़ेशन आवश्यक है कि सभी डिवाइस नवीनतम हैं।

वितरित फाइल सिस्टम कई बड़े, मध्यम और छोटे उद्यमों को अपने दूरस्थ डेटा को स्टोर करने और एक्सेस करने में सक्षम बनाता है क्योंकि वे स्थानीय डेटा करते हैं, इस प्रकार के वैरिएबल संसाधनों के उपयोग को सुविधाजनक बनाते हैं।

अवलोकन

इतिहास

आज, वितरित फाइल सिस्टम के कई कार्यान्वयन हैं। पहला फ़ाइल सर्वर 1970 के दशक में शोधकर्ताओं द्वारा विकसित किया गया था। सन माइक्रोसिस्टम का नेटवर्क फ़ाइल सिस्टम 1980 के दशक में उपलब्ध हुआ। इससे पहले, जो लोग फ़ाइलें साझा करना चाहते थे, वे स्नीकर नेट विधि का उपयोग करते थे, भौतिक रूप से भंडारण मीडिया पर फ़ाइलों को स्थान से दूसरे स्थान पर ले जाते थे। बार जब कंप्यूटर नेटवर्क का प्रसार शुरू हो गया, तो यह स्पष्ट हो गया कि सम्मलित फ़ाइल सिस्टम की कई सीमाएँ थीं और बहु-उपयोगकर्ता वातावरण के लिए अनुपयुक्त थीं। उपयोगकर्ता प्रारंभ में फ़ाइलों को साझा करने के लिए एफटीपी का उपयोग करते थे।[1] एफ़टीपी पहली बार 1973 के अंत में पीडीपी-10 पर चलाया गया था। एफ़टीपी के साथ फ़ाइलों को सोर्स कंप्यूटर से सर्वर पर और फिर सर्वर से गंतव्य कंप्यूटर पर कॉपी करने की आवश्यकता होती है। उपयोगकर्ताओं को फ़ाइल साझाकरण में सम्मलित सभी कंप्यूटरों के भौतिक पते को जानने की आवश्यकता पड़ती थी।[2]

सहायक विधि

आधुनिक डेटा केंद्रों को बड़े, विषम वातावरणों का समर्थन करना चाहिए, जिसमें विभिन्न क्षमताओं के बड़ी संख्या में कंप्यूटर सम्मलित हैं। क्लाउड कंप्यूटिंग डेटा सेंटर नेटवर्क आर्किटेक्चर (DCN), मैपरेडस फ्रेमवर्क जैसी विधिों के साथ ऐसी सभी प्रणालियों के संचालन का समन्वय करती है, जो समानांतर और वितरित प्रणालियों में डेटा-गहन कंप्यूटिंग अनुप्रयोगों का समर्थन करती है, और वर्चुअलाइजेशन विधियाँ जो गतिशील संसाधन आवंटन प्रदान करती हैं, जिससे कई भौतिक सर्वर पर सह-अस्तित्व के लिए ऑपरेटिंग सिस्टम उपयोग में लाए गए थे।

अनुप्रयोग

क्लाउड कंप्यूटिंग उपयोगकर्ता को पूरी पारदर्शिता के साथ आवश्यक सीपीयू और स्टोरेज संसाधन प्रदान करने की क्षमता के कारण बड़े पैमाने पर कंप्यूटिंग प्रदान करता है। यह क्लाउड कंप्यूटिंग को विशेष रूप से विभिन्न प्रकार के अनुप्रयोगों का समर्थन करने के लिए उपयुक्त बनाता है जिनके लिए बड़े पैमाने पर वितरित प्रसंस्करण की आवश्यकता होती है। इस डेटा-गहन कंप्यूटिंग के लिए उच्च प्रदर्शन फाइल सिस्टम की आवश्यकता होती है जो आभाषी दुनिया (VM) के बीच डेटा साझा कर सके।[3] क्लाउड कंप्यूटिंग गतिशील रूप से आवश्यक संसाधनों को आवंटित करता है, कार्य समाप्त होने के बाद उन्हें जारी करता है, उपयोगकर्ताओं को केवल आवश्यक सेवाओं के लिए भुगतान करने की आवश्यकता होती है, अधिकांशतः सेवा-स्तरीय समझौते के माध्यम से उपयोग किए जाते थे। क्लाउड कंप्यूटिंग और कंप्यूटर क्लस्टर प्रतिमान औद्योगिक डेटा प्रोसेसिंग और खगोल विज्ञान और भौतिकी जैसे वैज्ञानिक अनुप्रयोगों के लिए तेजी से महत्वपूर्ण होते जा रहे हैं, जिन्हें प्रयोग करने के लिए अधिकांशतः बड़ी संख्या में कंप्यूटर की उपलब्धता की आवश्यकता होती है।[4]

आर्किटेक्चर

अधिकांश वितरित फ़ाइल सिस्टम क्लाइंट-सर्वर आर्किटेक्चर पर बनाए गए हैं, लेकिन अन्य विकेंद्रीकृत समाधान भी सम्मलित हैं।

क्लाइंट-सर्वर आर्किटेक्चर

नेटवर्क फाइल सिस्टम (एनएफएस) क्लाइंट-सर्वर आर्किटेक्चर का उपयोग करता है, जो नेटवर्क पर कई मशीनों के बीच फ़ाइलों को साझा करने की अनुमति देता है जैसे कि मानकीकृत दृश्य प्रदान करते हुए वे स्थानीय रूप से स्थित किए जाते हैं। एनएफएस प्रोटोकॉल विषम ग्राहकों की प्रक्रियाओं की अनुमति देता है, संभवत: विभिन्न मशीनों पर और विभिन्न ऑपरेटिंग सिस्टम के अनुसार, फाइलों के वास्तविक स्थान की अनदेखी करते हुए दूर के सर्वर पर फाइलों को पहुँचाया जाता हैं। संभावित रूप से कम उपलब्धता और खराब मापनीयता के कारण एनएफएस प्रोटोकॉल में एकल सर्वर पर निर्भर होने का परिणाम है। एक से अधिक सर्वरों का उपयोग करने से उपलब्धता की समस्या का समाधान नहीं होता है क्योंकि प्रत्येक सर्वर स्वतंत्र रूप से कार्य कर रहा है।[5] एनएफएस का मॉडल दूरस्थ फ़ाइल सेवा है। इस मॉडल को रिमोट एक्सेस मॉडल भी कहा जाता है, जो अपलोड/डाउनलोड मॉडल के विपरीत कार्य करते है:

  • रिमोट एक्सेस मॉडल: पारदर्शिता प्रदान करता है, क्लाइंट के पास फ़ाइल तक पहुंच होती है। वह दूरस्थ फ़ाइल के लिए अनुरोध भेजता है (जबकि फ़ाइल सर्वर पर रहती है)।[6]
  • अपलोड/डाउनलोड मॉडल: क्लाइंट फ़ाइल को केवल स्थानीय रूप से एक्सेस कर सकता है। इसका अर्थ है कि क्लाइंट को फ़ाइल को डाउनलोड करना होगा, संशोधन करना होगा और इसे पुनः अपलोड करना होगा, जिससे कि दूसरों के क्लाइंट इसका उपयोग कर सकें।

एनएफएस द्वारा उपयोग की जाने वाली फ़ाइल प्रणाली लगभग वही है जो यूनिक्स सिस्टम द्वारा उपयोग की जाती है। फाइलों को नामकरण ग्राफ में श्रेणीबद्ध रूप से व्यवस्थित किया जाता है जिसमें निर्देशिकाओं और फाइलों को नोड्स द्वारा दर्शाया जाता है।

क्लस्टर-आधारित आर्किटेक्चर

क्लस्टर फ़ाइल सिस्टम | क्लस्टर-आधारित आर्किटेक्चर क्लाइंट-सर्वर आर्किटेक्चर में कुछ मुद्दों को सुधारता है, समानांतर में अनुप्रयोगों के निष्पादन में सुधार करता है। यहां उपयोग की जाने वाली विधि फ़ाइल-स्ट्रिपिंग है: फ़ाइल कई भागों में विभाजित होती है, जो कई स्टोरेज सर्वरों में उत्कृष्ट होता है। टार्गेटेड फ़ाइल के विभिन्न भागों को समानांतर में एक्सेस करने की अनुमति देना है। यदि एप्लिकेशन इस विधि से लाभान्वित नहीं होता है, तो विभिन्न सर्वरों पर विभिन्न फ़ाइलों को संग्रहीत करना अधिक सुविधाजनक होगा। चूंकि, जब बड़े डेटा केंद्रों, जैसे कि अमेज़ॅन और गूगल के लिए वितरित फ़ाइल सिस्टम को व्यवस्थित करने की बात आती है, जो वेब क्लाइंट को कई ऑपरेशन (पढ़ने, अपडेट करने, हटाने, ...) के बीच वितरित बड़ी संख्या में फ़ाइलों की अनुमति देता है। बड़ी संख्या में कंप्यूटर, तब क्लस्टर-आधारित समाधान अधिक लाभदायक हो जाते हैं। ध्यान दें कि बड़ी संख्या में कंप्यूटर होने का अर्थ अधिक हार्डवेयर विफलता हो सकता है।[7] इस प्रकार के दो सबसे व्यापक रूप से उपयोग किए जाने वाले वितरित फ़ाइल सिस्टम (डिएफएस) गूगल फ़ाइल सिस्टम (जीएफएस) और अपाचे हडूप (एचडीएफसी) हैं। दोनों गूगल फाइल सिस्टम मानक ऑपरेटिंग सिस्टम (जीएफएस के स्थिति में लिनक्स ) के शीर्ष पर चलने वाली उपयोगकर्ता स्तर की प्रक्रियाओं द्वारा कार्यान्वित किए जाते हैं।[8]

डिजाइन सिद्धांत

टार्गेटेड फाइल

गूगल फाइल सिस्टम (जीएफएस) और हडूप हडूप वितरित फ़ाइल सिस्टम एचडीएफसी) विशेष रूप से बहुत बड़े डेटा सेट पर प्रचय संसाधन को संभालने के लिए बनाए गए हैं। उसके लिए, निम्नलिखित परिकल्पनाओं को ध्यान में रखा जाना चाहिए:[9]* उच्च उपलब्धता: कंप्यूटर क्लस्टर में हजारों फ़ाइल सर्वर हो सकते हैं और उनमें से कुछ किसी भी समय बंद हो सकते हैं

  • एक सर्वर रैक, कमरे, डाटा सेंटर, देश और महाद्वीप से संबंधित होता है, जिससे कि इसकी भौगोलिक स्थिति की सटीक पहचान की जा सके।
  • फ़ाइल का आकार कई गीगाबाइट्स से कई टेराबाइट्स तक भिन्न हो सकता है। फाइल सिस्टम बड़ी संख्या में फाइलों का समर्थन करने में सक्षम होना चाहिए।
  • एपेंड ऑपरेशंस को सपोर्ट करने और फाइल लिखे जाने के समय भी फाइल कंटेंट को दिखने की अनुमति देने की जरूरत होती है।
  • कार्य करने वाली मशीनों के बीच संचार विश्वसनीय है: ट्रांसमिशन कंट्रोल प्रोटोकॉल या टीसीपी / आईपी का उपयोग दुरस्तह प्रकिया कॉल कम्युनिकेशन एब्स्ट्रैक्शन के साथ किया जाता है। टीसीपी क्लाइंट को समस्या होने पर और नया कनेक्शन बनाने की आवश्यकता होने पर लगभग तुरंत जानने की अनुमति देता है।[10]
भार संतुलन

वितरित वातावरण में कुशल संचालन के लिए भार संतुलन आवश्यक है। इसका प्रकार विभिन्न सर्वरों के बीच कार्य बांटना,[11] निष्पक्ष रूप से, समान समय में अधिक कार्य करने के लिए और ग्राहकों को तेजी से सेवा देने के लिए इसका उपयोग किया जाता हैं। क्लाउड में एन चंकसर्वर वाले सिस्टम में (एन 1000, 10000, या अधिक), जहां फाइलों की निश्चित संख्या संग्रहीत की जाती है, प्रत्येक फ़ाइल को कई भागों में विभाजित किया जाता है या निश्चित आकार के टुकड़े (उदाहरण के लिए, 64 मेगाबाइट्स), प्रत्येक चंकसर्वर का लोड सर्वर द्वारा होस्ट किए गए चंक्स की संख्या के समानुपाती होता है।[12] लोड-संतुलित क्लाउड में, मैपरेड्यूस- आधारित अनुप्रयोगों के प्रदर्शन को अधिकतम करते हुए संसाधनों का कुशलतापूर्वक उपयोग किया जा सकता है।

भार पुनर्संतुलन

क्लाउड कम्प्यूटिंग परिवेश में, विफलता आदर्श है,[13][14] और चंकसर्वर्स को अपग्रेड, रिप्लेस और सिस्टम में जोड़ा जा सकता है। फ़ाइलें भी गतिशील रूप से बनाई, हटाई और संलग्न की जा सकती हैं। इससे वितरित फ़ाइल सिस्टम में असंतुलन लोड हो जाता है, जिसका अर्थ है कि फ़ाइल भाग सर्वरों के बीच समान रूप से वितरित नहीं होते हैं।

जीएफएस और एचडीएफएस जैसे क्लाउड्सों में वितरित फ़ाइल सिस्टम मेटाडेटा और लोड संतुलन को प्रबंधित करने के लिए केंद्रीय या मास्टर सर्वर या नोड्स (जीएफएस के लिए मास्टर और एचडीएफएस के लिए नामनोड) पर विश्वास करते हैं। मास्टर समय-समय पर प्रतिकृतियों को पुनर्संतुलित करता है: यदि पहले सर्वर पर खाली स्थान निश्चित सीमा से नीचे आता है, तो डेटा को डेटानोड/चंकसर्वर से दूसरे में ले जाना चाहिए।[15] चूंकि, यह केंद्रीकृत दृष्टिकोण उन मास्टर सर्वरों के लिए अड़चन बन सकता है, यदि वे बड़ी संख्या में फ़ाइल एक्सेस का प्रबंधन करने में असमर्थ हो जाते हैं, क्योंकि यह उनके पहले से ही भारी भार को बढ़ा देता है। भार पुनर्संतुलन समस्या डब्ल्यू:एनपी-हार्ड या एनपी हार्ड है।[16]

सहयोग में कार्य करने के लिए बड़ी संख्या में चंकसर्वर प्राप्त करने के लिए, और वितरित फ़ाइल सिस्टम में लोड संतुलन की समस्या को हल करने के लिए, कई दृष्टिकोण प्रस्तावित किए गए हैं, जैसे कि फ़ाइल चंक्स को पुनः प्राप्त करना जिससे कि आंदोलन लागत जितना संभव हो चंक्स को कम करते हुए समान रूप से वितरित किया जा सके।[12]

गूगल फाइल सिस्टम

विवरण

गूगल, सबसे बड़ी इंटरनेट कंपनियों में से एक, ने गूगल की डेटा प्रोसेसिंग आवश्यकताओं की तेजी से बढ़ती मांगों को पूरा करने के लिए गूगल फ़ाइल सिस्टम (जीएफएस) नाम से अपना स्वयं का वितरित फ़ाइल सिस्टम बनाया है, और इसका उपयोग सभी क्लाउड सेवाओं के लिए किया जाता है। जीएफएस डेटा-गहन अनुप्रयोगों के लिए मापनीय वितरित फ़ाइल सिस्टम है। यह दोष-सहिष्णु, उच्च-प्रदर्शन डेटा भंडारण प्रदान करता है, बड़ी संख्या में ग्राहक इसे साथ एक्सेस करते हैं।

जीएफएस मैपरेड्यूस का उपयोग करता है, जो उपयोगकर्ताओं को समांतरता और लोड-बैलेंसिंग मुद्दों के बारे में सोचे बिना प्रोग्राम बनाने और उन्हें कई मशीनों पर चलाने की अनुमति देता है। जीएफएस आर्किटेक्चर कई चंकसर्वर्स और कई क्लाइंट्स के लिए मास्टर सर्वर होने पर आधारित है।[17]

समर्पित नोड में चलने वाला मास्टर सर्वर भंडारण संसाधनों के समन्वय और फाइलों के मेटा डेटा (उदाहरण के लिए, क्लासिकल फाइल सिस्टम में इनोड्स के समतुल्य) के प्रबंधन के लिए जिम्मेदार है।[9] कम से कम चंक सर्वर पर चंक उपलब्ध है। इस योजना का लाभ सादगी है। मास्टर प्रत्येक चंक के लिए चंक सर्वर आवंटित करने के लिए जिम्मेदार है और केवल मेटाडेटा जानकारी के लिए संपर्क किया जाता है। अन्य सभी डेटा के लिए, क्लाइंट को चंक सर्वर से इंटरैक्ट करना होगा।

मास्टर इस बात पर नज़र रखता है कि चंक कहाँ स्थित है। चूंकि, यह चंक स्थानों को ठीक से बनाए रखने का प्रयास नहीं करता है, लेकिन केवल कभी-कभार ही चंक सर्वर से संपर्क करता है, यह देखने के लिए कि उन्होंने कौन से चंक को संग्रहीत किया है।[18] यह मापनीयता के लिए अनुमति देता है, और बढ़ते वर्कलोड के कारण बाधाओं को रोकने में मदद करता है।[19] जीएफएस में, अधिकांश फाइलें नए डेटा को जोड़कर और सम्मलित डेटा को अधिलेखित नहीं करके संशोधित की जाती हैं। बार लिखे जाने के बाद, फ़ाइलों को सामान्यतः बेतरतीब ढंग से पढ़ने के अतिरिक्त केवल क्रमिक रूप से पढ़ा जाता है, और यह इस डिएफएस को उन परिदृश्यों के लिए सबसे उपयुक्त बनाता है जिनमें कई बड़ी फाइलें बार बनाई जाती हैं लेकिन कई बार पढ़ी जाती हैं।[20][21]

फाइल प्रोसेसिंग

जब क्लाइंट किसी फ़ाइल को लिखना/अद्यतन करना चाहता है, तो मास्टर प्रतिकृति असाइन करेगा, जो प्राथमिक प्रतिकृति होगी यदि यह पहला संशोधन है। लेखन की प्रक्रिया दो चरणों से बनी है:[9]* भेजना: सबसे पहले, और अब तक का सबसे महत्वपूर्ण, क्लाइंट यह पता लगाने के लिए मास्टर से संपर्क करता है कि कौन सा चंक सर्वर डेटा रखता है। क्लाइंट को प्राथमिक और द्वितीयक चंक सर्वर की पहचान करने वाली प्रतिकृतियों की सूची दी जाती है। क्लाइंट तब निकटतम प्रतिकृति चंक सर्वर से संपर्क करता है और उसे डेटा भेजता है। यह सर्वर डेटा को अगले निकटतम को भेजेगा, जो फिर इसी प्रकार इसे और प्रतिकृति के लिए अग्रेषित करेगा। डेटा को तब प्रचारित किया जाता है और मेमोरी में कैश किया जाता है लेकिन अभी तक फ़ाइल में नहीं लिखा गया है।

  • लेखन: जब सभी प्रतिकृतियां डेटा प्राप्त कर लेती हैं, तो ग्राहक प्राथमिक चंक सर्वर को लिखित अनुरोध भेजता है, जो भेजने के चरण में भेजे गए डेटा की पहचान करता है। प्राथमिक सर्वर तब प्राप्त होने वाले लेखन कार्यों के लिए अनुक्रम संख्या निर्दिष्ट करेगा, क्रम संख्या क्रम में फ़ाइल को लिखता है, और उस क्रम में लिखने के अनुरोधों को द्वितीयक को अग्रेषित करेगा। इस बीच, मास्टर को पाश से बाहर रखा जाता है।

परिणाम स्वरुप, हम दो प्रकार के प्रवाहों में अंतर कर सकते हैं: डेटा प्रवाह और नियंत्रण प्रवाह। डेटा प्रवाह भेजने के चरण से जुड़ा है और नियंत्रण प्रवाह लेखन चरण से जुड़ा है। यह आश्वासन देता है कि प्राथमिक चंक सर्वर लेखन क्रम को नियंत्रित करता है। ध्यान दें कि जब मास्टर किसी रेप्लिका को राइट ऑपरेशन असाइन करता है, तो यह चंक वर्जन नंबर को बढ़ाता है और सभी रेप्लिका को नए वर्जन नंबर के उस चंक को सूचित करता है। चंक वर्जन नंबर अपडेट एरर-डिटेक्शन की अनुमति देते हैं, यदि प्रतिकृति को अपडेट नहीं किया गया था क्योंकि इसका चंक सर्वर डाउन था।[22] कुछ नए गूगल एप्लिकेशन 64-मेगाबाइट चंक आकार के साथ ठीक से कार्य नहीं कर पाए। उस समस्या को हल करने के लिए, जीएफएस ने 2004 में बड़े मेज दृष्टिकोण को लागू करना शुरू किया।[23]

हडूप वितरित फाइल सिस्टम

एचडीएफसी, अपाचे साफ्टवेयर फाउडेंशन द्वारा विकसित, वितरित फ़ाइल सिस्टम है जिसे बहुत बड़ी मात्रा में डेटा (टेराबाइट्स या पेटाबाइट्स) रखने के लिए डिज़ाइन किया गया है। इसका आर्किटेक्चर जीएफएस के समान है, अर्ताथ मास्टर/स्लेव आर्किटेक्चर। एचडीएफएस सामान्यतः कंप्यूटर के क्लस्टर पर स्थापित होता है। हडूप की डिज़ाइन अवधारणा को गूगल द्वारा सूचित किया गया है, गूगल फाइल सिस्टम, गूगल मैपरेड्यूस और बिगटेबल के साथ, क्रमशः हडूप डिस्ट्रिब्यूटेड फ़ाइल सिस्टम (एचडीएफसी), हडूप मैपरेड्यूस और हडूप बेस (Hबेस) द्वारा कार्यान्वित किया जा रहा है।[24] जीएफएस की प्रकार, एचडीएफएस राइट-वन्स-रीड-मैनी फाइल एक्सेस वाले परिदृश्यों के लिए अनुकूल है, और डेटा सुसंगतता के मुद्दों को सरल बनाने के लिए रैंडम रीड और राइट के बदले फाइल एपेंड और ट्रंकेट का समर्थन करता है।[25] एचडीएफसी क्लस्टर में नेमनोड और कई डेटानोड मशीनें होती हैं। नेमनोड, मास्टर सर्वर, अपने रैम में स्टोरेज डेटानोडs के मेटाडेटा का प्रबंधन और रखरखाव करता है। डेटानोड्स उन नोड्स से जुड़े स्टोरेज का प्रबंधन करता है जिन पर वे चलते हैं। नेमनोड और डेटानोड ऐसे सॉफ़्टवेयर हैं जिन्हें दैनिक उपयोग की मशीनों पर चलाने के लिए डिज़ाइन किया गया है, जो सामान्यतः लाइनेक्स ओएस के अंतर्गत चलते हैं। एचडीएफसी को किसी भी मशीन पर चलाया जा सकता है जो जावा का समर्थन करती है और इसलिए नेमनोड या डेटानोड सॉफ़्टवेयर चला सकती है।[26]

एचडीएफसी क्लस्टर पर, अंतिम ब्लॉक के छोटे होने की संभावना को छोड़कर, फ़ाइल को या अधिक समान आकार के ब्लॉक में विभाजित किया जाता है। प्रत्येक ब्लॉक को कई डेटानोड्स पर संग्रहीत किया जाता है, और उपलब्धता की गारंटी के लिए प्रत्येक को कई डेटानोड्स पर दोहराया जा सकता है। डिफ़ॉल्ट रूप से, प्रत्येक ब्लॉक को तीन बार दोहराया जाता है, प्रक्रिया जिसे ब्लॉक लेवल प्रतिकृति कहा जाता है।[27] कुछ उदाहरणों में सम्मलित हैं: मैपआर एफएस (मैपआर-एफएस), सेफ (स्टोरेज) | सेफ-एफएस, बीईजीएफएस या फ्राउनहोफर फाइल सिस्टम (बीईजीएफएस), लस्टर (फाइल सिस्टम), आईबीएम जनरल समानांतर फाइल सिस्टम (जीपीएफएस), और समानांतर वर्चुअल फाइल सिस्टम इसका मुख्य उदाहरण हैं।

मैपआर-एफएस वितरित फाइल सिस्टम है जो मैपआर कन्वर्जेड प्लेटफॉर्म का आधार है, जिसमें वितरित फाइल स्टोरेज की क्षमता, कई एपीआई के साथ नोएसक्यूएल डेटाबेस और एकीकृत संदेश स्ट्रीमिंग सिस्टम है। मैपआर-एफएस मापनीयता, प्रदर्शन, विश्वसनीयता और उपलब्धता के लिए अनुकूलित है। इसकी फाइल स्टोरेज क्षमता अपाचे हडूप डिस्ट्रिब्यूटेड फाइल सिस्टम (एचडीएफसी) एपीआई के साथ संगत है, लेकिन कई डिज़ाइन विशेषताओं के साथ जो इसे एचडीएफसी से अलग करती हैं। सबसे उल्लेखनीय अंतरों में से यह है कि मैपआर-एफएस पूरी प्रकार से पढ़ने/लिखने वाला फाइल सिस्टम है जिसमें फाइलों और निर्देशिकाओं के लिए मेटाडेटा नामस्थान में वितरित किया जाता है, इसलिए कोई नामनोड नहीं है।[28][29][30][31][32] सेफ-एफएस वितरित फाइल सिस्टम है जो उत्कृष्ट प्रदर्शन और विश्वसनीयता प्रदान करता है।[33] यह बड़ी फ़ाइलों और निर्देशिकाओं से निपटने की चुनौतियों का जवाब देता है, हजारों डिस्क की गतिविधि का समन्वय करता है, बड़े पैमाने पर मेटाडेटा तक समानांतर पहुंच प्रदान करता है, वैज्ञानिक और सामान्य-उद्देश्य दोनों वर्कलोड में हेरफेर करता है, बड़े पैमाने पर प्रमाणीकरण और एन्क्रिप्ट करता है, और बढ़ता है या बार-बार डिवाइस डीकमीशनिंग, डिवाइस विफलताओं और क्लस्टर विस्तार के कारण गतिशील रूप से कम हो रहा है।[34] बीजीएफएस उच्च प्रदर्शन कम्प्यूटिंग के लिए फ्राउनहाफर कन्पेटेंस केंद्र का उच्च-प्रदर्शन समानांतर फ़ाइल सिस्टम है। बीजीएफएस के वितरित मेटाडेटा आर्किटेक्चर को उच्च I/O मांगों के साथ उच्च प्रदर्शन कंप्यूटिंग और इसी प्रकार के अनुप्रयोगों को चलाने के लिए आवश्यक मापनीयता और लचीलापन प्रदान करने के लिए डिज़ाइन किया गया है।[35]

वितरित सिस्टम में पारंपरिक रूप से पाई जाने वाली अड़चनों के विवाद से निपटने के लिए लस्टर फाइल सिस्टम को डिजाइन और कार्यान्वित किया गया है। चमक इसकी दक्षता, मापनीयता और अतिरेक की विशेषता है।[36] GPFS को भी ऐसी अड़चनों को दूर करने के टार्गेटेड के साथ डिजाइन किया गया था।[37]

संचार

वितरित फाइल सिस्टम के उच्च प्रदर्शन के लिए कंप्यूटिंग नोड्स और स्टोरेज सिस्टम तक तेजी से पहुंच के बीच कुशल संचार की आवश्यकता होती है। उस प्रदर्शन को सुनिश्चित करने के लिए ओपन, क्लोज, रीड, राइट, सेंड और रिसीव जैसे ऑपरेशन तेज होने चाहिए। उदाहरण के लिए, प्रत्येक पढ़ने या लिखने का अनुरोध डिस्क स्टोरेज तक पहुंचता है, जो खोज, घूर्णी और नेटवर्क विलंबता का परिचय देता है।[38]

डेटा संचार (भेजें / प्राप्त करें) संचालन डेटा को एप्लिकेशन बफर से मशीन कर्नेल में स्थानांतरित करता है, प्रसारण नियंत्रण प्रोटोकॉल प्रक्रिया को नियंत्रित करता है और कर्नेल में कार्यान्वित किया जाता है। चूंकि, नेटवर्क की भीड़ या त्रुटियों के स्थिति में, टीसीपी सीधे डेटा नहीं भेज सकता है। कर्नेल (ऑपरेटिंग सिस्टम) में बफर से डेटा को एप्लिकेशन में स्थानांतरित करते समय, मशीन रिमोट मशीन से बाइट स्ट्रीम नहीं पढ़ती है। वास्तव में, टीसीपी एप्लिकेशन के डेटा को बफ़र करने के लिए उत्तरदायी है।[39]

फ़ाइल पढ़ने और लिखने, या फ़ाइल भेजने और प्राप्त करने के लिए बफ़र-आकार का चयन, आवेदन स्तर पर किया जाता है। लिंक की गई सूची का उपयोग करके बफर को बनाए रखा जाता है।[40] इसमें बफ़रनोड्स का सेट होता है। प्रत्येक बफ़रनोड में डेटाफ़ील्ड होता है। डेटाफील्ड में डेटा और पॉइंटर होता है जिसे नेक्सटबफरनोड कहा जाता है जो अगले बफरनोड को इंगित करता है। वर्तमान स्थिति का पता लगाने के लिए, दो पॉइंटर (कंप्यूटर प्रोग्रामिंग) का उपयोग किया जाता है: करेंट बफरनोड और इंड बफरनोड, जो अंतिम लिखने और पढ़ने की स्थिति के लिए बफरनोड में स्थिति का प्रतिनिधित्व करते हैं। यदि बफ़रनोड के पास कोई खाली स्थान नहीं है, तो यह क्लाइंट को प्रतीक्षा करने के लिए प्रतीक्षा संकेत भेजेगा जब तक कि वहाँ उपलब्ध स्थान न हो।[41]

वितरित फ़ाइल सिस्टम का क्लाउड-आधारित तुल्यकालन

अधिक से अधिक उपयोगकर्ताओं के पास तदर्थ कनेक्टिविटी के साथ कई डिवाइस हैं। इन उपकरणों पर दोहराए जाने वाले डेटा सेट को सर्वरों की मनमानी संख्या के बीच सिंक्रनाइज़ करने की आवश्यकता होती है। यह बैकअप के लिए और ऑफलाइन ऑपरेशन के लिए भी उपयोगी है। वास्तव में, जब उपयोगकर्ता नेटवर्क की स्थिति अच्छी नहीं होती है, तो उपयोगकर्ता डिवाइस डेटा के भाग को प्रमुख रूप से दोहराएगा जिसे बाद में और ऑफ-लाइन संशोधित किया जाएगा। बार जब नेटवर्क की स्थिति अच्छी हो जाती है, तो डिवाइस सिंक्रोनाइज़ हो जाता है।[42] वितरित तुल्यकालन समस्या से निपटने के लिए दो दृष्टिकोण सम्मलित हैं: उपयोगकर्ता-नियंत्रित पीयर-टू-पीयर तुल्यकालन और क्लाउड मास्टर-प्रतिकृति तुल्यकालन।[42]* उपयोगकर्ता-नियंत्रित पीयर-टू-पीयर: rsync जैसे सॉफ़्टवेयर को उन सभी उपयोगकर्ताओं के कंप्यूटरों में स्थापित किया जाना चाहिए जिनमें उनका डेटा होता है। फ़ाइलें पीयर-टू-पीयर सिंक्रनाइज़ेशन द्वारा सिंक्रनाइज़ की जाती हैं जहां उपयोगकर्ताओं को नेटवर्क पते और सिंक्रनाइज़ेशन पैरामीटर निर्दिष्ट करना होगा, और इस प्रकार यह मैन्युअल प्रक्रिया है।

  • क्लाउड मास्टर-रेप्लिका सिंक्रोनाइज़ेशन: क्लाउड सेवाओं द्वारा व्यापक रूप से उपयोग किया जाता है, जिसमें क्लाउड में मास्टर प्रतिकृति बनाए रखी जाती है, और सभी अपडेट और सिंक्रोनाइज़ेशन ऑपरेशन इस मास्टर कॉपी के लिए होते हैं, जो विफलताओं के स्थिति में उच्च स्तर की उपलब्धता और विश्वसनीयता प्रदान करते हैं।

सुरक्षा कुंजी

क्लाउड कंप्यूटिंग में, सबसे महत्वपूर्ण सुरक्षा अवधारणाएँ गोपनीयता, अखंडता और उपलब्धता ( सूचना सुरक्षा ) हैं। निजी डेटा को प्रकट होने से बचाने के लिए गोपनीयता अपरिहार्य हो जाती है। अखंडता सुनिश्चित करती है कि डेटा दूषित नहीं है।[43]

गोपनीयता

गोपनीयता का अर्थ है कि डेटा और संगणना कार्य गोपनीय हैं: न तो क्लाउड प्रदाता और न ही अन्य क्लाइंट क्लाइंट के डेटा तक पहुंच सकते हैं। गोपनीयता के बारे में काफी शोध किया गया है, क्योंकि यह उन महत्वपूर्ण बिंदुओं में से है जो अभी भी क्लाउड कंप्यूटिंग के लिए चुनौतियां प्रस्तुत करता है। क्लाउड प्रदाताओं में विश्वास की कमी भी संबंधित विवाद है।[44] क्लाउड के बुनियादी ढांचे को यह सुनिश्चित करना चाहिए कि ग्राहकों के डेटा को अनधिकृत पार्टियों द्वारा एक्सेस नहीं किया जाएगा।

यदि सेवा प्रदाता निम्नलिखित सभी कार्य कर सकता है तो पर्यावरण असुरक्षित हो जाता है:[45]

  • क्लाउड में उपभोक्ता के डेटा का पता लगाएं
  • उपभोक्ता के डेटा तक पहुंचें और पुनः प्राप्त करें
  • डेटा के अर्थ को समझें (डेटा के प्रकार, कार्यात्मकताएं और एप्लिकेशन के इंटरफेस और डेटा का प्रारूप)।

डेटा की भौगोलिक स्थिति गोपनीयता और गोपनीयता निर्धारित करने में मदद करती है। ग्राहकों के स्थान को ध्यान में रखा जाना चाहिए। उदाहरण के लिए, यूरोप के ग्राहक संयुक्त राज्य अमेरिका में स्थित डेटा केंद्रों का उपयोग करने में रुचि नहीं लेंगे, क्योंकि इससे डेटा की गोपनीयता की गारंटी प्रभावित होती है। उस समस्या से निपटने के लिए, कुछ क्लाउड कंप्यूटिंग विक्रेताओं ने ग्राहक के साथ किए गए सर्विस-लेवल एग्रीमेंट के पैरामीटर के रूप में होस्ट की भौगोलिक स्थिति को सम्मलित किया है,[46] उपयोगकर्ताओं को स्वयं उन सर्वरों के स्थान चुनने की अनुमति देता है जो उनके डेटा को होस्ट करेंगे।

गोपनीयता के लिए अन्य दृष्टिकोण में डेटा एन्क्रिप्शन सम्मलित है।[47] अन्यथा, अनधिकृत उपयोग का गंभीर खतरा होगा। विभिन्न प्रकार के समाधान सम्मलित हैं, जैसे केवल संवेदनशील डेटा को एन्क्रिप्ट करना,[48] और संगणना को सरल बनाने के लिए केवल कुछ संचालनों का समर्थन करता हैं।[49] इसके अतिरिक्त, क्रिप्टोग्राफ़िक विधि और होमोमोर्फिक एन्क्रिप्शन के रूप में उपकरण, क्लाउड में गोपनीयता बनाए रखने के लिए उपयोग किए जाते हैं।[43]

अखंडता

क्लाउड कंप्यूटिंग में अखंडता का तात्पर्य डेटा अखंडता के साथ-साथ कंप्यूटिंग अखंडता से है। इस प्रकार की अखंडता का मतलब है कि डेटा को क्लाउड सर्वर पर सही ढंग से संग्रहीत करना होगा और विफलता या गलत कंप्यूटिंग के स्थिति में समस्याओं का पता लगाना होगा।

डेटा अखंडता दुर्भावनापूर्ण घटनाओं या प्रशासन त्रुटियों से प्रभावित हो सकती है (उदाहरण के लिए बैकअप और पुनर्स्थापना के समय, आंकड़ों का विस्थापन , या पीयर टू पीयर सिस्टम में सदस्यता बदलना)।[50]

क्रिप्टोग्राफी (सामान्यतः डेटा ब्लॉक पर संदेश-प्रमाणीकरण कोड, या एमएसीएस के माध्यम से) का उपयोग करके अखंडता हासिल करना आसान है।[51]

डेटा अखंडता को प्रभावित करने वाले जाँच तंत्र सम्मलित हैं। उदाहरण के लिए:

  • हेल (उच्च-उपलब्धता और अखंडता परत) वितरित क्रिप्टोग्राफ़िक प्रणाली है जो सर्वर के सेट को क्लाइंट को यह सिद्ध करने की अनुमति देती है कि संग्रहीत फ़ाइल अक्षुण्ण और पुनर्प्राप्ति योग्य है।[52]
  • हच पीओआरएस (बड़ी फाइलों के लिए पुनर्प्राप्ति योग्यता का सबूत)[53] सममित क्रिप्टोग्राफ़िक प्रणाली पर आधारित है, जहाँ केवल सत्यापन कुंजी है जिसे इसकी अखंडता में सुधार के लिए फ़ाइल में संग्रहीत किया जाना चाहिए। यह विधि फ़ाइल एफ को एन्क्रिप्ट करने के लिए कार्य करती है और पुनः टीनेल नामक यादृच्छिक स्ट्रिंग उत्पन्न करती है जिसे एन्क्रिप्टेड फ़ाइल के अंत में जोड़ा जाना चाहिए। सर्वर सेंटिनल का पता नहीं लगा सकता है, जो कि अन्य ब्लॉकों से अलग करना असंभव है, इसलिए छोटा सा परिवर्तन इंगित करेगा कि फ़ाइल बदली गई है या नहीं।
  • पीडीपी (सिद्ध डेटा कब्ज़ा) जाँच कुशल और व्यावहारिक तरीकों का वर्ग है जो अविश्वसनीय सर्वरों पर डेटा अखंडता की जाँच करने का कुशल तरीका प्रदान करता है:
    • पीडीपी:[54] सर्वर पर डेटा स्टोर करने से पहले, क्लाइंट को स्थानीय रूप से कुछ मेटा-डेटा स्टोर करना चाहिए। बाद में, और डेटा डाउनलोड किए बिना, क्लाइंट सर्वर से यह जांचने के लिए कह सकता है कि डेटा गलत नहीं हुआ है। इस दृष्टिकोण का उपयोग स्थैतिक डेटा के लिए किया जाता है।
    • स्केलेबल पीडीपी:[55] यह दृष्टिकोण सममित-कुंजी पर आधारित है, जो सार्वजनिक-कुंजी एन्क्रिप्शन से अधिक कुशल है। यह कुछ गतिशील संचालन (संशोधन, विलोपन और संलग्न) का समर्थन करता है लेकिन इसका उपयोग सार्वजनिक सत्यापन के लिए नहीं किया जा सकता है।
    • गतिशील पीडीपी:[56] यह दृष्टिकोण पीडीपी मॉडल को कई अपडेट ऑपरेशंस जैसे एपेंड, इन्सर्ट, मॉडिफाई और डिलीट का समर्थन करने के लिए विस्तारित करता है, जो गहन संगणना के लिए अच्छी प्रकार से अनुकूल है।

उपलब्धता

उपलब्धता सामान्यतः प्रतिकृति (कंप्यूटिंग) द्वारा प्रभावित होती है।[57][58][59][60] इस बीच, निरंतरता की गारंटी होनी चाहिए। चूंकि, निरंतरता और उपलब्धता ही समय में प्राप्त नहीं की जा सकती है; प्रत्येक को दूसरे के कुछ बलिदान पर प्राथमिकता दी जाती है। संतुलन होना चाहिए।[61] पहुंच योग्य होने के लिए डेटा की पहचान होनी चाहिए। उदाहरण के लिए, स्कूट [57]कुंजी/मूल्य भंडारण पर आधारित तंत्र है जो कुशल विधियाँ से गतिशील डेटा आवंटन की अनुमति देता है। प्रत्येक सर्वर को महाद्वीप-देश-डेटासेंटर-रूम-रैक-सर्वर के रूप में लेबल द्वारा पहचाना जाना चाहिए। सर्वर कई वर्चुअल नोड्स को संदर्भित कर सकता है, प्रत्येक नोड में डेटा का चयन (या एकाधिक डेटा के कई विभाजन) होते हैं। डेटा के प्रत्येक टुकड़े को प्रमुख स्थान द्वारा पहचाना जाता है जो तरफ़ा क्रिप्टोग्राफ़िक हैश फ़ंक्शन (जैसे डब्ल्यू:MD5) द्वारा उत्पन्न होता है और इस कुंजी के हैश फ़ंक्शन मान द्वारा स्थानीयकृत होता है। कुंजी स्थान को डेटा के टुकड़े के संदर्भ में प्रत्येक विभाजन के साथ कई विभाजनों में विभाजित किया जा सकता है। प्रतिकृति करने के लिए, वर्चुअल नोड्स को अन्य सर्वरों द्वारा दोहराया और संदर्भित किया जाना चाहिए। डेटा स्थायित्व और डेटा उपलब्धता को अधिकतम करने के लिए, प्रतिकृतियों को अलग-अलग सर्वरों पर रखा जाना चाहिए और प्रत्येक सर्वर को अलग भौगोलिक स्थान पर होना चाहिए, क्योंकि डेटा की उपलब्धता भौगोलिक विविधता के साथ बढ़ती है। प्रतिकृति की प्रक्रिया में स्थान की उपलब्धता का मूल्यांकन सम्मलित है, जो प्रत्येक चंक सर्वर पर निश्चित न्यूनतम थ्रेश-होल्ड से ऊपर होना चाहिए। अन्यथा, डेटा को दूसरे चंक सर्वर पर दोहराया जाता है। प्रत्येक विभाजन, i, में उपलब्धता मान है जो निम्न सूत्र द्वारा दर्शाया गया है:

कहां प्रतिकृतियों को होस्ट करने वाले सर्वर हैं, और सर्वर का विश्वास हैं और (किसी देश की आर्थिक और राजनीतिक स्थिति जैसे हार्डवेयर घटकों और गैर-विधिी जैसे विधिी कारकों पर निर्भर) और विविधता के बीच भौगोलिक दूरी है और .[62]

डेटा उपलब्धता सुनिश्चित करने के लिए प्रतिकृति बढ़िया समाधान है, लेकिन मेमोरी स्पेस के स्थिति में इसकी लागत बहुत अधिक है।[63] डिस्क कम करें[63]एचडीएफसी का संशोधित संस्करण है जो डब्ल्यू:रेड विधि (रेड-5 और रेड-6) पर आधारित है और प्रतिकृति डेटा के अतुल्यकालिक एन्कोडिंग की अनुमति देता है। वास्तव में, पृष्ठभूमि प्रक्रिया है जो व्यापक रूप से दोहराए गए डेटा की खोज करती है और इसे एन्कोड करने के बाद अतिरिक्त प्रतियों को हटा देती है। अन्य दृष्टिकोण प्रतिकृति को इरेज़र कोडिंग के साथ बदलना है।[64] इसके के अतिरिक्त, डेटा की उपलब्धता सुनिश्चित करने के लिए कई विधियाँ हैं जो डेटा रिकवरी की अनुमति देते हैं। वास्तव में, डेटा को कोडित किया जाना चाहिए, और यदि यह खो जाता है, तो इसे कोडिंग चरण के समय बनाए गए टुकड़ों से पुनर्प्राप्त किया जा सकता है।[65] कुछ अन्य दृष्टिकोण जो उपलब्धता की गारंटी के लिए विभिन्न तंत्रों को लागू करते हैं, वे हैं: माइक्रोसाफ्ट अज़ूर का रीड-सोलोमन कोड और एचडीएफसी के लिए रेडनोड का उपयोग किया जाता है। इसके के अतिरिक्त, गूगल अभी भी इरेज़र-कोडिंग मैकेनिज्म पर आधारित नए दृष्टिकोण पर कार्य कर रहा है।[66] क्लाउड स्टोरेज के लिए कोई रेड कार्यान्वयन नहीं है।[64]

आर्थिक पहलू

क्लाउड कंप्यूटिंग अर्थव्यवस्था तेजी से बढ़ रही है। अमेरिकी सरकार ने अपनी चक्रवृद्धि वार्षिक वृद्धि दर (CAGR) का 40% खर्च करने का निर्णय लिया है, जिसके 2015 तक 7 बिलियन डॉलर होने की उम्मीद है।[67] अधिक से अधिक कंपनियां बड़ी मात्रा में डेटा का प्रबंधन करने और भंडारण क्षमता की कमी को दूर करने के लिए क्लाउड कंप्यूटिंग का उपयोग कर रही हैं, और क्योंकि यह उन्हें सेवा के रूप में ऐसे संसाधनों का उपयोग करने में सक्षम बनाता है, यह सुनिश्चित करता है कि निवेश किए बिना उनकी कंप्यूटिंग जरूरतों को पूरा किया जाएगा। इंफ्रास्ट्रक्चर में (पे-एज़-यू-गो मॉडल)।[68] प्रत्येक एप्लिकेशन प्रदाता को समय-समय पर प्रत्येक सर्वर की लागत का भुगतान करना पड़ता है जहां डेटा की प्रतिकृतियां संग्रहीत की जाती हैं। सर्वर की लागत हार्डवेयर की गुणवत्ता, भंडारण क्षमता और इसके क्वेरी-प्रोसेसिंग और संचार ओवरहेड द्वारा निर्धारित की जाती है।[69] क्लाउड कंप्यूटिंग प्रदाताओं को क्लाइंट की मांगों के अनुसार अपनी सेवाओं को स्केल करने की अनुमति देती है।

पे-एज-यू-गो मॉडल ने स्टार्टअप कंपनियों पर बोझ को भी कम कर दिया है जो कम्प्यूट-इंटेंसिव बिजनेस से लाभ उठाना चाहते हैं। क्लाउड कंप्यूटिंग कई तीसरी दुनिया के देशों को भी अवसर प्रदान करता है जिनके पास अन्यथा ऐसे कंप्यूटिंग संसाधन नहीं होती हैं। क्लाउड कंप्यूटिंग नवाचार के लिए आईटी बाधाओं को कम कर सकती है।[70] क्लाउड कंप्यूटिंग के व्यापक उपयोग के अतिरिक्त, अविश्वसनीय क्लाउड में बड़ी मात्रा में डेटा का कुशल साझाकरण अभी भी चुनौती है।

संदर्भ

  1. Sun microsystem, p. 1
  2. Fabio Kon, p. 1
  3. Kobayashi et al. 2011, p. 1
  4. Angabini et al. 2011, p. 1
  5. Di Sano et al. 2012, p. 2
  6. Andrew & Maarten 2006, p. 492
  7. Andrew & Maarten 2006, p. 496
  8. Humbetov 2012, p. 2
  9. 9.0 9.1 9.2 Krzyzanowski 2012, p. 2</रेफरी> प्रत्येक फ़ाइल 64 मेगाबाइट के कई हिस्सों में विभाजित है। प्रत्येक चंक को एक चंक सर्वर में संग्रहित किया जाता है। चंक की पहचान चंक हैंडल द्वारा की जाती है, जो विश्व स्तर पर अद्वितीय 64-बिट संख्या है जिसे मास्टर द्वारा असाइन किया जाता है जब चंक पहली बार बनाया जाता है। मास्टर फाइलों के सभी मेटाडेटा को बनाए रखता है, जिसमें फ़ाइल नाम, निर्देशिकाएं, और फाइलों की मैपिंग शामिल होती है, जिसमें प्रत्येक फ़ाइल के डेटा वाले चंक्स की सूची होती है। मेटाडेटा को मास्टर सर्वर की मुख्य मेमोरी में फाइलों की मैपिंग के साथ-साथ चंक्स में रखा जाता है। डिस्क पर एक ऑपरेशन लॉग में इस डेटा के अपडेट लॉग किए गए हैं। यह ऑपरेशन लॉग दूरस्थ मशीनों पर दोहराया जाता है। जब लॉग बहुत बड़ा हो जाता है, तो एक चेकपॉइंट बनाया जाता है और मुख्य मेमोरी में मैपिंग की सुविधा के लिए मुख्य-मेमोरी डेटा को बी-वृक्ष संरचना में संग्रहीत किया जाता है। रेफरी>Krzyzanowski 2012, p. 4</रेफरी>
    दोष सहिष्णुता

    दोष सहिष्णुता को सुविधाजनक बनाने के लिए, प्रत्येक चंक को कई (डिफ़ॉल्ट, तीन) चंक सर्वरों पर दोहराया जाता है।<ref>Di Sano et al. 2012, p. 2

  10. Pavel Bžoch, p. 7
  11. Kai et al. 2013, p. 23
  12. 12.0 12.1 Hsiao et al. 2013, p. 2
  13. Hsiao et al. 2013, p. 952
  14. Ghemawat, Gobioff & Leung 2003, p. 1
  15. Ghemawat, Gobioff & Leung 2003, p. 8
  16. Hsiao et al. 2013, p. 953
  17. Di Sano et al. 2012, pp. 1–2
  18. Andrew & Maarten 2006, p. 497
  19. Humbetov 2012, p. 3
  20. Humbetov 2012, p. 5
  21. Andrew & Maarten 2006, p. 498
  22. Krzyzanowski 2012, p. 5
  23. "द ग्रेट डिस्क ड्राइव इन द स्काई: कैसे वेब दिग्गज बड़े स्टोर करते हैं - और हमारा मतलब बड़ा डेटा है". 2012-01-27.
  24. Fan-Hsun et al. 2012, p. 2
  25. "Apache Hadoop 2.9.2 – HDFS आर्किटेक्चर".
  26. Azzedin 2013, p. 2
  27. Adamov 2012, p. 2</रेफरी> NameNode फाइल सिस्टम नेमस्पेस ऑपरेशंस का प्रबंधन करता है जैसे कि फाइल और डायरेक्टरी को खोलना, बंद करना और नाम बदलना और फाइल एक्सेस को नियंत्रित करता है। यह DataNodes के ब्लॉक की मैपिंग को भी निर्धारित करता है। DataNodes फाइल सिस्टम के क्लाइंट से पढ़ने और लिखने के अनुरोधों को पूरा करने, ब्लॉक आवंटन या विलोपन के प्रबंधन और ब्लॉक की नकल करने के लिए जिम्मेदार हैं। रेफरी>Yee & Thu Naing 2011, p. 122</रेफरी> जब कोई ग्राहक डेटा पढ़ना या लिखना चाहता है, तो वह NameNode से संपर्क करता है और NameNode जाँचता है कि डेटा कहाँ से पढ़ा या लिखा जाना चाहिए। उसके बाद, क्लाइंट के पास DataNode का स्थान होता है और वह इसे पढ़ने या लिखने के अनुरोध भेज सकता है। HDFS को आमतौर पर डेटा पुनर्संतुलन योजनाओं के साथ इसकी अनुकूलता की विशेषता है। सामान्य तौर पर, DataNode पर खाली स्थान का प्रबंधन करना बहुत महत्वपूर्ण है। यदि खाली स्थान पर्याप्त नहीं है, तो डेटा को एक डेटानोड से दूसरे में स्थानांतरित किया जाना चाहिए; और अतिरिक्त प्रतिकृतियां बनाने के मामले में, सिस्टम संतुलन सुनिश्चित करने के लिए डेटा को स्थानांतरित किया जाना चाहिए।

    अन्य उदाहरण

    वितरित फ़ाइल सिस्टम को विभिन्न उद्देश्यों के लिए अनुकूलित किया जा सकता है। कुछ, जैसे कि जीएफएस सहित इंटरनेट सेवाओं के लिए डिज़ाइन किए गए, स्केलेबिलिटी के लिए अनुकूलित हैं। वितरित फ़ाइल सिस्टम के लिए अन्य डिज़ाइन प्रदर्शन-गहन अनुप्रयोगों का समर्थन करते हैं जो आमतौर पर समानांतर में निष्पादित होते हैं।<ref>Soares et al. 2013, p. 158

  28. Perez, Nicolas (2016-01-02). "कैसे MapR हमारी उत्पादकता में सुधार करता है और हमारे डिजाइन को सरल करता है". Medium. Medium. Retrieved June 21, 2016.
  29. Woodie, Alex (2016-03-08). "Hadoop से Zeta तक: MapR के अभिसरण रूपांतरण के अंदर". Datanami. Tabor Communications Inc. Retrieved June 21, 2016.
  30. Brennan, Bob. "फ्लैश मेमोरी समिट". youtube. Samsung. Retrieved June 21, 2016.
  31. Srivas, MC. "मैपआर फाइल सिस्टम". Hadoop Summit 2011. Hortonworks. Retrieved June 21, 2016.
  32. Dunning, Ted; Friedman, Ellen (January 2015). "Chapter 3: Understanding the MapR Distribution for Apache Hadoop". रियल वर्ल्ड हडूप (in English) (First ed.). Sebastopol, CA: O'Reilly Media, Inc. pp. 23–28. ISBN 978-1-4919-2395-5. Retrieved June 21, 2016.
  33. Weil et al. 2006, p. 307
  34. Maltzahn et al. 2010, p. 39
  35. Jacobi & Lingemann, p. 10
  36. Schwan Philip 2003, p. 401
  37. Jones, Koniges & Yates 2000, p. 1
  38. Upadhyaya et al. 2008, p. 400
  39. Upadhyaya et al. 2008, p. 403
  40. Upadhyaya et al. 2008, p. 401
  41. Upadhyaya et al. 2008, p. 402
  42. 42.0 42.1 Uppoor, Flouris & Bilas 2010, p. 1
  43. 43.0 43.1 Zhifeng & Yang 2013, p. 854
  44. Zhifeng & Yang 2013, pp. 845–846
  45. Yau & An 2010, p. 353
  46. Vecchiola, Pandey & Buyya 2009, p. 14
  47. Yau & An 2010, p. 352
  48. Miranda & Siani 2009
  49. Naehrig & Lauter 2013
  50. Zhifeng & Yang 2013, p. 5
  51. Juels & Oprea 2013, p. 4
  52. Bowers, Juels & Oprea 2009
  53. Juels & S. Kaliski 2007, p. 2
  54. Ateniese et al. 2007
  55. Ateniese et al. 2008, pp. 5, 9
  56. Erway et al. 2009, p. 2
  57. 57.0 57.1 Bonvin, Papaioannou & Aberer 2009, p. 206
  58. Cuong et al. 2012, p. 5
  59. A., A. & P. 2011, p. 3
  60. Qian, D. & T. 2011, p. 3
  61. Vogels 2009, p. 2
  62. Bonvin, Papaioannou & Aberer 2009, p. 208
  63. 63.0 63.1 Carnegie et al. 2009, p. 1
  64. 64.0 64.1 Wang et al. 2012, p. 1
  65. Abu-Libdeh, Princehouse & Weatherspoon 2010, p. 2
  66. Wang et al. 2012, p. 9
  67. Lori M. Kaufman 2009, p. 2
  68. Angabini et al. 2011, p. 1
  69. Bonvin, Papaioannou & Aberer 2009, p. 3
  70. Marston et al. 2011, p. 3


ग्रन्थसूची

Fabio Kon (1996). "Distributed File Systems, The State of the Art and concept of Ph.D. Thesis". CiteSeerX 10.1.1.42.4609. {{cite journal}}: Cite journal requires |journal= (help)

  1. Architecture, structure, and design:
  2. Security

A., Undheim; A., Chilwan; P., Heegaard (2011). "Differentiated Availability in Cloud Computing SLAs". 2011 IEEE/ACM 12th International Conference on Grid Computing. pp. 129–136. doi:10.1109/Grid.2011.25. ISBN 978-1-4577-1904-2. S2CID 15047580.

Ari, Ateniese; Randal, Burns; Johns, Reza; Curtmola, Joseph; Herring, Burton; Lea, Kissner; Zachary, Peterson; Dawn, Song (2007). "Provable data possession at untrusted stores". CCS '07 Proceedings of the 14th ACM conference on Computer and communications security. pp. 598–609. doi:10.1145/1315245.1315318. ISBN 978-1-59593-703-2. S2CID 8010083.

  1. Synchronization
    • Uppoor, S; Flouris, M.D; Bilas, A (2010). "Cloud-based synchronization of distributed file system hierarchies". 2010 IEEE International Conference on Cluster Computing Workshops and Posters (CLUSTER WORKSHOPS). Inst. of Comput. Sci. (ICS), Found. for Res. & Technol. - Hellas (FORTH), Heraklion, Greece. pp. 1–4. doi:10.1109/CLUSTERWKSP.2010.5613087. ISBN 978-1-4244-8395-2. S2CID 14577793.
  2. Economic aspects
    • Lori M., Kaufman (2009). "Data Security in the World of Cloud Computing". Security & Privacy, IEEE. 7 (4): 161–64. doi:10.1109/MSP.2009.87. S2CID 16233643.
    • Marston, Sean; Lia, Zhi; Bandyopadhyaya, Subhajyoti; Zhanga, Juheng; Ghalsasi, Anand (2011). Cloud computing — The business perspective. Decision Support Systems Volume 51, Issue 1. pp. 176–189. doi:10.1016/j.dss.2010.12.006.
    • Angabini, A; Yazdani, N; Mundt, T; Hassani, F (2011). "Suitability of Cloud Computing for Scientific Data Analyzing Applications; an Empirical Study". 2011 International Conference on P2P, Parallel, Grid, Cloud and Internet Computing. Sch. of Electr. & Comput. Eng., Univ. of Tehran, Tehran, Iran. pp. 193–199. doi:10.1109/3PGCIC.2011.37. ISBN 978-1-4577-1448-1. S2CID 13393620.