क्लाउड के लिए वितरित फाइल सिस्टम: Difference between revisions

Revision as of 21:23, 10 January 2023

क्लाउड के लिए एक वितरित फ़ाइल सिस्टम एक w: फाइल सिस्टम है जो कई क्लाइंट्स को डेटा तक पहुंच की अनुमति देता है और उस डेटा पर संचालन (निर्माण, हटाना, संशोधित करना, पढ़ना, लिखना) का समर्थन करता है। प्रत्येक डेटा फ़ाइल को चंक (सूचना) नामक कई भागों में विभाजित किया जा सकता है। प्रत्येक चंक को अलग-अलग रिमोट मशीनों पर संग्रहीत किया जा सकता है, जिससे अनुप्रयोगों के समानांतर निष्पादन में आसानी होती है। सामान्यतः, डेटा को एक पदानुक्रमित वृक्ष संरचना में फ़ाइलों में संग्रहीत किया जाता है, जहाँ नोड निर्देशिकाओं का प्रतिनिधित्व करते हैं। वितरित वास्तुकला में फ़ाइलों को साझा करने के कई तरीके हैं: प्रत्येक समाधान एक निश्चित प्रकार के अनुप्रयोग के लिए उपयुक्त होना चाहिए, यह इस बात पर निर्भर करता है कि अनुप्रयोग कितना जटिल है। इस बीच, सिस्टम की सुरक्षा सुनिश्चित की जानी चाहिए। w:गोपनीयता, w:उपलब्धता और w:अखंडता एक सुरक्षित प्रणाली के लिए मुख्य कुंजी हैं।

उपयोगकर्ता क्लाउड कंप्यूटिंग के लिए इंटरनेट के माध्यम से कंप्यूटिंग संसाधनों को साझा कर सकते हैं, जो सामान्यतः डब्ल्यू: स्केलेबिलिटी और डब्ल्यू: लोच (क्लाउड कंप्यूटिंग) संसाधनों की विशेषता है - जैसे कि भौतिक डब्ल्यू: सर्वर (कंप्यूटिंग), एप्लिकेशन और कोई भी सेवा जो डब्ल्यू: वर्चुअलाइजेशन और गतिशील रूप से आवंटित। डब्ल्यू: यह सुनिश्चित करने के लिए सिंक्रनाइज़ेशन आवश्यक है कि सभी डिवाइस अप-टू-डेट हैं।

वितरित फाइल सिस्टम कई बड़े, मध्यम और छोटे उद्यमों को अपने दूरस्थ डेटा को स्टोर करने और एक्सेस करने में सक्षम बनाता है क्योंकि वे स्थानीय डेटा करते हैं, चर संसाधनों के उपयोग को सुविधाजनक बनाते हैं।

सिंहावलोकन

इतिहास

आज, वितरित फाइल सिस्टम के कई कार्यान्वयन हैं। पहला फ़ाइल सर्वर 1970 के दशक में शोधकर्ताओं द्वारा विकसित किया गया था। सन माइक्रोसिस्टम का नेटवर्क फ़ाइल सिस्टम 1980 के दशक में उपलब्ध हुआ। इससे पहले, जो लोग फ़ाइलें साझा करना चाहते थे, वे स्नीकर नेट विधि का उपयोग करते थे, भौतिक रूप से भंडारण मीडिया पर फ़ाइलों को एक स्थान से दूसरे स्थान पर ले जाते थे। एक बार जब कंप्यूटर नेटवर्क का प्रसार शुरू हो गया, तो यह स्पष्ट हो गया कि सम्मलिता फ़ाइल सिस्टम की कई सीमाएँ थीं और बहु-उपयोगकर्ता वातावरण के लिए अनुपयुक्त थीं। उपयोगकर्ता प्रारंभ में फ़ाइलों को साझा करने के लिए FTP का उपयोग करते थे।^[1] एफ़टीपी पहली बार 1973 के अंत में पीडीपी-10 पर चला। एफ़टीपी के साथ भी, फ़ाइलों को स्रोत कंप्यूटर से सर्वर पर और फिर सर्वर से गंतव्य कंप्यूटर पर कॉपी करने की आवश्यकता होती है। उपयोगकर्ताओं को फ़ाइल साझाकरण में सम्मलित सभी कंप्यूटरों के भौतिक पते जानने की आवश्यकता थी।^[2]

सहायक तकनीक

आधुनिक डेटा केंद्रों को बड़े, विषम वातावरणों का समर्थन करना चाहिए, जिसमें विभिन्न क्षमताओं के बड़ी संख्या में कंप्यूटर सम्मलित हैं। क्लाउड कंप्यूटिंग डेटा सेंटर नेटवर्क आर्किटेक्चर (DCN), मैपरेडस फ्रेमवर्क जैसी तकनीकों के साथ ऐसी सभी प्रणालियों के संचालन का समन्वय करती है, जो समानांतर और वितरित प्रणालियों में डेटा-गहन कंप्यूटिंग अनुप्रयोगों का समर्थन करती है, और वर्चुअलाइजेशन तकनीकें जो गतिशील संसाधन आवंटन प्रदान करती हैं, जिससे कई एक ही भौतिक सर्वर पर सह-अस्तित्व के लिए ऑपरेटिंग सिस्टम।

अनुप्रयोग

क्लाउड कंप्यूटिंग उपयोगकर्ता को पूरी पारदर्शिता के साथ आवश्यक सीपीयू और स्टोरेज संसाधन प्रदान करने की क्षमता के कारण बड़े पैमाने पर कंप्यूटिंग प्रदान करता है। यह क्लाउड कंप्यूटिंग को विशेष रूप से विभिन्न प्रकार के अनुप्रयोगों का समर्थन करने के लिए उपयुक्त बनाता है जिनके लिए बड़े पैमाने पर वितरित प्रसंस्करण की आवश्यकता होती है। इस डेटा-गहन कंप्यूटिंग के लिए एक उच्च प्रदर्शन फाइल सिस्टम की आवश्यकता होती है जो आभाषी दुनिया (VM) के बीच डेटा साझा कर सके।^[3] क्लाउड कंप्यूटिंग गतिशील रूप से आवश्यक संसाधनों को आवंटित करता है, एक कार्य समाप्त होने के बाद उन्हें जारी करता है, उपयोगकर्ताओं को केवल आवश्यक सेवाओं के लिए भुगतान करने की आवश्यकता होती है, अधिकांशतः सेवा-स्तरीय समझौते के माध्यम से। क्लाउड कंप्यूटिंग और कंप्यूटर क्लस्टर प्रतिमान औद्योगिक डेटा प्रोसेसिंग और खगोल विज्ञान और भौतिकी जैसे वैज्ञानिक अनुप्रयोगों के लिए तेजी से महत्वपूर्ण होते जा रहे हैं, जिन्हें प्रयोग करने के लिए अधिकांशतः बड़ी संख्या में कंप्यूटर की उपलब्धता की आवश्यकता होती है।^[4]

आर्किटेक्चर

अधिकांश वितरित फ़ाइल सिस्टम क्लाइंट-सर्वर आर्किटेक्चर पर बनाए गए हैं, लेकिन अन्य विकेंद्रीकृत समाधान भी सम्मलित हैं।

क्लाइंट-सर्वर आर्किटेक्चर

नेटवर्क फाइल सिस्टम (NFS) एक क्लाइंट-सर्वर आर्किटेक्चर का उपयोग करता है, जो एक नेटवर्क पर कई मशीनों के बीच फ़ाइलों को साझा करने की अनुमति देता है जैसे कि वे स्थानीय रूप से स्थित हों, एक मानकीकृत दृश्य प्रदान करते हुए। एनएफएस प्रोटोकॉल विषम ग्राहकों की प्रक्रियाओं की अनुमति देता है, संभवत: विभिन्न मशीनों पर और विभिन्न ऑपरेटिंग सिस्टम के अनुसार, फाइलों के वास्तविक स्थान की अनदेखी करते हुए दूर के सर्वर पर फाइलों तक पहुंचने के लिए। संभावित रूप से कम उपलब्धता और खराब मापनीयता से पीड़ित NFS प्रोटोकॉल में एकल सर्वर पर निर्भर होने का परिणाम है। एकाधिक सर्वरों का उपयोग करने से उपलब्धता की समस्या का समाधान नहीं होता है क्योंकि प्रत्येक सर्वर स्वतंत्र रूप से काम कर रहा है।^[5] NFS का मॉडल एक दूरस्थ फ़ाइल सेवा है। इस मॉडल को रिमोट एक्सेस मॉडल भी कहा जाता है, जो अपलोड/डाउनलोड मॉडल के विपरीत है:

रिमोट एक्सेस मॉडल: पारदर्शिता प्रदान करता है, क्लाइंट के पास फ़ाइल तक पहुंच होती है। वह दूरस्थ फ़ाइल के लिए अनुरोध भेजता है (जबकि फ़ाइल सर्वर पर रहती है)।^[6]
अपलोड/डाउनलोड मॉडल: क्लाइंट फ़ाइल को केवल स्थानीय रूप से एक्सेस कर सकता है। इसका अर्थ है कि क्लाइंट को फ़ाइल को डाउनलोड करना होगा, संशोधन करना होगा और इसे पुनः अपलोड करना होगा, जिससे कि दूसरों के क्लाइंट इसका उपयोग कर सकें।

एनएफएस द्वारा उपयोग की जाने वाली फ़ाइल प्रणाली लगभग वही है जो यूनिक्स सिस्टम द्वारा उपयोग की जाती है। फाइलों को एक नामकरण ग्राफ में श्रेणीबद्ध रूप से व्यवस्थित किया जाता है जिसमें निर्देशिकाओं और फाइलों को नोड्स द्वारा दर्शाया जाता है।

क्लस्टर-आधारित आर्किटेक्चर

क्लस्टर फ़ाइल सिस्टम | क्लस्टर-आधारित आर्किटेक्चर क्लाइंट-सर्वर आर्किटेक्चर में कुछ मुद्दों को सुधारता है, समानांतर में अनुप्रयोगों के निष्पादन में सुधार करता है। यहां उपयोग की जाने वाली तकनीक फ़ाइल-स्ट्रिपिंग है: एक फ़ाइल कई हिस्सों में विभाजित होती है, जो कई स्टोरेज सर्वरों में धारीदार होती है। लक्ष्य फ़ाइल के विभिन्न हिस्सों को समानांतर में एक्सेस करने की अनुमति देना है। यदि एप्लिकेशन इस तकनीक से लाभान्वित नहीं होता है, तो विभिन्न सर्वरों पर विभिन्न फ़ाइलों को संग्रहीत करना अधिक सुविधाजनक होगा। चूंकि, जब बड़े डेटा केंद्रों, जैसे कि अमेज़ॅन और गूगल के लिए एक वितरित फ़ाइल सिस्टम को व्यवस्थित करने की बात आती है, जो वेब क्लाइंट को कई ऑपरेशन (पढ़ने, अपडेट करने, हटाने, ...) के बीच वितरित बड़ी संख्या में फ़ाइलों की अनुमति देता है। बड़ी संख्या में कंप्यूटर, तब क्लस्टर-आधारित समाधान अधिक लाभदायक हो जाते हैं। ध्यान दें कि बड़ी संख्या में कंप्यूटर होने का अर्थ अधिक हार्डवेयर विफलता हो सकता है।^[7] इस प्रकार के दो सबसे व्यापक रूप से उपयोग किए जाने वाले वितरित फ़ाइल सिस्टम (DFS) गूगल फ़ाइल सिस्टम (GFS) और अपाचे हडूप (एचडीएफसी) हैं। दोनों गूगल फाइल सिस्टम एक मानक ऑपरेटिंग सिस्टम (जीएफएस के स्थिति में लिनक्स ) के शीर्ष पर चलने वाली उपयोगकर्ता स्तर की प्रक्रियाओं द्वारा कार्यान्वित किए जाते हैं।^[8]

डिजाइन सिद्धांत

लक्ष्य

गूगल फाइल सिस्टम (GFS) और हडूप हडूप वितरित फ़ाइल सिस्टम एचडीएफसी) विशेष रूप से बहुत बड़े डेटा सेट पर प्रचय संसाधन को संभालने के लिए बनाए गए हैं। उसके लिए, निम्नलिखित परिकल्पनाओं को ध्यान में रखा जाना चाहिए:^[9]* उच्च उपलब्धता: कंप्यूटर क्लस्टर में हजारों फ़ाइल सर्वर हो सकते हैं और उनमें से कुछ किसी भी समय बंद हो सकते हैं

एक सर्वर एक रैक, एक कमरे, एक डाटा सेंटर, एक देश और एक महाद्वीप से संबंधित होता है, जिससे कि इसकी भौगोलिक स्थिति की सटीक पहचान की जा सके
फ़ाइल का आकार कई गीगाबाइट्स से कई टेराबाइट्स तक भिन्न हो सकता है। फाइल सिस्टम बड़ी संख्या में फाइलों का समर्थन करने में सक्षम होना चाहिए
एपेंड ऑपरेशंस को सपोर्ट करने और फाइल लिखे जाने के समय भी फाइल कंटेंट को दिखने की अनुमति देने की जरूरत है
काम करने वाली मशीनों के बीच संचार विश्वसनीय है: ट्रांसमिशन कंट्रोल प्रोटोकॉल | टीसीपी / आईपी का उपयोग दुरस्तह प्रकिया कॉल कम्युनिकेशन एब्स्ट्रैक्शन के साथ किया जाता है। टीसीपी क्लाइंट को समस्या होने पर और नया कनेक्शन बनाने की आवश्यकता होने पर लगभग तुरंत जानने की अनुमति देता है।^[10]

भार संतुलन

वितरित वातावरण में कुशल संचालन के लिए भार संतुलन आवश्यक है। इसका मतलब है विभिन्न सर्वरों के बीच काम बांटना,^[11] निष्पक्ष रूप से, समान समय में अधिक काम करने के लिए और ग्राहकों को तेजी से सेवा देने के लिए। एक क्लाउड में एन चंकसर्वर वाले सिस्टम में (एन 1000, 10000, या अधिक), जहां फाइलों की एक निश्चित संख्या संग्रहीत की जाती है, प्रत्येक फ़ाइल को कई हिस्सों में विभाजित किया जाता है या निश्चित आकार के टुकड़े (उदाहरण के लिए, 64 मेगाबाइट्स), प्रत्येक चंकसर्वर का लोड सर्वर द्वारा होस्ट किए गए चंक्स की संख्या के समानुपाती होता है।^[12] लोड-संतुलित क्लाउड में, मैपरेड्यूस- आधारित अनुप्रयोगों के प्रदर्शन को अधिकतम करते हुए संसाधनों का कुशलतापूर्वक उपयोग किया जा सकता है।

भार पुनर्संतुलन

क्लाउड कम्प्यूटिंग परिवेश में, विफलता आदर्श है,^[13]^[14] और चंकसर्वर्स को अपग्रेड, रिप्लेस और सिस्टम में जोड़ा जा सकता है। फ़ाइलें भी गतिशील रूप से बनाई, हटाई और संलग्न की जा सकती हैं। इससे वितरित फ़ाइल सिस्टम में असंतुलन लोड हो जाता है, जिसका अर्थ है कि फ़ाइल भाग सर्वरों के बीच समान रूप से वितरित नहीं होते हैं।

जीएफएस और एचडीएफएस जैसे बादलों में वितरित फ़ाइल सिस्टम मेटाडेटा और लोड संतुलन को प्रबंधित करने के लिए केंद्रीय या मास्टर सर्वर या नोड्स (जीएफएस के लिए मास्टर और एचडीएफएस के लिए नामनोड) पर भरोसा करते हैं। मास्टर समय-समय पर प्रतिकृतियों को पुनर्संतुलित करता है: यदि पहले सर्वर पर खाली स्थान एक निश्चित सीमा से नीचे आता है, तो डेटा को एक डेटानोड/chunkserver से दूसरे में ले जाना चाहिए।^[15] चूंकि, यह केंद्रीकृत दृष्टिकोण उन मास्टर सर्वरों के लिए एक अड़चन बन सकता है, यदि वे बड़ी संख्या में फ़ाइल एक्सेस का प्रबंधन करने में असमर्थ हो जाते हैं, क्योंकि यह उनके पहले से ही भारी भार को बढ़ा देता है। भार पुनर्संतुलन समस्या w:NP-हार्ड|NP-हार्ड है।^[16] सहयोग में काम करने के लिए बड़ी संख्या में चंकसर्वर प्राप्त करने के लिए, और वितरित फ़ाइल सिस्टम में लोड संतुलन की समस्या को हल करने के लिए, कई दृष्टिकोण प्रस्तावित किए गए हैं, जैसे कि फ़ाइल चंक्स को पुनः प्राप्त करना जिससे कि चंक्स को कम करते हुए समान रूप से समान रूप से वितरित किया जा सके। आंदोलन लागत जितना संभव हो।^[12]

गूगल फाइल सिस्टम

Template:Cat main

विवरण

गूगल, सबसे बड़ी इंटरनेट कंपनियों में से एक, ने गूगल की डेटा प्रोसेसिंग आवश्यकताओं की तेजी से बढ़ती मांगों को पूरा करने के लिए गूगल फ़ाइल सिस्टम (GFS) नाम से अपना स्वयं का वितरित फ़ाइल सिस्टम बनाया है, और इसका उपयोग सभी क्लाउड सेवाओं के लिए किया जाता है। GFS डेटा-गहन अनुप्रयोगों के लिए एक मापनीय वितरित फ़ाइल सिस्टम है। यह दोष-सहिष्णु, उच्च-प्रदर्शन डेटा भंडारण प्रदान करता है, बड़ी संख्या में ग्राहक इसे एक साथ एक्सेस करते हैं।

GFS मैपरेड्यूस का उपयोग करता है, जो उपयोगकर्ताओं को समांतरता और लोड-बैलेंसिंग मुद्दों के बारे में सोचे बिना प्रोग्राम बनाने और उन्हें कई मशीनों पर चलाने की अनुमति देता है। GFS आर्किटेक्चर कई चंकसर्वर्स और कई क्लाइंट्स के लिए एक मास्टर सर्वर होने पर आधारित है।^[17] समर्पित नोड में चलने वाला मास्टर सर्वर भंडारण संसाधनों के समन्वय और फाइलों के मेटा डेटा (उदाहरण के लिए, क्लासिकल फाइल सिस्टम में इनोड्स के समतुल्य) के प्रबंधन के लिए जिम्मेदार है।Cite error: Closing </ref> missing for <ref> tag कम से कम एक चंक सर्वर पर एक चंक उपलब्ध है। इस योजना का लाभ सादगी है। मास्टर प्रत्येक चंक के लिए चंक सर्वर आवंटित करने के लिए जिम्मेदार है और केवल मेटाडेटा जानकारी के लिए संपर्क किया जाता है। अन्य सभी डेटा के लिए, क्लाइंट को चंक सर्वर से इंटरैक्ट करना होगा।

मास्टर इस बात पर नज़र रखता है कि चंक कहाँ स्थित है। चूंकि, यह चंक स्थानों को ठीक से बनाए रखने का प्रयास नहीं करता है, लेकिन केवल कभी-कभार ही चंक सर्वर से संपर्क करता है, यह देखने के लिए कि उन्होंने कौन से चंक को संग्रहीत किया है।^[18] यह मापनीयता के लिए अनुमति देता है, और बढ़ते वर्कलोड के कारण बाधाओं को रोकने में मदद करता है।^[19] जीएफएस में, अधिकांश फाइलें नए डेटा को जोड़कर और सम्मलिता डेटा को अधिलेखित नहीं करके संशोधित की जाती हैं। एक बार लिखे जाने के बाद, फ़ाइलों को सामान्यतः बेतरतीब ढंग से पढ़ने के अतिरिक्त केवल क्रमिक रूप से पढ़ा जाता है, और यह इस DFS को उन परिदृश्यों के लिए सबसे उपयुक्त बनाता है जिनमें कई बड़ी फाइलें एक बार बनाई जाती हैं लेकिन कई बार पढ़ी जाती हैं।^[20]^[21]

फाइल प्रोसेसिंग

जब क्लाइंट किसी फ़ाइल को लिखना/अद्यतन करना चाहता है, तो मास्टर एक प्रतिकृति असाइन करेगा, जो प्राथमिक प्रतिकृति होगी यदि यह पहला संशोधन है। लेखन की प्रक्रिया दो चरणों से बनी है:^[9]* भेजना: सबसे पहले, और अब तक का सबसे महत्वपूर्ण, क्लाइंट यह पता लगाने के लिए मास्टर से संपर्क करता है कि कौन सा चंक सर्वर डेटा रखता है। क्लाइंट को प्राथमिक और द्वितीयक चंक सर्वर की पहचान करने वाली प्रतिकृतियों की सूची दी जाती है। क्लाइंट तब निकटतम प्रतिकृति चंक सर्वर से संपर्क करता है और उसे डेटा भेजता है। यह सर्वर डेटा को अगले निकटतम को भेजेगा, जो फिर इसे एक और प्रतिकृति के लिए अग्रेषित करेगा, और इसी प्रकार। डेटा को तब प्रचारित किया जाता है और मेमोरी में कैश किया जाता है लेकिन अभी तक फ़ाइल में नहीं लिखा गया है।

लेखन: जब सभी प्रतिकृतियां डेटा प्राप्त कर लेती हैं, तो ग्राहक प्राथमिक चंक सर्वर को एक लिखित अनुरोध भेजता है, जो भेजने के चरण में भेजे गए डेटा की पहचान करता है। प्राथमिक सर्वर तब प्राप्त होने वाले लेखन कार्यों के लिए एक अनुक्रम संख्या निर्दिष्ट करेगा, क्रम संख्या क्रम में फ़ाइल को लिखता है, और उस क्रम में लिखने के अनुरोधों को द्वितीयक को अग्रेषित करेगा। इस बीच, मास्टर को पाश से बाहर रखा जाता है।

परिणाम स्वरुप, हम दो प्रकार के प्रवाहों में अंतर कर सकते हैं: डेटा प्रवाह और नियंत्रण प्रवाह। डेटा प्रवाह भेजने के चरण से जुड़ा है और नियंत्रण प्रवाह लेखन चरण से जुड़ा है। यह आश्वासन देता है कि प्राथमिक चंक सर्वर लेखन क्रम को नियंत्रित करता है। ध्यान दें कि जब मास्टर किसी रेप्लिका को राइट ऑपरेशन असाइन करता है, तो यह चंक वर्जन नंबर को बढ़ाता है और सभी रेप्लिका को नए वर्जन नंबर के उस चंक को सूचित करता है। चंक वर्जन नंबर अपडेट एरर-डिटेक्शन की अनुमति देते हैं, यदि एक प्रतिकृति को अपडेट नहीं किया गया था क्योंकि इसका चंक सर्वर डाउन था।^[22] कुछ नए गूगल एप्लिकेशन 64-मेगाबाइट चंक आकार के साथ ठीक से काम नहीं कर पाए। उस समस्या को हल करने के लिए, GFS ने 2004 में बड़े मेज दृष्टिकोण को लागू करना शुरू किया।^[23]

हडूप वितरित फाइल सिस्टम

Template:Cat main

एचडीएफसी, अपाचे साफ्टवेयर फाउडेंशन द्वारा विकसित, एक वितरित फ़ाइल सिस्टम है जिसे बहुत बड़ी मात्रा में डेटा (टेराबाइट्स या पेटाबाइट्स) रखने के लिए डिज़ाइन किया गया है। इसका आर्किटेक्चर GFS के समान है, अर्ताथ मास्टर/स्लेव आर्किटेक्चर। एचडीएफएस सामान्यतः कंप्यूटर के क्लस्टर पर स्थापित होता है। हडूप की डिज़ाइन अवधारणा को गूगल द्वारा सूचित किया गया है, गूगल File System, गूगल मैपरेड्यूस और Bigtable के साथ, क्रमशः हडूप डिस्ट्रिब्यूटेड फ़ाइल सिस्टम (एचडीएफसी), हडूप मैपरेड्यूस और हडूप बेस (Hबेस) द्वारा कार्यान्वित किया जा रहा है।^[24] जीएफएस की प्रकार, एचडीएफएस राइट-वन्स-रीड-मैनी फाइल एक्सेस वाले परिदृश्यों के लिए अनुकूल है, और डेटा सुसंगतता के मुद्दों को सरल बनाने के लिए रैंडम रीड और राइट के बदले फाइल एपेंड और ट्रंकेट का समर्थन करता है।^[25] एचडीएफसी क्लस्टर में एक नेमनोड और कई डेटानोड मशीनें होती हैं। नेमनोड, एक मास्टर सर्वर, अपने रैम में स्टोरेज डेटानोडs के मेटाडेटा का प्रबंधन और रखरखाव करता है। डेटानोडs उन नोड्स से जुड़े स्टोरेज का प्रबंधन करता है जिन पर वे चलते हैं। नेमनोड और डेटानोड ऐसे सॉफ़्टवेयर हैं जिन्हें दैनिक उपयोग की मशीनों पर चलाने के लिए डिज़ाइन किया गया है, जो सामान्यतः लाइनेक्स OS के अंतर्गत चलते हैं। एचडीएफसी को किसी भी मशीन पर चलाया जा सकता है जो Java का समर्थन करती है और इसलिए नेमनोड या डेटानोड सॉफ़्टवेयर चला सकती है।^[26]

एचडीएफसी क्लस्टर पर, अंतिम ब्लॉक के छोटे होने की संभावना को छोड़कर, फ़ाइल को एक या अधिक समान आकार के ब्लॉक में विभाजित किया जाता है। प्रत्येक ब्लॉक को कई डेटानोड्स पर संग्रहीत किया जाता है, और उपलब्धता की गारंटी के लिए प्रत्येक को कई डेटानोड्स पर दोहराया जा सकता है। डिफ़ॉल्ट रूप से, प्रत्येक ब्लॉक को तीन बार दोहराया जाता है, एक प्रक्रिया जिसे ब्लॉक लेवल प्रतिकृति कहा जाता है।^[27] कुछ उदाहरणों में सम्मलित हैं: मैपआर एफएस (मैपआर-एफएस), सेफ (स्टोरेज) | सेफ-एफएस, बीईजीएफएस | फ्राउनहोफर फाइल सिस्टम (बीईजीएफएस), लस्टर (फाइल सिस्टम), आईबीएम जनरल समानांतर फाइल सिस्टम (जीपीएफएस), और समानांतर वर्चुअल फाइल सिस्टम .

मैपआर-एफएस एक वितरित फाइल सिस्टम है जो मैपआर कन्वर्जेड प्लेटफॉर्म का आधार है, जिसमें वितरित फाइल स्टोरेज की क्षमता, कई एपीआई के साथ एक नोएसक्यूएल डेटाबेस और एक एकीकृत संदेश स्ट्रीमिंग सिस्टम है। मैपआर-एफएस मापनीयता, प्रदर्शन, विश्वसनीयता और उपलब्धता के लिए अनुकूलित है। इसकी फाइल स्टोरेज क्षमता अपाचे हडूप डिस्ट्रिब्यूटेड फाइल सिस्टम (एचडीएफसी) एपीआई के साथ संगत है, लेकिन कई डिज़ाइन विशेषताओं के साथ जो इसे एचडीएफसी से अलग करती हैं। सबसे उल्लेखनीय अंतरों में से एक यह है कि मैपआर-एफएस एक पूरी प्रकार से पढ़ने/लिखने वाला फाइल सिस्टम है जिसमें फाइलों और निर्देशिकाओं के लिए मेटाडेटा नामस्थान में वितरित किया जाता है, इसलिए कोई नामनोड नहीं है।^[28]^[29]^[30]^[31]^[32] सेफ-एफएस एक वितरित फाइल सिस्टम है जो उत्कृष्ट प्रदर्शन और विश्वसनीयता प्रदान करता है।^[33] यह बड़ी फ़ाइलों और निर्देशिकाओं से निपटने की चुनौतियों का जवाब देता है, हजारों डिस्क की गतिविधि का समन्वय करता है, बड़े पैमाने पर मेटाडेटा तक समानांतर पहुंच प्रदान करता है, वैज्ञानिक और सामान्य-उद्देश्य दोनों वर्कलोड में हेरफेर करता है, बड़े पैमाने पर प्रमाणीकरण और एन्क्रिप्ट करता है, और बढ़ता है या बार-बार डिवाइस डीकमीशनिंग, डिवाइस विफलताओं और क्लस्टर विस्तार के कारण गतिशील रूप से कम हो रहा है।^[34] बीजीएफएस उच्च प्रदर्शन कम्प्यूटिंग के लिए फ्राउनहाफर कन्पेटेंस केंद्र का उच्च-प्रदर्शन समानांतर फ़ाइल सिस्टम है। बीजीएफएस के वितरित मेटाडेटा आर्किटेक्चर को उच्च I/O मांगों के साथ उच्च प्रदर्शन कंप्यूटिंग और इसी प्रकार के अनुप्रयोगों को चलाने के लिए आवश्यक मापनीयता और लचीलापन प्रदान करने के लिए डिज़ाइन किया गया है।^[35]

वितरित सिस्टम में पारंपरिक रूप से पाई जाने वाली अड़चनों के विवाद से निपटने के लिए लस्टर फाइल सिस्टम को डिजाइन और कार्यान्वित किया गया है। चमक इसकी दक्षता, मापनीयता और अतिरेक की विशेषता है।^[36] GPFS को भी ऐसी अड़चनों को दूर करने के लक्ष्य के साथ डिजाइन किया गया था।^[37]

संचार

वितरित फाइल सिस्टम के उच्च प्रदर्शन के लिए कंप्यूटिंग नोड्स और स्टोरेज सिस्टम तक तेजी से पहुंच के बीच कुशल संचार की आवश्यकता होती है। उस प्रदर्शन को सुनिश्चित करने के लिए ओपन, क्लोज, रीड, राइट, सेंड और रिसीव जैसे ऑपरेशन तेज होने चाहिए। उदाहरण के लिए, प्रत्येक पढ़ने या लिखने का अनुरोध डिस्क स्टोरेज तक पहुंचता है, जो खोज, घूर्णी और नेटवर्क विलंबता का परिचय देता है।^[38]

डेटा संचार (भेजें / प्राप्त करें) संचालन डेटा को एप्लिकेशन बफर से मशीन कर्नेल में स्थानांतरित करता है, प्रसारण नियंत्रण प्रोटोकॉल प्रक्रिया को नियंत्रित करता है और कर्नेल में कार्यान्वित किया जाता है। चूंकि, नेटवर्क की भीड़ या त्रुटियों के स्थिति में, टीसीपी सीधे डेटा नहीं भेज सकता है। कर्नेल (ऑपरेटिंग सिस्टम) में बफर से डेटा को एप्लिकेशन में स्थानांतरित करते समय, मशीन रिमोट मशीन से बाइट स्ट्रीम नहीं पढ़ती है। वास्तव में, टीसीपी एप्लिकेशन के डेटा को बफ़र करने के लिए ज़िम्मेदार है।^[39]

फ़ाइल पढ़ने और लिखने, या फ़ाइल भेजने और प्राप्त करने के लिए बफ़र-आकार का चयन, आवेदन स्तर पर किया जाता है। लिंक की गई सूची का उपयोग करके बफर को बनाए रखा जाता है।^[40] इसमें बफ़रनोड्स का एक सेट होता है। प्रत्येक बफ़रनोड में एक डेटाफ़ील्ड होता है। डेटाफील्ड में डेटा और एक पॉइंटर होता है जिसे नेक्सटबफरनोड कहा जाता है जो अगले बफरनोड को इंगित करता है। वर्तमान स्थिति का पता लगाने के लिए, दो पॉइंटर (कंप्यूटर प्रोग्रामिंग) का उपयोग किया जाता है: करेंटबफरनोड और इंडबफरनोड, जो अंतिम लिखने और पढ़ने की स्थिति के लिए बफरनोड में स्थिति का प्रतिनिधित्व करते हैं। यदि बफ़रनोड के पास कोई खाली स्थान नहीं है, तो यह क्लाइंट को प्रतीक्षा करने के लिए एक प्रतीक्षा संकेत भेजेगा जब तक कि वहाँ उपलब्ध स्थान न हो।^[41]

वितरित फ़ाइल सिस्टम का क्लाउड-आधारित तुल्यकालन

अधिक से अधिक उपयोगकर्ताओं के पास तदर्थ कनेक्टिविटी के साथ कई डिवाइस हैं। इन उपकरणों पर दोहराए जाने वाले डेटा सेट को सर्वरों की मनमानी संख्या के बीच सिंक्रनाइज़ करने की आवश्यकता होती है। यह बैकअप के लिए और ऑफलाइन ऑपरेशन के लिए भी उपयोगी है। वास्तव में, जब उपयोगकर्ता नेटवर्क की स्थिति अच्छी नहीं होती है, तो उपयोगकर्ता डिवाइस डेटा के एक हिस्से को चुनिंदा रूप से दोहराएगा जिसे बाद में और ऑफ-लाइन संशोधित किया जाएगा। एक बार जब नेटवर्क की स्थिति अच्छी हो जाती है, तो डिवाइस सिंक्रोनाइज़ हो जाता है।^[42] वितरित तुल्यकालन समस्या से निपटने के लिए दो दृष्टिकोण सम्मलित हैं: उपयोगकर्ता-नियंत्रित पीयर-टू-पीयर तुल्यकालन और क्लाउड मास्टर-प्रतिकृति तुल्यकालन।^[42]* उपयोगकर्ता-नियंत्रित पीयर-टू-पीयर: rsync जैसे सॉफ़्टवेयर को उन सभी उपयोगकर्ताओं के कंप्यूटरों में स्थापित किया जाना चाहिए जिनमें उनका डेटा होता है। फ़ाइलें पीयर-टू-पीयर सिंक्रनाइज़ेशन द्वारा सिंक्रनाइज़ की जाती हैं जहां उपयोगकर्ताओं को नेटवर्क पते और सिंक्रनाइज़ेशन पैरामीटर निर्दिष्ट करना होगा, और इस प्रकार यह मैन्युअल प्रक्रिया है।

क्लाउड मास्टर-रेप्लिका सिंक्रोनाइज़ेशन: क्लाउड सेवाओं द्वारा व्यापक रूप से उपयोग किया जाता है, जिसमें क्लाउड में एक मास्टर प्रतिकृति बनाए रखी जाती है, और सभी अपडेट और सिंक्रोनाइज़ेशन ऑपरेशन इस मास्टर कॉपी के लिए होते हैं, जो विफलताओं के स्थिति में उच्च स्तर की उपलब्धता और विश्वसनीयता प्रदान करते हैं।

सुरक्षा कुंजी

क्लाउड कंप्यूटिंग में, सबसे महत्वपूर्ण सुरक्षा अवधारणाएँ #गोपनीयता, #अखंडता और #उपलब्धता (सूचना सुरक्षा ) हैं। निजी डेटा को प्रकट होने से बचाने के लिए गोपनीयता अपरिहार्य हो जाती है। अखंडता सुनिश्चित करती है कि डेटा दूषित नहीं है।^[43]

गोपनीयता

गोपनीयता का अर्थ है कि डेटा और संगणना कार्य गोपनीय हैं: न तो क्लाउड प्रदाता और न ही अन्य क्लाइंट क्लाइंट के डेटा तक पहुंच सकते हैं। गोपनीयता के बारे में काफी शोध किया गया है, क्योंकि यह उन महत्वपूर्ण बिंदुओं में से एक है जो अभी भी क्लाउड कंप्यूटिंग के लिए चुनौतियां पेश करता है। क्लाउड प्रदाताओं में भरोसे की कमी भी एक संबंधित मुद्दा है।^[44] क्लाउड के बुनियादी ढांचे को यह सुनिश्चित करना चाहिए कि ग्राहकों के डेटा को अनधिकृत पार्टियों द्वारा एक्सेस नहीं किया जाएगा।

यदि सेवा प्रदाता निम्नलिखित सभी कार्य कर सकता है तो पर्यावरण असुरक्षित हो जाता है:^[45]

क्लाउड में उपभोक्ता के डेटा का पता लगाएं
उपभोक्ता के डेटा तक पहुंचें और पुनः प्राप्त करें
डेटा के अर्थ को समझें (डेटा के प्रकार, कार्यात्मकताएं और एप्लिकेशन के इंटरफेस और डेटा का प्रारूप)।

डेटा की भौगोलिक स्थिति गोपनीयता और गोपनीयता निर्धारित करने में मदद करती है। ग्राहकों के स्थान को ध्यान में रखा जाना चाहिए। उदाहरण के लिए, यूरोप के ग्राहक संयुक्त राज्य अमेरिका में स्थित डेटा केंद्रों का उपयोग करने में रुचि नहीं लेंगे, क्योंकि इससे डेटा की गोपनीयता की गारंटी प्रभावित होती है। उस समस्या से निपटने के लिए, कुछ क्लाउड कंप्यूटिंग विक्रेताओं ने ग्राहक के साथ किए गए सर्विस-लेवल एग्रीमेंट के एक पैरामीटर के रूप में होस्ट की भौगोलिक स्थिति को सम्मलित किया है,^[46] उपयोगकर्ताओं को स्वयं उन सर्वरों के स्थान चुनने की अनुमति देता है जो उनके डेटा को होस्ट करेंगे।

गोपनीयता के लिए एक अन्य दृष्टिकोण में डेटा एन्क्रिप्शन सम्मलित है।^[47] अन्यथा, अनधिकृत उपयोग का गंभीर खतरा होगा। विभिन्न प्रकार के समाधान सम्मलित हैं, जैसे केवल संवेदनशील डेटा को एन्क्रिप्ट करना,^[48] और संगणना को सरल बनाने के लिए केवल कुछ संचालनों का समर्थन करना।^[49] इसके के अतिरिक्त, क्रिप्टोग्राफ़िक तकनीक और होमोमोर्फिक एन्क्रिप्शन के रूप में उपकरण, क्लाउड में गोपनीयता बनाए रखने के लिए उपयोग किए जाते हैं।^[43]

अखंडता

क्लाउड कंप्यूटिंग में अखंडता का तात्पर्य डेटा अखंडता के साथ-साथ कंप्यूटिंग अखंडता से है। इस प्रकार की अखंडता का मतलब है कि डेटा को क्लाउड सर्वर पर सही ढंग से संग्रहीत करना होगा और विफलता या गलत कंप्यूटिंग के स्थिति में समस्याओं का पता लगाना होगा।

डेटा अखंडता दुर्भावनापूर्ण घटनाओं या प्रशासन त्रुटियों से प्रभावित हो सकती है (उदाहरण के लिए बैकअप और पुनर्स्थापना के समय, आंकड़ों का विस्थापन , या पीयर टू पीयर सिस्टम में सदस्यता बदलना)।^[50]

क्रिप्टोग्राफी (सामान्यतः डेटा ब्लॉक पर संदेश-प्रमाणीकरण कोड, या एमएसीएस के माध्यम से) का उपयोग करके अखंडता हासिल करना आसान है।^[51]

डेटा अखंडता को प्रभावित करने वाले जाँच तंत्र सम्मलित हैं। उदाहरण के लिए:

हेल (उच्च-उपलब्धता और अखंडता परत) एक वितरित क्रिप्टोग्राफ़िक प्रणाली है जो सर्वर के एक सेट को क्लाइंट को यह सिद्ध करने की अनुमति देती है कि संग्रहीत फ़ाइल अक्षुण्ण और पुनर्प्राप्ति योग्य है।^[52]
हच पीओआरएस (बड़ी फाइलों के लिए पुनर्प्राप्ति योग्यता का सबूत)^[53] एक सममित क्रिप्टोग्राफ़िक प्रणाली पर आधारित है, जहाँ केवल एक सत्यापन कुंजी है जिसे इसकी अखंडता में सुधार के लिए फ़ाइल में संग्रहीत किया जाना चाहिए। यह विधि फ़ाइल एफ को एन्क्रिप्ट करने के लिए काम करती है और पुनःंटीनेल नामक एक यादृच्छिक स्ट्रिंग उत्पन्न करती है जिसे एन्क्रिप्टेड फ़ाइल के अंत में जोड़ा जाना चाहिए। सर्वर सेंटिनल का पता नहीं लगा सकता है, जो कि अन्य ब्लॉकों से अलग करना असंभव है, इसलिए एक छोटा सा परिवर्तन इंगित करेगा कि फ़ाइल बदली गई है या नहीं।
पीडीपी (सिद्ध डेटा कब्ज़ा) जाँच कुशल और व्यावहारिक तरीकों का एक वर्ग है जो अविश्वसनीय सर्वरों पर डेटा अखंडता की जाँच करने का एक कुशल तरीका प्रदान करता है:
- पीडीपी:^[54] सर्वर पर डेटा स्टोर करने से पहले, क्लाइंट को स्थानीय रूप से कुछ मेटा-डेटा स्टोर करना चाहिए। बाद में, और डेटा डाउनलोड किए बिना, क्लाइंट सर्वर से यह जांचने के लिए कह सकता है कि डेटा गलत नहीं हुआ है। इस दृष्टिकोण का उपयोग स्थैतिक डेटा के लिए किया जाता है।
- स्केलेबल पीडीपी:^[55] यह दृष्टिकोण सममित-कुंजी पर आधारित है, जो सार्वजनिक-कुंजी एन्क्रिप्शन से अधिक कुशल है। यह कुछ गतिशील संचालन (संशोधन, विलोपन और संलग्न) का समर्थन करता है लेकिन इसका उपयोग सार्वजनिक सत्यापन के लिए नहीं किया जा सकता है।
- गतिशील पीडीपी:^[56] यह दृष्टिकोण पीडीपी मॉडल को कई अपडेट ऑपरेशंस जैसे एपेंड, इन्सर्ट, मॉडिफाई और डिलीट का समर्थन करने के लिए विस्तारित करता है, जो गहन संगणना के लिए अच्छी प्रकार से अनुकूल है।

उपलब्धता

उपलब्धता सामान्यतः प्रतिकृति (कंप्यूटिंग) द्वारा प्रभावित होती है।^[57]^[58]^[59]^[60] इस बीच, निरंतरता की गारंटी होनी चाहिए। चूंकि, निरंतरता और उपलब्धता एक ही समय में प्राप्त नहीं की जा सकती है; प्रत्येक को दूसरे के कुछ बलिदान पर प्राथमिकता दी जाती है। एक संतुलन होना चाहिए।^[61] पहुंच योग्य होने के लिए डेटा की एक पहचान होनी चाहिए। उदाहरण के लिए, स्कूट ^[57]कुंजी/मूल्य भंडारण पर आधारित एक तंत्र है जो एक कुशल तरीके से गतिशील डेटा आवंटन की अनुमति देता है। प्रत्येक सर्वर को महाद्वीप-देश-डेटासेंटर-रूम-रैक-सर्वर के रूप में एक लेबल द्वारा पहचाना जाना चाहिए। सर्वर कई वर्चुअल नोड्स को संदर्भित कर सकता है, प्रत्येक नोड में डेटा का चयन (या एकाधिक डेटा के कई विभाजन) होते हैं। डेटा के प्रत्येक टुकड़े को एक प्रमुख स्थान द्वारा पहचाना जाता है जो एक तरफ़ा क्रिप्टोग्राफ़िक हैश फ़ंक्शन (जैसे w:MD5) द्वारा उत्पन्न होता है और इस कुंजी के हैश फ़ंक्शन मान द्वारा स्थानीयकृत होता है। कुंजी स्थान को डेटा के एक टुकड़े के संदर्भ में प्रत्येक विभाजन के साथ कई विभाजनों में विभाजित किया जा सकता है। प्रतिकृति करने के लिए, वर्चुअल नोड्स को अन्य सर्वरों द्वारा दोहराया और संदर्भित किया जाना चाहिए। डेटा स्थायित्व और डेटा उपलब्धता को अधिकतम करने के लिए, प्रतिकृतियों को अलग-अलग सर्वरों पर रखा जाना चाहिए और प्रत्येक सर्वर को एक अलग भौगोलिक स्थान पर होना चाहिए, क्योंकि डेटा की उपलब्धता भौगोलिक विविधता के साथ बढ़ती है। प्रतिकृति की प्रक्रिया में स्थान की उपलब्धता का मूल्यांकन सम्मलित है, जो प्रत्येक चंक सर्वर पर एक निश्चित न्यूनतम थ्रेश-होल्ड से ऊपर होना चाहिए। अन्यथा, डेटा को दूसरे चंक सर्वर पर दोहराया जाता है। प्रत्येक विभाजन, i, में एक उपलब्धता मान है जो निम्न सूत्र द्वारा दर्शाया गया है:

$avail_{i}=\sum _{i=0}^{|s_{i}|}\sum _{j=i+1}^{|s_{i}|}conf_{i}.conf_{j}.diversity(s_{i},s_{j})$ कहां $s_{i}$ प्रतिकृतियों को होस्ट करने वाले सर्वर हैं, $conf_{i}$ और $conf_{j}$ सर्वर का विश्वास हैं $_{i}$ और $_{j}$ (किसी देश की आर्थिक और राजनीतिक स्थिति जैसे हार्डवेयर घटकों और गैर-तकनीकी जैसे तकनीकी कारकों पर निर्भर) और विविधता के बीच भौगोलिक दूरी है $s_{i}$ और $s_{j}$ .^[62]

डेटा उपलब्धता सुनिश्चित करने के लिए प्रतिकृति एक बढ़िया समाधान है, लेकिन मेमोरी स्पेस के स्थिति में इसकी लागत बहुत अधिक है।^[63] डिस्क कम करें^[63]एचडीएफसी का एक संशोधित संस्करण है जो w:रेड तकनीक (रेड-5 और रेड-6) पर आधारित है और प्रतिकृति डेटा के अतुल्यकालिक एन्कोडिंग की अनुमति देता है। वास्तव में, एक पृष्ठभूमि प्रक्रिया है जो व्यापक रूप से दोहराए गए डेटा की खोज करती है और इसे एन्कोड करने के बाद अतिरिक्त प्रतियों को हटा देती है। एक अन्य दृष्टिकोण प्रतिकृति को इरेज़र कोडिंग के साथ बदलना है।^[64] इसके के अतिरिक्त, डेटा की उपलब्धता सुनिश्चित करने के लिए कई तरीके हैं जो डेटा रिकवरी की अनुमति देते हैं। वास्तव में, डेटा को कोडित किया जाना चाहिए, और यदि यह खो जाता है, तो इसे कोडिंग चरण के समय बनाए गए टुकड़ों से पुनर्प्राप्त किया जा सकता है।^[65] कुछ अन्य दृष्टिकोण जो उपलब्धता की गारंटी के लिए विभिन्न तंत्रों को लागू करते हैं, वे हैं: Microsoft Azure का रीड-सोलोमन कोड और एचडीएफसी के लिए रेडनोड। इसके के अतिरिक्त, गूगल अभी भी इरेज़र-कोडिंग मैकेनिज्म पर आधारित एक नए दृष्टिकोण पर काम कर रहा है।^[66] क्लाउड स्टोरेज के लिए कोई रेड कार्यान्वयन नहीं है।^[64]

आर्थिक पहलू

क्लाउड कंप्यूटिंग अर्थव्यवस्था तेजी से बढ़ रही है। अमेरिकी सरकार ने अपनी चक्रवृद्धि वार्षिक वृद्धि दर (CAGR) का 40% खर्च करने का निर्णय लिया है, जिसके 2015 तक 7 बिलियन डॉलर होने की उम्मीद है।^[67] अधिक से अधिक कंपनियां बड़ी मात्रा में डेटा का प्रबंधन करने और भंडारण क्षमता की कमी को दूर करने के लिए क्लाउड कंप्यूटिंग का उपयोग कर रही हैं, और क्योंकि यह उन्हें सेवा के रूप में ऐसे संसाधनों का उपयोग करने में सक्षम बनाता है, यह सुनिश्चित करता है कि निवेश किए बिना उनकी कंप्यूटिंग जरूरतों को पूरा किया जाएगा। इंफ्रास्ट्रक्चर में (पे-एज़-यू-गो मॉडल)।^[68] प्रत्येक एप्लिकेशन प्रदाता को समय-समय पर प्रत्येक सर्वर की लागत का भुगतान करना पड़ता है जहां डेटा की प्रतिकृतियां संग्रहीत की जाती हैं। एक सर्वर की लागत हार्डवेयर की गुणवत्ता, भंडारण क्षमता और इसके क्वेरी-प्रोसेसिंग और संचार ओवरहेड द्वारा निर्धारित की जाती है।^[69] क्लाउड कंप्यूटिंग प्रदाताओं को क्लाइंट की मांगों के अनुसार अपनी सेवाओं को स्केल करने की अनुमति देती है।

पे-एज-यू-गो मॉडल ने स्टार्टअप कंपनियों पर बोझ को भी कम कर दिया है जो कम्प्यूट-इंटेंसिव बिजनेस से लाभ उठाना चाहते हैं। क्लाउड कंप्यूटिंग कई तीसरी दुनिया के देशों को भी अवसर प्रदान करता है जिनके पास अन्यथा ऐसे कंप्यूटिंग संसाधन नहीं होते। क्लाउड कंप्यूटिंग नवाचार के लिए आईटी बाधाओं को कम कर सकती है।^[70] क्लाउड कंप्यूटिंग के व्यापक उपयोग के अतिरिक्त, अविश्वसनीय क्लाउड में बड़ी मात्रा में डेटा का कुशल साझाकरण अभी भी एक चुनौती है।

संदर्भ

↑ Sun microsystem, p. 1
↑ Fabio Kon, p. 1
↑ Kobayashi et al. 2011, p. 1
↑ Angabini et al. 2011, p. 1
↑ Di Sano et al. 2012, p. 2
↑ Andrew & Maarten 2006, p. 492
↑ Andrew & Maarten 2006, p. 496
↑ Humbetov 2012, p. 2
↑ ^9.0 ^9.1 Cite error: Invalid <ref> tag; no text was provided for refs named Krzyzanowski_p2
↑ Pavel Bžoch, p. 7
↑ Kai et al. 2013, p. 23
↑ ^12.0 ^12.1 Hsiao et al. 2013, p. 2
↑ Hsiao et al. 2013, p. 952
↑ Ghemawat, Gobioff & Leung 2003, p. 1
↑ Ghemawat, Gobioff & Leung 2003, p. 8
↑ Hsiao et al. 2013, p. 953
↑ Di Sano et al. 2012, pp. 1–2
↑ Andrew & Maarten 2006, p. 497
↑ Humbetov 2012, p. 3
↑ Humbetov 2012, p. 5
↑ Andrew & Maarten 2006, p. 498
↑ Krzyzanowski 2012, p. 5
↑ "द ग्रेट डिस्क ड्राइव इन द स्काई: कैसे वेब दिग्गज बड़े स्टोर करते हैं - और हमारा मतलब बड़ा डेटा है". 2012-01-27.
↑ Fan-Hsun et al. 2012, p. 2
↑ "Apache Hadoop 2.9.2 – HDFS आर्किटेक्चर".
↑ Azzedin 2013, p. 2
↑ Adamov 2012, p. 2</रेफरी> NameNode फाइल सिस्टम नेमस्पेस ऑपरेशंस का प्रबंधन करता है जैसे कि फाइल और डायरेक्टरी को खोलना, बंद करना और नाम बदलना और फाइल एक्सेस को नियंत्रित करता है। यह DataNodes के ब्लॉक की मैपिंग को भी निर्धारित करता है। DataNodes फाइल सिस्टम के क्लाइंट से पढ़ने और लिखने के अनुरोधों को पूरा करने, ब्लॉक आवंटन या विलोपन के प्रबंधन और ब्लॉक की नकल करने के लिए जिम्मेदार हैं। रेफरी>Yee & Thu Naing 2011, p. 122</रेफरी> जब कोई ग्राहक डेटा पढ़ना या लिखना चाहता है, तो वह NameNode से संपर्क करता है और NameNode जाँचता है कि डेटा कहाँ से पढ़ा या लिखा जाना चाहिए। उसके बाद, क्लाइंट के पास DataNode का स्थान होता है और वह इसे पढ़ने या लिखने के अनुरोध भेज सकता है। HDFS को आमतौर पर डेटा पुनर्संतुलन योजनाओं के साथ इसकी अनुकूलता की विशेषता है। सामान्य तौर पर, DataNode पर खाली स्थान का प्रबंधन करना बहुत महत्वपूर्ण है। यदि खाली स्थान पर्याप्त नहीं है, तो डेटा को एक डेटानोड से दूसरे में स्थानांतरित किया जाना चाहिए; और अतिरिक्त प्रतिकृतियां बनाने के मामले में, सिस्टम संतुलन सुनिश्चित करने के लिए डेटा को स्थानांतरित किया जाना चाहिए।
अन्य उदाहरण

वितरित फ़ाइल सिस्टम को विभिन्न उद्देश्यों के लिए अनुकूलित किया जा सकता है। कुछ, जैसे कि जीएफएस सहित इंटरनेट सेवाओं के लिए डिज़ाइन किए गए, स्केलेबिलिटी के लिए अनुकूलित हैं। वितरित फ़ाइल सिस्टम के लिए अन्य डिज़ाइन प्रदर्शन-गहन अनुप्रयोगों का समर्थन करते हैं जो आमतौर पर समानांतर में निष्पादित होते हैं।<ref>Soares et al. 2013, p. 158
↑ Perez, Nicolas (2016-01-02). "कैसे MapR हमारी उत्पादकता में सुधार करता है और हमारे डिजाइन को सरल करता है". Medium. Medium. Retrieved June 21, 2016.
↑ Woodie, Alex (2016-03-08). "Hadoop से Zeta तक: MapR के अभिसरण रूपांतरण के अंदर". Datanami. Tabor Communications Inc. Retrieved June 21, 2016.
↑ Brennan, Bob. "फ्लैश मेमोरी समिट". youtube. Samsung. Retrieved June 21, 2016.
↑ Srivas, MC. "मैपआर फाइल सिस्टम". Hadoop Summit 2011. Hortonworks. Retrieved June 21, 2016.
↑ Dunning, Ted; Friedman, Ellen (January 2015). "Chapter 3: Understanding the MapR Distribution for Apache Hadoop". रियल वर्ल्ड हडूप (in English) (First ed.). Sebastopol, CA: O'Reilly Media, Inc. pp. 23–28. ISBN 978-1-4919-2395-5. Retrieved June 21, 2016.
↑ Weil et al. 2006, p. 307
↑ Maltzahn et al. 2010, p. 39
↑ Jacobi & Lingemann, p. 10
↑ Schwan Philip 2003, p. 401
↑ Jones, Koniges & Yates 2000, p. 1
↑ Upadhyaya et al. 2008, p. 400
↑ Upadhyaya et al. 2008, p. 403
↑ Upadhyaya et al. 2008, p. 401
↑ Upadhyaya et al. 2008, p. 402
↑ ^42.0 ^42.1 Uppoor, Flouris & Bilas 2010, p. 1
↑ ^43.0 ^43.1 Zhifeng & Yang 2013, p. 854
↑ Zhifeng & Yang 2013, pp. 845–846
↑ Yau & An 2010, p. 353
↑ Vecchiola, Pandey & Buyya 2009, p. 14
↑ Yau & An 2010, p. 352
↑ Miranda & Siani 2009
↑ Naehrig & Lauter 2013
↑ Zhifeng & Yang 2013, p. 5
↑ Juels & Oprea 2013, p. 4
↑ Bowers, Juels & Oprea 2009
↑ Juels & S. Kaliski 2007, p. 2
↑ Ateniese et al. 2007
↑ Ateniese et al. 2008, pp. 5, 9
↑ Erway et al. 2009, p. 2
↑ ^57.0 ^57.1 Bonvin, Papaioannou & Aberer 2009, p. 206
↑ Cuong et al. 2012, p. 5
↑ A., A. & P. 2011, p. 3
↑ Qian, D. & T. 2011, p. 3
↑ Vogels 2009, p. 2
↑ Bonvin, Papaioannou & Aberer 2009, p. 208
↑ ^63.0 ^63.1 Carnegie et al. 2009, p. 1
↑ ^64.0 ^64.1 Wang et al. 2012, p. 1
↑ Abu-Libdeh, Princehouse & Weatherspoon 2010, p. 2
↑ Wang et al. 2012, p. 9
↑ Lori M. Kaufman 2009, p. 2
↑ Angabini et al. 2011, p. 1
↑ Bonvin, Papaioannou & Aberer 2009, p. 3
↑ Marston et al. 2011, p. 3

ग्रन्थसूची

Andrew, S.Tanenbaum; Maarten, Van Steen (2006). Distributed systems principles and paradigms (PDF).
Fabio Kon (1996). "Distributed File Systems, The State of the Art and concept of Ph.D. Thesis". CiteSeerX 10.1.1.42.4609. {{cite journal}}: Cite journal requires |journal= (help)
Pavel Bžoch. "Distributed File Systems Past, Present and Future A Distributed File System for 2006 (1996)" (PDF).
Sun microsystem. "Distributed file systems – an overview" (PDF).
Jacobi, Tim-Daniel; Lingemann, Jan. "Evaluation of Distributed File Systems" (PDF).

Architecture, structure, and design:
- Zhang, Qi-fei; Pan, Xue-zeng; Shen, Yan; Li, Wen-juan (2012). "A Novel Scalable Architecture of Cloud Storage System for Small Files Based on P2P". 2012 IEEE International Conference on Cluster Computing Workshops. Coll. of Comput. Sci. & Technol., Zhejiang Univ., Hangzhou, China. p. 41. doi:10.1109/ClusterW.2012.27. ISBN 978-0-7695-4844-9. S2CID 12430485.
- Azzedin, Farag (2013). "Towards a scalable HDFS architecture". 2013 International Conference on Collaboration Technologies and Systems (CTS). Information and Computer Science Department King Fahd University of Petroleum and Minerals. pp. 155–161. doi:10.1109/CTS.2013.6567222. ISBN 978-1-4673-6404-1. S2CID 45293053.
- Krzyzanowski, Paul (2012). "Distributed File Systems" (PDF).
- Kobayashi, K; Mikami, S; Kimura, H; Tatebe, O (2011). The Gfarm File System on Compute Clouds. Parallel and Distributed Processing Workshops and Phd Forum (IPDPSW), 2011 IEEE International Symposium on. Grad. Sch. of Syst. & Inf. Eng., Univ. of Tsukuba, Tsukuba, Japan. doi:10.1109/IPDPS.2011.255.
- Humbetov, Shamil (2012). "Data-intensive computing with map-reduce and hadoop". 2012 6th International Conference on Application of Information and Communication Technologies (AICT). Department of Computer Engineering Qafqaz University Baku, Azerbaijan. pp. 1–5. doi:10.1109/ICAICT.2012.6398489. ISBN 978-1-4673-1740-5. S2CID 6113112.
- Hsiao, Hung-Chang; Chung, Hsueh-Yi; Shen, Haiying; Chao, Yu-Chang (2013). National Cheng Kung University, Tainan. "Load Rebalancing for Distributed File Systems in Clouds". Parallel and Distributed Systems, IEEE Transactions on. 24 (5): 951–962. doi:10.1109/TPDS.2012.196. S2CID 11271386.
- Kai, Fan; Dayang, Zhang; Hui, Li; Yintang, Yang (2013). "An Adaptive Feedback Load Balancing Algorithm in HDFS". 2013 5th International Conference on Intelligent Networking and Collaborative Systems. State Key Lab. of Integrated Service Networks, Xidian Univ., Xi'an, China. pp. 23–29. doi:10.1109/INCoS.2013.14. ISBN 978-0-7695-4988-0. S2CID 14821266.
- Upadhyaya, B; Azimov, F; Doan, T.T; Choi, Eunmi; Kim, Sangbum; Kim, Pilsung (2008). "Distributed File System: Efficiency Experiments for Data Access and Communication". 2008 Fourth International Conference on Networked Computing and Advanced Information Management. Sch. of Bus. IT, Kookmin Univ., Seoul. pp. 400–405. doi:10.1109/NCM.2008.164. ISBN 978-0-7695-3322-3. S2CID 18933772.
- Soares, Tiago S.; Dantas†, M.A.R; de Macedo, Douglas D.J.; Bauer, Michael A (2013). "A Data Management in a Private Cloud Storage Environment Utilizing High Performance Distributed File Systems". 2013 Workshops on Enabling Technologies: Infrastructure for Collaborative Enterprises. nf. & Statistic Dept. (INE), Fed. Univ. of Santa Catarina (UFSC), Florianopolis, Brazil. pp. 158–163. doi:10.1109/WETICE.2013.12. ISBN 978-1-4799-0405-1. S2CID 6155753.
- Adamov, Abzetdin (2012). "Distributed file system as a basis of data-intensive computing". 2012 6th International Conference on Application of Information and Communication Technologies (AICT). Comput. Eng. Dept., Qafqaz Univ., Baku, Azerbaijan. pp. 1–3. doi:10.1109/ICAICT.2012.6398484. ISBN 978-1-4673-1740-5. S2CID 16674289.
- Schwan Philip (2003). Cluster File Systems, Inc. "Lustre: Building a File System for 1,000-node Clusters" (PDF). Proceedings of the 2003 Linux Symposium: 400–407.
- Jones, Terry; Koniges, Alice; Yates, R. Kim (2000). Lawrence Livermore National Laboratory. "Performance of the IBM General Parallel File System" (PDF). Parallel and Distributed Processing Symposium, 2000. IPDPS 2000. Proceedings. 14th International.
- Weil, Sage A.; Brandt, Scott A.; Miller, Ethan L.; Long, Darrell D. E. (2006). "Ceph: A Scalable, High-Performance Distributed File System" (PDF). University of California, Santa Cruz. {{cite journal}}: Cite journal requires |journal= (help)
- Maltzahn, Carlos; Molina-Estolano, Esteban; Khurana, Amandeep; Nelson, Alex J.; Brandt, Scott A.; Weil, Sage (2010). "Ceph as a scalable alternative to the Hadoop Distributed FileSystem" (PDF). {{cite journal}}: Cite journal requires |journal= (help)
- S.A., Brandt; E.L., Miller; D.D.E., Long; Lan, Xue (2003). "Efficient metadata management in large distributed storage systems". 20th IEEE/11th NASA Goddard Conference on Mass Storage Systems and Technologies, 2003. (MSST 2003). Proceedings. Storage Syst. Res. Center, California Univ., Santa Cruz, CA, USA. pp. 290–298. CiteSeerX 10.1.1.13.2537. doi:10.1109/MASS.2003.1194865. ISBN 978-0-7695-1914-2. S2CID 5548463.
- Garth A., Gibson; Rodney, MVan Meter (November 2000). "Network attached storage architecture" (PDF). Communications of the ACM. 43 (11): 37–45. doi:10.1145/353360.353362. S2CID 207644891.
- Yee, Tin Tin; Thu Naing, Thinn (2011). "PC-Cluster based Storage System Architecture for Cloud Storage". arXiv:1112.2025 [cs.DC].
- Cho Cho, Khaing; Thinn Thu, Naing (2011). "The efficient data storage management system on cluster-based private cloud data center". 2011 IEEE International Conference on Cloud Computing and Intelligence Systems. pp. 235–239. doi:10.1109/CCIS.2011.6045066. ISBN 978-1-61284-203-5. S2CID 224635.
- S.A., Brandt; E.L., Miller; D.D.E., Long; Lan, Xue (2011). "A carrier-grade service-oriented file storage architecture for cloud computing". 2011 3rd Symposium on Web Society. PCN&CAD Center, Beijing Univ. of Posts & Telecommun., Beijing, China. pp. 16–20. doi:10.1109/SWS.2011.6101263. ISBN 978-1-4577-0211-2. S2CID 14791637.
- Ghemawat, Sanjay; Gobioff, Howard; Leung, Shun-Tak (2003). "The Google file system". Proceedings of the nineteenth ACM symposium on Operating systems principles – SOSP '03. pp. 29–43. doi:10.1145/945445.945450. ISBN 978-1-58113-757-6. S2CID 221261373.
Security
- Vecchiola, C; Pandey, S; Buyya, R (2009). "High-Performance Cloud Computing: A View of Scientific Applications". 2009 10th International Symposium on Pervasive Systems, Algorithms, and Networks. Dept. of Comput. Sci. & Software Eng., Univ. of Melbourne, Melbourne, VIC, Australia. pp. 4–16. arXiv:0910.1979. doi:10.1109/I-SPAN.2009.150. ISBN 978-1-4244-5403-7. S2CID 1810240.
- Miranda, Mowbray; Siani, Pearson (2009). "A client-based privacy manager for cloud computing". Proceedings of the Fourth International ICST Conference on COMmunication System softWAre and middlewaRE – COMSWARE '09. p. 1. doi:10.1145/1621890.1621897. ISBN 978-1-60558-353-2. S2CID 10130310.
- Naehrig, Michael; Lauter, Kristin (2013). "Can homomorphic encryption be practical?". Proceedings of the 3rd ACM workshop on Cloud computing security workshop – CCSW '11. pp. 113–124. CiteSeerX 10.1.1.225.8007. doi:10.1145/2046660.2046682. ISBN 978-1-4503-1004-8. S2CID 12274859.
- Du, Hongtao; Li, Zhanhuai (2012). "PsFS: A high-throughput parallel file system for secure Cloud Storage system". 2012 International Conference on Measurement, Information and Control (MIC). Vol. 1. Comput. Coll., Northwestern Polytech. Univ., Xi'An, China. pp. 327–331. doi:10.1109/MIC.2012.6273264. ISBN 978-1-4577-1604-1. S2CID 40685246.
- A.Brandt, Scott; L.Miller, Ethan; D.E.Long, Darrell; Xue, Lan (2003). Storage Systems Research Center University of California, Santa Cruz. "Efficient Metadata Management in Large Distributed Storage Systems" (PDF). 11th NASA Goddard Conference on Mass Storage Systems and Technologies, San Diego, CA.
- Lori M. Kaufman (2009). "Data Security in the World of Cloud Computing". Security & Privacy, IEEE. 7 (4): 161–64. doi:10.1109/MSP.2009.87. S2CID 16233643.
- Bowers, Kevin; Juels, Ari; Oprea, Alina (2009). HAIL: a high-availability and integrity layer for cloud storageComputing. pp. 187–198. doi:10.1145/1653662.1653686. ISBN 978-1-60558-894-0. S2CID 207176701. {{cite book}}: |periodical= ignored (help)
- Juels, Ari; Oprea, Alina (February 2013). "New approaches to security and availability for cloud data". Communications of the ACM. 56 (2): 64–73. doi:10.1145/2408776.2408793. S2CID 17596621.
- Zhang, Jing; Wu, Gongqing; Hu, Xuegang; Wu, Xindong (2012). "A Distributed Cache for Hadoop Distributed File System in Real-Time Cloud Services". 2012 ACM/IEEE 13th International Conference on Grid Computing. Dept. of Comput. Sci., Hefei Univ. of Technol., Hefei, China. pp. 12–21. doi:10.1109/Grid.2012.17. ISBN 978-1-4673-2901-9. S2CID 10778240.
- A., Pan; J.P., Walters; V.S., Pai; D.-I.D., Kang; S.P., Crago (2012). "Integrating High Performance File Systems in a Cloud Computing Environment". 2012 SC Companion: High Performance Computing, Networking Storage and Analysis. Dept. of Electr. & Comput. Eng., Purdue Univ., West Lafayette, IN, USA. pp. 753–759. doi:10.1109/SC.Companion.2012.103. ISBN 978-0-7695-4956-9. S2CID 5554936.
- Fan-Hsun, Tseng; Chi-Yuan, Chen; Li-Der, Chou; Han-Chieh, Chao (2012). "Implement a reliable and secure cloud distributed file system". 2012 International Symposium on Intelligent Signal Processing and Communications Systems. Dept. of Comput. Sci. & Inf. Eng., Nat. Central Univ., Taoyuan, Taiwan. pp. 227–232. doi:10.1109/ISPACS.2012.6473485. ISBN 978-1-4673-5082-2. S2CID 18260943.
- Di Sano, M; Di Stefano, A; Morana, G; Zito, D (2012). "File System As-a-Service: Providing Transient and Consistent Views of Files to Cooperating Applications in Clouds". 2012 IEEE 21st International Workshop on Enabling Technologies: Infrastructure for Collaborative Enterprises. Dept. of Electr., Electron. & Comput. Eng., Univ. of Catania, Catania, Italy. pp. 173–178. doi:10.1109/WETICE.2012.104. ISBN 978-1-4673-1888-4. S2CID 19798809.
- Zhifeng, Xiao; Yang, Xiao (2013). "Security and Privacy in Cloud Computing". IEEE Communications Surveys and Tutorials. 15 (2): 843–859. CiteSeerX 10.1.1.707.3980. doi:10.1109/SURV.2012.060912.00182. S2CID 206583820.
- John B, Horrigan (2008). "Use of cloud computing applications and services" (PDF).
- Yau, Stephen; An, Ho (2010). "Confidentiality Protection in cloud computing systems". Int J Software Informatics: 351–365.
- Carnegie, Bin Fan; Tantisiriroj, Wittawat; Xiao, Lin; Gibson, Garth (2009). "Disk Reduce". DiskReduce: RAID for data-intensive scalable computing. pp. 6–10. doi:10.1145/1713072.1713075. ISBN 978-1-60558-883-4. S2CID 15194567.
- Wang, Jianzong; Gong, Weijiao; P., Varman; Xie, Changsheng (2012). "Reducing Storage Overhead with Small Write Bottleneck Avoiding in Cloud RAID System". 2012 ACM/IEEE 13th International Conference on Grid Computing. pp. 174–183. doi:10.1109/Grid.2012.29. ISBN 978-1-4673-2901-9. S2CID 16827141.
- Abu-Libdeh, Hussam; Princehouse, Lonnie; Weatherspoon, Hakim (2010). RACS: a case for cloud storage diversity. pp. 229–240. doi:10.1145/1807128.1807165. ISBN 978-1-4503-0036-0. S2CID 1283873. {{cite book}}: |periodical= ignored (help)
- Vogels, Werner (2009). "Eventually consistent". Communications of the ACM. 52 (1): 40–44. doi:10.1145/1435417.1435432.
- Cuong, Pham; Cao, Phuong; Kalbarczyk, Z; Iyer, R.K (2012). "Toward a high availability cloud: Techniques and challenges". IEEE/IFIP International Conference on Dependable Systems and Networks Workshops (DSN 2012). pp. 1–6. doi:10.1109/DSNW.2012.6264687. ISBN 978-1-4673-2266-9. S2CID 9920903.
- A., Undheim; A., Chilwan; P., Heegaard (2011). "Differentiated Availability in Cloud Computing SLAs". 2011 IEEE/ACM 12th International Conference on Grid Computing. pp. 129–136. doi:10.1109/Grid.2011.25. ISBN 978-1-4577-1904-2. S2CID 15047580.
- Qian, Haiyang; D., Medhi; T., Trivedi (2011). "A hierarchical model to evaluate quality of experience of online services hosted by cloud computing". Communications of the ACM. 52 (1): 105–112. CiteSeerX 10.1.1.190.5148. doi:10.1109/INM.2011.5990680. S2CID 15912111.
- Ateniese, Giuseppe; Burns, Randal; Curtmola, Reza; Herring, Joseph; Kissner, Lea; Peterson, Zachary; Song, Dawn (2007). "Provable data possession at untrusted stores". Proceedings of the 14th ACM conference on Computer and communications security – CCS '07. pp. 598–609. doi:10.1145/1315245.1315318. ISBN 978-1-59593-703-2. S2CID 8010083.
- Ateniese, Giuseppe; Di Pietro, Roberto; V. Mancini, Luigi; Tsudik, Gene (2008). "Scalable and efficient provable data possession". Proceedings of the 4th international conference on Security and privacy in communication networks – Secure Comm '08. p. 1. CiteSeerX 10.1.1.208.8270. doi:10.1145/1460877.1460889. ISBN 978-1-60558-241-2. S2CID 207170639.
- Erway, Chris; Küpçü, Alptekin; Tamassia, Roberto; Papamanthou, Charalampos (2009). "Dynamic provable data possession". Proceedings of the 16th ACM conference on Computer and communications security – CCS '09. pp. 213–222. doi:10.1145/1653662.1653688. ISBN 978-1-60558-894-0. S2CID 52856440.
- Juels, Ari; S. Kaliski, Burton (2007). Pors: proofs of retrievability for large files. pp. 584–597. doi:10.1145/1315245.1315317. ISBN 978-1-59593-703-2. S2CID 6032317. {{cite book}}: |periodical= ignored (help)
- Bonvin, Nicolas; Papaioannou, Thanasis; Aberer, Karl (2009). "A self-organized, fault-tolerant and scalable replication scheme for cloud storage". Proceedings of the 1st ACM symposium on Cloud computing – SoCC '10. pp. 205–216. doi:10.1145/1807128.1807162. ISBN 978-1-4503-0036-0. S2CID 3261817.
- Tim, Kraska; Martin, Hentschel; Gustavo, Alonso; Donald, Kossma (2009). "Consistency rationing in the cloud: pay only when it matters". Proceedings of the VLDB Endowment. 2 (1): 253–264. doi:10.14778/1687627.1687657.
- Daniel, J. Abadi (2009). "Data Management in the Cloud: Limitations and Opportunities". CiteSeerX 10.1.1.178.200. {{cite journal}}: Cite journal requires |journal= (help)
- Ari, Juels; S., Burton; Jr, Kaliski (2007). "Pors: proofs of retrievability for large files". Communications of the ACM. 56 (2): 584–597. doi:10.1145/1315245.1315317. S2CID 6032317.
- Ari, Ateniese; Randal, Burns; Johns, Reza; Curtmola, Joseph; Herring, Burton; Lea, Kissner; Zachary, Peterson; Dawn, Song (2007). "Provable data possession at untrusted stores". CCS '07 Proceedings of the 14th ACM conference on Computer and communications security. pp. 598–609. doi:10.1145/1315245.1315318. ISBN 978-1-59593-703-2. S2CID 8010083.
Synchronization
- Uppoor, S; Flouris, M.D; Bilas, A (2010). "Cloud-based synchronization of distributed file system hierarchies". 2010 IEEE International Conference on Cluster Computing Workshops and Posters (CLUSTER WORKSHOPS). Inst. of Comput. Sci. (ICS), Found. for Res. & Technol. - Hellas (FORTH), Heraklion, Greece. pp. 1–4. doi:10.1109/CLUSTERWKSP.2010.5613087. ISBN 978-1-4244-8395-2. S2CID 14577793.
Economic aspects
- Lori M., Kaufman (2009). "Data Security in the World of Cloud Computing". Security & Privacy, IEEE. 7 (4): 161–64. doi:10.1109/MSP.2009.87. S2CID 16233643.
- Marston, Sean; Lia, Zhi; Bandyopadhyaya, Subhajyoti; Zhanga, Juheng; Ghalsasi, Anand (2011). Cloud computing — The business perspective. Decision Support Systems Volume 51, Issue 1. pp. 176–189. doi:10.1016/j.dss.2010.12.006.
- Angabini, A; Yazdani, N; Mundt, T; Hassani, F (2011). "Suitability of Cloud Computing for Scientific Data Analyzing Applications; an Empirical Study". 2011 International Conference on P2P, Parallel, Grid, Cloud and Internet Computing. Sch. of Electr. & Comput. Eng., Univ. of Tehran, Tehran, Iran. pp. 193–199. doi:10.1109/3PGCIC.2011.37. ISBN 978-1-4577-1448-1. S2CID 13393620.

श्रेणी:क्लाउड स्टोरेज

[1] Sun microsystem, p. 1

[2] Fabio Kon, p. 1

[3] Kobayashi et al. 2011, p. 1

[4] Angabini et al. 2011, p. 1

[5] Di Sano et al. 2012, p. 2

[6] Andrew & Maarten 2006, p. 492

[7] Andrew & Maarten 2006, p. 496

[8] Humbetov 2012, p. 2

[Krzyzanowski_p2-9] 9.0 ^9.1 Cite error: Invalid <ref> tag; no text was provided for refs named Krzyzanowski_p2

[10] Pavel Bžoch, p. 7

[11] Kai et al. 2013, p. 23

[ReferenceA-12] 12.0 ^12.1 Hsiao et al. 2013, p. 2

[13] Hsiao et al. 2013, p. 952

[14] Ghemawat, Gobioff & Leung 2003, p. 1

[15] Ghemawat, Gobioff & Leung 2003, p. 8

[16] Hsiao et al. 2013, p. 953

[17] Di Sano et al. 2012, pp. 1–2

[18] Andrew & Maarten 2006, p. 497

[19] Humbetov 2012, p. 3

[20] Humbetov 2012, p. 5

[21] Andrew & Maarten 2006, p. 498

[22] Krzyzanowski 2012, p. 5

[23] "द ग्रेट डिस्क ड्राइव इन द स्काई: कैसे वेब दिग्गज बड़े स्टोर करते हैं - और हमारा मतलब बड़ा डेटा है". 2012-01-27.

[24] Fan-Hsun et al. 2012, p. 2

[25] "Apache Hadoop 2.9.2 – HDFS आर्किटेक्चर".

[26] Azzedin 2013, p. 2

[admaov_2-27] Adamov 2012, p. 2</रेफरी> NameNode फाइल सिस्टम नेमस्पेस ऑपरेशंस का प्रबंधन करता है जैसे कि फाइल और डायरेक्टरी को खोलना, बंद करना और नाम बदलना और फाइल एक्सेस को नियंत्रित करता है। यह DataNodes के ब्लॉक की मैपिंग को भी निर्धारित करता है। DataNodes फाइल सिस्टम के क्लाइंट से पढ़ने और लिखने के अनुरोधों को पूरा करने, ब्लॉक आवंटन या विलोपन के प्रबंधन और ब्लॉक की नकल करने के लिए जिम्मेदार हैं। रेफरी>Yee & Thu Naing 2011, p. 122</रेफरी> जब कोई ग्राहक डेटा पढ़ना या लिखना चाहता है, तो वह NameNode से संपर्क करता है और NameNode जाँचता है कि डेटा कहाँ से पढ़ा या लिखा जाना चाहिए। उसके बाद, क्लाइंट के पास DataNode का स्थान होता है और वह इसे पढ़ने या लिखने के अनुरोध भेज सकता है। HDFS को आमतौर पर डेटा पुनर्संतुलन योजनाओं के साथ इसकी अनुकूलता की विशेषता है। सामान्य तौर पर, DataNode पर खाली स्थान का प्रबंधन करना बहुत महत्वपूर्ण है। यदि खाली स्थान पर्याप्त नहीं है, तो डेटा को एक डेटानोड से दूसरे में स्थानांतरित किया जाना चाहिए; और अतिरिक्त प्रतिकृतियां बनाने के मामले में, सिस्टम संतुलन सुनिश्चित करने के लिए डेटा को स्थानांतरित किया जाना चाहिए।
अन्य उदाहरण

वितरित फ़ाइल सिस्टम को विभिन्न उद्देश्यों के लिए अनुकूलित किया जा सकता है। कुछ, जैसे कि जीएफएस सहित इंटरनेट सेवाओं के लिए डिज़ाइन किए गए, स्केलेबिलिटी के लिए अनुकूलित हैं। वितरित फ़ाइल सिस्टम के लिए अन्य डिज़ाइन प्रदर्शन-गहन अनुप्रयोगों का समर्थन करते हैं जो आमतौर पर समानांतर में निष्पादित होते हैं।<ref>Soares et al. 2013, p. 158

[mapr-productivity-28] Perez, Nicolas (2016-01-02). "कैसे MapR हमारी उत्पादकता में सुधार करता है और हमारे डिजाइन को सरल करता है". Medium. Medium. Retrieved June 21, 2016.

[29] Woodie, Alex (2016-03-08). "Hadoop से Zeta तक: MapR के अभिसरण रूपांतरण के अंदर". Datanami. Tabor Communications Inc. Retrieved June 21, 2016.

[30] Brennan, Bob. "फ्लैश मेमोरी समिट". youtube. Samsung. Retrieved June 21, 2016.

[maprfs-video-31] Srivas, MC. "मैपआर फाइल सिस्टम". Hadoop Summit 2011. Hortonworks. Retrieved June 21, 2016.

[real-world-hadoop-32] Dunning, Ted; Friedman, Ellen (January 2015). "Chapter 3: Understanding the MapR Distribution for Apache Hadoop". रियल वर्ल्ड हडूप (in English) (First ed.). Sebastopol, CA: O'Reilly Media, Inc. pp. 23–28. ISBN 978-1-4919-2395-5. Retrieved June 21, 2016.

[33] Weil et al. 2006, p. 307

[34] Maltzahn et al. 2010, p. 39

[35] Jacobi & Lingemann, p. 10

[36] Schwan Philip 2003, p. 401

[37] Jones, Koniges & Yates 2000, p. 1

[38] Upadhyaya et al. 2008, p. 400

[39] Upadhyaya et al. 2008, p. 403

[40] Upadhyaya et al. 2008, p. 401

[41] Upadhyaya et al. 2008, p. 402

[Uppoor-42] 42.0 ^42.1 Uppoor, Flouris & Bilas 2010, p. 1

[Zhifeng_2013_854-43] 43.0 ^43.1 Zhifeng & Yang 2013, p. 854

[44] Zhifeng & Yang 2013, pp. 845–846

[45] Yau & An 2010, p. 353

[46] Vecchiola, Pandey & Buyya 2009, p. 14

[47] Yau & An 2010, p. 352

[48] Miranda & Siani 2009

[49] Naehrig & Lauter 2013

[50] Zhifeng & Yang 2013, p. 5

[51] Juels & Oprea 2013, p. 4

[52] Bowers, Juels & Oprea 2009

[53] Juels & S. Kaliski 2007, p. 2

[54] Ateniese et al. 2007

[55] Ateniese et al. 2008, pp. 5, 9

[56] Erway et al. 2009, p. 2

[availability-57] 57.0 ^57.1 Bonvin, Papaioannou & Aberer 2009, p. 206

[58] Cuong et al. 2012, p. 5

[59] A., A. & P. 2011, p. 3

[60] Qian, D. & T. 2011, p. 3

[61] Vogels 2009, p. 2

[62] Bonvin, Papaioannou & Aberer 2009, p. 208

[ReferenceB-63] 63.0 ^63.1 Carnegie et al. 2009, p. 1

[ReferenceC-64] 64.0 ^64.1 Wang et al. 2012, p. 1

[65] Abu-Libdeh, Princehouse & Weatherspoon 2010, p. 2

[66] Wang et al. 2012, p. 9

[67] Lori M. Kaufman 2009, p. 2

[68] Angabini et al. 2011, p. 1

[69] Bonvin, Papaioannou & Aberer 2009, p. 3

[70] Marston et al. 2011, p. 3

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

@@ Line 1: / Line 1: @@
 {{Short description|File system that allows many clients to have access}}
-क्लाउड के लिए एक वितरित फ़ाइल सिस्टम एक w: फाइल सिस्टम है जो कई क्लाइंट्स को डेटा तक पहुंच की अनुमति देता है और उस डेटा पर संचालन (निर्माण, हटाना, संशोधित करना, पढ़ना, लिखना) का समर्थन करता है। प्रत्येक डेटा फ़ाइल को चंक (सूचना) नामक कई भागों में विभाजित किया जा सकता है। प्रत्येक चंक को अलग-अलग रिमोट मशीनों पर संग्रहीत किया जा सकता है, जिससे अनुप्रयोगों के समानांतर निष्पादन में आसानी होती है। आमतौर पर, डेटा को एक [[ पदानुक्रमित वृक्ष संरचना ]] में फ़ाइलों में संग्रहीत किया जाता है, जहाँ नोड निर्देशिकाओं का प्रतिनिधित्व करते हैं। वितरित वास्तुकला में फ़ाइलों को साझा करने के कई तरीके हैं: प्रत्येक समाधान एक निश्चित प्रकार के अनुप्रयोग के लिए उपयुक्त होना चाहिए, यह इस बात पर निर्भर करता है कि अनुप्रयोग कितना जटिल है। इस बीच, सिस्टम की सुरक्षा सुनिश्चित की जानी चाहिए। w:गोपनीयता, w:उपलब्धता और w:अखंडता एक सुरक्षित प्रणाली के लिए मुख्य कुंजी हैं।
+क्लाउड के लिए एक वितरित फ़ाइल सिस्टम एक w: फाइल सिस्टम है जो कई क्लाइंट्स को डेटा तक पहुंच की अनुमति देता है और उस डेटा पर संचालन (निर्माण, हटाना, संशोधित करना, पढ़ना, लिखना) का समर्थन करता है। प्रत्येक डेटा फ़ाइल को चंक (सूचना) नामक कई भागों में विभाजित किया जा सकता है। प्रत्येक चंक को अलग-अलग रिमोट मशीनों पर संग्रहीत किया जा सकता है, जिससे अनुप्रयोगों के समानांतर निष्पादन में आसानी होती है। सामान्यतः, डेटा को एक [[ पदानुक्रमित वृक्ष संरचना ]] में फ़ाइलों में संग्रहीत किया जाता है, जहाँ नोड निर्देशिकाओं का प्रतिनिधित्व करते हैं। वितरित वास्तुकला में फ़ाइलों को साझा करने के कई तरीके हैं: प्रत्येक समाधान एक निश्चित प्रकार के अनुप्रयोग के लिए उपयुक्त होना चाहिए, यह इस बात पर निर्भर करता है कि अनुप्रयोग कितना जटिल है। इस बीच, सिस्टम की सुरक्षा सुनिश्चित की जानी चाहिए। w:गोपनीयता, w:उपलब्धता और w:अखंडता एक सुरक्षित प्रणाली के लिए मुख्य कुंजी हैं।
-उपयोगकर्ता [[ क्लाउड कंप्यूटिंग ]] के लिए [[ इंटरनेट ]] के माध्यम से कंप्यूटिंग संसाधनों को साझा कर सकते हैं, जो आमतौर पर डब्ल्यू: स्केलेबिलिटी और डब्ल्यू: लोच (क्लाउड कंप्यूटिंग) संसाधनों की विशेषता है - जैसे कि भौतिक डब्ल्यू: सर्वर (कंप्यूटिंग), एप्लिकेशन और कोई भी सेवा जो डब्ल्यू: वर्चुअलाइजेशन और गतिशील रूप से आवंटित। डब्ल्यू: यह सुनिश्चित करने के लिए सिंक्रनाइज़ेशन आवश्यक है कि सभी डिवाइस अप-टू-डेट हैं।
+उपयोगकर्ता [[ क्लाउड कंप्यूटिंग ]] के लिए [[ इंटरनेट ]] के माध्यम से कंप्यूटिंग संसाधनों को साझा कर सकते हैं, जो सामान्यतः डब्ल्यू: स्केलेबिलिटी और डब्ल्यू: लोच (क्लाउड कंप्यूटिंग) संसाधनों की विशेषता है - जैसे कि भौतिक डब्ल्यू: सर्वर (कंप्यूटिंग), एप्लिकेशन और कोई भी सेवा जो डब्ल्यू: वर्चुअलाइजेशन और गतिशील रूप से आवंटित। डब्ल्यू: यह सुनिश्चित करने के लिए सिंक्रनाइज़ेशन आवश्यक है कि सभी डिवाइस अप-टू-डेट हैं।
 वितरित फाइल सिस्टम कई बड़े, मध्यम और छोटे उद्यमों को अपने दूरस्थ डेटा को स्टोर करने और एक्सेस करने में सक्षम बनाता है क्योंकि वे स्थानीय डेटा करते हैं, चर संसाधनों के उपयोग को सुविधाजनक बनाते हैं।
@@ Line 9: / Line 9: @@
 === इतिहास ===
-आज, वितरित फाइल सिस्टम के कई कार्यान्वयन हैं। पहला फ़ाइल सर्वर 1970 के दशक में शोधकर्ताओं द्वारा विकसित किया गया था। सन माइक्रोसिस्टम का [[ नेटवर्क फ़ाइल सिस्टम ]] 1980 के दशक में उपलब्ध हुआ। इससे पहले, जो लोग फ़ाइलें साझा करना चाहते थे, वे [[ स्नीकर नेट ]] विधि का उपयोग करते थे, भौतिक रूप से भंडारण मीडिया पर फ़ाइलों को एक स्थान से दूसरे स्थान पर ले जाते थे। एक बार जब कंप्यूटर नेटवर्क का प्रसार शुरू हो गया, तो यह स्पष्ट हो गया कि मौजूदा फ़ाइल सिस्टम की कई सीमाएँ थीं और बहु-उपयोगकर्ता वातावरण के लिए अनुपयुक्त थीं। उपयोगकर्ता प्रारंभ में फ़ाइलों को साझा करने के लिए [[ FTP ]] का उपयोग करते थे।<ref>{{harvnb|Sun microsystem|p=1}}</ref> एफ़टीपी पहली बार 1973 के अंत में [[ पीडीपी-10 ]] पर चला। एफ़टीपी के साथ भी, फ़ाइलों को स्रोत कंप्यूटर से सर्वर पर और फिर सर्वर से गंतव्य कंप्यूटर पर कॉपी करने की आवश्यकता होती है। उपयोगकर्ताओं को फ़ाइल साझाकरण में शामिल सभी कंप्यूटरों के भौतिक पते जानने की आवश्यकता थी।<ref>{{harvnb|Fabio Kon|p=1}}</ref>
+आज, वितरित फाइल सिस्टम के कई कार्यान्वयन हैं। पहला फ़ाइल सर्वर 1970 के दशक में शोधकर्ताओं द्वारा विकसित किया गया था। सन माइक्रोसिस्टम का [[ नेटवर्क फ़ाइल सिस्टम ]] 1980 के दशक में उपलब्ध हुआ। इससे पहले, जो लोग फ़ाइलें साझा करना चाहते थे, वे [[ स्नीकर नेट ]] विधि का उपयोग करते थे, भौतिक रूप से भंडारण मीडिया पर फ़ाइलों को एक स्थान से दूसरे स्थान पर ले जाते थे। एक बार जब कंप्यूटर नेटवर्क का प्रसार शुरू हो गया, तो यह स्पष्ट हो गया कि सम्मलिता फ़ाइल सिस्टम की कई सीमाएँ थीं और बहु-उपयोगकर्ता वातावरण के लिए अनुपयुक्त थीं। उपयोगकर्ता प्रारंभ में फ़ाइलों को साझा करने के लिए [[ FTP ]] का उपयोग करते थे।<ref>{{harvnb|Sun microsystem|p=1}}</ref> एफ़टीपी पहली बार 1973 के अंत में [[ पीडीपी-10 ]] पर चला। एफ़टीपी के साथ भी, फ़ाइलों को स्रोत कंप्यूटर से सर्वर पर और फिर सर्वर से गंतव्य कंप्यूटर पर कॉपी करने की आवश्यकता होती है। उपयोगकर्ताओं को फ़ाइल साझाकरण में सम्मलित सभी कंप्यूटरों के भौतिक पते जानने की आवश्यकता थी।<ref>{{harvnb|Fabio Kon|p=1}}</ref>
 === सहायक तकनीक ===
-आधुनिक डेटा केंद्रों को बड़े, विषम वातावरणों का समर्थन करना चाहिए, जिसमें विभिन्न क्षमताओं के बड़ी संख्या में कंप्यूटर शामिल हैं। क्लाउड कंप्यूटिंग [[ डेटा सेंटर नेटवर्क आर्किटेक्चर ]] (DCN), मैपरेडस फ्रेमवर्क जैसी तकनीकों के साथ ऐसी सभी प्रणालियों के संचालन का समन्वय करती है, जो समानांतर और वितरित प्रणालियों में [[ डेटा-गहन कंप्यूटिंग ]] अनुप्रयोगों का समर्थन करती है, और [[ वर्चुअलाइजेशन ]] तकनीकें जो गतिशील संसाधन आवंटन प्रदान करती हैं, जिससे कई एक ही भौतिक सर्वर पर सह-अस्तित्व के लिए ऑपरेटिंग सिस्टम।
+आधुनिक डेटा केंद्रों को बड़े, विषम वातावरणों का समर्थन करना चाहिए, जिसमें विभिन्न क्षमताओं के बड़ी संख्या में कंप्यूटर सम्मलित हैं। क्लाउड कंप्यूटिंग [[ डेटा सेंटर नेटवर्क आर्किटेक्चर ]] (DCN), मैपरेडस फ्रेमवर्क जैसी तकनीकों के साथ ऐसी सभी प्रणालियों के संचालन का समन्वय करती है, जो समानांतर और वितरित प्रणालियों में [[ डेटा-गहन कंप्यूटिंग ]] अनुप्रयोगों का समर्थन करती है, और [[ वर्चुअलाइजेशन ]] तकनीकें जो गतिशील संसाधन आवंटन प्रदान करती हैं, जिससे कई एक ही भौतिक सर्वर पर सह-अस्तित्व के लिए ऑपरेटिंग सिस्टम।
 === अनुप्रयोग ===
 क्लाउड कंप्यूटिंग उपयोगकर्ता को पूरी पारदर्शिता के साथ आवश्यक सीपीयू और स्टोरेज संसाधन प्रदान करने की क्षमता के कारण बड़े पैमाने पर कंप्यूटिंग प्रदान करता है। यह क्लाउड कंप्यूटिंग को विशेष रूप से विभिन्न प्रकार के अनुप्रयोगों का समर्थन करने के लिए उपयुक्त बनाता है जिनके लिए बड़े पैमाने पर वितरित प्रसंस्करण की आवश्यकता होती है। इस डेटा-गहन कंप्यूटिंग के लिए एक उच्च प्रदर्शन [[ फाइल सिस्टम ]] की आवश्यकता होती है जो [[ आभाषी दुनिया ]] (VM) के बीच डेटा साझा कर सके।<ref>{{harvnb|Kobayashi| Mikami| Kimura|Tatebe|2011|p=1}}</ref>
-क्लाउड कंप्यूटिंग गतिशील रूप से आवश्यक संसाधनों को आवंटित करता है, एक कार्य समाप्त होने के बाद उन्हें जारी करता है, उपयोगकर्ताओं को केवल आवश्यक सेवाओं के लिए भुगतान करने की आवश्यकता होती है, अक्सर सेवा-स्तरीय समझौते के माध्यम से। क्लाउड कंप्यूटिंग और [[ कंप्यूटर क्लस्टर ]] प्रतिमान औद्योगिक डेटा प्रोसेसिंग और [[ खगोल ]] विज्ञान और भौतिकी जैसे वैज्ञानिक अनुप्रयोगों के लिए तेजी से महत्वपूर्ण होते जा रहे हैं, जिन्हें प्रयोग करने के लिए अक्सर बड़ी संख्या में कंप्यूटर की उपलब्धता की आवश्यकता होती है।<ref>{{harvnb|Angabini|Yazdani|Mundt|Hassani |2011|p=1}}</ref>
+क्लाउड कंप्यूटिंग गतिशील रूप से आवश्यक संसाधनों को आवंटित करता है, एक कार्य समाप्त होने के बाद उन्हें जारी करता है, उपयोगकर्ताओं को केवल आवश्यक सेवाओं के लिए भुगतान करने की आवश्यकता होती है, अधिकांशतः सेवा-स्तरीय समझौते के माध्यम से। क्लाउड कंप्यूटिंग और [[ कंप्यूटर क्लस्टर ]] प्रतिमान औद्योगिक डेटा प्रोसेसिंग और [[ खगोल ]] विज्ञान और भौतिकी जैसे वैज्ञानिक अनुप्रयोगों के लिए तेजी से महत्वपूर्ण होते जा रहे हैं, जिन्हें प्रयोग करने के लिए अधिकांशतः बड़ी संख्या में कंप्यूटर की उपलब्धता की आवश्यकता होती है।<ref>{{harvnb|Angabini|Yazdani|Mundt|Hassani |2011|p=1}}</ref>
 == आर्किटेक्चर ==
-अधिकांश वितरित फ़ाइल सिस्टम क्लाइंट-सर्वर आर्किटेक्चर पर बनाए गए हैं, लेकिन अन्य विकेंद्रीकृत समाधान भी मौजूद हैं।
+अधिकांश वितरित फ़ाइल सिस्टम क्लाइंट-सर्वर आर्किटेक्चर पर बनाए गए हैं, लेकिन अन्य विकेंद्रीकृत समाधान भी सम्मलित हैं।
 === [[ क्लाइंट-सर्वर आर्किटेक्चर ]] ===
-नेटवर्क फाइल सिस्टम (NFS) एक क्लाइंट-सर्वर आर्किटेक्चर का उपयोग करता है, जो एक नेटवर्क पर कई मशीनों के बीच फ़ाइलों को साझा करने की अनुमति देता है जैसे कि वे स्थानीय रूप से स्थित हों, एक मानकीकृत दृश्य प्रदान करते हुए। एनएफएस प्रोटोकॉल विषम ग्राहकों की प्रक्रियाओं की अनुमति देता है, संभवत: विभिन्न मशीनों पर और विभिन्न ऑपरेटिंग सिस्टम के तहत, फाइलों के वास्तविक स्थान की अनदेखी करते हुए दूर के सर्वर पर फाइलों तक पहुंचने के लिए। संभावित रूप से कम उपलब्धता और खराब मापनीयता से पीड़ित NFS प्रोटोकॉल में एकल सर्वर पर निर्भर होने का परिणाम है। एकाधिक सर्वरों का उपयोग करने से उपलब्धता की समस्या का समाधान नहीं होता है क्योंकि प्रत्येक सर्वर स्वतंत्र रूप से काम कर रहा है।<ref>{{harvnb|Di Sano| Di Stefano|Morana|Zito|2012|p=2}}</ref> NFS का मॉडल एक दूरस्थ फ़ाइल सेवा है। इस मॉडल को रिमोट एक्सेस मॉडल भी कहा जाता है, जो अपलोड/डाउनलोड मॉडल के विपरीत है:
+नेटवर्क फाइल सिस्टम (NFS) एक क्लाइंट-सर्वर आर्किटेक्चर का उपयोग करता है, जो एक नेटवर्क पर कई मशीनों के बीच फ़ाइलों को साझा करने की अनुमति देता है जैसे कि वे स्थानीय रूप से स्थित हों, एक मानकीकृत दृश्य प्रदान करते हुए। एनएफएस प्रोटोकॉल विषम ग्राहकों की प्रक्रियाओं की अनुमति देता है, संभवत: विभिन्न मशीनों पर और विभिन्न ऑपरेटिंग सिस्टम के अनुसार, फाइलों के वास्तविक स्थान की अनदेखी करते हुए दूर के सर्वर पर फाइलों तक पहुंचने के लिए। संभावित रूप से कम उपलब्धता और खराब मापनीयता से पीड़ित NFS प्रोटोकॉल में एकल सर्वर पर निर्भर होने का परिणाम है। एकाधिक सर्वरों का उपयोग करने से उपलब्धता की समस्या का समाधान नहीं होता है क्योंकि प्रत्येक सर्वर स्वतंत्र रूप से काम कर रहा है।<ref>{{harvnb|Di Sano| Di Stefano|Morana|Zito|2012|p=2}}</ref> NFS का मॉडल एक दूरस्थ फ़ाइल सेवा है। इस मॉडल को रिमोट एक्सेस मॉडल भी कहा जाता है, जो अपलोड/डाउनलोड मॉडल के विपरीत है:
 * रिमोट एक्सेस मॉडल: पारदर्शिता प्रदान करता है, क्लाइंट के पास फ़ाइल तक पहुंच होती है। वह दूरस्थ फ़ाइल के लिए अनुरोध भेजता है (जबकि फ़ाइल सर्वर पर रहती है)।<ref>{{harvnb|Andrew|Maarten|2006|p=492}}</ref>
-* अपलोड/डाउनलोड मॉडल: क्लाइंट फ़ाइल को केवल स्थानीय रूप से एक्सेस कर सकता है। इसका अर्थ है कि क्लाइंट को फ़ाइल को डाउनलोड करना होगा, संशोधन करना होगा और इसे फिर से अपलोड करना होगा, ताकि दूसरों के क्लाइंट इसका इस्तेमाल कर सकें।
+* अपलोड/डाउनलोड मॉडल: क्लाइंट फ़ाइल को केवल स्थानीय रूप से एक्सेस कर सकता है। इसका अर्थ है कि क्लाइंट को फ़ाइल को डाउनलोड करना होगा, संशोधन करना होगा और इसे पुनः अपलोड करना होगा, जिससे कि दूसरों के क्लाइंट इसका उपयोग कर सकें।
 एनएफएस द्वारा उपयोग की जाने वाली फ़ाइल प्रणाली लगभग वही है जो [[ यूनिक्स ]] सिस्टम द्वारा उपयोग की जाती है। फाइलों को एक नामकरण ग्राफ में श्रेणीबद्ध रूप से व्यवस्थित किया जाता है जिसमें निर्देशिकाओं और फाइलों को नोड्स द्वारा दर्शाया जाता है।
 === क्लस्टर-आधारित आर्किटेक्चर ===
-[[ क्लस्टर फ़ाइल सिस्टम ]] | क्लस्टर-आधारित आर्किटेक्चर क्लाइंट-सर्वर आर्किटेक्चर में कुछ मुद्दों को सुधारता है, समानांतर में अनुप्रयोगों के निष्पादन में सुधार करता है। यहां उपयोग की जाने वाली तकनीक फ़ाइल-स्ट्रिपिंग है: एक फ़ाइल कई हिस्सों में विभाजित होती है, जो कई स्टोरेज सर्वरों में धारीदार होती है। लक्ष्य फ़ाइल के विभिन्न हिस्सों को समानांतर में एक्सेस करने की अनुमति देना है। यदि एप्लिकेशन इस तकनीक से लाभान्वित नहीं होता है, तो विभिन्न सर्वरों पर विभिन्न फ़ाइलों को संग्रहीत करना अधिक सुविधाजनक होगा। हालाँकि, जब बड़े डेटा केंद्रों, जैसे कि अमेज़ॅन और Google के लिए एक वितरित फ़ाइल सिस्टम को व्यवस्थित करने की बात आती है, जो वेब क्लाइंट को कई ऑपरेशन (पढ़ने, अपडेट करने, हटाने, ...) के बीच वितरित बड़ी संख्या में फ़ाइलों की अनुमति देता है। बड़ी संख्या में कंप्यूटर, तब क्लस्टर-आधारित समाधान अधिक लाभदायक हो जाते हैं। ध्यान दें कि बड़ी संख्या में कंप्यूटर होने का अर्थ अधिक हार्डवेयर विफलता हो सकता है।<ref>{{harvnb|Andrew |Maarten |2006|p=496}}</ref> इस प्रकार के दो सबसे व्यापक रूप से उपयोग किए जाने वाले वितरित फ़ाइल सिस्टम (DFS) Google फ़ाइल सिस्टम (GFS) और [[ Apache Hadoop ]] (HDFS) हैं। दोनों [[ गूगल फाइल सिस्टम ]] एक मानक ऑपरेटिंग सिस्टम (जीएफएस के मामले में [[ लिनक्स ]]) के शीर्ष पर चलने वाली उपयोगकर्ता स्तर की प्रक्रियाओं द्वारा कार्यान्वित किए जाते हैं।<ref>{{harvnb|Humbetov|2012|p=2}}</ref>
+[[ क्लस्टर फ़ाइल सिस्टम ]] | क्लस्टर-आधारित आर्किटेक्चर क्लाइंट-सर्वर आर्किटेक्चर में कुछ मुद्दों को सुधारता है, समानांतर में अनुप्रयोगों के निष्पादन में सुधार करता है। यहां उपयोग की जाने वाली तकनीक फ़ाइल-स्ट्रिपिंग है: एक फ़ाइल कई हिस्सों में विभाजित होती है, जो कई स्टोरेज सर्वरों में धारीदार होती है। लक्ष्य फ़ाइल के विभिन्न हिस्सों को समानांतर में एक्सेस करने की अनुमति देना है। यदि एप्लिकेशन इस तकनीक से लाभान्वित नहीं होता है, तो विभिन्न सर्वरों पर विभिन्न फ़ाइलों को संग्रहीत करना अधिक सुविधाजनक होगा। चूंकि, जब बड़े डेटा केंद्रों, जैसे कि अमेज़ॅन और गूगल के लिए एक वितरित फ़ाइल सिस्टम को व्यवस्थित करने की बात आती है, जो वेब क्लाइंट को कई ऑपरेशन (पढ़ने, अपडेट करने, हटाने, ...) के बीच वितरित बड़ी संख्या में फ़ाइलों की अनुमति देता है। बड़ी संख्या में कंप्यूटर, तब क्लस्टर-आधारित समाधान अधिक लाभदायक हो जाते हैं। ध्यान दें कि बड़ी संख्या में कंप्यूटर होने का अर्थ अधिक हार्डवेयर विफलता हो सकता है।<ref>{{harvnb|Andrew |Maarten |2006|p=496}}</ref> इस प्रकार के दो सबसे व्यापक रूप से उपयोग किए जाने वाले वितरित फ़ाइल सिस्टम (DFS) गूगल फ़ाइल सिस्टम (GFS) और [[ Apache Hadoop | अपाचे हडूप]] (एचडीएफसी) हैं। दोनों [[ गूगल फाइल सिस्टम ]] एक मानक ऑपरेटिंग सिस्टम (जीएफएस के स्थिति में [[ लिनक्स ]]) के शीर्ष पर चलने वाली उपयोगकर्ता स्तर की प्रक्रियाओं द्वारा कार्यान्वित किए जाते हैं।<ref>{{harvnb|Humbetov|2012|p=2}}</ref>
@@ Line 37: / Line 37: @@
 ===== लक्ष्य =====
-Google फाइल सिस्टम (GFS) और Hadoop [[ Hadoop वितरित फ़ाइल सिस्टम ]]HDFS) विशेष रूप से बहुत बड़े डेटा सेट पर [[ प्रचय संसाधन ]] को संभालने के लिए बनाए गए हैं।
+गूगल फाइल सिस्टम (GFS) और हडूप [[ Hadoop वितरित फ़ाइल सिस्टम | हडूप वितरित फ़ाइल सिस्टम]] एचडीएफसी) विशेष रूप से बहुत बड़े डेटा सेट पर [[ प्रचय संसाधन ]] को संभालने के लिए बनाए गए हैं।
 उसके लिए, निम्नलिखित परिकल्पनाओं को ध्यान में रखा जाना चाहिए:<ref name="Krzyzanowski_p2" />* उच्च उपलब्धता: कंप्यूटर क्लस्टर में हजारों फ़ाइल सर्वर हो सकते हैं और उनमें से कुछ किसी भी समय बंद हो सकते हैं
-* एक सर्वर एक रैक, एक कमरे, एक डाटा सेंटर, एक देश और एक महाद्वीप से संबंधित होता है, ताकि इसकी भौगोलिक स्थिति की सटीक पहचान की जा सके
+* एक सर्वर एक रैक, एक कमरे, एक डाटा सेंटर, एक देश और एक महाद्वीप से संबंधित होता है, जिससे कि इसकी भौगोलिक स्थिति की सटीक पहचान की जा सके
 * फ़ाइल का आकार कई गीगाबाइट्स से कई टेराबाइट्स तक भिन्न हो सकता है। फाइल सिस्टम बड़ी संख्या में फाइलों का समर्थन करने में सक्षम होना चाहिए
-* एपेंड ऑपरेशंस को सपोर्ट करने और फाइल लिखे जाने के दौरान भी फाइल कंटेंट को दिखने की अनुमति देने की जरूरत है
+* एपेंड ऑपरेशंस को सपोर्ट करने और फाइल लिखे जाने के समय भी फाइल कंटेंट को दिखने की अनुमति देने की जरूरत है
 * काम करने वाली मशीनों के बीच संचार विश्वसनीय है: ट्रांसमिशन कंट्रोल प्रोटोकॉल | टीसीपी / आईपी का उपयोग [[ दुरस्तह प्रकिया कॉल ]] कम्युनिकेशन एब्स्ट्रैक्शन के साथ किया जाता है। टीसीपी क्लाइंट को समस्या होने पर और नया कनेक्शन बनाने की आवश्यकता होने पर लगभग तुरंत जानने की अनुमति देता है।<ref>{{harvnb|Pavel Bžoch |p=7}}</ref>
@@ Line 47: / Line 47: @@
 ===== भार संतुलन =====
-वितरित वातावरण में कुशल संचालन के लिए भार संतुलन आवश्यक है। इसका मतलब है विभिन्न सर्वरों के बीच काम बांटना,<ref>{{harvnb|Kai|Dayang|Hui|Yintang|2013|p=23}}</ref> निष्पक्ष रूप से, समान समय में अधिक काम करने के लिए और ग्राहकों को तेजी से सेवा देने के लिए। एक क्लाउड में एन चंकसर्वर वाले सिस्टम में (एन 1000, 10000, या अधिक), जहां फाइलों की एक निश्चित संख्या संग्रहीत की जाती है, प्रत्येक फ़ाइल को कई हिस्सों में विभाजित किया जाता है या निश्चित आकार के टुकड़े (उदाहरण के लिए, 64 मेगाबाइट्स), प्रत्येक चंकसर्वर का लोड सर्वर द्वारा होस्ट किए गए चंक्स की संख्या के समानुपाती होता है।<ref name="ReferenceA">{{harvnb|Hsiao|Chung|Shen|Chao|2013|p=2}}</ref> लोड-संतुलित क्लाउड में, MapReduce- आधारित अनुप्रयोगों के प्रदर्शन को अधिकतम करते हुए संसाधनों का कुशलतापूर्वक उपयोग किया जा सकता है।
+वितरित वातावरण में कुशल संचालन के लिए भार संतुलन आवश्यक है। इसका मतलब है विभिन्न सर्वरों के बीच काम बांटना,<ref>{{harvnb|Kai|Dayang|Hui|Yintang|2013|p=23}}</ref> निष्पक्ष रूप से, समान समय में अधिक काम करने के लिए और ग्राहकों को तेजी से सेवा देने के लिए। एक क्लाउड में एन चंकसर्वर वाले सिस्टम में (एन 1000, 10000, या अधिक), जहां फाइलों की एक निश्चित संख्या संग्रहीत की जाती है, प्रत्येक फ़ाइल को कई हिस्सों में विभाजित किया जाता है या निश्चित आकार के टुकड़े (उदाहरण के लिए, 64 मेगाबाइट्स), प्रत्येक चंकसर्वर का लोड सर्वर द्वारा होस्ट किए गए चंक्स की संख्या के समानुपाती होता है।<ref name="ReferenceA">{{harvnb|Hsiao|Chung|Shen|Chao|2013|p=2}}</ref> लोड-संतुलित क्लाउड में, मैपरेड्यूस- आधारित अनुप्रयोगों के प्रदर्शन को अधिकतम करते हुए संसाधनों का कुशलतापूर्वक उपयोग किया जा सकता है।
 ===== भार पुनर्संतुलन =====
@@ Line 53: / Line 53: @@
 क्लाउड कम्प्यूटिंग परिवेश में, विफलता आदर्श है,<ref>{{harvnb|Hsiao|Chung|Shen|Chao|2013|p=952}}</ref><ref>{{harvnb|Ghemawat|Gobioff|Leung|2003|p=1}}</ref> और चंकसर्वर्स को अपग्रेड, रिप्लेस और सिस्टम में जोड़ा जा सकता है। फ़ाइलें भी गतिशील रूप से बनाई, हटाई और संलग्न की जा सकती हैं। इससे वितरित फ़ाइल सिस्टम में असंतुलन लोड हो जाता है, जिसका अर्थ है कि फ़ाइल भाग सर्वरों के बीच समान रूप से वितरित नहीं होते हैं।
-जीएफएस और एचडीएफएस जैसे बादलों में वितरित फ़ाइल सिस्टम मेटाडेटा और लोड संतुलन को प्रबंधित करने के लिए केंद्रीय या मास्टर सर्वर या नोड्स (जीएफएस के लिए मास्टर और एचडीएफएस के लिए नामनोड) पर भरोसा करते हैं। मास्टर समय-समय पर प्रतिकृतियों को पुनर्संतुलित करता है: यदि पहले सर्वर पर खाली स्थान एक निश्चित सीमा से नीचे आता है, तो डेटा को एक DataNode/chunkserver से दूसरे में ले जाना चाहिए।<ref>{{harvnb|Ghemawat|Gobioff|Leung|2003|p=8}}</ref> हालाँकि, यह केंद्रीकृत दृष्टिकोण उन मास्टर सर्वरों के लिए एक अड़चन बन सकता है, यदि वे बड़ी संख्या में फ़ाइल एक्सेस का प्रबंधन करने में असमर्थ हो जाते हैं, क्योंकि यह उनके पहले से ही भारी भार को बढ़ा देता है। भार पुनर्संतुलन समस्या w:NP-हार्ड|NP-हार्ड है।<ref>{{harvnb|Hsiao|Chung|Shen|Chao|2013|p=953}}</ref>
+जीएफएस और एचडीएफएस जैसे बादलों में वितरित फ़ाइल सिस्टम मेटाडेटा और लोड संतुलन को प्रबंधित करने के लिए केंद्रीय या मास्टर सर्वर या नोड्स (जीएफएस के लिए मास्टर और एचडीएफएस के लिए नामनोड) पर भरोसा करते हैं। मास्टर समय-समय पर प्रतिकृतियों को पुनर्संतुलित करता है: यदि पहले सर्वर पर खाली स्थान एक निश्चित सीमा से नीचे आता है, तो डेटा को एक डेटानोड/chunkserver से दूसरे में ले जाना चाहिए।<ref>{{harvnb|Ghemawat|Gobioff|Leung|2003|p=8}}</ref> चूंकि, यह केंद्रीकृत दृष्टिकोण उन मास्टर सर्वरों के लिए एक अड़चन बन सकता है, यदि वे बड़ी संख्या में फ़ाइल एक्सेस का प्रबंधन करने में असमर्थ हो जाते हैं, क्योंकि यह उनके पहले से ही भारी भार को बढ़ा देता है। भार पुनर्संतुलन समस्या w:NP-हार्ड|NP-हार्ड है।<ref>{{harvnb|Hsiao|Chung|Shen|Chao|2013|p=953}}</ref>
-सहयोग में काम करने के लिए बड़ी संख्या में चंकसर्वर प्राप्त करने के लिए, और वितरित फ़ाइल सिस्टम में लोड संतुलन की समस्या को हल करने के लिए, कई दृष्टिकोण प्रस्तावित किए गए हैं, जैसे कि फ़ाइल चंक्स को पुनः प्राप्त करना ताकि चंक्स को कम करते हुए समान रूप से समान रूप से वितरित किया जा सके। आंदोलन लागत जितना संभव हो।<ref name="ReferenceA" />
+सहयोग में काम करने के लिए बड़ी संख्या में चंकसर्वर प्राप्त करने के लिए, और वितरित फ़ाइल सिस्टम में लोड संतुलन की समस्या को हल करने के लिए, कई दृष्टिकोण प्रस्तावित किए गए हैं, जैसे कि फ़ाइल चंक्स को पुनः प्राप्त करना जिससे कि चंक्स को कम करते हुए समान रूप से समान रूप से वितरित किया जा सके। आंदोलन लागत जितना संभव हो।<ref name="ReferenceA" />
@@ Line 62: / Line 62: @@
 ===== विवरण =====
-Google, सबसे बड़ी इंटरनेट कंपनियों में से एक, ने Google की डेटा प्रोसेसिंग आवश्यकताओं की तेजी से बढ़ती मांगों को पूरा करने के लिए Google फ़ाइल सिस्टम (GFS) नाम से अपना स्वयं का वितरित फ़ाइल सिस्टम बनाया है, और इसका उपयोग सभी क्लाउड सेवाओं के लिए किया जाता है। GFS डेटा-गहन अनुप्रयोगों के लिए एक मापनीय वितरित फ़ाइल सिस्टम है। यह दोष-सहिष्णु, उच्च-प्रदर्शन डेटा भंडारण प्रदान करता है, बड़ी संख्या में ग्राहक इसे एक साथ एक्सेस करते हैं।
+गूगल, सबसे बड़ी इंटरनेट कंपनियों में से एक, ने गूगल की डेटा प्रोसेसिंग आवश्यकताओं की तेजी से बढ़ती मांगों को पूरा करने के लिए गूगल फ़ाइल सिस्टम (GFS) नाम से अपना स्वयं का वितरित फ़ाइल सिस्टम बनाया है, और इसका उपयोग सभी क्लाउड सेवाओं के लिए किया जाता है। GFS डेटा-गहन अनुप्रयोगों के लिए एक मापनीय वितरित फ़ाइल सिस्टम है। यह दोष-सहिष्णु, उच्च-प्रदर्शन डेटा भंडारण प्रदान करता है, बड़ी संख्या में ग्राहक इसे एक साथ एक्सेस करते हैं।
-GFS MapReduce का उपयोग करता है, जो उपयोगकर्ताओं को समांतरता और लोड-बैलेंसिंग मुद्दों के बारे में सोचे बिना प्रोग्राम बनाने और उन्हें कई मशीनों पर चलाने की अनुमति देता है। GFS आर्किटेक्चर कई चंकसर्वर्स और कई क्लाइंट्स के लिए एक मास्टर सर्वर होने पर आधारित है।<ref>{{harvnb|Di Sano|Di Stefano|Morana|Zito|2012|pp=1–2}}</ref>
+GFS मैपरेड्यूस का उपयोग करता है, जो उपयोगकर्ताओं को समांतरता और लोड-बैलेंसिंग मुद्दों के बारे में सोचे बिना प्रोग्राम बनाने और उन्हें कई मशीनों पर चलाने की अनुमति देता है। GFS आर्किटेक्चर कई चंकसर्वर्स और कई क्लाइंट्स के लिए एक मास्टर सर्वर होने पर आधारित है।<ref>{{harvnb|Di Sano|Di Stefano|Morana|Zito|2012|pp=1–2}}</ref>
 समर्पित नोड में चलने वाला मास्टर सर्वर भंडारण संसाधनों के समन्वय और फाइलों के [[ मेटा डेटा ]] (उदाहरण के लिए, क्लासिकल फाइल सिस्टम में इनोड्स के समतुल्य) के प्रबंधन के लिए जिम्मेदार है।<ref name="Krzyzanowski_p2">{{harvnb|Krzyzanowski|2012|p=2}}</रेफरी>
 प्रत्येक फ़ाइल 64 मेगाबाइट के कई हिस्सों में विभाजित है। प्रत्येक चंक को एक चंक सर्वर में संग्रहित किया जाता है। चंक की पहचान चंक हैंडल द्वारा की जाती है, जो विश्व स्तर पर अद्वितीय 64-बिट संख्या है जिसे मास्टर द्वारा असाइन किया जाता है जब चंक पहली बार बनाया जाता है।
@@ Line 74: / Line 74: @@
 दोष सहिष्णुता को सुविधाजनक बनाने के लिए, प्रत्येक चंक को कई (डिफ़ॉल्ट, तीन) चंक सर्वरों पर दोहराया जाता है।<ref>{{harvnb|Di Sano|Di Stefano| Morana|Zito|2012|p=2}}</ref> कम से कम एक चंक सर्वर पर एक चंक उपलब्ध है। इस योजना का लाभ सादगी है। मास्टर प्रत्येक चंक के लिए चंक सर्वर आवंटित करने के लिए जिम्मेदार है और केवल मेटाडेटा जानकारी के लिए संपर्क किया जाता है। अन्य सभी डेटा के लिए, क्लाइंट को चंक सर्वर से इंटरैक्ट करना होगा।
-मास्टर इस बात पर नज़र रखता है कि चंक कहाँ स्थित है। हालाँकि, यह चंक स्थानों को ठीक से बनाए रखने का प्रयास नहीं करता है, लेकिन केवल कभी-कभार ही चंक सर्वर से संपर्क करता है, यह देखने के लिए कि उन्होंने कौन से चंक को संग्रहीत किया है।<ref>{{harvnb|Andrew |Maarten |2006|p=497}}</ref> यह मापनीयता के लिए अनुमति देता है, और बढ़ते वर्कलोड के कारण बाधाओं को रोकने में मदद करता है।<ref>{{harvnb|Humbetov|2012|p=3}}</ref>
+मास्टर इस बात पर नज़र रखता है कि चंक कहाँ स्थित है। चूंकि, यह चंक स्थानों को ठीक से बनाए रखने का प्रयास नहीं करता है, लेकिन केवल कभी-कभार ही चंक सर्वर से संपर्क करता है, यह देखने के लिए कि उन्होंने कौन से चंक को संग्रहीत किया है।<ref>{{harvnb|Andrew |Maarten |2006|p=497}}</ref> यह मापनीयता के लिए अनुमति देता है, और बढ़ते वर्कलोड के कारण बाधाओं को रोकने में मदद करता है।<ref>{{harvnb|Humbetov|2012|p=3}}</ref>
-जीएफएस में, अधिकांश फाइलें नए डेटा को जोड़कर और मौजूदा डेटा को अधिलेखित नहीं करके संशोधित की जाती हैं। एक बार लिखे जाने के बाद, फ़ाइलों को आमतौर पर बेतरतीब ढंग से पढ़ने के बजाय केवल क्रमिक रूप से पढ़ा जाता है, और यह इस DFS को उन परिदृश्यों के लिए सबसे उपयुक्त बनाता है जिनमें कई बड़ी फाइलें एक बार बनाई जाती हैं लेकिन कई बार पढ़ी जाती हैं।<ref>{{harvnb|Humbetov|2012|p=5}}</ref><ref>{{harvnb|Andrew|Maarten|2006|p=498}}</ref>
+जीएफएस में, अधिकांश फाइलें नए डेटा को जोड़कर और सम्मलिता डेटा को अधिलेखित नहीं करके संशोधित की जाती हैं। एक बार लिखे जाने के बाद, फ़ाइलों को सामान्यतः बेतरतीब ढंग से पढ़ने के अतिरिक्त केवल क्रमिक रूप से पढ़ा जाता है, और यह इस DFS को उन परिदृश्यों के लिए सबसे उपयुक्त बनाता है जिनमें कई बड़ी फाइलें एक बार बनाई जाती हैं लेकिन कई बार पढ़ी जाती हैं।<ref>{{harvnb|Humbetov|2012|p=5}}</ref><ref>{{harvnb|Andrew|Maarten|2006|p=498}}</ref>
 ===== फाइल प्रोसेसिंग =====
-जब क्लाइंट किसी फ़ाइल को लिखना/अद्यतन करना चाहता है, तो मास्टर एक प्रतिकृति असाइन करेगा, जो प्राथमिक प्रतिकृति होगी यदि यह पहला संशोधन है। लेखन की प्रक्रिया दो चरणों से बनी है:<ref name="Krzyzanowski_p2" />* भेजना: सबसे पहले, और अब तक का सबसे महत्वपूर्ण, क्लाइंट यह पता लगाने के लिए मास्टर से संपर्क करता है कि कौन सा चंक सर्वर डेटा रखता है। क्लाइंट को प्राथमिक और द्वितीयक चंक सर्वर की पहचान करने वाली प्रतिकृतियों की सूची दी जाती है। क्लाइंट तब निकटतम प्रतिकृति चंक सर्वर से संपर्क करता है और उसे डेटा भेजता है। यह सर्वर डेटा को अगले निकटतम को भेजेगा, जो फिर इसे एक और प्रतिकृति के लिए अग्रेषित करेगा, और इसी तरह। डेटा को तब प्रचारित किया जाता है और मेमोरी में कैश किया जाता है लेकिन अभी तक फ़ाइल में नहीं लिखा गया है।
+जब क्लाइंट किसी फ़ाइल को लिखना/अद्यतन करना चाहता है, तो मास्टर एक प्रतिकृति असाइन करेगा, जो प्राथमिक प्रतिकृति होगी यदि यह पहला संशोधन है। लेखन की प्रक्रिया दो चरणों से बनी है:<ref name="Krzyzanowski_p2" />* भेजना: सबसे पहले, और अब तक का सबसे महत्वपूर्ण, क्लाइंट यह पता लगाने के लिए मास्टर से संपर्क करता है कि कौन सा चंक सर्वर डेटा रखता है। क्लाइंट को प्राथमिक और द्वितीयक चंक सर्वर की पहचान करने वाली प्रतिकृतियों की सूची दी जाती है। क्लाइंट तब निकटतम प्रतिकृति चंक सर्वर से संपर्क करता है और उसे डेटा भेजता है। यह सर्वर डेटा को अगले निकटतम को भेजेगा, जो फिर इसे एक और प्रतिकृति के लिए अग्रेषित करेगा, और इसी प्रकार। डेटा को तब प्रचारित किया जाता है और मेमोरी में कैश किया जाता है लेकिन अभी तक फ़ाइल में नहीं लिखा गया है।
 * लेखन: जब सभी प्रतिकृतियां डेटा प्राप्त कर लेती हैं, तो ग्राहक प्राथमिक चंक सर्वर को एक लिखित अनुरोध भेजता है, जो भेजने के चरण में भेजे गए डेटा की पहचान करता है। प्राथमिक सर्वर तब प्राप्त होने वाले लेखन कार्यों के लिए एक अनुक्रम संख्या निर्दिष्ट करेगा, क्रम संख्या क्रम में फ़ाइल को लिखता है, और उस क्रम में लिखने के अनुरोधों को द्वितीयक को अग्रेषित करेगा। इस बीच, मास्टर को पाश से बाहर रखा जाता है।
-नतीजतन, हम दो प्रकार के प्रवाहों में अंतर कर सकते हैं: डेटा प्रवाह और नियंत्रण प्रवाह। डेटा प्रवाह भेजने के चरण से जुड़ा है और नियंत्रण प्रवाह लेखन चरण से जुड़ा है। यह आश्वासन देता है कि प्राथमिक चंक सर्वर लेखन क्रम को नियंत्रित करता है।
+परिणाम स्वरुप, हम दो प्रकार के प्रवाहों में अंतर कर सकते हैं: डेटा प्रवाह और नियंत्रण प्रवाह। डेटा प्रवाह भेजने के चरण से जुड़ा है और नियंत्रण प्रवाह लेखन चरण से जुड़ा है। यह आश्वासन देता है कि प्राथमिक चंक सर्वर लेखन क्रम को नियंत्रित करता है।
-ध्यान दें कि जब मास्टर किसी रेप्लिका को राइट ऑपरेशन असाइन करता है, तो यह चंक वर्जन नंबर को बढ़ाता है और सभी रेप्लिका को नए वर्जन नंबर के उस चंक को सूचित करता है। चंक वर्जन नंबर अपडेट एरर-डिटेक्शन की अनुमति देते हैं, अगर एक प्रतिकृति को अपडेट नहीं किया गया था क्योंकि इसका चंक सर्वर डाउन था।<ref>{{harvnb|Krzyzanowski|2012|p=5}}</ref>
+ध्यान दें कि जब मास्टर किसी रेप्लिका को राइट ऑपरेशन असाइन करता है, तो यह चंक वर्जन नंबर को बढ़ाता है और सभी रेप्लिका को नए वर्जन नंबर के उस चंक को सूचित करता है। चंक वर्जन नंबर अपडेट एरर-डिटेक्शन की अनुमति देते हैं, यदि एक प्रतिकृति को अपडेट नहीं किया गया था क्योंकि इसका चंक सर्वर डाउन था।<ref>{{harvnb|Krzyzanowski|2012|p=5}}</ref>
-कुछ नए Google एप्लिकेशन 64-मेगाबाइट चंक आकार के साथ ठीक से काम नहीं कर पाए। उस समस्या को हल करने के लिए, GFS ने 2004 में [[ बड़े मेज ]] दृष्टिकोण को लागू करना शुरू किया।<ref>{{Cite web | url=https://arstechnica.com/business/2012/01/the-big-disk-drive-in-the-sky-how-the-giants-of-the-web-store-big-data/ | title=द ग्रेट डिस्क ड्राइव इन द स्काई: कैसे वेब दिग्गज बड़े स्टोर करते हैं - और हमारा मतलब बड़ा डेटा है| date=2012-01-27}}</ref>
+कुछ नए गूगल एप्लिकेशन 64-मेगाबाइट चंक आकार के साथ ठीक से काम नहीं कर पाए। उस समस्या को हल करने के लिए, GFS ने 2004 में [[ बड़े मेज ]] दृष्टिकोण को लागू करना शुरू किया।<ref>{{Cite web | url=https://arstechnica.com/business/2012/01/the-big-disk-drive-in-the-sky-how-the-giants-of-the-web-store-big-data/ | title=द ग्रेट डिस्क ड्राइव इन द स्काई: कैसे वेब दिग्गज बड़े स्टोर करते हैं - और हमारा मतलब बड़ा डेटा है| date=2012-01-27}}</ref>
@@ Line 90: / Line 90: @@
 {{Cat main|Apache Hadoop}}
-{{abbr|HDFS |Hadoop Distributed File System}}, [[ Apache Software Foundation ]] द्वारा विकसित, एक वितरित फ़ाइल सिस्टम है जिसे बहुत बड़ी मात्रा में डेटा (टेराबाइट्स या पेटाबाइट्स) रखने के लिए डिज़ाइन किया गया है। इसका आर्किटेक्चर GFS के समान है, यानी मास्टर/स्लेव आर्किटेक्चर। एचडीएफएस आमतौर पर कंप्यूटर के क्लस्टर पर स्थापित होता है।
+{{abbr|एचडीएफसी|हडूप वितरित फ़ाइल सिस्टम}}, [[ Apache Software Foundation | अपाचे साफ्टवेयर फाउडेंशन]] द्वारा विकसित, एक वितरित फ़ाइल सिस्टम है जिसे बहुत बड़ी मात्रा में डेटा (टेराबाइट्स या पेटाबाइट्स) रखने के लिए डिज़ाइन किया गया है। इसका आर्किटेक्चर GFS के समान है, अर्ताथ मास्टर/स्लेव आर्किटेक्चर। एचडीएफएस सामान्यतः कंप्यूटर के क्लस्टर पर स्थापित होता है।
-Hadoop की डिज़ाइन अवधारणा को Google द्वारा सूचित किया गया है, Google File System, Google MapReduce और Bigtable के साथ, क्रमशः Hadoop डिस्ट्रिब्यूटेड फ़ाइल सिस्टम (HDFS), Hadoop MapReduce और Hadoop Base (HBase) द्वारा कार्यान्वित किया जा रहा है।<ref>{{harvnb|Fan-Hsun|Chi-Yuan| Li-Der| Han-Chieh|2012|p=2}}</ref> जीएफएस की तरह, एचडीएफएस राइट-वन्स-रीड-मैनी फाइल एक्सेस वाले परिदृश्यों के लिए अनुकूल है, और डेटा सुसंगतता के मुद्दों को सरल बनाने के लिए रैंडम रीड और राइट के बदले फाइल एपेंड और ट्रंकेट का समर्थन करता है।<ref>{{Cite web | url=http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html#Assumptions_and_Goals | title=Apache Hadoop 2.9.2 – HDFS आर्किटेक्चर}}</ref>
+हडूप की डिज़ाइन अवधारणा को गूगल द्वारा सूचित किया गया है, गूगल File System, गूगल मैपरेड्यूस और Bigtable के साथ, क्रमशः हडूप डिस्ट्रिब्यूटेड फ़ाइल सिस्टम (एचडीएफसी), हडूप मैपरेड्यूस और हडूप बेस (Hबेस) द्वारा कार्यान्वित किया जा रहा है।<ref>{{harvnb|Fan-Hsun|Chi-Yuan| Li-Der| Han-Chieh|2012|p=2}}</ref> जीएफएस की प्रकार, एचडीएफएस राइट-वन्स-रीड-मैनी फाइल एक्सेस वाले परिदृश्यों के लिए अनुकूल है, और डेटा सुसंगतता के मुद्दों को सरल बनाने के लिए रैंडम रीड और राइट के बदले फाइल एपेंड और ट्रंकेट का समर्थन करता है।<ref>{{Cite web | url=http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html#Assumptions_and_Goals | title=Apache Hadoop 2.9.2 – HDFS आर्किटेक्चर}}</ref>
-HDFS क्लस्टर में एक NameNode और कई DataNode मशीनें होती हैं। NameNode, एक मास्टर सर्वर, अपने RAM में स्टोरेज DataNodes के मेटाडेटा का प्रबंधन और रखरखाव करता है। DataNodes उन नोड्स से जुड़े स्टोरेज का प्रबंधन करता है जिन पर वे चलते हैं। NameNode और DataNode ऐसे सॉफ़्टवेयर हैं जिन्हें दैनिक उपयोग की मशीनों पर चलाने के लिए डिज़ाइन किया गया है, जो आमतौर पर Linux OS के अंतर्गत चलते हैं। HDFS को किसी भी मशीन पर चलाया जा सकता है जो Java का समर्थन करती है और इसलिए NameNode या Datanode सॉफ़्टवेयर चला सकती है।<ref>{{harvnb|Azzedin|2013|p=2}}</ref>
+एचडीएफसी क्लस्टर में एक नेमनोड और कई डेटानोड मशीनें होती हैं। नेमनोड, एक मास्टर सर्वर, अपने रैम में स्टोरेज डेटानोडs के मेटाडेटा का प्रबंधन और रखरखाव करता है। डेटानोडs उन नोड्स से जुड़े स्टोरेज का प्रबंधन करता है जिन पर वे चलते हैं। नेमनोड और डेटानोड ऐसे सॉफ़्टवेयर हैं जिन्हें दैनिक उपयोग की मशीनों पर चलाने के लिए डिज़ाइन किया गया है, जो सामान्यतः लाइनेक्स OS के अंतर्गत चलते हैं। एचडीएफसी को किसी भी मशीन पर चलाया जा सकता है जो Java का समर्थन करती है और इसलिए नेमनोड या डेटानोड सॉफ़्टवेयर चला सकती है।<ref>{{harvnb|Azzedin|2013|p=2}}</ref>
-HDFS क्लस्टर पर, अंतिम ब्लॉक के छोटे होने की संभावना को छोड़कर, फ़ाइल को एक या अधिक समान आकार के ब्लॉक में विभाजित किया जाता है। प्रत्येक ब्लॉक को कई डेटानोड्स पर संग्रहीत किया जाता है, और उपलब्धता की गारंटी के लिए प्रत्येक को कई डेटानोड्स पर दोहराया जा सकता है। डिफ़ॉल्ट रूप से, प्रत्येक ब्लॉक को तीन बार दोहराया जाता है, एक प्रक्रिया जिसे ब्लॉक लेवल प्रतिकृति कहा जाता है।<ref name="admaov_2">{{harvnb|Adamov|2012|p=2}}</रेफरी>
+एचडीएफसी क्लस्टर पर, अंतिम ब्लॉक के छोटे होने की संभावना को छोड़कर, फ़ाइल को एक या अधिक समान आकार के ब्लॉक में विभाजित किया जाता है। प्रत्येक ब्लॉक को कई डेटानोड्स पर संग्रहीत किया जाता है, और उपलब्धता की गारंटी के लिए प्रत्येक को कई डेटानोड्स पर दोहराया जा सकता है। डिफ़ॉल्ट रूप से, प्रत्येक ब्लॉक को तीन बार दोहराया जाता है, एक प्रक्रिया जिसे ब्लॉक लेवल प्रतिकृति कहा जाता है।<ref name="admaov_2">{{harvnb|Adamov|2012|p=2}}</रेफरी>
 NameNode फाइल सिस्टम नेमस्पेस ऑपरेशंस का प्रबंधन करता है जैसे कि फाइल और डायरेक्टरी को खोलना, बंद करना और नाम बदलना और फाइल एक्सेस को नियंत्रित करता है। यह DataNodes के ब्लॉक की मैपिंग को भी निर्धारित करता है। DataNodes फाइल सिस्टम के क्लाइंट से पढ़ने और लिखने के अनुरोधों को पूरा करने, ब्लॉक आवंटन या विलोपन के प्रबंधन और ब्लॉक की नकल करने के लिए जिम्मेदार हैं।
@@ Line 100: / Line 101: @@
 जब कोई ग्राहक डेटा पढ़ना या लिखना चाहता है, तो वह NameNode से संपर्क करता है और NameNode जाँचता है कि डेटा कहाँ से पढ़ा या लिखा जाना चाहिए। उसके बाद, क्लाइंट के पास DataNode का स्थान होता है और वह इसे पढ़ने या लिखने के अनुरोध भेज सकता है।
-HDFS को आमतौर पर डेटा पुनर्संतुलन योजनाओं के साथ इसकी अनुकूलता की विशेषता है। सामान्य तौर पर, DataNode पर खाली स्थान का प्रबंधन करना बहुत महत्वपूर्ण है। यदि खाली स्थान पर्याप्त नहीं है, तो डेटा को एक डेटानोड से दूसरे में स्थानांतरित किया जाना चाहिए; और अतिरिक्त प्रतिकृतियां बनाने के मामले में, सिस्टम संतुलन सुनिश्चित करने के लिए डेटा को स्थानांतरित किया जाना चाहिए।<ref name="admaov_2" />
+HDFS को आमतौर पर डेटा पुनर्संतुलन योजनाओं के साथ इसकी अनुकूलता की विशेषता है। सामान्य तौर पर, DataNode पर खाली स्थान का प्रबंधन करना बहुत महत्वपूर्ण है। यदि खाली स्थान पर्याप्त नहीं है, तो डेटा को एक डेटानोड से दूसरे में स्थानांतरित किया जाना चाहिए; और अतिरिक्त प्रतिकृतियां बनाने के मामले में, सिस्टम संतुलन सुनिश्चित करने के लिए डेटा को स्थानांतरित किया जाना चाहिए।
+====अन्य उदाहरण====
+वितरित फ़ाइल सिस्टम को विभिन्न उद्देश्यों के लिए अनुकूलित किया जा सकता है। कुछ, जैसे कि जीएफएस सहित इंटरनेट सेवाओं के लिए डिज़ाइन किए गए, स्केलेबिलिटी के लिए अनुकूलित हैं। वितरित फ़ाइल सिस्टम के लिए अन्य डिज़ाइन प्रदर्शन-गहन अनुप्रयोगों का समर्थन करते हैं जो आमतौर पर समानांतर में निष्पादित होते हैं।<nowiki><ref></nowiki>{{harvnb|Soares| Dantas†|de Macedo|Bauer|2013|p=158}}</ref> कुछ उदाहरणों में सम्मलित हैं: [[ मैपआर एफएस | मैपआर एफएस]] (मैपआर-एफएस), सेफ (स्टोरेज) | सेफ-एफएस, [[ बीईजीएफएस | बीईजीएफएस]] | फ्राउनहोफर फाइल सिस्टम (बीईजीएफएस), लस्टर (फाइल सिस्टम), [[ आईबीएम जनरल समानांतर फाइल सिस्टम | आईबीएम जनरल समानांतर फाइल सिस्टम]] (जीपीएफएस), और [[ समानांतर वर्चुअल फाइल सिस्टम | समानांतर वर्चुअल फाइल सिस्टम]] .
-==== अन्य उदाहरण ====
+मैपआर-एफएस एक वितरित फाइल सिस्टम है जो मैपआर कन्वर्जेड प्लेटफॉर्म का आधार है, जिसमें वितरित फाइल स्टोरेज की क्षमता, कई एपीआई के साथ एक नोएसक्यूएल डेटाबेस और एक एकीकृत संदेश स्ट्रीमिंग सिस्टम है। मैपआर-एफएस मापनीयता, प्रदर्शन, विश्वसनीयता और उपलब्धता के लिए अनुकूलित है। इसकी फाइल स्टोरेज क्षमता अपाचे हडूप डिस्ट्रिब्यूटेड फाइल सिस्टम (एचडीएफसी) एपीआई के साथ संगत है, लेकिन कई डिज़ाइन विशेषताओं के साथ जो इसे एचडीएफसी से अलग करती हैं। सबसे उल्लेखनीय अंतरों में से एक यह है कि मैपआर-एफएस एक पूरी प्रकार से पढ़ने/लिखने वाला फाइल सिस्टम है जिसमें फाइलों और निर्देशिकाओं के लिए मेटाडेटा नामस्थान में वितरित किया जाता है, इसलिए कोई नामनोड नहीं है।<ref name="mapr-productivity">{{cite web|last1=Perez|first1=Nicolas|title=कैसे MapR हमारी उत्पादकता में सुधार करता है और हमारे डिजाइन को सरल करता है|url=https://medium.com/@anicolaspp/how-mapr-improves-our-productivity-and-simplify-our-design-2d777ab53120#.mvr6mmydr|website=Medium|publisher=Medium|access-date=June 21, 2016|date=2016-01-02}}</ref><ref>{{cite web|last1=Woodie|first1=Alex|title=Hadoop से Zeta तक: MapR के अभिसरण रूपांतरण के अंदर|url=http://www.datanami.com/2016/03/08/from-hadoop-to-zeta-inside-maprs-convergence-conversion/|website=Datanami|publisher=Tabor Communications Inc.|access-date=June 21, 2016|date=2016-03-08}}</ref><ref>{{cite web|last1=Brennan|first1=Bob|title=फ्लैश मेमोरी समिट|url=https://www.youtube.com/watch?v=fOT63zR7PvU&t=1682|website=youtube|publisher=Samsung|access-date=June 21, 2016}}</ref><ref name="maprfs-video">{{cite web|last1=Srivas|first1=MC|title=मैपआर फाइल सिस्टम|url=https://www.youtube.com/watch?v=fP4HnvZmpZI|website=Hadoop Summit 2011|publisher=Hortonworks|access-date=June 21, 2016}}</ref><ref name="real-world-hadoop">{{cite book|last1=Dunning|first1=Ted|last2=Friedman|first2=Ellen|title=रियल वर्ल्ड हडूप|date=January 2015|publisher=O'Reilly Media, Inc|location=Sebastopol, CA|isbn=978-1-4919-2395-5|pages=23–28|edition=First|chapter-url=http://shop.oreilly.com/product/0636920038450.do|access-date=June 21, 2016|language=en|chapter=Chapter 3: Understanding the MapR Distribution for Apache Hadoop}}</ref>
-वितरित फ़ाइल सिस्टम को विभिन्न उद्देश्यों के लिए अनुकूलित किया जा सकता है। कुछ, जैसे कि जीएफएस सहित इंटरनेट सेवाओं के लिए डिज़ाइन किए गए, स्केलेबिलिटी के लिए अनुकूलित हैं। वितरित फ़ाइल सिस्टम के लिए अन्य डिज़ाइन प्रदर्शन-गहन अनुप्रयोगों का समर्थन करते हैं जो आमतौर पर समानांतर में निष्पादित होते हैं।<ref>{{harvnb|Soares| Dantas†|de Macedo|Bauer|2013|p=158}}</ref> कुछ उदाहरणों में शामिल हैं: [[ मैपआर एफएस ]] (मैपआर-एफएस), सेफ (स्टोरेज) | सेफ-एफएस, [[ बीईजीएफएस ]] | फ्राउनहोफर फाइल सिस्टम (बीईजीएफएस), लस्टर (फाइल सिस्टम), [[ आईबीएम जनरल समानांतर फाइल सिस्टम ]] (जीपीएफएस), और [[ समानांतर वर्चुअल फाइल सिस्टम ]] .
+सेफ-एफएस एक वितरित फाइल सिस्टम है जो उत्कृष्ट प्रदर्शन और विश्वसनीयता प्रदान करता है।<ref>{{harvnb|Weil|Brandt|Miller|Long|2006|p=307}}</ref> यह बड़ी फ़ाइलों और निर्देशिकाओं से निपटने की चुनौतियों का जवाब देता है, हजारों डिस्क की गतिविधि का समन्वय करता है, बड़े पैमाने पर मेटाडेटा तक समानांतर पहुंच प्रदान करता है, वैज्ञानिक और सामान्य-उद्देश्य दोनों वर्कलोड में हेरफेर करता है, बड़े पैमाने पर प्रमाणीकरण और एन्क्रिप्ट करता है, और बढ़ता है या बार-बार डिवाइस डीकमीशनिंग, डिवाइस विफलताओं और क्लस्टर विस्तार के कारण गतिशील रूप से कम हो रहा है।<ref>{{harvnb|Maltzahn|Molina-Estolano|Khurana|Nelson|2010|p=39}}</ref>
+बीजीएफएस उच्च प्रदर्शन कम्प्यूटिंग के लिए फ्राउनहाफर कन्पेटेंस केंद्र का उच्च-प्रदर्शन समानांतर फ़ाइल सिस्टम है। बीजीएफएस के वितरित मेटाडेटा आर्किटेक्चर को उच्च I/O मांगों के साथ [[ उच्च प्रदर्शन कंप्यूटिंग | उच्च प्रदर्शन कंप्यूटिंग]] और इसी प्रकार के अनुप्रयोगों को चलाने के लिए आवश्यक मापनीयता और लचीलापन प्रदान करने के लिए डिज़ाइन किया गया है।<ref>{{harvnb|Jacobi|Lingemann|p=10}}</ref>
-मैपआर-एफएस एक वितरित फाइल सिस्टम है जो मैपआर कन्वर्जेड प्लेटफॉर्म का आधार है, जिसमें वितरित फाइल स्टोरेज की क्षमता, कई एपीआई के साथ एक नोएसक्यूएल डेटाबेस और एक एकीकृत संदेश स्ट्रीमिंग सिस्टम है। MapR-FS मापनीयता, प्रदर्शन, विश्वसनीयता और उपलब्धता के लिए अनुकूलित है। इसकी फाइल स्टोरेज क्षमता Apache Hadoop डिस्ट्रिब्यूटेड फाइल सिस्टम (HDFS) API के साथ संगत है, लेकिन कई डिज़ाइन विशेषताओं के साथ जो इसे HDFS से अलग करती हैं। सबसे उल्लेखनीय अंतरों में से एक यह है कि मैपआर-एफएस एक पूरी तरह से पढ़ने/लिखने वाला फाइल सिस्टम है जिसमें फाइलों और निर्देशिकाओं के लिए मेटाडेटा नामस्थान में वितरित किया जाता है, इसलिए कोई नामनोड नहीं है।<ref name="mapr-productivity">{{cite web|last1=Perez|first1=Nicolas|title=कैसे MapR हमारी उत्पादकता में सुधार करता है और हमारे डिजाइन को सरल करता है|url=https://medium.com/@anicolaspp/how-mapr-improves-our-productivity-and-simplify-our-design-2d777ab53120#.mvr6mmydr|website=Medium|publisher=Medium|access-date=June 21, 2016|date=2016-01-02}}</ref><ref>{{cite web|last1=Woodie|first1=Alex|title=Hadoop से Zeta तक: MapR के अभिसरण रूपांतरण के अंदर|url=http://www.datanami.com/2016/03/08/from-hadoop-to-zeta-inside-maprs-convergence-conversion/|website=Datanami|publisher=Tabor Communications Inc.|access-date=June 21, 2016|date=2016-03-08}}</ref><ref>{{cite web|last1=Brennan|first1=Bob|title=फ्लैश मेमोरी समिट|url=https://www.youtube.com/watch?v=fOT63zR7PvU&t=1682|website=youtube|publisher=Samsung|access-date=June 21, 2016}}</ref><ref name="maprfs-video">{{cite web|last1=Srivas|first1=MC|title=मैपआर फाइल सिस्टम|url=https://www.youtube.com/watch?v=fP4HnvZmpZI|website=Hadoop Summit 2011|publisher=Hortonworks|access-date=June 21, 2016}}</ref><ref name="real-world-hadoop">{{cite book|last1=Dunning|first1=Ted|last2=Friedman|first2=Ellen|title=रियल वर्ल्ड हडूप|date=January 2015|publisher=O'Reilly Media, Inc|location=Sebastopol, CA|isbn=978-1-4919-2395-5|pages=23–28|edition=First|chapter-url=http://shop.oreilly.com/product/0636920038450.do|access-date=June 21, 2016|language=en|chapter=Chapter 3: Understanding the MapR Distribution for Apache Hadoop}}</ref>
+वितरित सिस्टम में पारंपरिक रूप से पाई जाने वाली अड़चनों के विवाद से निपटने के लिए लस्टर फाइल सिस्टम को डिजाइन और कार्यान्वित किया गया है। चमक इसकी दक्षता, मापनीयता और अतिरेक की विशेषता है।<ref>{{harvnb|Schwan Philip|2003 |p=401}}</ref> GPFS को भी ऐसी अड़चनों को दूर करने के लक्ष्य के साथ डिजाइन किया गया था।<ref>{{harvnb|Jones|Koniges|Yates|2000 |p=1}}</ref>
-सेफ-एफएस एक वितरित फाइल सिस्टम है जो उत्कृष्ट प्रदर्शन और विश्वसनीयता प्रदान करता है।<ref>{{harvnb|Weil|Brandt|Miller|Long|2006|p=307}}</ref> यह बड़ी फ़ाइलों और निर्देशिकाओं से निपटने की चुनौतियों का जवाब देता है, हजारों डिस्क की गतिविधि का समन्वय करता है, बड़े पैमाने पर मेटाडेटा तक समानांतर पहुंच प्रदान करता है, वैज्ञानिक और सामान्य-उद्देश्य दोनों वर्कलोड में हेरफेर करता है, बड़े पैमाने पर प्रमाणीकरण और एन्क्रिप्ट करता है, और बढ़ता है या बार-बार डिवाइस डीकमीशनिंग, डिवाइस विफलताओं और क्लस्टर विस्तार के कारण गतिशील रूप से कम हो रहा है।<ref>{{harvnb|Maltzahn|Molina-Estolano|Khurana|Nelson|2010|p=39}}</ref>
+== संचार ==
-BeeGFS उच्च प्रदर्शन कम्प्यूटिंग के लिए Fraunhofer Competence Center का उच्च-प्रदर्शन समानांतर फ़ाइल सिस्टम है। BeeGFS के वितरित मेटाडेटा आर्किटेक्चर को उच्च I/O मांगों के साथ [[ उच्च प्रदर्शन कंप्यूटिंग ]] और इसी तरह के अनुप्रयोगों को चलाने के लिए आवश्यक मापनीयता और लचीलापन प्रदान करने के लिए डिज़ाइन किया गया है।<ref>{{harvnb|Jacobi|Lingemann|p=10}}</ref>
+वितरित फाइल सिस्टम के उच्च प्रदर्शन के लिए कंप्यूटिंग नोड्स और स्टोरेज सिस्टम तक तेजी से पहुंच के बीच कुशल संचार की आवश्यकता होती है। उस प्रदर्शन को सुनिश्चित करने के लिए ओपन, क्लोज, रीड, राइट, सेंड और रिसीव जैसे ऑपरेशन तेज होने चाहिए। उदाहरण के लिए, प्रत्येक पढ़ने या लिखने का अनुरोध डिस्क स्टोरेज तक पहुंचता है, जो खोज, घूर्णी और नेटवर्क विलंबता का परिचय देता है।<ref>{{harvnb|Upadhyaya|Azimov|Doan|Choi|2008|p=400}}</ref>
-वितरित सिस्टम में पारंपरिक रूप से पाई जाने वाली अड़चनों के मुद्दे से निपटने के लिए लस्टर फाइल सिस्टम को डिजाइन और कार्यान्वित किया गया है। चमक इसकी दक्षता, मापनीयता और अतिरेक की विशेषता है।<ref>{{harvnb|Schwan Philip|2003 |p=401}}</ref> GPFS को भी ऐसी अड़चनों को दूर करने के लक्ष्य के साथ डिजाइन किया गया था।<ref>{{harvnb|Jones|Koniges|Yates|2000 |p=1}}</ref>
+डेटा संचार (भेजें / प्राप्त करें) संचालन डेटा को एप्लिकेशन बफर से मशीन कर्नेल में स्थानांतरित करता है, [[ प्रसारण नियंत्रण प्रोटोकॉल | प्रसारण नियंत्रण प्रोटोकॉल]] प्रक्रिया को नियंत्रित करता है और कर्नेल में कार्यान्वित किया जाता है। चूंकि, नेटवर्क की भीड़ या त्रुटियों के स्थिति में, टीसीपी सीधे डेटा नहीं भेज सकता है। [[ कर्नेल (ऑपरेटिंग सिस्टम) | कर्नेल (ऑपरेटिंग सिस्टम)]] में बफर से डेटा को एप्लिकेशन में स्थानांतरित करते समय, मशीन रिमोट मशीन से बाइट स्ट्रीम नहीं पढ़ती है। वास्तव में, टीसीपी एप्लिकेशन के डेटा को बफ़र करने के लिए ज़िम्मेदार है।<ref>{{harvnb|Upadhyaya|Azimov|Doan|Choi|2008|p=403}}</ref>
-== संचार ==
+फ़ाइल पढ़ने और लिखने, या फ़ाइल भेजने और प्राप्त करने के लिए बफ़र-आकार का चयन, आवेदन स्तर पर किया जाता है। लिंक की गई सूची का उपयोग करके बफर को बनाए रखा जाता है।<ref>{{harvnb|Upadhyaya|Azimov|Doan|Choi|2008|p=401}}</ref> इसमें बफ़रनोड्स का एक सेट होता है। प्रत्येक बफ़रनोड में एक डेटाफ़ील्ड होता है। डेटाफील्ड में डेटा और एक पॉइंटर होता है जिसे नेक्सटबफरनोड कहा जाता है जो अगले बफरनोड को इंगित करता है। वर्तमान स्थिति का पता लगाने के लिए, दो पॉइंटर (कंप्यूटर प्रोग्रामिंग) का उपयोग किया जाता है: करेंटबफरनोड और इंडबफरनोड, जो अंतिम लिखने और पढ़ने की स्थिति के लिए बफरनोड में स्थिति का प्रतिनिधित्व करते हैं।
-वितरित फाइल सिस्टम के उच्च प्रदर्शन के लिए कंप्यूटिंग नोड्स और स्टोरेज सिस्टम तक तेजी से पहुंच के बीच कुशल संचार की आवश्यकता होती है। उस प्रदर्शन को सुनिश्चित करने के लिए ओपन, क्लोज, रीड, राइट, सेंड और रिसीव जैसे ऑपरेशन तेज होने चाहिए। उदाहरण के लिए, प्रत्येक पढ़ने या लिखने का अनुरोध डिस्क स्टोरेज तक पहुंचता है, जो तलाश, घूर्णी और नेटवर्क विलंबता का परिचय देता है।<ref>{{harvnb|Upadhyaya|Azimov|Doan|Choi|2008|p=400}}</ref>
-डेटा संचार (भेजें / प्राप्त करें) संचालन डेटा को एप्लिकेशन बफर से मशीन कर्नेल में स्थानांतरित करता है, [[ प्रसारण नियंत्रण प्रोटोकॉल ]] प्रक्रिया को नियंत्रित करता है और कर्नेल में कार्यान्वित किया जाता है। हालाँकि, नेटवर्क की भीड़ या त्रुटियों के मामले में, टीसीपी सीधे डेटा नहीं भेज सकता है। [[ कर्नेल (ऑपरेटिंग सिस्टम) ]] में बफर से डेटा को एप्लिकेशन में स्थानांतरित करते समय, मशीन रिमोट मशीन से बाइट स्ट्रीम नहीं पढ़ती है। वास्तव में, टीसीपी एप्लिकेशन के डेटा को बफ़र करने के लिए ज़िम्मेदार है।<ref>{{harvnb|Upadhyaya|Azimov|Doan|Choi|2008|p=403}}</ref>
-फ़ाइल पढ़ने और लिखने, या फ़ाइल भेजने और प्राप्त करने के लिए बफ़र-आकार का चयन, आवेदन स्तर पर किया जाता है। लिंक की गई सूची का उपयोग करके बफर को बनाए रखा जाता है।<ref>{{harvnb|Upadhyaya|Azimov|Doan|Choi|2008|p=401}}</ref> इसमें बफ़रनोड्स का एक सेट होता है। प्रत्येक बफ़रनोड में एक डेटाफ़ील्ड होता है। DataField में डेटा और एक पॉइंटर होता है जिसे NextBufferNode कहा जाता है जो अगले BufferNode को इंगित करता है। वर्तमान स्थिति का पता लगाने के लिए, दो पॉइंटर (कंप्यूटर प्रोग्रामिंग) का उपयोग किया जाता है: CurrentBufferNode और EndBufferNode, जो अंतिम लिखने और पढ़ने की स्थिति के लिए BufferNode में स्थिति का प्रतिनिधित्व करते हैं।
 यदि बफ़रनोड के पास कोई खाली स्थान नहीं है, तो यह क्लाइंट को प्रतीक्षा करने के लिए एक प्रतीक्षा संकेत भेजेगा जब तक कि वहाँ उपलब्ध स्थान न हो।<ref>{{harvnb|Upadhyaya|Azimov|Doan|Choi|2008|p=402}}</ref>
 == वितरित फ़ाइल सिस्टम का क्लाउड-आधारित तुल्यकालन ==
-अधिक से अधिक उपयोगकर्ताओं के पास तदर्थ कनेक्टिविटी के साथ कई डिवाइस हैं। इन उपकरणों पर दोहराए जाने वाले डेटा सेट को सर्वरों की मनमानी संख्या के बीच सिंक्रनाइज़ करने की आवश्यकता होती है। यह बैकअप के लिए और ऑफलाइन ऑपरेशन के लिए भी उपयोगी है। दरअसल, जब उपयोगकर्ता नेटवर्क की स्थिति अच्छी नहीं होती है, तो उपयोगकर्ता डिवाइस डेटा के एक हिस्से को चुनिंदा रूप से दोहराएगा जिसे बाद में और ऑफ-लाइन संशोधित किया जाएगा। एक बार जब नेटवर्क की स्थिति अच्छी हो जाती है, तो डिवाइस सिंक्रोनाइज़ हो जाता है।<ref name="Uppoor">{{harvnb|Uppoor|Flouris|Bilas|2010|p=1}}</ref> वितरित तुल्यकालन समस्या से निपटने के लिए दो दृष्टिकोण मौजूद हैं: उपयोगकर्ता-नियंत्रित पीयर-टू-पीयर तुल्यकालन और क्लाउड मास्टर-प्रतिकृति तुल्यकालन।<ref name="Uppoor" />* उपयोगकर्ता-नियंत्रित पीयर-टू-पीयर: [[ rsync ]] जैसे सॉफ़्टवेयर को उन सभी उपयोगकर्ताओं के कंप्यूटरों में स्थापित किया जाना चाहिए जिनमें उनका डेटा होता है। फ़ाइलें पीयर-टू-पीयर सिंक्रनाइज़ेशन द्वारा सिंक्रनाइज़ की जाती हैं जहां उपयोगकर्ताओं को नेटवर्क पते और सिंक्रनाइज़ेशन पैरामीटर निर्दिष्ट करना होगा, और इस प्रकार यह मैन्युअल प्रक्रिया है।
+अधिक से अधिक उपयोगकर्ताओं के पास तदर्थ कनेक्टिविटी के साथ कई डिवाइस हैं। इन उपकरणों पर दोहराए जाने वाले डेटा सेट को सर्वरों की मनमानी संख्या के बीच सिंक्रनाइज़ करने की आवश्यकता होती है। यह बैकअप के लिए और ऑफलाइन ऑपरेशन के लिए भी उपयोगी है। वास्तव में, जब उपयोगकर्ता नेटवर्क की स्थिति अच्छी नहीं होती है, तो उपयोगकर्ता डिवाइस डेटा के एक हिस्से को चुनिंदा रूप से दोहराएगा जिसे बाद में और ऑफ-लाइन संशोधित किया जाएगा। एक बार जब नेटवर्क की स्थिति अच्छी हो जाती है, तो डिवाइस सिंक्रोनाइज़ हो जाता है।<ref name="Uppoor">{{harvnb|Uppoor|Flouris|Bilas|2010|p=1}}</ref> वितरित तुल्यकालन समस्या से निपटने के लिए दो दृष्टिकोण सम्मलित हैं: उपयोगकर्ता-नियंत्रित पीयर-टू-पीयर तुल्यकालन और क्लाउड मास्टर-प्रतिकृति तुल्यकालन।<ref name="Uppoor" />* उपयोगकर्ता-नियंत्रित पीयर-टू-पीयर: [[ rsync ]] जैसे सॉफ़्टवेयर को उन सभी उपयोगकर्ताओं के कंप्यूटरों में स्थापित किया जाना चाहिए जिनमें उनका डेटा होता है। फ़ाइलें पीयर-टू-पीयर सिंक्रनाइज़ेशन द्वारा सिंक्रनाइज़ की जाती हैं जहां उपयोगकर्ताओं को नेटवर्क पते और सिंक्रनाइज़ेशन पैरामीटर निर्दिष्ट करना होगा, और इस प्रकार यह मैन्युअल प्रक्रिया है।
-* क्लाउड मास्टर-रेप्लिका सिंक्रोनाइज़ेशन: क्लाउड सेवाओं द्वारा व्यापक रूप से उपयोग किया जाता है, जिसमें क्लाउड में एक मास्टर प्रतिकृति बनाए रखी जाती है, और सभी अपडेट और सिंक्रोनाइज़ेशन ऑपरेशन इस मास्टर कॉपी के लिए होते हैं, जो विफलताओं के मामले में उच्च स्तर की उपलब्धता और विश्वसनीयता प्रदान करते हैं।
+* क्लाउड मास्टर-रेप्लिका सिंक्रोनाइज़ेशन: क्लाउड सेवाओं द्वारा व्यापक रूप से उपयोग किया जाता है, जिसमें क्लाउड में एक मास्टर प्रतिकृति बनाए रखी जाती है, और सभी अपडेट और सिंक्रोनाइज़ेशन ऑपरेशन इस मास्टर कॉपी के लिए होते हैं, जो विफलताओं के स्थिति में उच्च स्तर की उपलब्धता और विश्वसनीयता प्रदान करते हैं।
 == [[ सुरक्षा ]] कुंजी ==
@@ Line 137: / Line 139: @@
 * डेटा के अर्थ को समझें (डेटा के प्रकार, कार्यात्मकताएं और एप्लिकेशन के इंटरफेस और डेटा का प्रारूप)।
-डेटा की भौगोलिक स्थिति गोपनीयता और गोपनीयता निर्धारित करने में मदद करती है। ग्राहकों के स्थान को ध्यान में रखा जाना चाहिए। उदाहरण के लिए, यूरोप के ग्राहक संयुक्त राज्य अमेरिका में स्थित डेटा केंद्रों का उपयोग करने में रुचि नहीं लेंगे, क्योंकि इससे डेटा की गोपनीयता की गारंटी प्रभावित होती है। उस समस्या से निपटने के लिए, कुछ क्लाउड कंप्यूटिंग विक्रेताओं ने ग्राहक के साथ किए गए सर्विस-लेवल एग्रीमेंट के एक पैरामीटर के रूप में होस्ट की भौगोलिक स्थिति को शामिल किया है,<ref>{{harvnb|Vecchiola|Pandey|Buyya|2009|p=14}}</ref> उपयोगकर्ताओं को स्वयं उन सर्वरों के स्थान चुनने की अनुमति देता है जो उनके डेटा को होस्ट करेंगे।
+डेटा की भौगोलिक स्थिति गोपनीयता और गोपनीयता निर्धारित करने में मदद करती है। ग्राहकों के स्थान को ध्यान में रखा जाना चाहिए। उदाहरण के लिए, यूरोप के ग्राहक संयुक्त राज्य अमेरिका में स्थित डेटा केंद्रों का उपयोग करने में रुचि नहीं लेंगे, क्योंकि इससे डेटा की गोपनीयता की गारंटी प्रभावित होती है। उस समस्या से निपटने के लिए, कुछ क्लाउड कंप्यूटिंग विक्रेताओं ने ग्राहक के साथ किए गए सर्विस-लेवल एग्रीमेंट के एक पैरामीटर के रूप में होस्ट की भौगोलिक स्थिति को सम्मलित किया है,<ref>{{harvnb|Vecchiola|Pandey|Buyya|2009|p=14}}</ref> उपयोगकर्ताओं को स्वयं उन सर्वरों के स्थान चुनने की अनुमति देता है जो उनके डेटा को होस्ट करेंगे।
-गोपनीयता के लिए एक अन्य दृष्टिकोण में डेटा एन्क्रिप्शन शामिल है।<ref>{{harvnb|Yau|An|2010|p=352}}</ref> अन्यथा, अनधिकृत उपयोग का गंभीर खतरा होगा। विभिन्न प्रकार के समाधान मौजूद हैं, जैसे केवल संवेदनशील डेटा को एन्क्रिप्ट करना,<ref>{{harvnb|Miranda|Siani|2009}}</ref> और संगणना को सरल बनाने के लिए केवल कुछ संचालनों का समर्थन करना।<ref>{{harvnb|Naehrig|Lauter|2013}}</ref> इसके अलावा, क्रिप्टोग्राफ़िक तकनीक और [[ होमोमोर्फिक एन्क्रिप्शन ]] के रूप में उपकरण, क्लाउड में गोपनीयता बनाए रखने के लिए उपयोग किए जाते हैं।<ref name="Zhifeng 2013 854" />
+गोपनीयता के लिए एक अन्य दृष्टिकोण में डेटा एन्क्रिप्शन सम्मलित है।<ref>{{harvnb|Yau|An|2010|p=352}}</ref> अन्यथा, अनधिकृत उपयोग का गंभीर खतरा होगा। विभिन्न प्रकार के समाधान सम्मलित हैं, जैसे केवल संवेदनशील डेटा को एन्क्रिप्ट करना,<ref>{{harvnb|Miranda|Siani|2009}}</ref> और संगणना को सरल बनाने के लिए केवल कुछ संचालनों का समर्थन करना।<ref>{{harvnb|Naehrig|Lauter|2013}}</ref> इसके के अतिरिक्त, क्रिप्टोग्राफ़िक तकनीक और [[ होमोमोर्फिक एन्क्रिप्शन ]] के रूप में उपकरण, क्लाउड में गोपनीयता बनाए रखने के लिए उपयोग किए जाते हैं।<ref name="Zhifeng 2013 854" />
 === अखंडता ===
-क्लाउड कंप्यूटिंग में अखंडता का तात्पर्य [[ डेटा अखंडता ]] के साथ-साथ [[ कंप्यूटिंग अखंडता ]] से है। इस तरह की अखंडता का मतलब है कि डेटा को क्लाउड सर्वर पर सही ढंग से संग्रहीत करना होगा और विफलता या गलत कंप्यूटिंग के मामले में समस्याओं का पता लगाना होगा।
+क्लाउड कंप्यूटिंग में अखंडता का तात्पर्य [[ डेटा अखंडता ]] के साथ-साथ [[ कंप्यूटिंग अखंडता ]] से है। इस प्रकार की अखंडता का मतलब है कि डेटा को क्लाउड सर्वर पर सही ढंग से संग्रहीत करना होगा और विफलता या गलत कंप्यूटिंग के स्थिति में समस्याओं का पता लगाना होगा।
-डेटा अखंडता दुर्भावनापूर्ण घटनाओं या प्रशासन त्रुटियों से प्रभावित हो सकती है (उदाहरण के लिए [[ बैकअप ]] और पुनर्स्थापना के दौरान, [[ आंकड़ों का विस्थापन ]], या [[ पीयर टू पीयर ]] सिस्टम में सदस्यता बदलना)।<ref>{{harvnb|Zhifeng|Yang|2013|p=5}}</ref>
+डेटा अखंडता दुर्भावनापूर्ण घटनाओं या प्रशासन त्रुटियों से प्रभावित हो सकती है (उदाहरण के लिए [[ बैकअप ]] और पुनर्स्थापना के समय, [[ आंकड़ों का विस्थापन ]], या [[ पीयर टू पीयर ]] सिस्टम में सदस्यता बदलना)।<ref>{{harvnb|Zhifeng|Yang|2013|p=5}}</ref>
-क्रिप्टोग्राफी (आमतौर पर डेटा ब्लॉक पर संदेश-प्रमाणीकरण कोड, या एमएसीएस के माध्यम से) का उपयोग करके अखंडता हासिल करना आसान है।<ref>{{harvnb|Juels|Oprea|2013|p=4}}</ref>
-डेटा अखंडता को प्रभावित करने वाले जाँच तंत्र मौजूद हैं। उदाहरण के लिए:
+क्रिप्टोग्राफी (सामान्यतः डेटा ब्लॉक पर संदेश-प्रमाणीकरण कोड, या एमएसीएस के माध्यम से) का उपयोग करके अखंडता हासिल करना आसान है।<ref>{{harvnb|Juels|Oprea|2013|p=4}}</ref>
-* हेल (उच्च-उपलब्धता और अखंडता परत) एक वितरित क्रिप्टोग्राफ़िक प्रणाली है जो सर्वर के एक सेट को क्लाइंट को यह साबित करने की अनुमति देती है कि संग्रहीत फ़ाइल अक्षुण्ण और पुनर्प्राप्ति योग्य है।<ref>{{harvnb|Bowers |Juels |Oprea|2009 }}</ref>
-* हच पीओआरएस (बड़ी फाइलों के लिए [[ पुनर्प्राप्ति ]] योग्यता का सबूत)<ref>{{harvnb|Juels |S. Kaliski |2007|p=2 }}</ref> एक सममित क्रिप्टोग्राफ़िक प्रणाली पर आधारित है, जहाँ केवल एक सत्यापन कुंजी है जिसे इसकी अखंडता में सुधार के लिए फ़ाइल में संग्रहीत किया जाना चाहिए। यह विधि फ़ाइल एफ को एन्क्रिप्ट करने के लिए काम करती है और फिर सेंटीनेल नामक एक यादृच्छिक स्ट्रिंग उत्पन्न करती है जिसे एन्क्रिप्टेड फ़ाइल के अंत में जोड़ा जाना चाहिए। सर्वर सेंटिनल का पता नहीं लगा सकता है, जो कि अन्य ब्लॉकों से अलग करना असंभव है, इसलिए एक छोटा सा परिवर्तन इंगित करेगा कि फ़ाइल बदली गई है या नहीं।
+डेटा अखंडता को प्रभावित करने वाले जाँच तंत्र सम्मलित हैं। उदाहरण के लिए:
-* पीडीपी (साबित डेटा कब्ज़ा) जाँच कुशल और व्यावहारिक तरीकों का एक वर्ग है जो अविश्वसनीय सर्वरों पर डेटा अखंडता की जाँच करने का एक कुशल तरीका प्रदान करता है:
+* हेल (उच्च-उपलब्धता और अखंडता परत) एक वितरित क्रिप्टोग्राफ़िक प्रणाली है जो सर्वर के एक सेट को क्लाइंट को यह सिद्ध करने की अनुमति देती है कि संग्रहीत फ़ाइल अक्षुण्ण और पुनर्प्राप्ति योग्य है।<ref>{{harvnb|Bowers |Juels |Oprea|2009 }}</ref>
+* हच पीओआरएस (बड़ी फाइलों के लिए [[ पुनर्प्राप्ति | पुनर्प्राप्ति]]  योग्यता का सबूत)<ref>{{harvnb|Juels |S. Kaliski |2007|p=2 }}</ref> एक सममित क्रिप्टोग्राफ़िक प्रणाली पर आधारित है, जहाँ केवल एक सत्यापन कुंजी है जिसे इसकी अखंडता में सुधार के लिए फ़ाइल में संग्रहीत किया जाना चाहिए। यह विधि फ़ाइल एफ को एन्क्रिप्ट करने के लिए काम करती है और पुनःंटीनेल नामक एक यादृच्छिक स्ट्रिंग उत्पन्न करती है जिसे एन्क्रिप्टेड फ़ाइल के अंत में जोड़ा जाना चाहिए। सर्वर सेंटिनल का पता नहीं लगा सकता है, जो कि अन्य ब्लॉकों से अलग करना असंभव है, इसलिए एक छोटा सा परिवर्तन इंगित करेगा कि फ़ाइल बदली गई है या नहीं।
+* पीडीपी (सिद्ध डेटा कब्ज़ा) जाँच कुशल और व्यावहारिक तरीकों का एक वर्ग है जो अविश्वसनीय सर्वरों पर डेटा अखंडता की जाँच करने का एक कुशल तरीका प्रदान करता है:
 ** पीडीपी:<ref>{{harvnb|Ateniese |Burns |Curtmola|Herring|Kissner|Peterson|Song|2007}}</ref> सर्वर पर डेटा स्टोर करने से पहले, क्लाइंट को स्थानीय रूप से कुछ मेटा-डेटा स्टोर करना चाहिए। बाद में, और डेटा डाउनलोड किए बिना, क्लाइंट सर्वर से यह जांचने के लिए कह सकता है कि डेटा गलत नहीं हुआ है। इस दृष्टिकोण का उपयोग स्थैतिक डेटा के लिए किया जाता है।
 ** स्केलेबल पीडीपी:<ref>{{harvnb|Ateniese |Di Pietro |V. Mancini|Tsudik|2008 |pp=5, 9}}</ref> यह दृष्टिकोण सममित-कुंजी पर आधारित है, जो सार्वजनिक-कुंजी एन्क्रिप्शन से अधिक कुशल है। यह कुछ गतिशील संचालन (संशोधन, विलोपन और संलग्न) का समर्थन करता है लेकिन इसका उपयोग सार्वजनिक सत्यापन के लिए नहीं किया जा सकता है।
-** गतिशील पीडीपी:<ref>{{harvnb|Erway |Küpçü |Tamassia|Papamanthou|2009|p=2}}</ref> यह दृष्टिकोण पीडीपी मॉडल को कई अपडेट ऑपरेशंस जैसे एपेंड, इन्सर्ट, मॉडिफाई और डिलीट का समर्थन करने के लिए विस्तारित करता है, जो गहन संगणना के लिए अच्छी तरह से अनुकूल है।
+** गतिशील पीडीपी:<ref>{{harvnb|Erway |Küpçü |Tamassia|Papamanthou|2009|p=2}}</ref> यह दृष्टिकोण पीडीपी मॉडल को कई अपडेट ऑपरेशंस जैसे एपेंड, इन्सर्ट, मॉडिफाई और डिलीट का समर्थन करने के लिए विस्तारित करता है, जो गहन संगणना के लिए अच्छी प्रकार से अनुकूल है।
 === [[ उपलब्धता ]] ===
-उपलब्धता आमतौर पर [[ प्रतिकृति (कंप्यूटिंग) ]] द्वारा प्रभावित होती है।<ref name="availability">{{harvnb|Bonvin|Papaioannou|Aberer|2009|p=206}}</ref><ref>{{harvnb|Cuong|Cao|Kalbarczyk|Iyer|2012|p=5}}</ref>
+उपलब्धता सामान्यतः [[ प्रतिकृति (कंप्यूटिंग) ]] द्वारा प्रभावित होती है।<ref name="availability">{{harvnb|Bonvin|Papaioannou|Aberer|2009|p=206}}</ref><ref>{{harvnb|Cuong|Cao|Kalbarczyk|Iyer|2012|p=5}}</ref><ref>{{harvnb|A.| A.|P.|2011|p=3}}</ref><ref>{{harvnb|Qian |D.|T.|2011|p=3}}</ref> इस बीच, निरंतरता की गारंटी होनी चाहिए। चूंकि, निरंतरता और उपलब्धता एक ही समय में प्राप्त नहीं की जा सकती है; प्रत्येक को दूसरे के कुछ बलिदान पर प्राथमिकता दी जाती है। एक संतुलन होना चाहिए।<ref>{{harvnb|Vogels|2009|p=2}}</ref>
-<ref>{{harvnb|A.| A.|P.|2011|p=3}}</ref><ref>{{harvnb|Qian |D.|T.|2011|p=3}}</ref> इस बीच, निरंतरता की गारंटी होनी चाहिए। हालाँकि, निरंतरता और उपलब्धता एक ही समय में प्राप्त नहीं की जा सकती है; प्रत्येक को दूसरे के कुछ बलिदान पर प्राथमिकता दी जाती है। एक संतुलन होना चाहिए।<ref>{{harvnb|Vogels|2009|p=2}}</ref>
+पहुंच योग्य होने के लिए डेटा की एक पहचान होनी चाहिए। उदाहरण के लिए, स्कूट <ref name="availability" />कुंजी/मूल्य भंडारण पर आधारित एक तंत्र है जो एक कुशल तरीके से गतिशील डेटा आवंटन की अनुमति देता है। प्रत्येक सर्वर को महाद्वीप-देश-डेटासेंटर-रूम-रैक-सर्वर के रूप में एक लेबल द्वारा पहचाना जाना चाहिए। सर्वर कई वर्चुअल नोड्स को संदर्भित कर सकता है, प्रत्येक नोड में डेटा का चयन (या एकाधिक डेटा के कई विभाजन) होते हैं। डेटा के प्रत्येक टुकड़े को एक प्रमुख स्थान द्वारा पहचाना जाता है जो एक तरफ़ा क्रिप्टोग्राफ़िक हैश फ़ंक्शन (जैसे w:MD5) द्वारा उत्पन्न होता है और इस कुंजी के हैश फ़ंक्शन मान द्वारा स्थानीयकृत होता है। कुंजी स्थान को डेटा के एक टुकड़े के संदर्भ में प्रत्येक विभाजन के साथ कई विभाजनों में विभाजित किया जा सकता है। प्रतिकृति करने के लिए, वर्चुअल नोड्स को अन्य सर्वरों द्वारा दोहराया और संदर्भित किया जाना चाहिए। डेटा स्थायित्व और डेटा उपलब्धता को अधिकतम करने के लिए, प्रतिकृतियों को अलग-अलग सर्वरों पर रखा जाना चाहिए और प्रत्येक सर्वर को एक अलग भौगोलिक स्थान पर होना चाहिए, क्योंकि डेटा की उपलब्धता भौगोलिक विविधता के साथ बढ़ती है। प्रतिकृति की प्रक्रिया में स्थान की उपलब्धता का मूल्यांकन सम्मलित है, जो प्रत्येक चंक सर्वर पर एक निश्चित न्यूनतम थ्रेश-होल्ड से ऊपर होना चाहिए। अन्यथा, डेटा को दूसरे चंक सर्वर पर दोहराया जाता है। प्रत्येक विभाजन, i, में एक उपलब्धता मान है जो निम्न सूत्र द्वारा दर्शाया गया है:
-पहुंच योग्य होने के लिए डेटा की एक पहचान होनी चाहिए। उदाहरण के लिए, स्कूट <ref name="availability" />कुंजी/मूल्य भंडारण पर आधारित एक तंत्र है जो एक कुशल तरीके से गतिशील डेटा आवंटन की अनुमति देता है। प्रत्येक सर्वर को महाद्वीप-देश-डेटासेंटर-रूम-रैक-सर्वर के रूप में एक लेबल द्वारा पहचाना जाना चाहिए। सर्वर कई वर्चुअल नोड्स को संदर्भित कर सकता है, प्रत्येक नोड में डेटा का चयन (या एकाधिक डेटा के कई विभाजन) होते हैं। डेटा के प्रत्येक टुकड़े को एक प्रमुख स्थान द्वारा पहचाना जाता है जो एक तरफ़ा क्रिप्टोग्राफ़िक हैश फ़ंक्शन (जैसे w:MD5) द्वारा उत्पन्न होता है और इस कुंजी के हैश फ़ंक्शन मान द्वारा स्थानीयकृत होता है। कुंजी स्थान को डेटा के एक टुकड़े के संदर्भ में प्रत्येक विभाजन के साथ कई विभाजनों में विभाजित किया जा सकता है। प्रतिकृति करने के लिए, वर्चुअल नोड्स को अन्य सर्वरों द्वारा दोहराया और संदर्भित किया जाना चाहिए। डेटा स्थायित्व और डेटा उपलब्धता को अधिकतम करने के लिए, प्रतिकृतियों को अलग-अलग सर्वरों पर रखा जाना चाहिए और प्रत्येक सर्वर को एक अलग भौगोलिक स्थान पर होना चाहिए, क्योंकि डेटा की उपलब्धता भौगोलिक विविधता के साथ बढ़ती है। प्रतिकृति की प्रक्रिया में स्थान की उपलब्धता का मूल्यांकन शामिल है, जो प्रत्येक चंक सर्वर पर एक निश्चित न्यूनतम थ्रेश-होल्ड से ऊपर होना चाहिए। अन्यथा, डेटा को दूसरे चंक सर्वर पर दोहराया जाता है। प्रत्येक विभाजन, i, में एक उपलब्धता मान है जो निम्न सूत्र द्वारा दर्शाया गया है:
 <math>avail_i=\sum_{i=0}^{|s_i|}\sum_{j=i+1}^{|s_i|} conf_i.conf_j.diversity(s_i,s_j)</math>
 कहां <math> s_{i} </math> प्रतिकृतियों को होस्ट करने वाले सर्वर हैं, <math> conf_{i} </math> और <math> conf_{j} </math> सर्वर का विश्वास हैं <math> _{i} </math> और <math> _{j} </math> (किसी देश की आर्थिक और राजनीतिक स्थिति जैसे हार्डवेयर घटकों और गैर-तकनीकी जैसे तकनीकी कारकों पर निर्भर) और विविधता के बीच भौगोलिक दूरी है<math> s_{i} </math> और <math> s_{j} </math>.<ref>{{harvnb|Bonvin|Papaioannou|Aberer|2009|p=208}}</ref>
-डेटा उपलब्धता सुनिश्चित करने के लिए प्रतिकृति एक बढ़िया समाधान है, लेकिन मेमोरी स्पेस के मामले में इसकी लागत बहुत अधिक है।<ref name="ReferenceB">{{harvnb|Carnegie|Tantisiriroj|Xiao|Gibson|2009|p=1}}</ref> डिस्क कम करें<ref name="ReferenceB" />HDFS का एक संशोधित संस्करण है जो w:RAID तकनीक (RAID-5 और RAID-6) पर आधारित है और प्रतिकृति डेटा के अतुल्यकालिक एन्कोडिंग की अनुमति देता है। दरअसल, एक पृष्ठभूमि प्रक्रिया है जो व्यापक रूप से दोहराए गए डेटा की तलाश करती है और इसे एन्कोड करने के बाद अतिरिक्त प्रतियों को हटा देती है। एक अन्य दृष्टिकोण प्रतिकृति को इरेज़र कोडिंग के साथ बदलना है।<ref name="ReferenceC">{{harvnb|Wang|Gong|P.|Xie|2012|p=1}}</ref> इसके अलावा, डेटा की उपलब्धता सुनिश्चित करने के लिए कई तरीके हैं जो डेटा रिकवरी की अनुमति देते हैं। वास्तव में, डेटा को कोडित किया जाना चाहिए, और यदि यह खो जाता है, तो इसे कोडिंग चरण के दौरान बनाए गए टुकड़ों से पुनर्प्राप्त किया जा सकता है।<ref>{{harvnb|Abu-Libdeh|Princehouse|Weatherspoon|2010|p=2}}</ref> कुछ अन्य दृष्टिकोण जो उपलब्धता की गारंटी के लिए विभिन्न तंत्रों को लागू करते हैं, वे हैं: Microsoft Azure का रीड-सोलोमन कोड और HDFS के लिए RaidNode। इसके अलावा, Google अभी भी इरेज़र-कोडिंग मैकेनिज्म पर आधारित एक नए दृष्टिकोण पर काम कर रहा है।<ref>{{harvnb|Wang|Gong|P.|Xie|2012|p=9}}</ref>
-क्लाउड स्टोरेज के लिए कोई RAID कार्यान्वयन नहीं है।<ref name="ReferenceC" />
+डेटा उपलब्धता सुनिश्चित करने के लिए प्रतिकृति एक बढ़िया समाधान है, लेकिन मेमोरी स्पेस के स्थिति में इसकी लागत बहुत अधिक है।<ref name="ReferenceB">{{harvnb|Carnegie|Tantisiriroj|Xiao|Gibson|2009|p=1}}</ref> डिस्क कम करें<ref name="ReferenceB" />एचडीएफसी का एक संशोधित संस्करण है जो w:रेड तकनीक (रेड-5 और रेड-6) पर आधारित है और प्रतिकृति डेटा के अतुल्यकालिक एन्कोडिंग की अनुमति देता है। वास्तव में, एक पृष्ठभूमि प्रक्रिया है जो व्यापक रूप से दोहराए गए डेटा की खोज करती है और इसे एन्कोड करने के बाद अतिरिक्त प्रतियों को हटा देती है। एक अन्य दृष्टिकोण प्रतिकृति को इरेज़र कोडिंग के साथ बदलना है।<ref name="ReferenceC">{{harvnb|Wang|Gong|P.|Xie|2012|p=1}}</ref> इसके के अतिरिक्त, डेटा की उपलब्धता सुनिश्चित करने के लिए कई तरीके हैं जो डेटा रिकवरी की अनुमति देते हैं। वास्तव में, डेटा को कोडित किया जाना चाहिए, और यदि यह खो जाता है, तो इसे कोडिंग चरण के समय बनाए गए टुकड़ों से पुनर्प्राप्त किया जा सकता है।<ref>{{harvnb|Abu-Libdeh|Princehouse|Weatherspoon|2010|p=2}}</ref> कुछ अन्य दृष्टिकोण जो उपलब्धता की गारंटी के लिए विभिन्न तंत्रों को लागू करते हैं, वे हैं: Microsoft Azure का रीड-सोलोमन कोड और एचडीएफसी के लिए रेडनोड। इसके के अतिरिक्त, गूगल अभी भी इरेज़र-कोडिंग मैकेनिज्म पर आधारित एक नए दृष्टिकोण पर काम कर रहा है।<ref>{{harvnb|Wang|Gong|P.|Xie|2012|p=9}}</ref>
+क्लाउड स्टोरेज के लिए कोई रेड कार्यान्वयन नहीं है।<ref name="ReferenceC" />
@@ Line 174: / Line 179: @@
 पे-एज-यू-गो मॉडल ने स्टार्टअप कंपनियों पर बोझ को भी कम कर दिया है जो कम्प्यूट-इंटेंसिव बिजनेस से लाभ उठाना चाहते हैं। क्लाउड कंप्यूटिंग कई तीसरी दुनिया के देशों को भी अवसर प्रदान करता है जिनके पास अन्यथा ऐसे कंप्यूटिंग संसाधन नहीं होते। क्लाउड कंप्यूटिंग नवाचार के लिए आईटी बाधाओं को कम कर सकती है।<ref>{{harvnb|Marston|Lia|Bandyopadhyaya|Zhanga|2011|p=3}}</ref>
-क्लाउड कंप्यूटिंग के व्यापक उपयोग के बावजूद, अविश्वसनीय क्लाउड में बड़ी मात्रा में डेटा का कुशल साझाकरण अभी भी एक चुनौती है।
+क्लाउड कंप्यूटिंग के व्यापक उपयोग के अतिरिक्त, अविश्वसनीय क्लाउड में बड़ी मात्रा में डेटा का कुशल साझाकरण अभी भी एक चुनौती है।
 == संदर्भ ==

v t e Cloud computing
As a service	Content as a service Data as a service Desktop as a service Function as a service Infrastructure as a service Integration platform as a service Mobile backend as a service Network as a service Platform as a service Security as a service Software as a service
Technologies	Cloud database Cloud storage Data centers Distributed file system for cloud Hardware virtualization Internet Native cloud application Networking Security Structured storage Virtual appliance Web APIs Virtual private cloud
Applications	Box Dropbox Google Workspace Drive HP Cloud (closed) IBM Cloud Microsoft Office 365 OneDrive Nextcloud Oracle Cloud Rackspace Salesforce Workday Zoho
Platforms	Alibaba Cloud Amazon Web Services AppScale Box Bluemix CloudBolt Cloud Foundry Cocaine (PaaS) Creatio Engine Yard Helion GE Predix Google App Engine GreenQloud Heroku IBM Cloud Inktank Jelastic Microsoft Azure MindSphere Netlify Oracle Cloud OutSystems openQRM OpenShift PythonAnywhere RightScale Scalr Force.com SAP Cloud Platform Splunk Vercel VMware vCloud Air WaveMaker
Infrastructure	Alibaba Cloud Amazon Web Services Abiquo Enterprise Edition CloudStack Citrix Cloud CtrlS DigitalOcean EMC Atmos Eucalyptus Fujitsu Google Cloud Platform GreenButton GreenQloud IBM Cloud iland Joyent Linode Lunacloud Microsoft Azure Mirantis Netlify Nimbula Nimbus OpenIO OpenNebula OpenStack Oracle Cloud OrionVM Rackspace Cloud Safe Swiss Cloud Zadara libvirt libguestfs OVirt Virtual Machine Manager Wakame-vdc Vercel Virtual Private Cloud OnDemand
Category Commons

Anonymous

Search

क्लाउड के लिए वितरित फाइल सिस्टम: Difference between revisions

Namespaces

More

Page actions

Revision as of 21:23, 10 January 2023

Contents

सिंहावलोकन

इतिहास

सहायक तकनीक

अनुप्रयोग

आर्किटेक्चर

क्लाइंट-सर्वर आर्किटेक्चर

क्लस्टर-आधारित आर्किटेक्चर

डिजाइन सिद्धांत

लक्ष्य

भार संतुलन

भार पुनर्संतुलन

गूगल फाइल सिस्टम

विवरण

फाइल प्रोसेसिंग

हडूप वितरित फाइल सिस्टम

संचार

वितरित फ़ाइल सिस्टम का क्लाउड-आधारित तुल्यकालन

सुरक्षा कुंजी

गोपनीयता

अखंडता

उपलब्धता

आर्थिक पहलू

संदर्भ

अन्य उदाहरण

ग्रन्थसूची

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

क्लाउड के लिए वितरित फाइल सिस्टम: Difference between revisions

Revision as of 21:23, 10 January 2023

सिंहावलोकन

इतिहास

सहायक तकनीक

अनुप्रयोग

आर्किटेक्चर

क्लाइंट-सर्वर आर्किटेक्चर

क्लस्टर-आधारित आर्किटेक्चर

डिजाइन सिद्धांत

लक्ष्य

भार संतुलन

भार पुनर्संतुलन

गूगल फाइल सिस्टम

विवरण

फाइल प्रोसेसिंग

हडूप वितरित फाइल सिस्टम

संचार

वितरित फ़ाइल सिस्टम का क्लाउड-आधारित तुल्यकालन

सुरक्षा कुंजी

गोपनीयता

अखंडता

उपलब्धता

आर्थिक पहलू

संदर्भ

अन्य उदाहरण

ग्रन्थसूची

Navigation

Wiki tools

Page tools

Other projects

Hidden categories