डेटा डुप्लिकेशन: Difference between revisions
No edit summary |
No edit summary |
||
(4 intermediate revisions by 3 users not shown) | |||
Line 38: | Line 38: | ||
=== स्रोत के प्रति लक्ष्य डुप्लीकेशन === | === स्रोत के प्रति लक्ष्य डुप्लीकेशन === | ||
डेटा डुप्लीकेशन विधियों को वर्गीकृत करने | डेटा डुप्लीकेशन विधियों को वर्गीकृत करने की अन्य विधि यह है कि वे कहाँ घटित होते हैं। जहां डेटा बनाया जाता है, उसके निकट होने वाले डुप्लीकेशन को स्रोत डुप्लिकेशन कहा जाता है। जब यह उस स्थान के निकट होता है जहां डेटा संग्रहीत किया जाता है, तो इसे लक्ष्य डुप्लीकेशन कहा जाता है। | ||
स्रोत डिडुप्लीकेशन यह सुनिश्चित करता है कि डेटा स्रोत पर डेटा डुप्लीकेशन किया गया है। यह | स्रोत डिडुप्लीकेशन यह सुनिश्चित करता है कि डेटा स्रोत पर डेटा डुप्लीकेशन किया गया है। यह सामान्यतः फाइल प्रणाली के भीतर होता है। फ़ाइल प्रणाली समय-समय पर हैश बनाते हुए नई फ़ाइलों को स्कैन करेगा और उनकी तुलना उपस्थित फ़ाइलों के हैश से करेगा। जब समान हैश वाली फ़ाइलें मिलती हैं तो फ़ाइल कॉपी हटा दी जाती है और नई फ़ाइल प्राचीन फाइल को प्रदर्शित करता है। चूँकि, [[कठिन कड़ियाँ|हार्ड लिंक]] के विपरीत, डुप्लिकेट की गई फ़ाइलों को भिन्न-भिन्न इकाइयां माना जाता है और यदि डुप्लिकेट की गई फ़ाइलों में से एक को पश्चात में संशोधित किया जाता है, तो [[लिखने पर नकल|कॉपी-ऑन-राइट]] नामक प्रणाली का उपयोग करके उस परिवर्तित फ़ाइल या ब्लॉक की प्रति बनाई जाती है। डिडुप्लीकेशन प्रक्रिया उपयोगकर्ताओं और बैकअप एप्लिकेशन के लिए पारदर्शी है। डिडुप्लिकेट किए गए फ़ाइल प्रणाली का बैकअप लेने से प्रायः डुप्लिकेशन होता है जिसके परिणामस्वरूप बैकअप स्रोत डेटा से बड़ा होता है।<ref>{{cite web |url=http://www.microsoft.com/windowsserver2008/en/us/WSS08/SIS.aspx |title=Windows Server 2008: Windows Storage Server 2008 |publisher=Microsoft.com |access-date=2009-10-16 |url-status=dead |archive-url=https://web.archive.org/web/20091004073508/http://www.microsoft.com/windowsserver2008/en/us/WSS08/SIS.aspx |archive-date=2009-10-04 }}</ref><ref>{{cite web |url=http://www.netapp.com/us/products/platform-os/dedupe.html |title=उत्पाद - प्लेटफार्म ओएस|publisher=NetApp |access-date=2009-10-16 |archive-date=2010-02-06 |archive-url=https://web.archive.org/web/20100206071701/http://www.netapp.com/us/products/platform-os/dedupe.html |url-status=live }}</ref> | ||
प्रतिलिपि संचालन के लिए स्रोत डिडुप्लीकेशन को स्पष्ट रूप से घोषित किया जा सकता है, क्योंकि यह जानने के लिए किसी गणना की आवश्यकता नहीं है कि कॉपी किए गए डेटा को डिडुप्लीकेशन की आवश्यकता है। इससे फ़ाइल प्रणाली पर लिंकिंग का नया रूप सामने आता है जिसे रिफलिंक (लिनक्स) या क्लोनफाइल (मैकओएस) कहा जाता है, जहां [[इनोड]] (फाइल सूचना प्रविष्टियां) उनके कुछ या सभी डेटा को भागित करने के लिए बनाए जाते हैं। इसे हार्ड लिंक के समान नाम दिया गया है, जो इनोड स्तर पर कार्य करते है, और सांकेतिक लिंक जो फ़ाइल नाम स्तर पर कार्य करते है।<ref>{{cite web |title=The reflink(2) system call v5. |url=https://lwn.net/Articles/335380/ |website=lwn.net |access-date=2019-10-04 |archive-date=2015-10-02 |archive-url=https://web.archive.org/web/20151002000848/http://lwn.net/Articles/335380/ |url-status=live }}</ref> भिन्न-भिन्न प्रविष्टियों में कॉपी-ऑन-राइट व्यवहार होता है जो गैर-अलियासिंग होता है, अर्थात कॉपी को पश्चात में परिवर्तित करने से दूसरी कॉपी प्रभावित नहीं होंगी।<ref>{{cite web |title=ioctl_ficlonerange(2) |url=http://man7.org/linux/man-pages/man2/ioctl_ficlonerange.2.html |website=Linux Manual Page |access-date=2019-10-04 |archive-date=2019-10-07 |archive-url=https://web.archive.org/web/20191007043757/http://man7.org/linux/man-pages/man2/ioctl_ficlonerange.2.html |url-status=live }}</ref> माइक्रोसॉफ्ट का [[ReFS]] भी इस ऑपरेशन का समर्थन करता है।<ref>{{cite web|title=ReFS समर्थन पर विंडोज़ पर क्लोनफाइल जोड़ें|website=GitHub|author=Kazuki MATSUDA|url=https://github.com/git-lfs/git-lfs/pull/3790|access-date=2020-02-23|archive-date=2021-01-13|archive-url=https://web.archive.org/web/20210113201013/https://github.com/git-lfs/git-lfs/pull/3790|url-status=live}}</ref> | |||
लक्ष्य डुप्लीकेशन डुप्लिकेट को हटाने की प्रक्रिया है। इसका उदाहरण SAN/NAS से जुड़ा सर्वर होगा, SAN/NAS सर्वर के लिए लक्ष्य होगा (लक्ष्य डिडुप्लीकेशन)। सर्वर को किसी डिडुप्लीकेशन की जानकारी नहीं है, सर्वर डेटा जनरेशन का बिंदु भी है। दूसरा उदाहरण बैकअप होगा। सामान्यतः यह बैकअप स्टोर होगा जैसे डेटा रिपॉजिटरी या [[वर्चुअल टेप लाइब्रेरी]] है। | |||
=== डिडुप्लीकेशन की विधि === | |||
डेटा डिडुप्लीकेशन कार्यान्वयन के सबसे सामान्य रूपों में से डुप्लिकेट को ज्ञात करने के लिए डेटा के भागों की तुलना करके कार्य करता है। ऐसा होने के लिए, डेटा के प्रत्येक भाग को पहचान प्रदान की जाती है, जिसकी गणना सॉफ्टवेयर द्वारा की जाती है, सामान्यतः क्रिप्टोग्राफ़िक हैश फ़ंक्शंस का उपयोग करते हुए कई कार्यान्वयनों में, यह धारणा बनाई जाती है कि यदि पहचान समान है, तो डेटा समान है, भले ही पिजन सिद्धांत के कारण सभी स्थितियों में यह सत्य नहीं हो सकता है; अन्य कार्यान्वयन यह नहीं मानते हैं कि समान पहचानकर्ता वाले डेटा के दो ब्लॉक समान हैं, किंतु वास्तव में सत्यापित करते हैं कि समान पहचान वाला डेटा समान है।<ref>An example of an implementation that checks for identity rather than assuming it is described in [http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&p=1&u=%2Fnetahtml%2FPTO%2Fsearch-bool.html&r=1&f=G&l=50&co1=AND&d=PG01&s1=shnelvar&OS=shnelvar&RS=shnelvar "US Patent application # 20090307251"] {{Webarchive|url=https://web.archive.org/web/20170115031922/http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&p=1&u=%2Fnetahtml%2FPTO%2Fsearch-bool.html&r=1&f=G&l=50&co1=AND&d=PG01&s1=shnelvar&OS=shnelvar&RS=shnelvar |date=2017-01-15 }}.</ref>यदि सॉफ्टवेयर या तो मानता है कि एक दी गई पहचान पहले से ही डिडुप्लीकेशन नेमस्पेस में उपस्तिथ है या वास्तव में कार्यान्वयन के आधार पर डेटा के दो ब्लॉकों की पहचान की पुष्टि करता है, तो यह उस डुप्लिकेट खंड को लिंक से परवर्तित कर डाटा है। | |||
एक बार डेटा डुप्लिकेट हो जाने के पश्चात, फ़ाइल के पीछे पढ़ने पर, जहां लिंक मिलता है, प्रणाली बस उस लिंक को संदर्भित डेटा खंड से परवर्तित कर देता है। डिडुप्लीकेशन प्रक्रिया का उद्देश्य अंतिम उपयोगकर्ताओं और एप्लिकेशन के लिए पारदर्शी होना है। | |||
वाणिज्यिक डिडुप्लीकेशन कार्यान्वयन उनके चैंकिंग विधियों और आर्किटेक्चर से भिन्न होते हैं। | |||
* '''चंकिंग:''' कुछ प्रणालियों में, चंक्स को भौतिक परत बाधाओं (उदाहरण के लिए कहीं भी फ़ाइल लेआउट लिखें में 4KB ब्लॉक आकार) द्वारा परिभाषित किया जाता है। कुछ प्रणालियों में केवल पूर्ण फाइलों की तुलना की जाती है, जिसे सिंगल-इंस्टेंस स्टोरेज या एसआईएस कहा जाता है। चंकिंग के लिए सबसे बुद्धिमान (किंतु सीपीयू इंटेंसिव) विधि को सामान्यतः स्लाइडिंग-ब्लॉक माना जाता है, जिसे [[ सामग्री-परिभाषित चंकिंग |कंटेंट-डिफाइंड चंकिंग]] भी कहा जाता है। स्लाइडिंग ब्लॉक में, अधिक स्वाभाविक रूप से होने वाली आंतरिक फ़ाइल सीमाओं का परीक्षण करने के लिए फ़ाइल स्ट्रीम के साथ विंडो पास की जाती है। | |||
* '''क्लाइंट बैकअप डिडुप्लीकेशन:''' यह वह प्रक्रिया है जहां डिडुप्लीकेशन हैश गणना प्रारंभ में स्रोत (क्लाइंट) मशीनों पर बनाई जाती है। जिन फ़ाइलों में पहले से ही लक्ष्य डिवाइस में उपस्तिथ फाइलों के समान हैश हैं, उन्हें नहीं भेजा जाता है, लक्ष्य डिवाइस केवल डुप्लिकेट किए गए डेटा को संदर्भित करने के लिए उचित आंतरिक लिंक बनाता है। इसका लाभ यह है कि यह डेटा को अनावश्यक रूप से भेजे जाने वाले डेटा से बचता है जिससे ट्रैफ़िक लोड कम हो जाता है। | |||
* '''प्राथमिक भंडारण और माध्यमिक भंडारण:''' परिभाषा के अनुसार, प्राथमिक भंडारण प्रणालियों को न्यूनतम संभावित लागत के अतिरिक्त इष्टतम प्रदर्शन के लिए डिज़ाइन किया गया है। इन प्रणालियों के लिए डिज़ाइन मानदंड अन्य विचारों के व्यय पर प्रदर्शन को बढ़ाना है। इसके अतिरिक्त, प्राथमिक स्टोरेज प्रणाली किसी भी ऑपरेशन के प्रति अधिक कम सहनशील होती हैं जो प्रदर्शन पर नकारात्मक प्रभाव डाल सकती हैं। साथ ही परिभाषा के अनुसार, द्वितीयक भंडारण प्रणालियों में मुख्य रूप से डेटा की डुप्लीकेट, या द्वितीयक प्रतियां होती हैं। डेटा की इन प्रतियों का उपयोग सामान्यतः वास्तविक उत्पादन संचालन के लिए नहीं किया जाता है और परिणामस्वरूप बढ़ी हुई दक्षता के विपरीत कुछ प्रदर्शन कमी के प्रति अधिक सहनशील होते हैं। | |||
कुछ | आज तक, डेटा डिडुप्लीकेशन का उपयोग मुख्य रूप से द्वितीयक भंडारण प्रणालियों के साथ किया गया है। इसके दो कारण हैं। सबसे पहले, डेटा डिडुप्लिकेशन के लिए डुप्लिकेट डेटा के परीक्षण और विस्थापन के लिए ओवरहेड की आवश्यकता होती है। प्राथमिक स्टोरेज प्रणाली में, यह ओवरहेड प्रदर्शन को प्रभावित कर सकता है। द्वितीयक डेटा पर डिडुप्लीकेशन प्रारम्भ करने का दूसरा कारण यह है कि द्वितीयक डेटा में अधिक डुप्लिकेट डेटा होने की प्रवृत्ति होती है। विशेष रूप से बैकअप एप्लिकेशन सामान्यतः समय के साथ डुप्लिकेट डेटा के महत्वपूर्ण भाग उत्पन्न करते हैं। | ||
कुछ स्थितियों में प्राथमिक भंडारण के साथ डेटा डिडुप्लिकेशन सफलतापूर्वक नियुक्त किया गया है जहां प्रणाली डिज़ाइन को महत्वपूर्ण ओवरहेड या प्रभाव प्रदर्शन की आवश्यकता नहीं होती है। | |||
== एकल उदाहरण भंडारण == | == एकल उदाहरण भंडारण == | ||
सिंगल-इंस्टेंस स्टोरेज (SIS) सामग्री ऑब्जेक्ट की कई | सिंगल-इंस्टेंस स्टोरेज (SIS) प्रणाली की सामग्री ऑब्जेक्ट की कई प्रतियां लेने और उन्हें भागित प्रतिलिपि से परिवर्तित करने की क्षमता है। यह [[आंकड़े|डेटा]] डुप्लीकेशन को समाप्त करने और दक्षता बढ़ाने का साधन है। एसआईएस को [[फाइल सिस्टम|फाइल प्रणाली]], [[ ईमेल सर्वर |ईमेल सर्वर]] सॉफ्टवेयर, डेटा [[बैकअप]] और अन्य स्टोरेज-संबंधित कंप्यूटर सॉफ्टवेयर में प्रायः प्रारम्भ किया जाता है। सिंगल-इंस्टेंस स्टोरेज डेटा डिडुप्लीकेशन का सरल रूप है। जबकि डेटा डिडुप्लीकेशन खंड या उप-ब्लॉक स्तर पर कार्य कर सकता है, सिंगल इंस्टेंस स्टोरेज ऑब्जेक्ट स्तर पर कार्य करता है, जिससे संपूर्ण फ़ाइलों या ई-मेल संदेशों जैसी ऑब्जेक्ट की अनावश्यक प्रतियां समाप्त हो जाती हैं।<ref>[https://searchitchannel.techtarget.com/tip/Explaining-deduplication-rates-and-single-instance-storage-to-clients Explaining deduplication rates and single-instance storage to clients] {{Webarchive|url=https://web.archive.org/web/20181223211511/https://searchitchannel.techtarget.com/tip/Explaining-deduplication-rates-and-single-instance-storage-to-clients |date=2018-12-23 }}. George Crump, Storage Switzerland</ref> | ||
जटिलता में वृद्धि और (कुछ स्थितियों में) भंडारण स्थान आवश्यकताओं में साधारण वृद्धि के विपरीत प्रदर्शन में सुधार के लिए एकल-आवृत्ति भंडारण का उपयोग अन्य डेटा डुप्लिकेशन या डेटा संपीड़न विधियों के साथ (या स्तरित) किया जा सकता है। | |||
== कमियां और विचार == | |||
डेटा को डुप्लिकेट करने की विधि डेटा के डुप्लिकेट खंडों की पहचान करने के लिए [[क्रिप्टोग्राफ़िक हैश फ़ंक्शन]] के उपयोग पर निर्भर करती है। यदि सूचना के दो भिन्न-भिन्न भाग समान हैश मान उत्पन्न करते हैं, तो इसे [[हैश टक्कर|हैश विखंडन]] के रूप में जाना जाता है। विखंडन की संभावना मुख्य रूप से हैश लंबाई पर निर्भर करती है। इस प्रकार, यह चिंता विचार होते है कि हैश विखंडन होने पर डेटा भ्रष्टाचार हो सकता है, और यह सत्यापित करने के लिए सत्यापन के अतिरिक्त साधनों का उपयोग नहीं किया जाता है कि डेटा में कोई अंतर है या नहीं। इन-लाइन और पोस्ट-प्रोसेस आर्किटेक्चर दोनों आश्वासन डेटा अखंडता के लिए मूल डेटा के बिट-टू-बिट सत्यापन को प्रस्तुत कर सकते हैं। उपयोग किए गए हैश फ़ंक्शंस में [[SHA-1]], [[SHA-256]] और अन्य जैसे मानक सम्मिलित हैं। | |||
प्रक्रिया की कम्प्यूटेशनल संसाधन तीव्रता डेटा डिडुप्लीकेशन की कमी हो सकती है। प्रदर्शन में सुधार करने के लिए, कुछ प्रणाली निर्बल और स्थिर हैश दोनों का उपयोग करते हैं। निर्बल हैश गणना अधिक तीव्र हैं किंतु हैश विखंडन का संकट अधिक होता है। निर्बल हैश का उपयोग करने वाले प्रणाली पश्चात में स्थिर हैश की गणना करेंगे और इसे निर्धारण कारक के रूप में उपयोग करेंगे कि यह वास्तव में वही डेटा है या नहीं। ध्यान दें कि हैश मानों की गणना और परीक्षण से जुड़ी प्रणाली ओवरहेड मुख्य रूप से डिडुप्लीकेशन वर्कफ़्लो का कार्य है। फाइलों के पुनर्गठन के लिए इस प्रसंस्करण की आवश्यकता नहीं होती है और डेटा चंक्स के पुन: संयोजन से जुड़े किसी भी वृद्धिशील प्रदर्शन दंड से एप्लिकेशन प्रदर्शन पर प्रभाव पड़ने की संभावना नहीं है। | |||
अन्य विचार संपीड़न और एन्क्रिप्शन की परस्पर क्रिया है। एन्क्रिप्शन का लक्ष्य डेटा में किसी भी स्पष्ट पैटर्न को समाप्त करना है। इस प्रकार एन्क्रिप्टेड डेटा को डुप्लीकेट नहीं किया जा सकता है, भले ही अंतर्निहित डेटा अनावश्यक हो। | |||
चूँकि डेटा डिडुप्लीकेशन में कोई कमी नहीं है, किन्तु जब डुप्लीकेट डेटा के बड़े भंडारों के साथ अपर्याप्त सुरक्षा और एक्सेस सत्यापन प्रक्रियाओं का उपयोग किया जाता है। तो डेटा उल्लंघन होते हैं। कुछ प्रणालियों में, जैसा कि क्लाउड स्टोरेज में होता है,{{citation needed|date=August 2016}}वांछित डेटा के हैश मान को जानकर या अनुमान लगाकर दूसरों के स्वामित्व वाले डेटा को पुनः प्राप्त कर सकता है।<ref>{{cite journal |title=एक बादल जिस पर आप भरोसा कर सकते हैं|publisher=[[IEEE]] |journal=[[IEEE Spectrum]] |access-date=2011-12-21 |url=https://spectrum.ieee.org/computing/networks/a-cloud-you-can-trust |author1=CHRISTIAN CACHIN |author2=MATTHIAS SCHUNTER |date=December 2011 |archive-date=2012-01-02 |archive-url=https://web.archive.org/web/20120102010532/http://spectrum.ieee.org/computing/networks/a-cloud-you-can-trust |url-status=live }}</ref> | |||
== कार्यान्वयन == | == कार्यान्वयन == | ||
कुछ फ़ाइल प्रणाली जैसे कि [[ZFS]] | डिडुप्लीकेशन को कुछ फ़ाइल प्रणाली में प्रारम्भ किया जाता है, जैसे कि [[ZFS|जेडएफएस]]<ref>{{Cite web|url=https://blogs.oracle.com/bonwick/zfs-deduplication-v2|title=ZFS डिडुप्लीकेशन|last=Author|first=Guest|website=blogs.oracle.com|access-date=25 November 2019|archive-date=24 December 2019|archive-url=https://web.archive.org/web/20191224020451/https://blogs.oracle.com/bonwick/zfs-deduplication-v2|url-status=live}}</ref> या कहीं भी फ़ाइल लेआउट लिखें और विभिन्न डिस्क एरे मॉडल में यह विंडोज़ सर्वर पर [[NTFS|एनटीएफएस]] और आरइएफएस दोनों पर उपलब्ध सेवा है। | ||
== यह भी देखें == | == यह भी देखें == | ||
Line 103: | Line 106: | ||
* [http://www.text-filter.com/tools/remove-duplicate-lines/ DeDuplication ] Demo. | * [http://www.text-filter.com/tools/remove-duplicate-lines/ DeDuplication ] Demo. | ||
{{File systems}} | {{File systems}} | ||
{{DEFAULTSORT:Data Deduplication}} | {{DEFAULTSORT:Data Deduplication}} | ||
[[Category: | [[Category:All articles with unsourced statements|Data Deduplication]] | ||
[[Category:Created On 18/06/2023]] | [[Category:Articles with unsourced statements from August 2016|Data Deduplication]] | ||
[[Category:CS1 English-language sources (en)]] | |||
[[Category:CS1 errors]] | |||
[[Category:Collapse templates|Data Deduplication]] | |||
[[Category:Created On 18/06/2023|Data Deduplication]] | |||
[[Category:Lua-based templates|Data Deduplication]] | |||
[[Category:Machine Translated Page|Data Deduplication]] | |||
[[Category:Multi-column templates|Data Deduplication]] | |||
[[Category:Navigational boxes| ]] | |||
[[Category:Navigational boxes without horizontal lists|Data Deduplication]] | |||
[[Category:Pages using div col with small parameter|Data Deduplication]] | |||
[[Category:Pages with script errors|Data Deduplication]] | |||
[[Category:Sidebars with styles needing conversion|Data Deduplication]] | |||
[[Category:Template documentation pages|Documentation/doc]] | |||
[[Category:Templates Vigyan Ready|Data Deduplication]] | |||
[[Category:Templates generating microformats|Data Deduplication]] | |||
[[Category:Templates that add a tracking category|Data Deduplication]] | |||
[[Category:Templates that are not mobile friendly|Data Deduplication]] | |||
[[Category:Templates that generate short descriptions|Data Deduplication]] | |||
[[Category:Templates using TemplateData|Data Deduplication]] | |||
[[Category:Templates using under-protected Lua modules|Data Deduplication]] | |||
[[Category:Webarchive template wayback links]] | |||
[[Category:Wikipedia fully protected templates|Div col]] | |||
[[Category:Wikipedia metatemplates|Data Deduplication]] | |||
[[Category:आधार - सामग्री संकोचन|Data Deduplication]] | |||
[[Category:डेटा प्रबंधन|Data Deduplication]] |
Latest revision as of 11:21, 2 July 2023
कम्प्यूटिंग में, डेटा डिडुप्लीकेशन दोहराए जाने वाले डेटा की डुप्लिकेट प्रतियों को समाप्त करने की तकनीक है। तकनीक के सफल कार्यान्वयन से भंडारण उपयोग में सुधार हो सकता है, जो भंडारण क्षमता की आवश्यकताओं को पूर्ण करने के लिए आवश्यक भंडारण मीडिया की कुल मात्रा को कम करके पूंजीगत व्यय को कम कर सकता है। इसे भेजे जाने वाले बाइट्स की संख्या को कम करने के लिए नेटवर्क डेटा ट्रांसफर पर भी प्रारम्भ किया जा सकता है।
डिडुप्लीकेशन प्रक्रिया के लिए डेटा 'खंडों' (जिसे 'बाइट पैटर्न' के रूप में भी जाना जाता है) की तुलना की आवश्यकता होती है, जो डेटा के अद्वितीय, सन्निहित ब्लॉक होते हैं। इन खंडों को विश्लेषण की प्रक्रिया के समय पहचाना और संग्रहीत किया जाता है, और उपस्थित डेटा के भीतर अन्य खंडों की तुलना की जाती है। जब भी कोई मैच होता है, तो अनावश्यक खंड को एक छोटे संदर्भ से परिवर्तित कर दिया जाता है जो संग्रहीत खंड की ओर प्रदर्शित करता है। यह देखते हुए कि एक ही बाइट पैटर्न दर्जनों, सैकड़ों, या यहां तक कि हजारों बार हो सकता है (मैच आवृत्ति चंक आकार पर निर्भर है), संग्रहीत या स्थानांतरित किए जाने वाले डेटा की मात्रा को अधिक कम किया जा सकता है।[1][2]
संबंधित तकनीक एकल-आवृत्ति भंडारण है, जो संपूर्ण-फ़ाइल स्तर पर सामग्री की कई प्रतियों को एक भगित प्रतिलिपि से परिवर्तित कर देती है। जबकि इसे डेटा कम्प्रेशन और डुप्लीकेशन के अन्य रूपों के साथ जोड़ना संभव है, यह डेटा डुप्लीकेशन के नई विधियों से भिन्न है (जो खंड या उप-ब्लॉक स्तर पर कार्य कर सकता है)।
डिडुप्लीकेशन LZ77 और LZ78 जैसे डेटा कम्प्रेशन एल्गोरिदम से भिन्न है, जबकि कम्प्रेशन एल्गोरिदम भिन्न-भिन्न फ़ाइलों के अंदर अनावश्यक डेटा की पहचान करते हैं और इस अनावश्यक डेटा को अधिक कुशलता से एन्कोड करते हैं, डुप्लीकेशन का उद्देश्य डेटा की बड़ी मात्रा का निरीक्षण करना और बड़े अनुभागों की पहचान करना है- जैसे कि संपूर्ण फ़ाइलें या फ़ाइलों के बड़े अनुभाग - जो समान हैं, और उन्हें भागित प्रति के साथ प्रतिस्थापित करना है।
कार्य सिद्धांत
उदाहरण के लिए, सामान्य ईमेल प्रणाली में समान 1 एमबी (मेगाबाइट) फ़ाइल अनुलग्नक के 100 उदाहरण हो सकते हैं। जब प्रत्येक ईमेल प्लेटफॉर्म का बैकअप लिया जाता है, तो अनुलग्नक के सभी 100 उदाहरण सहेजे जाते हैं, जिसके लिए 100 एमबी संग्रहण स्थान की आवश्यकता होती है। डेटा डिडुप्लीकेशन के साथ, अनुलग्नक का उदाहरण वास्तव में संग्रहीत किया जाता है; पश्चात के उदाहरणों को लगभग 100 से 1 के डिडुप्लीकेशन अनुपात के लिए सहेजी गई प्रतिलिपि में संदर्भित किया जाता है। अतिरिक्त भंडारण बचत के लिए डिडुप्लीकेशन को प्रायः डेटा कंप्रेशन के साथ जोड़ा जाता है: डिडुप्लीकेशन का उपयोग पहले दोहराए गए डेटा के बड़े खंड को समाप्त करने के लिए किया जाता है, और फिर कंप्रेशन का उपयोग कुशलता से किया जाता है संग्रहीत खंडों में से प्रत्येक को एनकोड करें।[3]
कंप्यूटर कोड में, डिडुप्लीकेशन उदाहरण के लिए, सूचनाओं को चर में संग्रहीत करके किया जाता है जिससे उन्हें भिन्न-भिन्न लिखा न जाए, किंतु केंद्रीय संदर्भित (कंप्यूटर विज्ञान) स्थान पर एक बार में परिवर्तित किया जा सके। उदाहरण सीएसएस कक्षाएं और मीडियाविकि में नामित संदर्भ हैं।
लाभ
संग्रहण-आधारित डेटा डुप्लिकेशन फ़ाइलों के दिए गए सेट के लिए आवश्यक संग्रहण की मात्रा को कम कर देता है। यह उन अनुप्रयोगों में सबसे प्रभावी है जहां डिस्क पर अधिक समान या समान डेटा की कई प्रतियां संग्रहीत की जाती हैं। डेटा बैकअप की स्तिथि में, जो नियमित रूप से डेटा हानि से बचाने के लिए किया जाता है, किसी दिए गए बैकअप में अधिकांश डेटा पिछले बैकअप से अपरिवर्तित रहता है। सामान्य बैकअप प्रणालियाँ उन फ़ाइलों को विस्थापित करके (या हार्ड लिंक करके) इसका लाभ प्राप्त करने का प्रयास करते हैं जो नहीं परिवर्तित होती हैं या फ़ाइलों के मध्य अंतर संग्रहीत करते हैं। चूँकि, कोई भी दृष्टिकोण सभी अतिरेक पर प्रभुत्व नहीं करता है। हार्ड-लिंकिंग बड़ी फ़ाइलों में सहायता नहीं करती है जो केवल छोटी विधियों से परिवर्तित की गई हैं, जैसे कि ईमेल डेटाबेस; अंतर केवल फ़ाइल के आसन्न संस्करणों में अतिरेक पाते हैं (उस अनुभाग पर विचार करें जिसे विस्थापित कर दिया गया था और पश्चात में फिर से जोड़ा गया, या कई दस्तावेज़ों में सम्मिलित लोगो छवि)।
इन-लाइन नेटवर्क डेटा डिडुप्लीकेशन का उपयोग एंडपॉइंट के मध्य स्थानांतरित किए जाने वाले बाइट्स की संख्या को कम करने के लिए किया जाता है, जिससे आवश्यक बैंडविड्थ की मात्रा कम हो सकती है। अधिक जानकारी के लिए WAN अनुकूलन देखें। वर्चुअल सर्वर और वर्चुअल डेस्कटॉप डिडुप्लीकेशन से लाभान्वित होते हैं क्योंकि यह प्रत्येक वर्चुअल मशीन के लिए नाममात्र रूप से भिन्न प्रणाली फ़ाइलों को एकल स्टोरेज स्पेस में संयोजित करने की अनुमति देता है। उसी समय, यदि दी गई वर्चुअल मशीन किसी फ़ाइल को कस्टमाइज़ करती है, तो डिडुप्लीकेशन अन्य वर्चुअल मशीनों पर फ़ाइलों को नहीं परिवर्तित करता है - कुछ ऐसा जो हार्ड लिंक या डिस्क जैसे विकल्प प्रस्तुत नहीं करते हैं। आभासी परिवेशों का बैकअप लेना या डुप्लिकेट प्रतियां बनाना भी इसी प्रकार उत्तम होता है।
वर्गीकरण
पोस्ट-प्रोसेस के प्रति इन-लाइन डुप्लीकेशन
डिडुप्लीकेशन इन-लाइन हो सकता है, क्योंकि डेटा प्रवाहित हो रहा है, या इसके लिखे जाने के पश्चात पोस्ट-प्रोसेस हो सकता है।
पोस्ट-प्रोसेस डिडुप्लीकेशन के साथ, नए डेटा को पहले स्टोरेज डिवाइस पर स्टोर किया जाता है और फिर पश्चात में प्रक्रिया डुप्लीकेशन के परीक्षण में डेटा का विश्लेषण करेगी। लाभ यह है कि डेटा को संग्रहीत करने से पहले हैश गणना और लुकअप पूर्ण होने तक प्रतीक्षा करने की आवश्यकता नहीं है, जिससे यह सुनिश्चित हो सके कि स्टोर का प्रदर्शन व्यर्थ नहीं होता है। नीति-आधारित संचालन का प्रस्तुतीकरण करने वाले कार्यान्वयन उपयोगकर्ताओं को सक्रिय फ़ाइलों पर अनुकूलन को स्थगित करने या प्रकार और स्थान के आधार पर फ़ाइलों को संसाधित करने की क्षमता प्रदान कर सकते हैं। संभावित दोष यह है कि डुप्लिकेट डेटा को अनावश्यक रूप से संग्रहीत किया जा सकता है, जो कि प्रणाली की पूर्ण क्षमता के निकट होने पर समस्याग्रस्त हो सकता है।
वैकल्पिक रूप से, डिडुप्लीकेशन हैश गणना इन-लाइन की जा सकती है: जैसे ही डेटा लक्ष्य डिवाइस में प्रवेश करता है, सिंक्रनाइज़ किया जाता है। यदि स्टोरेज प्रणाली ब्लॉक की पहचान करता है जिसे उसने पहले ही स्टोर कर लिया है, तो पूर्ण नए ब्लॉक के अतिरिक्त उपस्थित ब्लॉक का संदर्भ संग्रहीत किया जाता है।
पोस्ट-प्रोसेस डिडुप्लीकेशन की तुलना में इन-लाइन डुप्लीकेशन का लाभ यह है कि इसके लिए कम स्टोरेज और नेटवर्क ट्रैफिक की आवश्यकता होती है, क्योंकि डुप्लीकेट डेटा को कभी भी स्टोर या ट्रांसफर नहीं किया जाता है। नकारात्मक पक्ष पर, हैश गणना कम्प्यूटेशनल रूप से बहुमूल्य हो सकती है, जिससे स्टोरेज थ्रूपुट कम हो जाता है। चूँकि, इन-लाइन डुप्लीकेशन वाले कुछ वेंडरों ने ऐसे उपकरण प्रदर्शित किए हैं जो उच्च दरों पर इन-लाइन डुप्लीकेशन करने में सक्षम हैं।
पोस्ट-प्रोसेस और इन-लाइन डुप्लीकेशन विधियों पर प्रायः भारी अनुशय होती है।[4][5]
डेटा प्रारूप
एसएनआईए डिक्शनरी दो विधियों की पहचान करती है:[2]
- सामग्री-अज्ञेय डेटा डुप्लीकेशन- डेटा डुप्लिकेशन विधि जिसमें विशिष्ट एप्लिकेशन डेटा प्रारूपों के बारे में जागरूकता की आवश्यकता नहीं होती है।
- सामग्री-जागरूक डेटा डुप्लीकेशन- डेटा डुप्लिकेशन विधि जो विशिष्ट एप्लिकेशन डेटा प्रारूपों के ज्ञान का लाभ का उपयोग करती है।
स्रोत के प्रति लक्ष्य डुप्लीकेशन
डेटा डुप्लीकेशन विधियों को वर्गीकृत करने की अन्य विधि यह है कि वे कहाँ घटित होते हैं। जहां डेटा बनाया जाता है, उसके निकट होने वाले डुप्लीकेशन को स्रोत डुप्लिकेशन कहा जाता है। जब यह उस स्थान के निकट होता है जहां डेटा संग्रहीत किया जाता है, तो इसे लक्ष्य डुप्लीकेशन कहा जाता है।
स्रोत डिडुप्लीकेशन यह सुनिश्चित करता है कि डेटा स्रोत पर डेटा डुप्लीकेशन किया गया है। यह सामान्यतः फाइल प्रणाली के भीतर होता है। फ़ाइल प्रणाली समय-समय पर हैश बनाते हुए नई फ़ाइलों को स्कैन करेगा और उनकी तुलना उपस्थित फ़ाइलों के हैश से करेगा। जब समान हैश वाली फ़ाइलें मिलती हैं तो फ़ाइल कॉपी हटा दी जाती है और नई फ़ाइल प्राचीन फाइल को प्रदर्शित करता है। चूँकि, हार्ड लिंक के विपरीत, डुप्लिकेट की गई फ़ाइलों को भिन्न-भिन्न इकाइयां माना जाता है और यदि डुप्लिकेट की गई फ़ाइलों में से एक को पश्चात में संशोधित किया जाता है, तो कॉपी-ऑन-राइट नामक प्रणाली का उपयोग करके उस परिवर्तित फ़ाइल या ब्लॉक की प्रति बनाई जाती है। डिडुप्लीकेशन प्रक्रिया उपयोगकर्ताओं और बैकअप एप्लिकेशन के लिए पारदर्शी है। डिडुप्लिकेट किए गए फ़ाइल प्रणाली का बैकअप लेने से प्रायः डुप्लिकेशन होता है जिसके परिणामस्वरूप बैकअप स्रोत डेटा से बड़ा होता है।[6][7]
प्रतिलिपि संचालन के लिए स्रोत डिडुप्लीकेशन को स्पष्ट रूप से घोषित किया जा सकता है, क्योंकि यह जानने के लिए किसी गणना की आवश्यकता नहीं है कि कॉपी किए गए डेटा को डिडुप्लीकेशन की आवश्यकता है। इससे फ़ाइल प्रणाली पर लिंकिंग का नया रूप सामने आता है जिसे रिफलिंक (लिनक्स) या क्लोनफाइल (मैकओएस) कहा जाता है, जहां इनोड (फाइल सूचना प्रविष्टियां) उनके कुछ या सभी डेटा को भागित करने के लिए बनाए जाते हैं। इसे हार्ड लिंक के समान नाम दिया गया है, जो इनोड स्तर पर कार्य करते है, और सांकेतिक लिंक जो फ़ाइल नाम स्तर पर कार्य करते है।[8] भिन्न-भिन्न प्रविष्टियों में कॉपी-ऑन-राइट व्यवहार होता है जो गैर-अलियासिंग होता है, अर्थात कॉपी को पश्चात में परिवर्तित करने से दूसरी कॉपी प्रभावित नहीं होंगी।[9] माइक्रोसॉफ्ट का ReFS भी इस ऑपरेशन का समर्थन करता है।[10]
लक्ष्य डुप्लीकेशन डुप्लिकेट को हटाने की प्रक्रिया है। इसका उदाहरण SAN/NAS से जुड़ा सर्वर होगा, SAN/NAS सर्वर के लिए लक्ष्य होगा (लक्ष्य डिडुप्लीकेशन)। सर्वर को किसी डिडुप्लीकेशन की जानकारी नहीं है, सर्वर डेटा जनरेशन का बिंदु भी है। दूसरा उदाहरण बैकअप होगा। सामान्यतः यह बैकअप स्टोर होगा जैसे डेटा रिपॉजिटरी या वर्चुअल टेप लाइब्रेरी है।
डिडुप्लीकेशन की विधि
डेटा डिडुप्लीकेशन कार्यान्वयन के सबसे सामान्य रूपों में से डुप्लिकेट को ज्ञात करने के लिए डेटा के भागों की तुलना करके कार्य करता है। ऐसा होने के लिए, डेटा के प्रत्येक भाग को पहचान प्रदान की जाती है, जिसकी गणना सॉफ्टवेयर द्वारा की जाती है, सामान्यतः क्रिप्टोग्राफ़िक हैश फ़ंक्शंस का उपयोग करते हुए कई कार्यान्वयनों में, यह धारणा बनाई जाती है कि यदि पहचान समान है, तो डेटा समान है, भले ही पिजन सिद्धांत के कारण सभी स्थितियों में यह सत्य नहीं हो सकता है; अन्य कार्यान्वयन यह नहीं मानते हैं कि समान पहचानकर्ता वाले डेटा के दो ब्लॉक समान हैं, किंतु वास्तव में सत्यापित करते हैं कि समान पहचान वाला डेटा समान है।[11]यदि सॉफ्टवेयर या तो मानता है कि एक दी गई पहचान पहले से ही डिडुप्लीकेशन नेमस्पेस में उपस्तिथ है या वास्तव में कार्यान्वयन के आधार पर डेटा के दो ब्लॉकों की पहचान की पुष्टि करता है, तो यह उस डुप्लिकेट खंड को लिंक से परवर्तित कर डाटा है।
एक बार डेटा डुप्लिकेट हो जाने के पश्चात, फ़ाइल के पीछे पढ़ने पर, जहां लिंक मिलता है, प्रणाली बस उस लिंक को संदर्भित डेटा खंड से परवर्तित कर देता है। डिडुप्लीकेशन प्रक्रिया का उद्देश्य अंतिम उपयोगकर्ताओं और एप्लिकेशन के लिए पारदर्शी होना है।
वाणिज्यिक डिडुप्लीकेशन कार्यान्वयन उनके चैंकिंग विधियों और आर्किटेक्चर से भिन्न होते हैं।
- चंकिंग: कुछ प्रणालियों में, चंक्स को भौतिक परत बाधाओं (उदाहरण के लिए कहीं भी फ़ाइल लेआउट लिखें में 4KB ब्लॉक आकार) द्वारा परिभाषित किया जाता है। कुछ प्रणालियों में केवल पूर्ण फाइलों की तुलना की जाती है, जिसे सिंगल-इंस्टेंस स्टोरेज या एसआईएस कहा जाता है। चंकिंग के लिए सबसे बुद्धिमान (किंतु सीपीयू इंटेंसिव) विधि को सामान्यतः स्लाइडिंग-ब्लॉक माना जाता है, जिसे कंटेंट-डिफाइंड चंकिंग भी कहा जाता है। स्लाइडिंग ब्लॉक में, अधिक स्वाभाविक रूप से होने वाली आंतरिक फ़ाइल सीमाओं का परीक्षण करने के लिए फ़ाइल स्ट्रीम के साथ विंडो पास की जाती है।
- क्लाइंट बैकअप डिडुप्लीकेशन: यह वह प्रक्रिया है जहां डिडुप्लीकेशन हैश गणना प्रारंभ में स्रोत (क्लाइंट) मशीनों पर बनाई जाती है। जिन फ़ाइलों में पहले से ही लक्ष्य डिवाइस में उपस्तिथ फाइलों के समान हैश हैं, उन्हें नहीं भेजा जाता है, लक्ष्य डिवाइस केवल डुप्लिकेट किए गए डेटा को संदर्भित करने के लिए उचित आंतरिक लिंक बनाता है। इसका लाभ यह है कि यह डेटा को अनावश्यक रूप से भेजे जाने वाले डेटा से बचता है जिससे ट्रैफ़िक लोड कम हो जाता है।
- प्राथमिक भंडारण और माध्यमिक भंडारण: परिभाषा के अनुसार, प्राथमिक भंडारण प्रणालियों को न्यूनतम संभावित लागत के अतिरिक्त इष्टतम प्रदर्शन के लिए डिज़ाइन किया गया है। इन प्रणालियों के लिए डिज़ाइन मानदंड अन्य विचारों के व्यय पर प्रदर्शन को बढ़ाना है। इसके अतिरिक्त, प्राथमिक स्टोरेज प्रणाली किसी भी ऑपरेशन के प्रति अधिक कम सहनशील होती हैं जो प्रदर्शन पर नकारात्मक प्रभाव डाल सकती हैं। साथ ही परिभाषा के अनुसार, द्वितीयक भंडारण प्रणालियों में मुख्य रूप से डेटा की डुप्लीकेट, या द्वितीयक प्रतियां होती हैं। डेटा की इन प्रतियों का उपयोग सामान्यतः वास्तविक उत्पादन संचालन के लिए नहीं किया जाता है और परिणामस्वरूप बढ़ी हुई दक्षता के विपरीत कुछ प्रदर्शन कमी के प्रति अधिक सहनशील होते हैं।
आज तक, डेटा डिडुप्लीकेशन का उपयोग मुख्य रूप से द्वितीयक भंडारण प्रणालियों के साथ किया गया है। इसके दो कारण हैं। सबसे पहले, डेटा डिडुप्लिकेशन के लिए डुप्लिकेट डेटा के परीक्षण और विस्थापन के लिए ओवरहेड की आवश्यकता होती है। प्राथमिक स्टोरेज प्रणाली में, यह ओवरहेड प्रदर्शन को प्रभावित कर सकता है। द्वितीयक डेटा पर डिडुप्लीकेशन प्रारम्भ करने का दूसरा कारण यह है कि द्वितीयक डेटा में अधिक डुप्लिकेट डेटा होने की प्रवृत्ति होती है। विशेष रूप से बैकअप एप्लिकेशन सामान्यतः समय के साथ डुप्लिकेट डेटा के महत्वपूर्ण भाग उत्पन्न करते हैं।
कुछ स्थितियों में प्राथमिक भंडारण के साथ डेटा डिडुप्लिकेशन सफलतापूर्वक नियुक्त किया गया है जहां प्रणाली डिज़ाइन को महत्वपूर्ण ओवरहेड या प्रभाव प्रदर्शन की आवश्यकता नहीं होती है।
एकल उदाहरण भंडारण
सिंगल-इंस्टेंस स्टोरेज (SIS) प्रणाली की सामग्री ऑब्जेक्ट की कई प्रतियां लेने और उन्हें भागित प्रतिलिपि से परिवर्तित करने की क्षमता है। यह डेटा डुप्लीकेशन को समाप्त करने और दक्षता बढ़ाने का साधन है। एसआईएस को फाइल प्रणाली, ईमेल सर्वर सॉफ्टवेयर, डेटा बैकअप और अन्य स्टोरेज-संबंधित कंप्यूटर सॉफ्टवेयर में प्रायः प्रारम्भ किया जाता है। सिंगल-इंस्टेंस स्टोरेज डेटा डिडुप्लीकेशन का सरल रूप है। जबकि डेटा डिडुप्लीकेशन खंड या उप-ब्लॉक स्तर पर कार्य कर सकता है, सिंगल इंस्टेंस स्टोरेज ऑब्जेक्ट स्तर पर कार्य करता है, जिससे संपूर्ण फ़ाइलों या ई-मेल संदेशों जैसी ऑब्जेक्ट की अनावश्यक प्रतियां समाप्त हो जाती हैं।[12]
जटिलता में वृद्धि और (कुछ स्थितियों में) भंडारण स्थान आवश्यकताओं में साधारण वृद्धि के विपरीत प्रदर्शन में सुधार के लिए एकल-आवृत्ति भंडारण का उपयोग अन्य डेटा डुप्लिकेशन या डेटा संपीड़न विधियों के साथ (या स्तरित) किया जा सकता है।
कमियां और विचार
डेटा को डुप्लिकेट करने की विधि डेटा के डुप्लिकेट खंडों की पहचान करने के लिए क्रिप्टोग्राफ़िक हैश फ़ंक्शन के उपयोग पर निर्भर करती है। यदि सूचना के दो भिन्न-भिन्न भाग समान हैश मान उत्पन्न करते हैं, तो इसे हैश विखंडन के रूप में जाना जाता है। विखंडन की संभावना मुख्य रूप से हैश लंबाई पर निर्भर करती है। इस प्रकार, यह चिंता विचार होते है कि हैश विखंडन होने पर डेटा भ्रष्टाचार हो सकता है, और यह सत्यापित करने के लिए सत्यापन के अतिरिक्त साधनों का उपयोग नहीं किया जाता है कि डेटा में कोई अंतर है या नहीं। इन-लाइन और पोस्ट-प्रोसेस आर्किटेक्चर दोनों आश्वासन डेटा अखंडता के लिए मूल डेटा के बिट-टू-बिट सत्यापन को प्रस्तुत कर सकते हैं। उपयोग किए गए हैश फ़ंक्शंस में SHA-1, SHA-256 और अन्य जैसे मानक सम्मिलित हैं।
प्रक्रिया की कम्प्यूटेशनल संसाधन तीव्रता डेटा डिडुप्लीकेशन की कमी हो सकती है। प्रदर्शन में सुधार करने के लिए, कुछ प्रणाली निर्बल और स्थिर हैश दोनों का उपयोग करते हैं। निर्बल हैश गणना अधिक तीव्र हैं किंतु हैश विखंडन का संकट अधिक होता है। निर्बल हैश का उपयोग करने वाले प्रणाली पश्चात में स्थिर हैश की गणना करेंगे और इसे निर्धारण कारक के रूप में उपयोग करेंगे कि यह वास्तव में वही डेटा है या नहीं। ध्यान दें कि हैश मानों की गणना और परीक्षण से जुड़ी प्रणाली ओवरहेड मुख्य रूप से डिडुप्लीकेशन वर्कफ़्लो का कार्य है। फाइलों के पुनर्गठन के लिए इस प्रसंस्करण की आवश्यकता नहीं होती है और डेटा चंक्स के पुन: संयोजन से जुड़े किसी भी वृद्धिशील प्रदर्शन दंड से एप्लिकेशन प्रदर्शन पर प्रभाव पड़ने की संभावना नहीं है।
अन्य विचार संपीड़न और एन्क्रिप्शन की परस्पर क्रिया है। एन्क्रिप्शन का लक्ष्य डेटा में किसी भी स्पष्ट पैटर्न को समाप्त करना है। इस प्रकार एन्क्रिप्टेड डेटा को डुप्लीकेट नहीं किया जा सकता है, भले ही अंतर्निहित डेटा अनावश्यक हो।
चूँकि डेटा डिडुप्लीकेशन में कोई कमी नहीं है, किन्तु जब डुप्लीकेट डेटा के बड़े भंडारों के साथ अपर्याप्त सुरक्षा और एक्सेस सत्यापन प्रक्रियाओं का उपयोग किया जाता है। तो डेटा उल्लंघन होते हैं। कुछ प्रणालियों में, जैसा कि क्लाउड स्टोरेज में होता है,[citation needed]वांछित डेटा के हैश मान को जानकर या अनुमान लगाकर दूसरों के स्वामित्व वाले डेटा को पुनः प्राप्त कर सकता है।[13]
कार्यान्वयन
डिडुप्लीकेशन को कुछ फ़ाइल प्रणाली में प्रारम्भ किया जाता है, जैसे कि जेडएफएस[14] या कहीं भी फ़ाइल लेआउट लिखें और विभिन्न डिस्क एरे मॉडल में यह विंडोज़ सर्वर पर एनटीएफएस और आरइएफएस दोनों पर उपलब्ध सेवा है।
यह भी देखें
- क्षमता अनुकूलन
- घन संग्रहण
- सिंगल-इंस्टेंस स्टोरेज
- सामग्री-पता योग्य भंडारण
- डेल्टा एन्कोडिंग
- जुड़ा हुआ डेटा
- सूचक (कंप्यूटर प्रोग्रामिंग)
- रिकॉर्ड लिंकेज
- पहचान संकल्प
- अभिसरण एन्क्रिप्शन
संदर्भ
- ↑ "डेटा डुप्लीकेशन को समझना". Druva (in English). 2009-01-09. Archived from the original on 2019-08-06. Retrieved 2019-08-06.
- ↑ 2.0 2.1 "SNIA Dictionary » Dictionary D". Archived from the original on 2018-12-24. Retrieved 2018-12-23.
- ↑ Compression, deduplication and encryption: What's the difference? Archived 2018-12-23 at the Wayback Machine, Stephen Bigelow and Paul Crocetti
- ↑ "In-line or post-process de-duplication? (updated 6-08)". Backup Central. Archived from the original on 2009-12-06. Retrieved 2009-10-16.
- ↑ "इनलाइन बनाम पोस्ट-प्रोसेसिंग डिडुप्लिकेशन उपकरण". Searchdatabackup.techtarget.com. Archived from the original on 2009-06-09. Retrieved 2009-10-16.
- ↑ "Windows Server 2008: Windows Storage Server 2008". Microsoft.com. Archived from the original on 2009-10-04. Retrieved 2009-10-16.
- ↑ "उत्पाद - प्लेटफार्म ओएस". NetApp. Archived from the original on 2010-02-06. Retrieved 2009-10-16.
- ↑ "The reflink(2) system call v5". lwn.net. Archived from the original on 2015-10-02. Retrieved 2019-10-04.
- ↑ "ioctl_ficlonerange(2)". Linux Manual Page. Archived from the original on 2019-10-07. Retrieved 2019-10-04.
- ↑ Kazuki MATSUDA. "ReFS समर्थन पर विंडोज़ पर क्लोनफाइल जोड़ें". GitHub. Archived from the original on 2021-01-13. Retrieved 2020-02-23.
- ↑ An example of an implementation that checks for identity rather than assuming it is described in "US Patent application # 20090307251" Archived 2017-01-15 at the Wayback Machine.
- ↑ Explaining deduplication rates and single-instance storage to clients Archived 2018-12-23 at the Wayback Machine. George Crump, Storage Switzerland
- ↑ CHRISTIAN CACHIN; MATTHIAS SCHUNTER (December 2011). "एक बादल जिस पर आप भरोसा कर सकते हैं". IEEE Spectrum. IEEE. Archived from the original on 2012-01-02. Retrieved 2011-12-21.
- ↑ Author, Guest. "ZFS डिडुप्लीकेशन". blogs.oracle.com. Archived from the original on 24 December 2019. Retrieved 25 November 2019.
{{cite web}}
:|last=
has generic name (help)
बाहरी संबंध
- Biggar, Heidi(2007.12.11). WebCast: The Data Deduplication Effect
- Using Latent Semantic Indexing for Data Deduplication.
- A Better Way to Store Data.
- What Is the Difference Between Data Deduplication, File Deduplication, and Data Compression? - Database from eWeek
- SNIA DDSR SIG * * Understanding Data Deduplication Ratios
- Doing More with Less by Jatinder Singh
- DeDuplication Demo.