डेटा अनामीकरण: Difference between revisions

From Vigyanwiki
No edit summary
Line 9: Line 9:
हमेशा एक जोखिम रहेगा कि अज्ञात डेटा समय के साथ गुमनाम न रहे। अज्ञात डेटासेट को अन्य डेटा, चतुर तकनीकों और अपरिष्कृत शक्ति के साथ पेयर करना कुछ ऐसे तरीके हैं जिनसे पहले अज्ञात डेटा सेट डी-अनामीकृत हो गए थे; डेटा विषय अब गुमनाम नहीं हैं।
हमेशा एक जोखिम रहेगा कि अज्ञात डेटा समय के साथ गुमनाम न रहे। अज्ञात डेटासेट को अन्य डेटा, चतुर तकनीकों और अपरिष्कृत शक्ति के साथ पेयर करना कुछ ऐसे तरीके हैं जिनसे पहले अज्ञात डेटा सेट डी-अनामीकृत हो गए थे; डेटा विषय अब गुमनाम नहीं हैं।


[[डी-गुमनामी|डी-एनोनिमाइज़ेशन]] रिवर्स प्रक्रिया है जिसमें अज्ञात डेटा स्रोत को फिर से पहचानने के लिए अज्ञात डेटा को अन्य डेटा स्रोतों के साथ क्रॉस-रेफरेंस किया जाता है।<ref>{{cite web|title=डी-गुमनामी|url=http://whatis.techtarget.com/definition/de-anonymization-deanonymization|publisher=Whatis.com|access-date=17 January 2014}}</ref> संबंधपरक डेटा के लिए सामान्यीकरण और गड़बड़ी दो लोकप्रिय अनामीकरण दृष्टिकोण हैं।<ref>{{cite journal|last=Bin Zhou|author2=Jian Pei |author3=WoShun Luk |title=सामाजिक नेटवर्क डेटा के प्रकाशन को गोपनीयता बनाए रखने के लिए नाम न छापने की तकनीकों पर एक संक्षिप्त सर्वेक्षण|journal=Newsletter ACM SIGKDD Explorations Newsletter|date=December 2008|volume=10|issue=2|pages=12–22|doi=10.1145/1540276.1540279 |s2cid=609178 |url=https://www.cs.sfu.ca/~jpei/publications/SocialNetworkAnonymization_survey.pdf}}</ref> बाद में इसे फिर से पहचानने की क्षमता के साथ डेटा को अस्पष्ट करने की प्रक्रिया को [[छद्म नाम]]करण भी कहा जाता है और यह एक तरफ़ा कंपनियां डेटा को इस तरह से स्टोर कर सकती हैं जो HIPAA स्वास्थ्य बीमा पोर्टेबिलिटी और जवाबदेही अधिनियम के अनुरूप हो।
[[डी-गुमनामी|डी-एनोनिमाइज़ेशन]] रिवर्स प्रक्रिया है जिसमें अज्ञात डेटा स्रोत को फिर से पहचानने के लिए अज्ञात डेटा को अन्य डेटा स्रोतों के साथ क्रॉस-रेफरेंस किया जाता है।<ref>{{cite web|title=डी-गुमनामी|url=http://whatis.techtarget.com/definition/de-anonymization-deanonymization|publisher=Whatis.com|access-date=17 January 2014}}</ref> संबंधपरक डेटा के लिए सामान्यीकरण और गड़बड़ी दो लोकप्रिय अनामीकरण दृष्टिकोण हैं।<ref>{{cite journal|last=Bin Zhou|author2=Jian Pei |author3=WoShun Luk |title=सामाजिक नेटवर्क डेटा के प्रकाशन को गोपनीयता बनाए रखने के लिए नाम न छापने की तकनीकों पर एक संक्षिप्त सर्वेक्षण|journal=Newsletter ACM SIGKDD Explorations Newsletter|date=December 2008|volume=10|issue=2|pages=12–22|doi=10.1145/1540276.1540279 |s2cid=609178 |url=https://www.cs.sfu.ca/~jpei/publications/SocialNetworkAnonymization_survey.pdf}}</ref> बाद में इसे फिर से पहचानने की क्षमता के साथ डेटा को अस्पष्ट करने की प्रक्रिया को [[छद्म नाम]]करण भी कहा जाता है और यह एक तरफ़ा कंपनियां डेटा को इस तरह से स्टोर कर सकती हैं जो HIPAA स्वास्थ्य बीमा पोर्टेबिलिटी और accountability act जवाबदेही अधिनियम के अनुरूप हो।


हालाँकि, अनुच्छेद 29 डेटा प्रोटेक्शन वर्किंग पार्टी के अनुसार, डायरेक्टिव 95/46/EC, रिकिटल 26 में गुमनामी को संदर्भित करता है, यह दर्शाता है कि किसी भी डेटा को अज्ञात करने के लिए, डेटा को पर्याप्त तत्वों से अलग किया जाना चाहिए, ताकि डेटा विषय की पहचान न की जा सके। अधिक सटीक रूप से, उस डेटा को इस तरह से संसाधित किया जाना चाहिए कि नियंत्रक या किसी तीसरे पक्ष द्वारा "सभी साधनों का यथोचित रूप से उपयोग किए जाने की संभावना" का उपयोग करके किसी प्राकृतिक व्यक्ति की पहचान करने के लिए इसका उपयोग नहीं किया जा सकता है। एक महत्वपूर्ण कारक यह है कि प्रसंस्करण अपरिवर्तनीय होना चाहिए। निर्देश स्पष्ट नहीं करता है कि इस तरह की डी-पहचान प्रक्रिया को कैसे किया जाना चाहिए या किया जा सकता है। ध्यान परिणाम पर है: डेटा ऐसा होना चाहिए जो डेटा विषय को "सभी" "संभावित" और "उचित" साधनों के माध्यम से पहचानने की अनुमति न दे। आचार संहिता को एक उपकरण के रूप में संदर्भित किया जाता है ताकि संभावित गुमनामी तंत्र के साथ-साथ प्रतिधारण को एक ऐसे रूप में रखा जा सके जिसमें डेटा विषय की पहचान "अब संभव नहीं है"। <ref>{{cite web|title=WP216|url=https://ec.europa.eu/justice/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf|access-date=11 February 2022}}</ref> पांच प्रकार के डेटा एनोनिमाइज़ेशन ऑपरेशन हैं: सामान्यीकरण, दमन, एनाटोमाइज़ेशन, क्रमपरिवर्तन और गड़बड़ी।<ref name=":0">{{Cite journal|last1=Eyupoglu|first1=Can|last2=Aydin|first2=Muhammed|last3=Zaim|first3=Abdul|last4=Sertbas|first4=Ahmet|date=2018-05-17|title=कैओस और पर्टर्बेशन तकनीकों पर आधारित एक कुशल बिग डेटा एनोनिमाइज़ेशन एल्गोरिथम|journal=Entropy|volume=20|issue=5|pages=373|doi=10.3390/e20050373|pmid=33265463|pmc=7512893|bibcode=2018Entrp..20..373E|issn=1099-4300|doi-access=free}} [[File:CC-BY icon.svg|50px]]  Text was copied from this source, which is available under a [https://creativecommons.org/licenses/by/4.0/  Creative Commons Attribution 4.0 International License].</ref>
हालाँकि, अनुच्छेद 29 डेटा प्रोटेक्शन वर्किंग पार्टी के अनुसार, डायरेक्टिव 95/46/EC, रिकिटल 26 में गुमनामी को संदर्भित करता है, यह दर्शाता है कि किसी भी डेटा को अज्ञात करने के लिए, डेटा को पर्याप्त तत्वों से अलग किया जाना चाहिए, ताकि डेटा विषय की पहचान न की जा सके। अधिक सटीक रूप से, उस डेटा को इस तरह से संसाधित किया जाना चाहिए कि नियंत्रक या किसी तीसरे पक्ष द्वारा "सभी साधनों का यथोचित रूप से उपयोग किए जाने की संभावना" का उपयोग करके किसी प्राकृतिक व्यक्ति की पहचान करने के लिए इसका उपयोग नहीं किया जा सकता है। एक महत्वपूर्ण कारक यह है कि प्रसंस्करण अपरिवर्तनीय होना चाहिए। निर्देश स्पष्ट नहीं करता है कि इस तरह की डी-पहचान प्रक्रिया को कैसे किया जाना चाहिए या किया जा सकता है। ध्यान परिणाम पर है: डेटा ऐसा होना चाहिए जो डेटा विषय को "सभी" "संभावित" और "उचित" साधनों के माध्यम से पहचानने की अनुमति न दे। आचार संहिता को एक उपकरण के रूप में संदर्भित किया जाता है ताकि संभावित गुमनामी तंत्र के साथ-साथ प्रतिधारण को एक ऐसे रूप में रखा जा सके जिसमें डेटा विषय की पहचान "अब संभव नहीं है"। <ref>{{cite web|title=WP216|url=https://ec.europa.eu/justice/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf|access-date=11 February 2022}}</ref> पांच प्रकार के डेटा एनोनिमाइज़ेशन ऑपरेशन हैं: सामान्यीकरण, दमन, एनाटोमाइज़ेशन, क्रमपरिवर्तन और गड़बड़ी।<ref name=":0">{{Cite journal|last1=Eyupoglu|first1=Can|last2=Aydin|first2=Muhammed|last3=Zaim|first3=Abdul|last4=Sertbas|first4=Ahmet|date=2018-05-17|title=कैओस और पर्टर्बेशन तकनीकों पर आधारित एक कुशल बिग डेटा एनोनिमाइज़ेशन एल्गोरिथम|journal=Entropy|volume=20|issue=5|pages=373|doi=10.3390/e20050373|pmid=33265463|pmc=7512893|bibcode=2018Entrp..20..373E|issn=1099-4300|doi-access=free}} [[File:CC-BY icon.svg|50px]]  Text was copied from this source, which is available under a [https://creativecommons.org/licenses/by/4.0/  Creative Commons Attribution 4.0 International License].</ref>

Revision as of 19:41, 10 December 2022

डेटा गुमनामी एक प्रकार का स्वच्छताकरण (वर्गीकृत जानकारी) है जिसका अभिप्राय गोपनीयता सुरक्षा है। यह डेटा समुच्चय से व्यक्तिगत रूप से पहचान योग्य जानकारी को हटाने की प्रक्रिया है, ताकि डेटा जिन लोगों का वर्णन करता है, वे गुमनाम रहें।

अवलोकन

डेटा अनामीकरण को एक ऐसी प्रक्रिया के रूप में परिभाषित किया गया है जिसके द्वारा व्यक्तिगत डेटा को इस तरह से बदल दिया जाता है कि डेटा विषय को प्रत्यक्ष या अप्रत्यक्ष रूप से केवल डेटा नियंत्रक द्वारा या किसी अन्य नियंत्रक के सहयोग से पहचाना नहीं जा सकता है।[1] डेटा अज्ञातकरण एक सीमा के पार (काफी हद तक )सूचना के सस्ता आचरण(transfer) को सक्षम कर सकता है, जैसे कि एक एजेंसी के भीतर दो विभागों के बीच या दो एजेंसियों के बीच, अनपेक्षित प्रकटीकरण के जोखिम को कम करते हुए, और कुछ वातावरणों में इस तरह से कि गुमनामी के बाद मूल्यांकन और विश्लेषण को सक्षम बनाता है।

चिकित्सा रिकॉर्ड( डेटा ) के संदर्भ में, अज्ञात डेटा उस डेटा को संदर्भित करता है जिससे जानकारी प्राप्त करने वाले द्वारा रोगी की पहचान नहीं की जा सकती है। किसी भी अन्य जानकारी के साथ नाम, पता और पूरा पोस्टकोड हटा दिया जाना चाहिए, जो प्राप्तकर्ता के पास मौजूद या प्रकट किए गए अन्य डेटा के साथ मिलकर रोगी की पहचान कर सके।[2] हमेशा एक जोखिम रहेगा कि अज्ञात डेटा समय के साथ गुमनाम न रहे। अज्ञात डेटासेट को अन्य डेटा, चतुर तकनीकों और अपरिष्कृत शक्ति के साथ पेयर करना कुछ ऐसे तरीके हैं जिनसे पहले अज्ञात डेटा सेट डी-अनामीकृत हो गए थे; डेटा विषय अब गुमनाम नहीं हैं।

डी-एनोनिमाइज़ेशन रिवर्स प्रक्रिया है जिसमें अज्ञात डेटा स्रोत को फिर से पहचानने के लिए अज्ञात डेटा को अन्य डेटा स्रोतों के साथ क्रॉस-रेफरेंस किया जाता है।[3] संबंधपरक डेटा के लिए सामान्यीकरण और गड़बड़ी दो लोकप्रिय अनामीकरण दृष्टिकोण हैं।[4] बाद में इसे फिर से पहचानने की क्षमता के साथ डेटा को अस्पष्ट करने की प्रक्रिया को छद्म नामकरण भी कहा जाता है और यह एक तरफ़ा कंपनियां डेटा को इस तरह से स्टोर कर सकती हैं जो HIPAA स्वास्थ्य बीमा पोर्टेबिलिटी और accountability act जवाबदेही अधिनियम के अनुरूप हो।

हालाँकि, अनुच्छेद 29 डेटा प्रोटेक्शन वर्किंग पार्टी के अनुसार, डायरेक्टिव 95/46/EC, रिकिटल 26 में गुमनामी को संदर्भित करता है, यह दर्शाता है कि किसी भी डेटा को अज्ञात करने के लिए, डेटा को पर्याप्त तत्वों से अलग किया जाना चाहिए, ताकि डेटा विषय की पहचान न की जा सके। अधिक सटीक रूप से, उस डेटा को इस तरह से संसाधित किया जाना चाहिए कि नियंत्रक या किसी तीसरे पक्ष द्वारा "सभी साधनों का यथोचित रूप से उपयोग किए जाने की संभावना" का उपयोग करके किसी प्राकृतिक व्यक्ति की पहचान करने के लिए इसका उपयोग नहीं किया जा सकता है। एक महत्वपूर्ण कारक यह है कि प्रसंस्करण अपरिवर्तनीय होना चाहिए। निर्देश स्पष्ट नहीं करता है कि इस तरह की डी-पहचान प्रक्रिया को कैसे किया जाना चाहिए या किया जा सकता है। ध्यान परिणाम पर है: डेटा ऐसा होना चाहिए जो डेटा विषय को "सभी" "संभावित" और "उचित" साधनों के माध्यम से पहचानने की अनुमति न दे। आचार संहिता को एक उपकरण के रूप में संदर्भित किया जाता है ताकि संभावित गुमनामी तंत्र के साथ-साथ प्रतिधारण को एक ऐसे रूप में रखा जा सके जिसमें डेटा विषय की पहचान "अब संभव नहीं है"। [5] पांच प्रकार के डेटा एनोनिमाइज़ेशन ऑपरेशन हैं: सामान्यीकरण, दमन, एनाटोमाइज़ेशन, क्रमपरिवर्तन और गड़बड़ी।[6]


जीडीपीआर आवश्यकताएं

यूरोपीय संघ का नया सामान्य डेटा संरक्षण विनियमन (जीडीपीआर) मांग करता है कि यूरोपीय संघ में लोगों पर संग्रहीत डेटा या तो गुमनामी या छद्म नामकरण प्रक्रिया से गुजरता है। GDPR रिकिटल (26) अज्ञात डेटा का गठन करने के लिए एक बहुत ही उच्च बार स्थापित करता है, जिससे डेटा को GDPR की आवश्यकताओं से छूट मिलती है, अर्थात् "... ऐसी जानकारी जो किसी पहचाने गए या पहचाने जाने योग्य प्राकृतिक व्यक्ति या व्यक्तिगत डेटा से संबंधित नहीं होती है, ऐसे में अज्ञात एक तरीका है कि डेटा विषय पहचानने योग्य नहीं है या अब नहीं है। यूरोपियन डेटा प्रोटेक्शन सुपरवाइज़र (EDPS) और स्पैनिश एजेंसी Española de Protección de Datos (AEPD) ने गुमनामी और GDPR आवश्यकताओं से छूट के लिए आवश्यकताओं से संबंधित संयुक्त मार्गदर्शन जारी किया है। ईडीपीएस और एईपीडी के अनुसार डेटा नियंत्रक सहित कोई भी उचित रूप से अज्ञात डेटासेट में डेटा विषयों की फिर से पहचान करने में सक्षम नहीं होना चाहिए। [7] डेटा वैज्ञानिकों द्वारा अनुसंधान[8] लंदन में इंपीरियल कॉलेज और बेल्जियम में UCLouvain, साथ ही साथ तेल अवीव जिला न्यायालय के न्यायाधीश मीकल एगमोन-गोनेन द्वारा एक निर्णय,[9] आज की बड़ी डेटा दुनिया में गुमनामी की कमियों को उजागर करें। गुमनामी डेटा संरक्षण के लिए एक पुराने दृष्टिकोण को दर्शाती है[10] यह तब विकसित किया गया था जब डेटा का प्रसंस्करण "बिग डेटा" प्रसंस्करण की लोकप्रियता से पहले अलग-थलग (सिलोएड) अनुप्रयोगों तक सीमित था, जिसमें डेटा का व्यापक साझाकरण और संयोजन शामिल था।

यह भी देखें

संदर्भ

  1. आईएसओ 25237: 2017 स्वास्थ्य सूचना विज्ञान - छद्म नाम. ISO. 2017. p. 7.
  2. "डेटा गुमनामी". The Free Medical Dictionary. Retrieved 17 January 2014.
  3. "डी-गुमनामी". Whatis.com. Retrieved 17 January 2014.
  4. Bin Zhou; Jian Pei; WoShun Luk (December 2008). "सामाजिक नेटवर्क डेटा के प्रकाशन को गोपनीयता बनाए रखने के लिए नाम न छापने की तकनीकों पर एक संक्षिप्त सर्वेक्षण" (PDF). Newsletter ACM SIGKDD Explorations Newsletter. 10 (2): 12–22. doi:10.1145/1540276.1540279. S2CID 609178.
  5. "WP216" (PDF). Retrieved 11 February 2022.
  6. Eyupoglu, Can; Aydin, Muhammed; Zaim, Abdul; Sertbas, Ahmet (2018-05-17). "कैओस और पर्टर्बेशन तकनीकों पर आधारित एक कुशल बिग डेटा एनोनिमाइज़ेशन एल्गोरिथम". Entropy. 20 (5): 373. Bibcode:2018Entrp..20..373E. doi:10.3390/e20050373. ISSN 1099-4300. PMC 7512893. PMID 33265463. CC-BY icon.svg Text was copied from this source, which is available under a Creative Commons Attribution 4.0 International License.
  7. "एक व्यक्तिगत डेटा छद्म नाम तकनीक के रूप में हैश फ़ंक्शन का परिचय" (PDF).
  8. Kolata, Gina (23 July 2019). "आपका डेटा 'बेनामी' था? ये वैज्ञानिक अब भी आपकी पहचान कर सकते हैं". The New York Times.
  9. "Attm (TA) 28857-06-17 नर्सिंग कंपनी एसोसिएशन बनाम रक्षा मंत्रालय".
  10. "थिंक टैंक का कहना है कि पुराने इजरायली गोपनीयता कानून के तहत डेटा हड़पने के लिए तैयार है". The Times of Israel.


अग्रिम पठन

  • Raghunathan, Balaji (June 2013). The Complete Book of Data Anonymization: From Planning to Implementation. CRC Press. ISBN 9781482218565.
  • Khaled El Emam, Luk Arbuckle (August 2014). Anonymizing Health Data: Case Studies and Methods to Get You Started. O'Reilly Media. ISBN 978-1-4493-6307-9.
  • Rolf H. Weber, Ulrike I. Heinrich (2012). Anonymization: SpringerBriefs in Cybersecurity. Springer. ISBN 9781447140665.
  • Aris Gkoulalas-Divanis, Grigorios Loukides (2012). Anonymization of Electronic Medical Records to Support Clinical Analysis (SpringerBriefs in Electrical and Computer Engineering). Springer. ISBN 9781461456674.
  • Pete Warden. "Why you can't really anonymize your data". O'Reilly Media, Inc. Archived from the original on 9 January 2014. Retrieved 17 January 2014.


इस पेज में लापता आंतरिक लिंक की सूची

  • व्यक्तिगत पहचान की जानकारी
  • एकान्तता सुरक्षा
  • स्वच्छता (वर्गीकृत जानकारी)
  • स्वास्थ्य बीमा सुवाह्यता और जवाबदेही अधिनियम
  • बड़ा डेटा
  • k-गुमनामी
  • de-पहचान

बाहरी संबंध