बिग डेटा

From Vigyanwiki

यह लेख डेटा के बड़े संग्रह के बारे में है। बैंड के लिए, बिग डेटा (बैंड) देखें। व्यक्तिगत और उपभोक्ता डेटा की खरीद और बिक्री के विधि के लिए सर्वेक्षण पूंजीवाद देखें।

डिजिटल वैश्विक सूचना-भंडारण क्षमता का गैर-रैखिक विकास और एनालॉग भंडारण का कम होना[1]

बिग डेटा मुख्य रूप से ऐसे डेटा सेट को संदर्भित करता है जो पारंपरिक डेटा-प्रोसेसिंग एप्लिकेशन सॉफ़्टवेयर द्वारा निर्धारित किए जाने के लिए बहुत बड़े या जटिल हैं। कई प्रविष्टियों (पंक्तियों) वाला डेटा अधिक सांख्यिकीय सामर्थ्य प्रदान करता है, जबकि उच्च जटिलता वाले डेटा (अधिक विशेषताएँ या कॉलम) उच्च गलत जांच दर का कारण बन सकते हैं।[2] हालांकि कभी-कभी औपचारिक परिभाषा की कमी के कारण आंशिक रूप से आंशिक रूप से उपयोग किया जाता है, जो व्याख्या बिग डेटा का सबसे अच्छा वर्णन करती है, वह जानकारी के बड़े समूह से जुड़ी होती है जिसे हम सिर्फ छोटी मात्रा में उपयोग करने पर समझ नहीं पाते हैं।[3]

बड़ी डेटा विश्लेषण चुनौतियों में डेटा प्रग्रहण करना, डेटा संग्रहण, डेटा विश्लेषण, जांच, साझाकरण, स्थानांतरण, आभासीकरण, प्रश्न करना, अपडेट करना, सूचना गोपनीयता और डेटा स्रोत सम्मिलित हैं। बड़ा डेटा मूल रूप से तीन प्रमुख अवधारणाओं मात्रा, विविधता और गति से जुड़ा था।[4] बिग डेटा का विश्लेषण नमूनाकरण में चुनौतियां प्रस्तुत करता है, और इस प्रकार पहले सिर्फ अवलोकन और नमूनाकरण की स्वीकृति देता है। इस प्रकार एक चौथी अवधारणा, सत्यता, डेटा की गुणवत्ता या अंतर्दृष्टि को संदर्भित करती है। बिग डेटा सत्यता के लिए विशेषज्ञता में पर्याप्त निवेश के बिना, डेटा की मात्रा और विविधता कीमत और जोखिम उत्पन्न कर सकती है जो बिग डेटा से मूल्य बनाने और प्राप्त करने के लिए संगठन की क्षमता से अधिक है।[5]

बिग डेटा शब्द का वर्तमान उपयोग भविष्यसूचक विश्लेषण, उपयोगकर्ता गतिविधि विश्लेषण या कुछ अन्य उन्नत डेटा विश्लेषण विधियों के उपयोग को संदर्भित करता है जो बिग डेटा से मूल्य निकालते हैं और संभव्यता ही कभी डेटा सेट के किसी विशेष आकार के होते हैं। "इसमें कोई संदेह नहीं है कि अब उपलब्ध डेटा की मात्रा वास्तव में बड़ी है, लेकिन यह इस नए डेटा पारिस्थितिकी तंत्र की सबसे प्रासंगिक विशेषता नहीं है।[6] डेटा सेट के विश्लेषण से "स्पॉट बिजनेस ट्रेंड्स प्रिवेंट डिजीज कॉम्बैट क्राइम'' से रोकते हैं और इसी तरह के लिए नए सहसंबंध मिल सकते हैं।[7] इंटरनेट जांच, फिनटेक, स्वास्थ्य सेवा विश्‍लेषक, भौगोलिक सूचना प्रणाली, शहरी सूचना विज्ञान और व्यापार सूचना विज्ञान सहित क्षेत्रों में वैज्ञानिक, व्यावसायिक अधिकारी, चिकित्सक, विज्ञापन और सरकार समान रूप से नियमित रूप से बिग डेटा-सेट के साथ कठिनाइयों का सामना करते हैं। वैज्ञानिकों को मौसम विज्ञान, जीनोमिक्स,[8] कनेक्टोमिक्स, जटिल भौतिकी सिमुलेशन, जीव विज्ञान, और पर्यावरण अनुसंधान सहित ई-विज्ञान कार्य में सीमाओं का सामना करना पड़ता है।[9]

उपलब्ध डेटा सेटों का आकार और संख्या शीघ्रता से बढ़ी है क्योंकि डेटा मोबाइल उपकरणों जैसे सस्ते और कई सूचना-संवेदन इंटरनेट की वस्तुओ और उपकरणों एरियल (दूरस्थ संवेदन) सॉफ्टवेयर लॉग कैमरा, माइक्रोफोन रेडियो-आवृत्ति पहचान (आरएफआईडी) रीडर और वायरलेस सेंसर नेटवर्क द्वारा एकत्र किया जाता है।[10][11] 1980 के दशक के बाद से विश्व की तकनीकी प्रति व्यक्ति जानकारी संग्रह करने की क्षमता हर 40 महीने में लगभग दोगुनी हो गई है;[12]2012 तक, हर दिन 2.5 एक्साबाइट (2.5 × 260 बाइट्स) डेटा उत्पन्न होता है।[13] अंतर्राष्ट्रीय डेटा निगम की रिपोर्ट की भविष्यवाणी के आधार पर, वैश्विक डेटा मात्रा 2013 और 2020 के बीच 4.4 ज़ेटाबाइट्स से 44 ज़ेटाबाइट्स तक शीघ्रता से बढ़ने की भविष्यवाणी की गई थी। 2025 तक, अंतर्राष्ट्रीय डेटा निगम भविष्यवाणी करता है कि डेटा के 163 ज़ेटाबाइट्स होंगे।[14] अंतर्राष्ट्रीय डेटा निगम के अनुसार, बिग डेटा और व्यवसाय वैश्लेषिक (बीडीए) समाधानों पर वैश्विक खर्च 2021 में 215.7 अरब डॉलर तक पहुंचने का अनुमान है।[15][16] स्टेटिस्टा की रिपोर्ट के अनुसार, वैश्विक बिग डेटा विक्रय के 2027 तक $103 बिलियन तक बढ़ने का अनुमान है।[17] 2011 में मैकिन्से एंड कंपनी ने रिपोर्ट दी, यदि अमेरिकी स्वास्थ्य सेवा दक्षता और गुणवत्ता को ड्राइव कार्यक्षमता के लिए बिग डेटा का रचनात्मक और प्रभावी रूप से उपयोग करती है, तो यह क्षेत्र हर वर्ष $300 बिलियन से अधिक का मूल्य बना सकता है।[18] यूरोप की विकसित अर्थव्यवस्थाओं में, बिग डेटा का उपयोग करके एकल परिचालन दक्षता में संशोधन के लिए सरकारी प्रशासक €100 बिलियन ($149 बिलियन) से अधिक की बचत कर सकते हैं।[18] और व्यक्तिगत-स्थान डेटा द्वारा सक्षम सेवाओं के उपयोगकर्ता उपभोक्ता अधिशेष में $600 बिलियन प्राप्त कर सकते हैं।[18] बड़े उद्यमों के लिए एक प्रश्न यह निर्धारित करना है कि संपूर्ण संगठन को प्रभावित करने वाली बिग-डेटा उपक्रम का स्वामित्व कौन होना चाहिए।[19]

संबंधपरक डेटाबेस प्रबंधन प्रणाली और डेटा की कल्पना करने के लिए उपयोग किए जाने वाले डेस्कटॉप सांख्यिकीय सॉफ़्टवेयर पैकेज में प्रायः बिग डेटा को संसाधित करने और विश्लेषण करने में कठिनाई होती है। बिग डेटा के प्रसंस्करण और विश्लेषण के लिए दसियों, सैकड़ों या हजारों सर्वरों पर बड़े पैमाने पर पैरेलल सॉफ़्टवेयर संचालन की आवश्यकता हो सकती है।[20] बिग डेटा के रूप में क्या योग्य है, इसका विश्लेषण करने वालों और उनके उपकरणों की क्षमताओं के आधार पर भिन्न होता है। इसके अतिरिक्त, क्षमताओं का विस्तार बिग डेटा को गतिशील लक्ष्य बनाता है। कुछ संगठनों के लिए, पहली बार सैकड़ों गीगाबाइट डेटा का सामना करने से डेटा प्रबंधन विकल्पों पर पुनर्विचार करने की आवश्यकता हो सकती है। अन्य लोगों के लिए, डेटा आकार एक महत्वपूर्ण विचार बनने से पहले दसियों या सैकड़ों टेराबाइट्स लग सकते हैं।[21]



परिभाषा

बिग डेटा शब्द का उपयोग 1990 के दशक से किया जा रहा है, कुछ लोगों ने इस शब्द को लोकप्रिय बनाने का श्रेय जॉन मैशे को दिया है।[22][23] बिग डेटा में सामान्य रूप से डेटा अधिग्रहण, डेटा क्यूरेशन, प्रबंधन और डेटा को सहन करने योग्य समय के अंदर संसाधित करने के लिए सामान्य रूप से उपयोग किए जाने वाले सॉफ़्टवेयर उपकरण की क्षमता से अधिक आकार वाले डेटा सेट सम्मिलित होते हैं।[24] बिग डेटा दर्शन में असंरचित, अर्ध-संरचित और संरचित डेटा सम्मिलित हैं; हालाँकि, मुख्य ध्यान असंरचित डेटा पर है।[25] बिग डेटा "आकार" एक सतत गतिशील लक्ष्य है, जिसमें कुछ दर्जन टेराबाइट्स से लेकर डेटा के कई ज़ेटाबाइट्स सम्मिलित हैं।[26] डेटा सेट से अंतर्दृष्टि प्रकट करने के लिए बिग डेटा को डेटा एकीकरण के नए रूपों के साथ तकनीकों और तकनीकों के एक सेट की आवश्यकता होती है। डेटा-सेट जो विविध, जटिल और बड़े पैमाने पर हैं।[27]

विविधता", "सत्यता", और कई अन्य "वीएस" कुछ संगठनों द्वारा इसे कुछ उद्योग अधिकारियों द्वारा चुनौती दी गई संशोधन का वर्णन करने के लिए जोड़ा जाता है।[28] बिग डेटा के वीएस को प्रायः तीन वीएस, चार वीएस और पाँच वीएस के रूप में संदर्भित किया जाता था। वे मात्रा, विविधता, गति, सत्यता और मूल्य में बिग डेटा के गुणों का प्रतिनिधित्व करते हैं।[4] परिवर्तनशीलता को प्रायः बिग डेटा की अतिरिक्त गुणवत्ता के रूप में सम्मिलित किया जाता है।

2018 की परिभाषा में कहा गया है, "बिग डेटा वह जगह है जहां डेटा को संभालने के लिए पैरेलल कंप्यूटिंग टूल की आवश्यकता होती है", और नोट करता है, "यह पैरेलल प्रोग्रामिंग सिद्धांतों और कुछ गारंटी (प्रत्याभूति) और क्षमताओं के नुकसान के माध्यम से उपयोग किए जाने वाले कंप्यूटर विज्ञान में एक अलग और स्पष्ट रूप से परिभाषित परिवर्तन का प्रतिनिधित्व करता है। कॉड के संबंधपरक मॉडल द्वारा बनाया गया है।[29]

बड़े डेटासेट के एक तुलनात्मक अध्ययन में, किचिन और मैकआर्डल ने पाया कि बिग डेटा की सामान्य रूप से मानी जाने वाली विशेषताओं में से कोई भी विश्लेषण किए गए सभी स्थितियों में निरंतर दिखाई नहीं देता है।[30] इस कारण से, अन्य अध्ययनों ने परिभाषित गुण के रूप में ज्ञान की जांच में सामर्थ्य गतिकी की पुनर्परिभाषा की पहचान की।[31] बिग डेटा की आंतरिक विशेषताओं पर ध्यान केंद्रित करने के अतिरिक्त, यह वैकल्पिक परिप्रेक्ष्य वस्तु की एक संबंधपरक समझ को आगे बढ़ाता है जो यह दावा करता है कि डेटा को एकत्र करने, संग्रहीत करने, उपलब्ध कराने और विश्लेषण करने का तरीका क्या मायने रखता है।

बिग डेटा बनाम व्यापारिक इंटेलिजेंस

अवधारणा की बढ़ती परिपक्वता बिग डेटा और व्यावसायिक इंटेलिजेंस के बीच के अंतर को और अधिक स्पष्ट रूप से चित्रित करती है:[32]

  • व्यवसाय इंटेलिजेंस वस्तुओ को मापने, प्रवृत्तियों का पता लगाने आदि के लिए उच्च सूचना घनत्व वाले डेटा के साथ प्रयुक्त गणित उपकरण और वर्णनात्मक आंकड़ों का उपयोग करता है।
  • बिग डेटा गणितीय विश्लेषण, अनुकूलन, आगमनात्मक सांख्यिकी और[33] कम सूचना घनत्व वाले डेटा के बड़े सेट से कानून (प्रतिगमन, गैर-रैखिक संबंध और कारण प्रभाव) का अनुमान लगाने के लिए[34] संबंधों और निर्भरताओं को प्रकट करने के लिए, या परिणामों और व्यवहारों की भविष्यवाणी करने के लिए गैर-रैखिक प्रणाली पहचान से अवधारणाओं का उपयोग करता है।[33][35][promotional source?]

विशेषताएं

बिग डेटा की मात्रा, गति और विविधता की प्राथमिक विशेषताओं के विकास को दर्शाता है।

बिग डेटा को निम्नलिखित विशेषताओं द्वारा वर्णित किया जा सकता है:

मात्रा
उत्पन्न और संग्रहीत डेटा की मात्रा। डेटा का आकार मूल्य और संभावित अंतर्दृष्टि को निर्धारित करता है, और क्या इसे बिग डेटा माना जा सकता है या नहीं माना जा सकता है। बिग डेटा का आकार सामान्य रूप से टेराबाइट्स और पेटाबाइट्स से बड़ा होता है।[36]
विविधता
डेटा का प्रकार और प्रकृति। आरडीबीएमएस जैसी पहले की प्रौद्योगिकियाँ संरचित डेटा को कुशलतापूर्वक और प्रभावी रूप से संभालने में सक्षम थीं। हालाँकि, संरचित से अर्ध-संरचित या असंरचित में प्रकार और प्रकृति में परिवर्तन ने सम्मिलित उपकरणों और तकनीकों को चुनौती दी। बड़ी डेटा प्रौद्योगिकियां उच्च गति (गति), और आकार में विशाल (मात्रा) के साथ उत्पन्न अर्ध-संरचित और असंरचित (विविध) डेटा को प्रग्रहण करने, संग्रहीत करने और संसाधित करने के मुख्य विचार से विकसित हुई हैं। बाद में, इन उपकरणों और तकनीकों की जांच की गई और संरचित डेटा को संभालने के लिए भी उपयोग किया गया, लेकिन भंडारण के लिए अधिकतम था। अंततः, संरचित डेटा का प्रसंस्करण अभी भी वैकल्पिक के रूप में रखा गया था, या तो बिग डेटा या पारंपरिक आरडीबीएमएस का उपयोग कर रहा था। यह सोशल मीडिया, लॉग फाइल, सेंसर आदि के माध्यम से एकत्र किए गए डेटा से छिपी हुई अंतर्दृष्टि के प्रभावी उपयोग की दिशा में डेटा का विश्लेषण करने में सहायता करता है। बिग डेटा टेक्स्ट, छवियों, ऑडियो, वीडियो से आकर्षित होता है; और साथ ही यह डेटा संलयन के माध्यम से नष्ट टुकड़ों को पूरा करता है।
गति
वह गति जिस पर विकास और विकास के मार्ग में आने वाली अपेक्षाओ और चुनौतियों को पूरा करने के लिए डेटा उत्पन्न और संसाधित किया जाता है। बिग डेटा प्रायः वास्तविक समय में उपलब्ध होता है। छोटे डेटा की तुलना में बिग डेटा अधिक निरंतर उत्पन्न होता है। बिग डेटा से संबंधित दो प्रकार के गति उत्पादन की आवृत्ति और प्रबंधन, रिकॉर्डिंग और प्रकाशन की आवृत्ति हैं।[37]

सत्यता: डेटा की सत्यता या विश्वसनीयता, जो डेटा की गुणवत्ता और डेटा मूल्य को संदर्भित करता है।[38] बिग डेटा न सिर्फ आकार में बड़ा होना चाहिए, बल्कि इसके विश्लेषण में मूल्य प्राप्त करने के लिए विश्वसनीय भी होना चाहिए। प्रग्रहण किए गए डेटा की डेटा गुणवत्ता एक परिशुद्ध विश्लेषण को प्रभावित करते हुए बहुत भिन्न हो सकती है।[39]

मूल्य
सूचना का मूल्य जो बड़े डेटासेट के प्रसंस्करण और विश्लेषण द्वारा प्राप्त किया जा सकता है। बिग डेटा के अन्य गुणों के आकलन से भी मूल्य को मापा जा सकता है।[40] मूल्य उस जानकारी की लाभप्रदता का भी प्रतिनिधित्व कर सकता है जिसे बिग डेटा के विश्लेषण से प्राप्त किया गया है।
परिवर्तनशीलता
बिग डेटा के परिवर्तित प्रारूप, संरचना या स्रोतों की विशेषता। बिग डेटा में संरचित, असंरचित, या संरचित और असंरचित डेटा का संयोजन सम्मिलित हो सकता है। बिग डेटा विश्लेषण कई स्रोतों से असंसाधित डेटा को एकीकृत कर सकता है। असंसाधित डेटा के प्रसंस्करण में असंरचित डेटा को संरचित डेटा में परिवर्तित करना भी सम्मिलित हो सकता है।

बिग डेटा की अन्य संभावित विशेषताएं हैं:[41]

विस्तृत:

क्या संपूर्ण प्रणाली (अर्थात, =all) प्रग्रहण या रिकॉर्ड किया गया है या नहीं किया गया है। बिग डेटा में स्रोतों से उपलब्ध सभी डेटा सम्मिलित हो सकते हैं या नहीं भी हो सकते हैं।

सुक्ष्म और विशिष्ट शाब्दिक
क्रमशः, एकत्र किए गए प्रत्येक तत्व के विशिष्ट डेटा का अनुपात और यदि तत्व और इसकी विशेषताओं को सही से अनुक्रमित या पहचाना जाता है।
संबंधपरक
यदि एकत्र किए गए डेटा में सामान्य क्षेत्र हैं जो विभिन्न डेटा सेटों के संयोजन, या मेटा-विश्लेषण को सक्षम करेगा।
एक्सटेंशन
यदि एकत्र किए गए डेटा के प्रत्येक तत्व में नए क्षेत्र आसानी से जोड़े या बदले जा सकते हैं।
मापनीयता
यदि बिग डेटा भंडारण सिस्टम का आकार शीघ्रता से विस्तार कर सकता है।

संरचना

बिग डेटा भंडार कई रूपों में सम्मिलित हैं, जिन्हें प्रायः निगमों द्वारा विशेष आवश्यकता के साथ बनाया जाता है। व्यवसायिक विक्रेताओं ने ऐतिहासिक रूप से 1990 के दशक में बिग डेटा के लिए पैरेलल डेटाबेस प्रबंधन प्रणाली की पेशकश की। कई वर्षों के लिए, विंटरकॉर्प ने सबसे बड़ी डेटाबेस रिपोर्ट प्रकाशित की।[42][promotional source?]

टेराडाटा निगम ने 1984 में पैरेलल प्रसंस्करण डीबीसी 1012 प्रणाली का विपणन किया। टेराडेटा सिस्टम 1992 में 1 टेराबाइट डेटा को संग्रह और विश्लेषण करने वाले पहले सिस्टम थे। 1991 में हार्ड डिस्क ड्राइव 2.5 जीबी थे इसलिए बिग डेटा की परिभाषा निरंतर विकसित होती है। टेराडाटा ने 2007 में पहला पेटाबाइट क्लास आरडीबीएमएस आधारित सिस्टम स्थापित किया। 2017 तक, कुछ दर्जन पेटाबाइट क्लास टेराडाटा संबंधपरक डेटाबेस स्थापित हैं, जिनमें से सबसे बड़ा 50 पीबी से अधिक है। 2008 तक सिस्टम 100% संरचित संबंधपरक डेटा थे। तब से, टेराडाटा ने एक्सएमएल, जेएसओएन, और एवरो सहित असंरचित डेटा प्रकारों को जोड़ा है।

2000 में, सीसिंट इंक. (अब लेक्सिसनेक्सिस जोखिम समाधान) ने एचपीसीसी सिस्टम प्लेटफॉर्म के रूप में ज्ञात डेटा प्रोसेसिंग और प्रश्न करने के लिए एक सी ++ -आधारित वितरित प्लेटफॉर्म विकसित किया। यह प्रणाली स्वचालित रूप से कई कमोडिटी सर्वरों में संरचित, अर्ध-संरचित और असंरचित डेटा का विभाजन, वितरण, भंडारण और वितरण करती है। उपयोगकर्ता ईसीएल नामक एक घोषणात्मक डेटा-संचार प्रोग्रामिंग भाषा में डेटा प्रोसेसिंग पाइपलाइन और प्रश्न लिख सकते हैं। ईसीएल में काम करने वाले डेटा विश्लेषकों को डेटा स्कीमा को पहले से परिभाषित करने की आवश्यकता नहीं होती है और इसके अतिरिक्त वे विशेष समस्या पर ध्यान केंद्रित कर सकते हैं, जब वे समाधान विकसित करते हैं तो डेटा को सर्वोत्तम संभव तरीके से पुनः आकार देते हैं। 2004 में, लेक्सिसनेक्सिस ने सीसिंट इंक. का अधिग्रहण किया।[43] और उनके उच्च-गति पैरेलल प्रोसेसिंग प्लेटफॉर्म और सफलतापूर्वक इस प्लेटफॉर्म का उपयोग च्वाइसपॉइंट (वरण बिंदु) इंक के डेटा सिस्टम को एकीकृत करने के लिए किया जब उन्होंने 2008 में उस कंपनी का अधिग्रहण किया।[44] 2011 में, अपाचे v2.0 लाइसेंस के अंतर्गत एचपीसीसी सिस्टम प्लेटफॉर्म मुक्त-स्त्रोत किया गया था।

सीईआरएन और अन्य भौतिकी प्रयोगों ने कई दशकों से बिग डेटा सेट एकत्र किए हैं, सामान्य रूप से वर्तमान बिग डेटा गतिविधि द्वारा सामान्य रूप से मानचित्र-कम संरचना के अतिरिक्त उच्च-उच्च कालबद्ध निर्गम कंप्यूटिंग के माध्यम से विश्लेषण किया जाता है।

2004 में, गूगल ने मैपरिड्यूस नामक एक प्रक्रिया पर एक पेपर प्रकाशित किया जो समान संरचना का उपयोग करता है। मैपरिड्यूस अवधारणा एक पैरेलल प्रसंस्करण मॉडल प्रदान करती है, और बड़ी मात्रा में डेटा को संसाधित करने के लिए एक संबद्ध कार्यान्वयन जारी किया गया था। मैपरिड्यूस के साथ, प्रश्नों को विभाजित किया जाता है और पैरेलल नोड्स में वितरित किया जाता है और पैरेलल (मानचित्र चरण) में संसाधित किया जाता है। फिर परिणाम एकत्र किए जाते हैं और (अवनत चरण) वितरित किए जाते हैं। रूपरेखा बहुत सफल रही,[45] इसलिए अन्य एल्गोरिथम को दोहराना चाहते थे। इसलिए, मैपरिड्यूस रूपरेखा के कार्यान्वयन को अपाचे हडूप नामक एक अपाचे मुक्त-स्त्रोत प्रोजेक्ट द्वारा स्वीकार किया गया था।[46] अपाचे स्पार्क को 2012 में मैपरिड्यूस प्रतिमान में सीमाओं के जवाब में विकसित किया गया था, क्योंकि यह इन-मेमोरी प्रोसेसिंग (न कि सिर्फ मानचित्र को कम करके) और कई संचालन सेट करने की क्षमता जोड़ता है।

माइक2.0 सूचना प्रबंधन के लिए एक खुला दृष्टिकोण है जो बिग डेटा समाधान प्रस्ताव शीर्षक वाले लेख में पहचाने गए बिग डेटा निहितार्थों के कारण संशोधन की आवश्यकता को स्वीकार करता है।[47] कार्यप्रणाली डेटा स्रोतों के उपयोगी क्रमपरिवर्तन, अंतर्संबंधों में जटिलता और व्यक्तिगत रिकॉर्ड को हटाने (या संशोधित) करने में कठिनाई के संदर्भ में बिग डेटा को संभालने का समाधान करती है।[48]

2012 में किए गए अध्ययनों से पता चला है कि बिग डेटा प्रस्तुत करने वाले समस्याओ को संशोधित करने के लिए एक बहु-परत संरचना एक विकल्प था। फाइल सिस्टम की एक सूची वितरित पैरेलल फाइल सिस्टम संरचना कई सर्वरों में डेटा वितरित करता है; ये पैरेलल कार्यान्वयन वातावरण डेटा प्रोसेसिंग गति में प्रभावशाली तरीके से संशोधन कर सकते हैं। इस प्रकार का संरचना डेटा को एक पैरेलल डेटाबेस प्रबंधन प्रणाली में सम्मिलित करता है, जो मैपरिड्यूस और हडूप रूपरेखा के उपयोग को प्रयुक्त करता है। इस प्रकार की रूपरेखा फ्रंट-एंड एप्लिकेशन सर्वर का उपयोग करके प्रसंस्करण सामर्थ्य को और-उपयोगकर्ता के लिए पारदर्शी बनाती है।[49]

डेटा लेक एक संगठन को सूचना प्रबंधन की परिवर्तित गतिशीलता का जवाब देने के लिए केंद्रीकृत नियंत्रण से एक साझा मॉडल पर अपना ध्यान केंद्रित करने की स्वीकृति देता है। यह डेटा लेक में डेटा के त्वरित पृथक्करण को सक्षम बनाता है, जिससे ओवरहेड समय कम हो जाता है।[50][51]


प्रौद्योगिकियां

2011 की मैकिन्से वैश्विक संस्थान रिपोर्ट बिग डेटा के मुख्य घटकों और पारिस्थितिकी तंत्र की विशेषता बताती है:[52]

बहुआयामी बिग डेटा को ऑनलाइन विश्लेषणात्मक प्रक्रिया डेटा क्यूब्स या गणितीय रूप से टेंसर के रूप में भी दर्शाया जा सकता है। सरणी डेटाबेस प्रबंधन प्रणाली इस डेटा प्रकार पर भंडारण और उच्च-स्तरीय प्रश्न समर्थन प्रदान करने के लिए निर्धारित किया गया है। बिग डेटा पर प्रयुक्त की जा रही अतिरिक्त तकनीकों में,[53] जैसे कि बहुरेखीय उप-समष्टि अधिगम,[54] बड़े पैमाने पर पैरेलल-प्रसंस्करण (एमपीपी) डेटाबेस, जांच -आधारित एप्लीकेशन, डेटा माइनिंग,[55] वितरित फ़ाइल सिस्टम, वितरित कैश (जैसे, बर्स्ट बफर और मेमकेच्ड), वितरित डेटाबेस, क्लाउड कंप्यूटिंग और सुपर कंप्यूटर एचपीसी-आधारित आधारभूत संरचना (एप्लीकेशन, भंडारण और कंप्यूटिंग संसाधन),[56] और इंटरनेट सक्षम टेन्सर-आधारित संगणना सम्मिलित है।[citation needed] हालांकि, कई दृष्टिकोण और प्रौद्योगिकियां विकसित की गई हैं, फिर भी बिग डेटा के साथ यंत्र अधिगम को पूरा करना अभी भी कठिन होता है।[57]

कुछ विशाल पैरेलल प्रसंस्करण संबंधपरक डेटाबेस में डेटा के पेटबाइट्स को संग्रह और प्रबंधित करने की क्षमता होती है। अंतर्निहित आरडीबीएमएस में बड़ी डेटा तालिकाओं के उपयोग को लोड, मॉनिटर, बैक अप और अनुकूलित करने की क्षमता है।[58][promotional source?]

रक्षा उन्नत अनुसंधान परियोजना संस्था का टोपोलॉजिकल डेटा विश्लेषण प्रोग्राम बड़े पैमाने पर डेटा सेट की मूलभूत संरचना की जांच करता है और 2008 में अयास्दी नामक कंपनी के लॉन्च के साथ तकनीक सार्वजनिक हो गई।[59][third-party source needed]

बिग डेटा विश्लेषण प्रक्रियाओं के व्यवसायी सामान्य रूप से मंद साझा भंडारण के प्रति विपरीत होते हैं,[60] प्रत्यक्ष-संलग्न भंडारण (डीएएस) को इसके विभिन्न रूपों (एसएसडी) से उच्च क्षमता वाले क्रमिक उन्नत प्रौद्योगिकी अनुलग्नक डिस्क में पैरेलल प्रसंस्करण नोड्स के अंदर निर्धारित करना पसंद करते हैं। साझा भंडारण संरचना- भंडारण क्षेत्र नेटवर्क (एसएएन) और नेटवर्क से जुड़ा संग्रहण (एनएएस) की धारणा यह है कि वे अपेक्षाकृत धीमे, जटिल और कीमती हैं। ये गुण बिग डेटा विश्लेषिकी सिस्टम के अनुरूप नहीं हैं जो सिस्टम के प्रदर्शन, कमोडिटी आधारिक संरचना और कम कीमत पर वृद्धि करते हैं।

वास्तविक या निकट-वास्तविक समय सूचना वितरण बिग डेटा विश्लेषण की परिभाषित विशेषताओं में से एक है। इसलिए जब भी और जहां भी संभव हो विलंबता से बचा जाता है। प्रत्यक्ष संलग्न मेमोरी या डिस्क में डेटा अच्छा है—एफसी-भंडारण क्षेत्र नेटवर्क के दूसरे सिरे पर मेमोरी या डिस्क पर डेटा भंडारण क्षेत्र नेटवर्क संपर्क नहीं है। विश्लेषिकी एप्लिकेशन के लिए आवश्यक पैमाने पर भंडारण क्षेत्र नेटवर्क की कीमत अन्य भंडारण तकनीकों की तुलना में बहुत अधिक है।

एप्लीकेशन

एसएपी एजी बिग डेटा से व्राप्पेड बस इंटेल विकासक फोरम के बाहर पार्क की गई

बिग डेटा ने सूचना प्रबंधन विशेषज्ञों की मांग इतनी बढ़ा दी है कि सॉफ्टवेयर इंक, ओरेकल निगम, अंतरराष्ट्रीय व्यवसाय मशीन, माइक्रोसॉफ्ट, एसएपी, ईएमसी, एचपी और डेल ने डेटा प्रबंधन और विश्लेषण में विशेषज्ञता रखने वाली सॉफ्टवेयर फर्मों पर 15 बिलियन डॉलर से अधिक खर्च किए हैं। 2010 में, यह उद्योग $100 बिलियन से अधिक मूल्य का था और प्रति वर्ष लगभग 10 प्रतिशत की दर से बढ़ रहा था, जो पूरे सॉफ्टवेयर व्यवसाय से लगभग दोगुना था।[7]

विकसित अर्थव्यवस्थाएँ शीघ्रता से डेटा-गहन तकनीकों का उपयोग कर रही हैं। विश्व में 4.6 बिलियन मोबाइल-फोन सब्सक्रिप्शन हैं, और 1 बिलियन से 2 बिलियन के बीच लोग इंटरनेट का उपयोग कर रहे हैं।[7] 1990 और 2005 के बीच, विश्व में 1 अरब से अधिक लोगों ने मध्यम वर्ग में प्रवेश किया, जिसका अर्थ है कि अधिक लोग अधिक साक्षर हो गए, जिसके परिणामस्वरूप सूचना वृद्धि हुई। दूरसंचार नेटवर्क के माध्यम से सूचनाओं के आदान-प्रदान की विश्व की प्रभावी क्षमता 1986 में 281 पेटाबाइट, 1993 में 471 पेटाबाइट, 2000 में 2.2 एक्साबाइट, 2007 में 65 एक्साबाइट थी।[12] और पूर्वानुमान ने 2014 तक प्रति वर्ष 667 एक्साबाइट्स पर इंटरनेट ट्रैफिक की मात्रा रखी।[7] एक अनुमान के अनुसार, विश्व स्तर पर संग्रहीत जानकारी का एक तिहाई अल्फ़ान्यूमेरिक (अक्षरसांख्यिक) टेक्स्ट और स्थिर छवि डेटा के रूप में है,[61] जो अधिकांश बिग डेटा एप्लिकेशन के लिए सर्वाधिक उपयोगी प्रारूप है। यह अभी तक अप्रयुक्त डेटा (अर्थात वीडियो और ऑडियो सामग्री के रूप में) की क्षमता को भी दर्शाता है।

जबकि कई विक्रेता बिग डेटा के लिए उद्यत उत्पादों की प्रस्तुति करते हैं, यदि कंपनी के पास पर्याप्त तकनीकी क्षमताएं हैं, तो विशेषज्ञ इन-हाउस कस्टम-टेलर्ड सिस्टम के विकास को बढ़ावा देते हैं।[62]


सरकार

कानूनी प्रणाली में बिग डेटा के एप्लीकेशन, विश्लेषण तकनीकों के साथ, वर्तमान में न्याय के प्रशासन को प्रभावी बनाने के संभावित तरीकों में से एक माना जाता है।

सरकारी प्रक्रियाओं के अंदर बिग डेटा का उपयोग और स्वीकृत करने से कीमत, उत्पादकता और नवीनता के संदर्भ में दक्षता प्राप्त होती है,[63] लेकिन इसके दोषों के बिना नहीं आता है। डेटा विश्लेषण के लिए प्रायः सरकार के कई हिस्सों (केंद्रीय और स्थानीय) के सहयोग से काम करने और वांछित परिणाम देने के लिए नई और अभिनव प्रक्रियाएं बनाने की आवश्यकता होती है। सामान्य सरकारी संगठन जो बिग डेटा का उपयोग करता है, वह है राष्ट्रीय सुरक्षा प्रशासन (राष्ट्रीय सुरक्षा संस्था), जो संदिग्ध या अवैध गतिविधियों के संभावित पैटर्न की जानकारी में निरंतर इंटरनेट की गतिविधियों पर परिवीक्षक रखता है, जो उनका सिस्टम पुनः प्रारंभ कर सकता है।

नागरिक पंजीकरण और महत्वपूर्ण डेटा (सीआरवीएस) उत्पन्न से लेकर मृत्यु तक सभी प्रमाणपत्रों की स्थिति एकत्र करता है। सीआरवीएस सरकारों के लिए बिग डेटा का एक स्रोत है।

अंतर्राष्ट्रीय विकास

विकास के लिए सूचना और संचार प्रौद्योगिकियों के प्रभावी उपयोग पर शोध (जिसे आईसीटी4डी के रूप में भी जाना जाता है) से पता चलता है कि बड़ी डेटा तकनीक महत्वपूर्ण योगदान दे सकती है, लेकिन अंतर्राष्ट्रीय विकास के लिए अद्वितीय चुनौतियाँ भी प्रस्तुत करती है।[64][65] बिग डेटा विश्लेषण में प्रगति स्वास्थ्य सेवा, नियोजन, आर्थिक उत्पादकता, अपराध, सुरक्षा और प्राकृतिक आपदा और संसाधन प्रबंधन जैसे महत्वपूर्ण विकास क्षेत्रों में निर्णय लेने में संशोधन के लिए कीमत प्रभावी अवसर प्रदान करती है।[66][67][68] इसके अतिरिक्त, उपयोगकर्ता-जनित डेटा अस्पष्ट प्रयोग के नए अवसर प्रदान करता है।[69] हालाँकि, विकासशील क्षेत्रों के लिए लंबे समय से चली आ रही चुनौतियाँ जैसे कि अपर्याप्त तकनीकी आधारभूत संरचना और आर्थिक और मानव संसाधन की कमी, बिग डेटा जैसे गोपनीयता, अपूर्ण कार्यप्रणाली और अंतर्संचालनीयता के समस्याओ के साथ सम्मिलित समस्याओ को बढ़ाती है।[66] विकास के लिए बिग डेटा की चुनौती[66]वर्तमान में यंत्र अधिगम के माध्यम से इस डेटा के एप्लीकेशन की ओर विकसित हो रहा है, जिसे विकास के लिए कृत्रिम बुद्धिमत्ता (एआई4डी) के रूप में जाना जाता है।[70]


लाभ

विकास के लिए बिग डेटा का एक प्रमुख व्यावहारिक एप्लीकेशन डेटा के साथ अभाव से सामना करता रहा है।[71] 2015 में, ब्लुमेनस्टॉक और उनके सहयोगियों ने अनुमान लगाया कि मोबाइल फोन मेटाडेटा से अभाव और वित्त की भविष्यवाणी की गई है [72] और 2016 में जीन और उनके सहयोगियों ने अभाव की भविष्यवाणी करने के लिए उपग्रह प्रतिबिंब चित्र और यंत्र अधिगम को मिलाया।[73] श्रम व्यवसाय और लैटिन अमेरिका, हिल्बर्ट और सहयोगियों में डिजिटल अर्थव्यवस्था का अध्ययन करने के लिए डिजिटल अनुरेख डेटा का उपयोग करना [74][75] तर्क देते हैं कि डिजिटल अनुरेख डेटा के कई लाभ हैं जैसे:

  • विषयगत कवरेज: उन क्षेत्रों सहित जिन्हें मापना पहले कठिन या असंभव था
  • भौगोलिक विस्तृत सूचना: हमारे अंतरराष्ट्रीय स्रोतों ने लगभग सभी देशों के लिए बड़े आकार का और तुलनीय डेटा प्रदान किया, जिसमें कई छोटे देश सम्मिलित हैं जो सामान्य रूप से अंतरराष्ट्रीय सूची में सम्मिलित नहीं होते हैं
  • विस्तार का स्तर: कई परस्पर संबंधित वेरिएबल, और नए स्वरूपों, जैसे नेटवर्क संपर्क के साथ सूक्ष्म डेटा प्रदान करना
  • समयबद्धता और समय-श्रृंखला: ग्राफ़ एकत्र किए जाने के दिनों के अंदर तैयार किए जा सकते हैं

चुनौतियां

साथ ही, पारंपरिक सर्वेक्षण डेटा के अतिरिक्त डिजिटल अनुरेख डेटा के साथ काम करना अंतरराष्ट्रीय मात्रात्मक विश्लेषण के क्षेत्र में काम करते समय सम्मिलित पारंपरिक चुनौतियों को समाप्त नहीं करता है। प्राथमिकताएं परिवर्तित हो जाती हैं, लेकिन मौलिक चर्चा वही रहती है। मुख्य चुनौतियों में से हैं:

  • प्रतिनिधित्व- जबकि पारंपरिक विकास डेटा मुख्य रूप से यादृच्छिक सर्वेक्षण नमूनों की प्रतिनिधित्वशीलता से संबंधित हैं, डिजिटल अनुरेख डेटा कभी भी यादृच्छिक प्रतिदर्श नहीं होता है।[76]
  • सामान्यता- जबकि अवलोकन संबंधी डेटा सदैव इस स्रोत का बहुत अच्छी तरह से प्रतिनिधित्व करता है, यह सिर्फ वही दर्शाता है जो यह दर्शाता है, और कुछ नहीं दर्शाता है। हालांकि यह एक प्लैटफ़ॉर्म की विशिष्ट टिप्पणियों से लेकर व्यापक संस्थापन तक सामान्यीकरण करने के लिए आकर्षक है, यह प्रायः बहुत भ्रामक (डिसेप्टिव) होता है।
  • समानीकरण- डिजिटल अनुरेख डेटा को अभी भी संकेतकों के अंतर्राष्ट्रीय सामंजस्य की आवश्यकता है। यह तथाकथित डेटा-संलयन, विभिन्न स्रोतों के सामंजस्य की चुनौती को जोड़ता है।
  • डेटा ओवरलोड (अधिभार)- बड़ी संख्या में चरों से प्रभावी रूप से विभाजन के लिए विश्लेषकों और संस्थानों का उपयोग नहीं किया जाता है, जो कि अंतःक्रियात्मक डैशबोर्ड के साथ परिशुद्धता से किया जाता है। चिकित्सकों के पास अभी भी एक मानक कार्य-संचार का अभाव है जो शोधकर्ताओं, उपयोगकर्ताओं और नीति निर्माताओं को कुशलतापूर्वक और प्रभावी रूप से करने की स्वीकृति देगा।[74]


वित्त

बिग डेटा को वित्त में तीव्रता से स्वीकृत किया जा रहा है 1) प्रसंस्करण में तीव्रता लाने के लिए और 2) आंतरिक रूप से और वित्तीय संस्थानों के ग्राहकों के लिए अपेक्षाकृत अधिक अच्छे, अधिक सूचित संदर्भ प्रदान करता है।[77].. बिग डेटा के वित्तीय एप्लिकेशन में निवेश के निर्णय और व्यापार (उपलब्ध मूल्य डेटा की प्रसंस्करण मात्रा, सीमा क्रमित पुस्तिका, आर्थिक डेटा और अधिक, सभी एक ही समय में), पोर्टफोलियो प्रबंधन (वित्तीय उपकरणों की एक बड़ी बड़ी सरणी पर अनुकूलन) सम्मिलित हैं। संभावित रूप से विभिन्न गुण वर्गों से चयनित), जोखिम प्रबंधन (विस्तारित जानकारी के आधार पर क्रेडिट रेटिंग), और कोई अन्य स्वरूप जहां डेटा इनपुट बड़े हैं।[78]


स्वास्थ्य सेवा

बिग डेटा विश्लेषिकी का उपयोग व्यक्तिगत दवा और निर्देशात्मक विश्लेषण, नैदानिक ​​जोखिम अंतःक्षेप और भविष्यसूचक विश्लेषण, अपशिष्ट और सेवा परिवर्तनशीलता में कमी, रोगी डेटा की स्वचालित बाहरी और आंतरिक रिपोर्टिंग, मानकीकृत चिकित्सा शर्तों और रोगी पंजीकरण को प्रदान करके स्वास्थ्य सेवा में किया गया था।[79][80][81][82] संशोधन के कुछ क्षेत्र वास्तव में कार्यान्वित किए जाने की तुलना में अधिक उपयुक्त हैं। स्वास्थ्य प्रणाली के अंदर उत्पन्न डेटा का स्तर सामान्य नहीं है। एमहेल्थ, ईहेल्थ और धारण करने योग्य तकनीकों को स्वीकृत से डेटा की मात्रा में वृद्धि जारी रहेगी। इसमें इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड डेटा, प्रतिबिम्बन डेटा, रोगी जनित डेटा, सेंसर डेटा और डेटा को प्रसंस्करण करने में कठिन के अन्य रूप सम्मिलित हैं। डेटा और सूचना की गुणवत्ता पर अधिक ध्यान देने के लिए ऐसे वातावरण की वर्तमान मे और भी अधिक आवश्यकता है।[83] बिग डेटा का अर्थ प्रायः 'विकृत डेटा' होता है और डेटा की मात्रा में वृद्धि के साथ डेटा की अशुद्धियों का अंश बढ़ जाता है। बिग डेटा पैमाने पर मानव निरीक्षण असंभव है और परिशुद्धता और विश्वसनीयता नियंत्रण और प्रबंधन सूचना सेवा जानकारी को संभालने के लिए अभिज्ञ उपकरणों के लिए स्वास्थ्य सेवा में अधिक आवश्यकता है।[84] जबकि स्वास्थ्य सेवा में व्यापक जानकारी अब इलेक्ट्रॉनिक है, यह बिग डेटा अम्ब्रेला के अंदर निर्धारित होता है क्योंकि अधिकांश असंरचित और उपयोग करने में कठिन है।[85] स्वास्थ्य सेवा में बिग डेटा के उपयोग ने व्यक्तिगत अधिकारों, गोपनीयता और स्वायत्तता के जोखिमों से लेकर पारदर्शिता और विश्वास तक की महत्वपूर्ण नैतिक चुनौतियाँ निर्दिष्ट की हैं।[86]

स्वास्थ्य अनुसंधान में बिग डेटा विशेष रूप से खोजपूर्ण जैव चिकित्सा अनुसंधान के संदर्भ में आशाजनक है, क्योंकि डेटा-संचालित विश्लेषण परिकल्पना-संचालित अनुसंधान की तुलना में अधिक तेज़ी से आगे बढ़ सकता है।[87] फिर, डेटा विश्लेषण में देखे गए प्रवृत्ति का परीक्षण पारंपरिक, परिकल्पना-चालित अनुवर्ती जैविक अनुसंधान और अंततः नैदानिक ​​अनुसंधान में किया जा सकता है।

संबंधित एप्लीकेशन उप-क्षेत्र, जो स्वास्थ्य सेवा क्षेत्र के अंदर बिग डेटा पर बहुत अधिक निर्भर करता है, चिकित्सा में कम्प्यूटर सहायता प्राप्त निदान है।[88] इंस्टेंस के लिए, मिर्गी की सर्वेक्षण के लिए प्रतिदिन 5 से 10 जीबी डेटा बनाने की प्रचलित है।[89] इसी तरह, स्तन टोमोसिंथेसिस की एक असम्पीडित छवि का औसत 450 एमबी डेटा है।[90] ये ऐसे कई उदाहरणों में से कुछ जहां कंप्यूटर-एडेड डायग्नोसिस बिग डेटा का उपयोग करता है। इस कारण से, बिग डेटा को उन सात प्रमुख चुनौतियों में से एक के रूप में पहचाना गया है, जिन्हें प्रदर्शन के अगले स्तर तक पहुँचने के लिए कंप्यूटर-एडेड डायग्नोसिस सिस्टम को दूर करने की आवश्यकता है।[91]


शिक्षा

मैकिन्से वैश्विक संस्थान के एक अध्ययन में 1.5 मिलियन उच्च प्रशिक्षित डेटा पेशेवरों और प्रबंधकों की कमी पाई गई[52]और कई विश्वविद्यालय[92][better source needed] टेनेसी विश्वविद्यालय और यूसी बर्कले सहित, ने इस मांग को पूरा करने के लिए मास्टर्स प्रोग्राम बनाए हैं। निजी बूट शिविरों ने उस मांग को पूरा करने के लिए प्रोग्राम भी विकसित किए हैं, जिसमें द डेटा इनक्यूबेटर जैसे मुफ्त प्रोग्राम या सामान्य असेम्बली (सभा) जैसे भुगतान प्रोग्राम सम्मिलित हैं।[93] विपणन के विशिष्ट क्षेत्र में, वेसल और कन्नन द्वारा जोर दी गई समस्याओं में से एक है[94] यह है कि व्यवसाय के कई उप प्रक्षेत्र (जैसे, विज्ञापन, प्रचार,उत्पाद विकास, ब्रांडिंग) हैं, जो सभी विभिन्न प्रकार के डेटा का उपयोग करते हैं।

मीडिया

यह समझने के लिए कि मीडिया बिग डेटा का उपयोग कैसे करता है, मीडिया प्रक्रिया के लिए उपयोग किए जाने वाले तंत्र में कुछ संदर्भ प्रदान करना सबसे पहले आवश्यक है। निक कैनरी और जोसेफ टुरो द्वारा यह सुझाव दिया गया है कि मीडिया और विज्ञापन में व्यवसायी लाखों व्यक्तियों के बारे में जानकारी के कई प्रक्रिया योग्य बिंदुओं के रूप में बिग डेटा का दृष्टिकोण रखते हैं। ऐसा प्रतीत होता है कि उद्योग समाचार पत्रों, पत्रिकाओं, या टेलीविज़न शो जैसे विशिष्ट मीडिया परिवेशों का उपयोग करने के पारंपरिक दृष्टिकोण से दूर जा रहा है और इसके अतिरिक्त उन तकनीकों के साथ उपभोक्ताओं में टैप करता है जो सर्वोत्तम स्थानों पर लक्षित लोगों तक पहुँचते हैं। अंतिम उद्देश्य उपभोक्ता की मानसिकता के अनुरूप (सांख्यिकीय रूप से कथन) एक संदेश या सामग्री की सेवा या संदेश देना है। उदाहरण के लिए, प्रकाशन वातावरण उपभोक्ताओं के लिए पुनर्विचार करने के लिए संदेशों (विज्ञापनों) और सामग्री (लेखों) को शीघ्रता से तैयार कर रहा है जो विभिन्न डेटा माइनिंग गतिविधियों के माध्यम से विशेष रूप से एकत्र किए गए हैं।[95]

  • उपभोक्ताओं का लक्ष्यीकरण (विक्रय द्वारा विज्ञापन के लिए)[96]
  • डेटा प्रग्रहण
  • डेटा पत्रकारिता: अद्वितीय और अभिनव अंतर्दृष्टि और इंफ़ोग्राफ़िक ( सूचना या डेटा का एक दृश्य निरूपण एक चार्ट या आरेख के रूप में) प्रदान करने के लिए प्रकाशक और पत्रकार बिग डेटा उपकरण का उपयोग करते हैं।

चैनल 4, ब्रिटिश सार्वजनिक सेवा टेलीविजन प्रसारक, बड़े डेटा और डेटा विश्लेषण के क्षेत्र में अग्रणी है।[97]


बीमा

स्वास्थ्य बीमा प्रदाता स्वास्थ्य के सामाजिक निर्धारकों जैसे कि भोजन और टेलीविजन का उपभोग, वैवाहिक स्थिति, कपड़ों के आकार और खरीदारी की आदतों पर डेटा एकत्र कर रहे हैं, जिससे वे अपने ग्राहकों में स्वास्थ्य संबंधी समस्याओं का पता लगाने के लिए स्वास्थ्य कीमतों का अनुमान लगाते हैं। यह विवादास्पद है कि वर्तमान में मूल्य निर्धारण के लिए इन भविष्यवाणियों का उपयोग किया जा रहा है या नहीं किया जा रहा है।[98]


वस्तुओ का इंटरनेट (आईओटी)

बिग डेटा और आईओटी संयोजन में काम करते हैं। आईओटी डिवाइस से निकाला गया डेटा डिवाइस अंतः-संबंध की मैपिंग प्रदान करता है। इस तरह के मैपिंग का उपयोग मीडिया उद्योग, कंपनियों और सरकारों द्वारा अपने दर्शकों को अधिक परिशुद्ध रूप से लक्षित करने और मीडिया दक्षता बढ़ाने के लिए किया गया है। संवेदी डेटा एकत्र करने के साधन के रूप में आईओटी को भी शीघ्रता से स्वीकार किया जा रहा है, और इस संवेदी डेटा का उपयोग चिकित्सा में,[99] उत्पादन[100] और परिवहन[101] संदर्भ मे किया गया है।

डिजिटल आविष्करण विशेषज्ञ केविन एश्टन, जिन्हें इस शब्द को देने का श्रेय दिया जाता है,[102] इस उद्धरण में वस्तुओ के इंटरनेट को परिभाषित करता है: यदि हमारे पास ऐसे कंप्यूटर होते जो वस्तुओ के बारे में जानने के लिए सब कुछ जानते थे—डेटा का उपयोग करके जो उन्होंने हमारी सहायता के बिना एकत्र किया—हम सब कुछ पता लगाने और गिनने में सक्षम होते, और विकृति, हानि, और कीमत को बहुत कम कर पाएंगे। हमें पता चल जाएगा कि कब वस्तुओ को परिवर्तित करने मे, सुधार करने या पुनर्प्राप्ति की आवश्यकता है, और क्या वे नवीन थे या सबसे अच्छे थे।

सूचना प्रौद्योगिकी

विशेष रूप से 2015 के बाद से, कर्मचारियों को अधिक कुशलता से काम करने और सूचना प्रौद्योगिकी (आईटी) के संग्रह और वितरण को सुव्यवस्थित करने में सहायता करने के लिए एक उपकरण के रूप में बिग डेटा को व्यवसाय संचालन के अंदर प्रमुखता मिली है। एक उद्यम के अंदर सूचना प्रौद्योगिकी और डेटा संग्रह के समस्याओ को संशोधित करने के लिए बिग डेटा के उपयोग को सूचना प्रौद्योगिकी संचालन विश्लेषिकी (आईटीओए) कहा जाता है।[103] मशीन इंटेलिजेंस और गहन कंप्यूटिंग की अवधारणाओं में बिग डेटा सिद्धांतों को प्रयुक्त करके, सूचना प्रौद्योगिकी विभाग संभावित समस्याओ की भविष्यवाणी कर सकते हैं और उन्हें रोक सकते हैं।[103] सूचना प्रौद्योगिकी संचालन विश्लेषिकी व्यवसाय सिस्टम प्रबंधन के लिए प्लेटफ़ॉर्म प्रदान करते हैं जो डेटा साइलो को एक साथ लाते हैं और डेटा के अलग-अलग पॉकेट्स के अतिरिक्त पूरे सिस्टम से अंतर्दृष्टि उत्पन्न करते हैं।

स्थिति का अध्ययन

सरकार

चीन

  • एकीकृत संयुक्त संचालन प्लेटफॉर्म (आईजेओपी, 一体化联合作战平台) का उपयोग सरकार द्वारा आबादी, विशेष रूप से उइगरों के संरक्षण के लिए किया जाता है।[104] बॉयोमेट्रिक्स, जिसमें डीएनए नमूने भी सम्मिलित हैं, निː शुल्क भौतिक के एक प्रोग्राम के माध्यम से एकत्र किए जाते हैं।[105]
  • 2020 तक, चीन अपने सभी नागरिकों को उनके गतिविधि के आधार पर एक व्यक्तिगत समाज द्वारा उत्पादित क्रय शक्ति गणना देने की योजना बना रहा है।[106] सामाजिक क्रेडिट सिस्टम, जिसे अब कई चीनी शहरों में संचालित किया जा रहा है, इसको चीन में बड़े पैमाने पर सर्वेक्षण का एक रूप माना जाता है जो बिग डेटा विश्लेषण तकनीक का उपयोग करता है।[107][108]


भारत

  • 2014 भारतीय सामान्य चुनाव जीतने के लिए भारतीय जनता पार्टी के लिए बिग डेटा विश्लेषण करने का प्रयास किया गया था।[109]
  • भारत सरकार यह पता लगाने के लिए कई तकनीकों का उपयोग करती है कि भारतीय मतदाता सरकारी प्रक्रिया के साथ-साथ नीतिगत वृद्धि के लिए कैसे प्रतिक्रिया दे रहे हैं।

इसराइल

  • ग्लूकोमे के बिग डेटा समाधान के माध्यम से व्यक्तिगत मधुमेह उपचार बनाया जा सकता है।[110]


यूनाइटेड किंगडम

सार्वजनिक सेवाओं में बिग डेटा के उपयोग के उदाहरण:

  • निर्धारित औषधि पर डेटा: मूल, स्थान और प्रत्येक उपाय के समय को जोड़कर, एक शोध इकाई किसी भी दवा के निस्तारण और राष्ट्रीय स्वास्थ्य संस्थान के यूके-व्यापी अनुकूलन के बीच अपेक्षाकृत अधिक विलंबता को स्पष्ट करने और सेवा उत्कृष्टता दिशानिर्देश जांच करने में सक्षम थी। इससे पता चलता है कि नई या सबसे आधुनिक दवाएं सामान्य रोगी के माध्यम से फ़िल्टर करने में कुछ समय लेती हैं।[citation needed][111]
  • डेटा को जोड़ना: एक स्थानीय प्राधिकरण सेवाओं के बारे में डेटा सम्मिश्रण करता है, जैसे कि रोड ग्रिटिंग रोटा, जोखिम वाले लोगों के लिए सेवाओं के साथ, जैसे कि भोजन वितरण। डेटा के संपर्क ने स्थानीय प्राधिकरण को मौसम संबंधी किसी भी विलंबता से बचने की स्वीकृति दी।[112]


संयुक्त राज्य अमेरिका

  • 2012 में, ओबामा प्रशासन ने बिग डेटा अनुसंधान और विकास प्रस्ताव की घोषणा की, यह पता लगाने के लिए कि सरकार द्वारा सामना की जाने वाली महत्वपूर्ण समस्याओं का समाधान करने के लिए बिग डेटा का उपयोग कैसे किया जा सकता है।[113] प्रस्ताव छह विभागों में विस्तृत 84 विभिन्न बिग डेटा प्रोग्रामो से बनी है। रेफरी>Executive Office of the President (March 2012). "संघीय सरकार भर में बड़ा डेटा" (PDF). Office of Science and Technology Policy. Archived (PDF) from the original on 21 January 2017. Retrieved 26 September 2012 – via National Archives.</ref>
  • बिग डेटा विश्लेषण ने बराक ओबामा के 2012 के सफल पुनर्निर्वाचन अभियान में एक बड़ी भूमिका निभाई।[114]
  • संयुक्त राज्य संघीय सरकार विश्व के दस सबसे शक्तिशाली सुपर कंप्यूटरों में से पांच की स्वामित्व है।

रेफरी>"नवंबर 2018". Archived from the original on 12 June 2020. Retrieved 13 November 2018. {{cite web}}: Text "टॉप 500 सुपरकंप्यूटर साइट्स" ignored (help)</ref>[115]

  • यूटा डेटा केंद्र का निर्माण संयुक्त राज्य अमेरिका की राष्ट्रीय सुरक्षा संस्था द्वारा किया गया है। समाप्त होने पर, सुविधा एनएसए द्वारा इंटरनेट पर एकत्रित की गई बड़ी मात्रा में जानकारी को संभालने में सक्षम होगी। भंडारण स्थान की परिशुद्ध मात्रा अज्ञात है, लेकिन हाल के सूत्रों का दावा है कि यह कुछ एक्साबाइट्स के क्रम पर होगा।[116][117][118] इसने एकत्र किए गए डेटा की अज्ञातता के संबंध में सुरक्षा समस्याओ को उत्पन्न किया है।[119]


रीटेल (खुदरा)

  • वॉल-मार्ट हर घंटे 1 मिलियन से अधिक ग्राहक लेनदेन संभालता है, जो डेटाबेस में आयात किए जाते हैं, जिसमें 2.5 पेटाबाइट्स (2560 टेराबाइट्स) से अधिक डेटा होने का अनुमान - कांग्रेस के अमेरिकी पुस्तकालय में सभी पुस्तकों में निहित जानकारी के 167 गुना के बराबर है।[7]
  • विंडरमेयर रियल एस्टेट लगभग 100 मिलियन संचालकों से स्थान की जानकारी का उपयोग करता है ताकि नए घर खरीदारों को दिन के विभिन्न समयों में काम करने के लिए और उनके विशिष्ट ड्राइव समय का निर्धारण करने में सहायता मिल सके।[120]
  • एफआईसीओ कार्ड पहचान प्रणाली विश्व में खातों की सुरक्षा करता है।[121]


विज्ञान

  • बड़े हैड्रान कोलाइडर प्रयोग लगभग 150 मिलियन सेंसर का प्रतिनिधित्व करते हैं जो प्रति सेकंड 40 मिलियन बार डेटा वितरित करते हैं। प्रति सेकंड लगभग 600 मिलियन संघट्‍टन होते हैं। फ़िल्टर करने और 99.99995% से अधिक रिकॉर्ड करने से बचने के बाद[122] इन स्ट्री में प्रति सेकंड लाभ के 1,000 संघट्‍टन होते हैं।[123][124][125]
    • परिणामस्वरूप, सेंसर स्ट्रीम डेटा के सिर्फ 0.001% से कम के साथ काम करते हुए, सभी चार एलएचसी प्रयोगों से डेटा संचार प्रतिकृति से पहले 25 पेटाबाइट वार्षिक दर का प्रतिनिधित्व करता है (as of 2012). प्रतिकृति के बाद यह लगभग 200 पेटाबाइट हो जाता है।
    • यदि सभी सेंसर डेटा एलएचसी में प्रकाशित किए गए थे, तो डेटा संचार के साथ काम करना अधिक कठिन होगा। प्रतिकृति से पहले डेटा संचार 150 मिलियन पेटाबाइट वार्षिक दर, या लगभग 500 एक्साबाइट प्रति दिन से अधिक होगा। संख्या को परिप्रेक्ष्य में रखने के लिए, यह 500 क्विंटिलियन (5×1020) प्रति दिन बाइट्स, विश्व में संयुक्त सभी अन्य स्रोतों की तुलना में लगभग 200 गुना अधिक है।
  • वर्ग किलोमीटर सरणी एक रेडियो टेलीस्कोप है जो हजारों एंटेना से बना है। इसके 2024 तक सक्रिय होने की उपेक्षा है। सामूहिक रूप से, इन एंटेना के 14 एक्साबाइट एकत्र करने और प्रति दिन एक पेटाबाइट संग्रह करने की उपेक्षा है।[126][127] इसे अब तक की गई सबसे महत्वाकांक्षी वैज्ञानिक परियोजनाओं में से एक माना जाता है।[128]
  • जब स्लोन डिजिटल आकाशीय सर्वेक्षण (एसडीएसएस) ने 2000 में खगोलीय डेटा एकत्र करना प्रारंभ किया, तो इसने पहले कुछ सप्ताह में खगोल विज्ञान के इतिहास में एकत्र किए गए सभी डेटा की तुलना में अधिक एकत्र किया। लगभग 200 GB प्रति रात की दर से जारी रखते हुए, स्लोन डिजिटल आकाशीय सर्वेक्षण ने 140 टेराबाइट से अधिक जानकारी एकत्र की है।[7] जब स्लोन डिजिटल आकाशीय सर्वेक्षण का अधिकारक बड़े सामयिक सर्वेक्षण टेलीस्कोप, 2020 में ऑनलाइन आता है, तो इसके डिजाइनरों को उपेक्षा है कि यह हर पांच दिनों में उस डेटा की मात्रा प्राप्त कर लेगा।[7]
  • मानव जीनोम परियोजना को मूल रूप से संसाधित होने में 10 वर्ष लगे; वर्तमान मे इसे एक दिन से भी कम समय में प्राप्त किया जा सकता है। डीएनए अनुक्रमकों ने पिछले दस वर्षों में अनुक्रमण कीमत को 10,000 से विभाजित किया है, जो मूर के नियम द्वारा अनुमानित कीमत में कमी से 100 गुना सस्ता है।[129]
  • जलवायु सिमुलेशन के लिए नासा केंद्र (एनसीसीएस) सुपरकंप्यूटिंग क्लस्टर के अन्वेषण पर 32 पेटाबाइट्स जलवायु अवलोकन और सिमुलेशन संग्रह करता है।[130][131]
  • गूगल का डीएनएस्टैक रोगों और अन्य चिकित्सा दोषों की पहचान करने के लिए विश्व से आनुवंशिक डेटा के डीएनए नमूनों को संकलित और व्यवस्थित करता है। ये तेज़ और परिशुद्ध गणना किसी भी घर्षण बिंदु या मानवीय त्रुटियों को समाप्त करती हैं जो डीएनए के साथ काम करने वाले कई विज्ञान और जीव विज्ञान विशेषज्ञों में से एक द्वारा की जा सकती हैं। डीएनएस्टैक, गूगल जीनोमिक्स का एक भाग, वैज्ञानिकों को गूगल के जांच सर्वर से संसाधनों के विशाल नमूने का उपयोग करने की स्वीकृति देता है ताकि सामाजिक प्रयोगों को मापन किया जा सके जिसमें सामान्य रूप से वर्षों लग जाते हैं।[132][133]
  • 23एंडमी डीएनए डेटाबेस में विश्व में 1,000,000 से अधिक लोगों की आनुवंशिक जानकारी सम्मिलित है।[134] यदि रोगी अपनी सहमति देते हैं तो कंपनी अनुसंधान उद्देश्यों के लिए अन्य शोधकर्ताओं और दवा कंपनियों को अज्ञात एकत्रित आनुवंशिक डेटा बेचने की जांच करती है।[135][136][137][138][139] ड्यूक विश्वविद्यालय में मनोविज्ञान और तंत्रिका विज्ञान के प्रोफेसर अहमद हरीरी, जो 2009 से अपने शोध में 23एंडमी का उपयोग कर रहे हैं, कहते हैं कि कंपनी की नई सेवा का सबसे महत्वपूर्ण स्वरूप यह है कि यह आनुवंशिक अनुसंधान को वैज्ञानिकों के लिए सक्षम और अपेक्षाकृत आसान बनाती है।[135] एक अध्ययन जिसने 23एंडमी के डेटाबेस में अवसाद से जुड़ी 15 जीनोम साइटों की पहचान की, पेपर के प्रकाशन के बाद दो सप्ताह में अवसाद डेटा तक पहुंचने के लिए लगभग 20 अनुरोधों के साथ 23एंडमी क्षेत्रों के साथ भंडार तक पहुंचने की मांग में वृद्धि हुई।[140]
  • कम्प्यूटेशनल द्रव गतिकी (सीएफडी) और द्रवगतिकीय विक्षोभ अनुसंधान बड़े पैमाने पर डेटा सेट उत्पन्न करते हैं। जॉन्स हॉपकिन्स टर्बुलेंस डेटाबेस (जेएचटीडीबी) में विभिन्न विक्षोभ संचार के प्रत्यक्ष संख्यात्मक सिमुलेशन से 350 से अधिक टेराबाइट्स स्थानकालिक क्षेत्र सम्मिलित हैं। समतल सिमुलेशन आउटपुट फ़ाइलों को डाउनलोड करने जैसे पारंपरिक तरीकों का उपयोग करके इस तरह के डेटा को साझा करना कठिन हो गया है। जेएचटीडीबी के अंदर डेटा को विभिन्न अभिगम्य मोड के साथ वर्चुअल सेंसर का उपयोग करके अभिगम्य किया जा सकता है, जिसमें प्रत्यक्ष वेब-ब्राउज़र प्रश्न, मैटलैब, पायथन, फोरट्रान और ग्राहकों के प्लेटफॉर्म पर निष्पादित C प्रोग्राम के माध्यम से अभिगम्य, असंसाधित डेटा को डाउनलोड करने के लिए सेवाओं को कम करना सम्मिलित है। डेटा का उपयोग 150 से अधिक वैज्ञानिक प्रकाशनों में किया गया है।

खेल

स्पोर्ट सेंसर का उपयोग करके प्रतियोगियों को प्रशिक्षण और समझने में संशोधन करने के लिए बिग डेटा का उपयोग किया जा सकता है। बिग डेटा विश्लेषिकी का उपयोग करके मैच में विजेताओं की भविष्यवाणी करना भी संभव है।[141] खिलाड़ियों के भविष्य के प्रदर्शन की भी भविष्यवाणी की जा सकती है। इस प्रकार, खिलाड़ियों का मूल्य और वेतन पूरे सीज़न में एकत्र किए गए डेटा द्वारा निर्धारित किया जाता है।[142]

सूत्रों के एक प्रभेद में, सैकड़ों सेंसर वाली रेस कारें टेराबाइट डेटा उत्पन्न करती हैं। ये सेंसर टायर दबाव से लेकर ईंधन जलाने की दक्षता तक के डेटा विंदु एकत्रित करते हैं।[143] डेटा के आधार पर, इंजीनियर और डेटा विश्लेषक निर्धारित करते हैं कि रेस (दौड़) जीतने के लिए समायोजन किया जाना चाहिए या नहीं किया जाना चाहिए। इसके अतिरिक्त, बिग डेटा का उपयोग करते हुए, रेस टीमें सीज़न में एकत्र किए गए डेटा का उपयोग करके सिमुलेशन के आधार पर रेस को पहले ही पूरा करने की भविष्यवाणी करने का प्रयास करती हैं।[144]


प्रौद्योगिकी

  • eBay.com 7.5 पेटाबाइट्स और 40पेटाबाइट्स पर दो डेटा वेयरहाउस (भंडार) के साथ-साथ जांच, उपभोक्ता अनुशंसाओं और बिक्री के लिए 40पेटाबाइट्स हडूप क्लस्टर का उपयोग करता है।[145]
  • Amazon.com हर दिन लाखों बैक-एंड संचालन को नियंत्रण करता है, साथ ही आधे मिलियन से अधिक तृतीय-पक्ष विक्रेता के प्रश्नों को भी नियंत्रण करता है। मुख्य तकनीक जो अमेज़न को सक्रिय रखती है वह लिनक्स आधारित है और 2005 तक, उनके पास 7.8 TB, 18.5 TB, और 24.7 TB की क्षमता वाले विश्व के तीन सबसे बड़े लिनक्स डेटाबेस थे।[146]
  • फेसबुक अपने उपयोगकर्ता आधार से 50 अरब तस्वीरें प्रबंधित करता है।[147] जून 2017 तक, फेसबुक 2 अरब मासिक सक्रिय उपयोगकर्ताओं तक पहुंच गया।[148]
  • अगस्त 2012 तक Google प्रति माह लगभग 100 अरब खोजों को प्रबंधित कर रहा था।[149]


कोविड-19

कोविड-19 महामारी के समय, बीमारी के प्रभाव को कम करने के तरीके के रूप में बिग डेटा स्थापित किया गया था। बिग डेटा के महत्वपूर्ण एप्लिकेशन में वायरस के प्रसार को कम करना, स्थिति की पहचान और चिकित्सा उपचार का विकास सम्मिलित है।[150]

प्रसार को कम करने के लिए सरकारों ने संक्रमित लोगों को पता करने के लिए बिग डेटा का उपयोग किया। प्रारम्भिक स्वीकृत करने वालों में चीन, ताइवान, दक्षिण कोरिया और इज़राइल सम्मिलित थे।[151][152][153]


अनुसंधान गतिविधियां

अमेरिकन सोसायटी ऑफ इंजीनियरिंग एजुकेशन में मार्च 2014 में बिग डेटा में एन्क्रिप्टेड जांच और क्लस्टर गठन का प्रदर्शन किया गया था। एमआईटी कंप्यूटर विज्ञान और कृत्रिम इंटेलिजेंस प्रयोगशाला द्वारा बिग डेटा की चुनौतियों के प्रबंधन में लगे गौतम सिवाच और यूएनएच अनुसंधान ग्रुप में आमिर एस्मेलपोर ने क्लस्टर्स के गठन और उनके अन्तः संबंध के रूप में बिग डेटा की प्रमुख विशेषताओं की जांच की। उन्होंने बिग डेटा की सुरक्षा पर ध्यान केंद्रित किया और प्रौद्योगिकी के अंदर अपरिष्कृत परिभाषाएं और वास्तविक समय के उदाहरण प्रदान करके क्लाउड इंटरफ़ेस पर एन्क्रिप्टेड रूप में विभिन्न प्रकार के डेटा की उपस्थिति की ओर उन्मुखीकरण किया। इसके अतिरिक्त, उन्होंने बिग डेटा में सुरक्षा संवर्द्धन के लिए अग्रणी एन्क्रिप्टेड टेक्स्ट पर एक त्वरित जांच की दिशा में आगे बढ़ने के लिए एन्कोडिंग तकनीक की पहचान करने के लिए एक दृष्टिकोण प्रस्तावित किया।[154]

मार्च 2012 में, व्हाइट हाउस ने एक राष्ट्रीय बिग डेटा प्रस्ताव की घोषणा की, जिसमें छह संघीय विभाग और संस्थाएं ​​सम्मिलित थीं, जो बिग डेटा अनुसंधान परियोजनाओं के लिए $200 मिलियन से अधिक की प्रतिबद्धता प्रकाशित करती हैं।[155]

इस प्रस्ताव में कैलिफोर्निया विश्वविद्यालय, बर्कले में एएमपीलैब[156] को राष्ट्रीय विज्ञान संस्था "कम्प्यूटिंग में अभियान" के अंतर्गत पांच वर्षों में $10 मिलियन का अनुदान सम्मिलित था।[157] एएमपीलैब को रक्षा उन्नत अनुसंधान परियोजना संस्था, और एक दर्जन से अधिक औद्योगिक प्रायोजकों से भी वित्त प्राप्त हुआ है और ट्रैफ़िक संकुलन की भविष्यवाणी करने से लेकर [158] कैंसर से लड़ने तक की समस्याओं की एक विस्तृत श्रृंखला पर आक्षेप करने के लिए किया।[159]

व्हाइट हाउस बिग डेटा प्रस्ताव में मापनी डेटा प्रबंधन, विश्लेषण और आभासीकरण (एसडीएवी) संस्थान की स्थापना के लिए पाँच वर्षों में $25 मिलियन का वित्त पोषण प्रदान करने के लिए ऊर्जा विभाग द्वारा प्रतिबद्धता भी सम्मिलित है।[160] ऊर्जा विभाग के लॉरेंस बर्कले राष्ट्रीय प्रयोगशाला के नेतृत्व में एसडीएवी संस्थान का लक्ष्य छह राष्ट्रीय प्रयोगशालाओं और सात विश्वविद्यालयों की विशेषज्ञता को एक साथ लाना है ताकि वैज्ञानिकों को विभाग के सुपर कंप्यूटरों पर डेटा का प्रबंधन और कल्पना करने में सहायता करने के लिए नए उपकरण विकसित किए जा सकें।

अमेरिकी राज्य मैसाचुसेट्स ने मई 2012 में मैसाचुसेट्स बिग डेटा प्रस्ताव की घोषणा की, जो राज्य सरकार और निजी कंपनियों से विभिन्न शोध संस्थानों को वित्त उपलब्ध कराता है।[161] मैसाचुसेट्स की तकनीकी संस्था एमआईटी कंप्यूटर विज्ञान और कृत्रिम इंटेलिजेंस प्रयोगशाला में बिग डेटा के लिए इंटेल विज्ञान और तकनीक केंद्र को होस्ट करता है, जो सरकार, निगमित और संस्थागत वित्त पोषण और अनुसंधान प्रयासों का संयोजन करता है।[162]

यूरोपीय आयोग बिग डेटा समस्याओ पर चर्चा करने के लिए कंपनियों, शिक्षाविदों और अन्य हितधारकों को सम्मिलित करने के लिए अपने सातवें रूपरेखा प्रोग्राम के माध्यम से दो वर्ष लंबे बिग डेटा सार्वजनिक निजी फोरम को वित्तपोषित कर रहा है। परियोजना का उद्देश्य बड़ी डेटा अर्थव्यवस्था के सफल कार्यान्वयन में यूरोपीय आयोग से सहायक कार्यों को निर्देशित करने के लिए अनुसंधान और नवीनता के संदर्भ में एक योजना को परिभाषित करना है। इस परियोजना के परिणामों का उपयोग होराइजन 2020 के लिए इनपुट के रूप में किया जाएगा, जो अनुसंधान और तकनीकी विकास के लिए उनका अगला रूपरेखा प्रोग्राम है।[163]

ब्रिटिश सरकार ने मार्च 2014 में कंप्यूटर पायनियर और कोड-ब्रेकर के नाम पर एलन ट्यूरिंग संस्थान की स्थापना की घोषणा की, जो बिग डेटा सेट एकत्र करने और विश्लेषण करने के नए तरीकों पर ध्यान केंद्रित करेगा।[164]

वाटरलू स्ट्रैटफ़ोर्ड कैंपस विश्वविद्यालय कैनेडियन मुक्त डेटा अनुभव (कोड) प्रवेश दिवस में, प्रतिभागियों ने प्रदर्शित किया कि कैसे डेटा आभासीकरण का उपयोग करके बिग डेटा सेटों की समझ और समर्थन को बढ़ाया जा सकता है और उनकी कहानी को विश्व तक पहुँचाया जा सकता है।[165]

कम्प्यूटेशनल सामाजिक विज्ञान - कोई भी बिग डेटा धारकों, जैसे कि गूगल और ट्विटर द्वारा प्रदान किए गए एप्लिकेशन प्रोग्रामिंग इंटरफेस (एपीआई) का उपयोग सामाजिक और गतिविधि विज्ञान में शोध करने के लिए कर सकता है।[166] प्रायः ये एप्लिकेशन प्रोग्रामिंग इंटरफेस मुफ्त में उपलब्ध कराए जाते हैं।[166] टोबियास प्राइस एट अल गूगल ट्रेंड्स डेटा का उपयोग यह प्रदर्शित करने के लिए किया कि उच्च प्रति व्यक्ति सकल घरेलू उत्पाद (जीडीपी) वाले देशों के इंटरनेट उपयोगकर्ताओं द्वारा पूर्व के बारे में जानकारी की तुलना में भविष्य के बारे में जानकारी खोजने की अधिक संभावना है। निष्कर्ष बताते हैं कि ऑनलाइन गतिविधि और वास्तविक विश्व के आर्थिक संकेतकों के बीच एक संबंध हो सकता है।[167][168][169] अध्ययन के लेखकों ने आने वाले वर्ष (2011) की खोजों की मात्रा के पिछले वर्ष (2009) की खोजों की मात्रा के अनुपात द्वारा बनाए गए गूगल प्रश्नों के लॉग की जांच की, जिसे वे भविष्य उन्मुखीकरण सूचकांक कहते हैं।[170] उन्होंने भविष्य के उन्मुखीकरण सूचकांक की तुलना प्रत्येक देश के प्रति व्यक्ति सकल घरेलू उत्पाद से की, और उन देशों के लिए एक प्रबल प्रवृत्ति पाई, जहां गूगल उपयोगकर्ता भविष्य के बारे में अधिक प्रश्न करने करते हैं ताकि उच्च सकल घरेलू उत्पाद हो।

टोबियास प्रीस और उनके सहयोगियों हेलेन सुसन्नाह मोट और एच. यूजीन स्टेनली ने गूगल ट्रेंड द्वारा प्रदान किए गए जांच मात्रा डेटा के आधार पर ट्रेडिंग योजनाओ का उपयोग करके शेयर मार्केट के लिए ऑनलाइन प्रणेता की पहचान करने के लिए एक विधि के प्रारंभ की।[171] अलग-अलग वित्तीय प्रासंगिकता के 98 शब्दों के लिए गूगल जांच मात्रा का उनका विश्लेषण, वैज्ञानिक रिपोर्ट में प्रकाशित,[172] सुझाव देता है कि वित्तीय रूप से प्रासंगिक जांच शब्दों के लिए जांच मात्रा में वृद्धि वित्तीय विक्रयों में बड़ी हानि से पहले होती है।[173][174][175][176][177][178][179]

बिग डेटा सेट एल्गोरिथम चुनौतियों के साथ आते हैं जो पहले सम्मिलित नहीं थे। इसलिए, कुछ लोगों द्वारा प्रसंस्करण के तरीकों को मूलभूत रूप से परिवर्तित करने की आवश्यकता देखी गई है।[180]

आधुनिक बड़े पैमाने पर डेटा सेट (एमएमडीएस) के लिए एल्गोरिथम पर वर्कशॉप बिग डेटा की एल्गोरिथम चुनौतियों पर चर्चा करने के लिए कंप्यूटर वैज्ञानिकों, सांख्यिकीविदों, गणितज्ञों और डेटा विश्लेषण चिकित्सकों को एक साथ लाती है।[181] बिग डेटा के संबंध में, परिमाण की ऐसी अवधारणाएँ सापेक्ष होती हैं। जैसा कि कहा गया है कि यदि पूर्व किसी मार्गदर्शन का है, तो आज के बड़े आंकड़ों को निकट भविष्य में ऐसा नहीं माना जाएगा।[88]



बिग डेटा नमूनाकरण

बिग डेटा सेट के बारे में पूछा जाने वाला एक शोध प्रश्न यह है कि क्या डेटा के गुणों के बारे में कुछ निष्कर्ष निकालने के लिए पूर्ण डेटा को देखना आवश्यक है या यदि प्रतिदर्श पर्याप्त है। बिग डेटा नाम में ही आकार से संबंधित एक शब्द होता है और यह बिग डेटा की एक महत्वपूर्ण विशेषता है। लेकिन नमूनाकरण (सांख्यिकी) संपूर्ण जनसंख्या की विशेषताओं का अनुमान लगाने के लिए बिग डेटा सेट के अंदर से सही डेटा बिंदुओं के चयन को सक्षम बनाता है। विभिन्न प्रकार के संवेदी डेटा जैसे ध्वनिकी, कंपन, दबाव, करंट, वोल्टेज और नियंत्रक डेटा के निर्माण में कम समय के अंतराल पर उपलब्ध होते हैं। डाउनटाइम की भविष्यवाणी करने के लिए सभी डेटा को देखना आवश्यक नहीं हो सकता है लेकिन एक प्रतिदर्श पर्याप्त हो सकता है। बिग डेटा को विभिन्न डेटा बिंदु श्रेणियों जैसे कि जनसांख्यिकीय, मनोवैज्ञानिक, व्यवहारिक और विनिमय संबंधी डेटा द्वारा नष्ट किया जा सकता है। डेटा बिंदुओं के बड़े सेट के साथ, विपणक अधिक रणनीतिक लक्ष्यीकरण के लिए उपभोक्ताओं के अधिक अनुकूलित भाग बनाने और उपयोग करने में सक्षम हैं।

बिग डेटा के लिए प्रतिदर्शकरण एल्गोरिदम में कुछ काम किया गया है। ट्विटर डेटा के नमूने के लिए एक सैद्धांतिक सूत्रीकरण विकसित किया गया है।[182]


समालोचना

बिग डेटा प्रतिमान की समालोचना दो रूपों में आती है: वे जो स्वयं दृष्टिकोण के निहितार्थ पर सवाल करती हैं, और वे जो वर्तमान में किए जाने वाले तरीके पर सवाल करती हैं।[183] इस समीक्षा का एक दृष्टिकोण महत्वपूर्ण डेटा अध्ययनो का क्षेत्र है।

बिग डेटा प्रतिमान की समीक्षा

एक महत्वपूर्ण समस्या यह है कि हम अंतर्निहित अनुभवजन्य सूक्ष्म-प्रक्रियाओं के बारे में अधिक नहीं जानते हैं जो बिग डेटा की [से] विशिष्ट नेटवर्क विशेषताओं के उद्भव की ओर ले जाती हैं।[24]अपनी समालोचना में, स्निजडर्स, मैटज़ैट, और उल्फ-डिट्रिच रिप्स बताते हैं कि प्रायः गणितीय गुणों के बारे में बहुत प्रबल धारणाएं बनाई जाती हैं जो सूक्ष्म प्रक्रियाओं के स्तर पर वास्तव में क्या हो रहा है, यह प्रतिबिंबित नहीं कर सकता है। मार्क ग्राहम ने क्रिस एंडरसन (लेखक) के इस दावे पर व्यापक समीक्षा की है कि बिग डेटा सिद्धांत के अंत का संकेत देगा:[184] विशेष रूप से इस धारणा पर ध्यान केंद्रित करते हुए कि बिग डेटा को सदैव उनके सामाजिक, आर्थिक और राजनीतिक संदर्भों में प्रासंगिक होना चाहिए।[185] तथापि कंपनियां आपूर्तिकर्ताओं और ग्राहकों से जानकारी स्ट्रीमिंग से अंतर्दृष्टि प्राप्त करने के लिए आठ और नौ अंकों का योग का निवेश करती हैं, लेकिन 40% से कम कर्मचारियों के पास ऐसा करने के लिए पर्याप्त परिपक्व प्रक्रियाएं और सक्षम हैं। हार्वर्ड व्यापार की समीक्षा में एक लेख के अनुसार, इस अंतर्दृष्टि की कमी को दूर करने के लिए, बिग डेटा, चाहे कितना व्यापक या अच्छी तरह से विश्लेषण किया गया हो, बड़े निर्णय से पूरक होना चाहिए।[186]

इसी क्रम में, यह बताया गया है कि बिग डेटा के विश्लेषण के आधार पर निर्णय अनिवार्य रूप से विश्व द्वारा सूचित किए जाते हैं जैसा कि पूर्व में था, या, सबसे अच्छा, जैसा कि वर्तमान में है।[66] पिछले अनुभवों पर बड़ी संख्या में डेटा द्वारा पोषित, एल्गोरिदम भविष्य के विकास की भविष्यवाणी कर सकते हैं यदि भविष्य पूर्व के समान है।[187] यदि सिस्टम की भविष्य की गतिशीलता परिवर्तित हो जाती है (यदि यह एक स्थिर प्रक्रिया नहीं है), तो पूर्व भविष्य के बारे में बहुत कम कह सकता है। बदलते परिवेश में भविष्यवाणियां करने के लिए, गतिशील प्रणालियों की गहन समझ होना आवश्यक होगा, जिसके लिए सिद्धांत की आवश्यकता होती है।[187] इस समालोचना की प्रतिक्रिया के रूप में एलेमनी ओलिवर और वायरे ने उपभोक्ताओं के डिजिटल अंशों के संदर्भ में लाने और नए सिद्धांतों को उभरने के लिए अनुसंधान प्रक्रिया में पहले चरण के रूप में अपघटन का उपयोग करने का सुझाव दिया।[188] इसके अतिरिक्त, कंप्यूटर सिमुलेशन, जैसे एजेंट-आधारित मॉडल[66] और जटिल प्रणालियों के साथ बड़े डेटा दृष्टिकोण को संयोजित करने का सुझाव दिया गया है। कंप्यूटर सिमुलेशन के माध्यम से अज्ञात भविष्य के परिदृश्यों की सामाजिक जटिलताओं के परिणाम की भविष्यवाणी करने में एजेंट-आधारित मॉडल शीघ्रता से अच्छे हो रहे हैं जो पारस्परिक रूप से अन्योन्याश्रित एल्गोरिदम के संग्रह पर आधारित हैं।[189][190] अंत में, बहुभिन्नरूपी तरीकों का उपयोग जो डेटा की गुप्त संरचना की जांच करता है, जैसे कि कारक विश्लेषण और क्लस्टर विश्लेषण, विश्लेषणात्मक दृष्टिकोण के रूप में उपयोगी प्रमाणित हुए हैं जो द्वि-चर दृष्टिकोणों (जैसे आकस्मिक तालिकाओं) से अधिक जाते हैं जो सामान्य रूप से छोटे डेटा सेट के साथ नियोजित होते हैं।

स्वास्थ्य और जीव विज्ञान में पारंपरिक वैज्ञानिक दृष्टिकोण प्रयोग पर आधारित हैं। इन दृष्टिकोणों के लिए, सीमित कारक प्रासंगिक डेटा है जो प्रारंभिक परिकल्पना की पुष्टि या खंडन कर सकता है।[191] जीवविज्ञान में अब एक नई अभिधारणा स्वीकार की जाती है: पूर्व परिकल्पना के बिना बड़ी मात्रा में डेटा (ओमिक्स ) द्वारा प्रदान की गई जानकारी पूरक है और कभी-कभी प्रयोग के आधार पर पारंपरिक दृष्टिकोणों के लिए आवश्यक है।[192][193] बड़े पैमाने पर दृष्टिकोण में यह सीमित कारक है जो डेटा की व्याख्या करने के लिए एक प्रासंगिक परिकल्पना का निर्माण है।[194] जांच तर्क को प्रतिवर्त कर दिया गया है और प्रवेश की सीमा (विज्ञान और दर्शनशास्त्र की निन्दा, सी. डी. ब्रॉड, 1926) पर विचार किया जाना है।[citation needed]

उपभोक्ता गोपनीयता अधिवक्ता व्यक्तिगत रूप से पहचान योग्य जानकारी के बढ़ते भंडारण और एकीकरण द्वारा प्रस्तुत गोपनीयता के जोखिम के बारे में चिंतित हैं; विशेषज्ञ पैनल ने गोपनीयता की अपेक्षाओं के अनुरूप अभ्यास करने के लिए विभिन्न नीतिगत सिफारिशें जारी की हैं।[195] मीडिया, कंपनियों और यहां तक ​​कि सरकार द्वारा कई स्थितियों में बिग डेटा के दुरुपयोग ने समाज को धारण करने वाली लगभग हर मूलभूत संस्था में विश्वास को समाप्त करने की स्वीकृति दी है।[196]

नायेफ अल-रोधन का तर्क है कि बिग डेटा और विशाल निगमों के संदर्भ में व्यक्तिगत स्वतंत्रता की रक्षा के लिए एक नए प्रकार के सामाजिक अनुबंध की आवश्यकता होगी, जो कि बड़ी मात्रा में जानकारी रखते हैं, और यह कि बिग डेटा के उपयोग की सर्वेक्षण की जानी चाहिए और इसे राष्ट्रीय और अंतरराष्ट्रीय स्तर पर अधिकतम विनियमित किया जाना चाहिए।[197] बरोकास और निसानबाम का तर्क है कि व्यक्तिगत उपयोगकर्ताओं की सुरक्षा का एक तरीका यह है कि किस प्रकार की जानकारी एकत्र की जा रही है, किसके साथ इसे साझा किया जाता है, किन बाधाओं के अंतर्गत और किन उद्देश्यों के लिए सूचित किया जाता है।[198]


वी मॉडल की समीक्षा

बिग डेटा का वी मॉडल संबंधित है क्योंकि यह कम्प्यूटेशनल विस्‍तार क्षमता के आसपास केंद्रित है और सूचना की धारणा और समझ के आसपास हानि की कमी है। इसने संज्ञानात्मक बिग डेटा के रूपरेखा को उत्पन्न किया, जो बिग डेटा एप्लिकेशन की विशेषता है:[199]

  • डेटा पूर्णता: डेटा से गैर-स्पष्ट की समझ
  • डेटा सहसंबंध, कार्य-कारण और पूर्वानुमेयता: पूर्वानुमेयता प्राप्त करने के लिए कार्य-कारण (कॉसलिटी) आवश्यकता नहीं है
  • स्पष्टीकरण और व्याख्यात्मकता: मनुष्य जो कुछ भी समझते हैं उसे समझने और स्वीकार करने की इच्छा रखते हैं, जहां एल्गोरिदम इसका सामना नहीं कर पाते हैं
  • स्वचालित निर्णय लेने का स्तर: एल्गोरिदम जो स्वचालित निर्णय लेने और एल्गोरिथम स्व-शिक्षण का समर्थन करते हैं

नवीनता की समीक्षा

शताब्दी से भी अधिक समय से कंप्यूटिंग मशीनों द्वारा बिग डेटा सेट का विश्लेषण किया गया है, जिसमें अंतरराष्ट्रीय व्यवसाय मशीन की पंच-कार्ड मशीनों द्वारा किए गए अमेरिकी जनगणना विश्लेषण सम्मिलित हैं, जो पूरे महाद्वीप में आबादी के साधनों और भिन्नताओं सहित आँकड़ों की गणना करते हैं। हाल के दशकों में, सीईआरएन जैसे विज्ञान प्रयोगों ने वर्तमान व्यवसायिक बिग डेटा के समान पैमाने पर डेटा का उत्पादन किया है। हालांकि, विज्ञान के प्रयोगों ने अपने डेटा का विश्लेषण करने के लिए विशिष्ट कस्टम-निर्मित उच्च-प्रदर्शन कंप्यूटिंग (सुपर-कंप्यूटिंग) क्लस्टर और ग्रिड का उपयोग किया है, अतिरिक्त वर्तमान व्यवसायिक संचार के रूप में सस्ते कमोडिटी कंप्यूटर के क्लाउड के अतिरिक्त, संस्कृति और प्रौद्योगिकी विस्तार दोनों में अंतर को दर्शाता है।

बिग डेटा कार्यान्वयन की समीक्षा

उल्फ-डाइट्रिच रिप्स और उवे मातज़त ने 2014 में लिखा था कि वैज्ञानिक अनुसंधान में बिग डेटा एक सनक बन गया था।[166] शोधकर्ता दानह बॉयड ने विज्ञान में बिग डेटा के उपयोग के बारे में चिंता व्यक्त की है, जैसे डेटा की भारी मात्रा को संभालने के लिए बहुत अधिक चिंतित होने के कारण नमूनाकरण (सांख्यिकी) चयन करने जैसे सिद्धांतों की उपेक्षा करना।[200] यह दृष्टिकोण उन परिणामों को उत्पन्न कर सकता है जिनमें एक या दूसरे तरीके से एक पूर्वाग्रह (सांख्यिकी) है।[201] विषम डेटा संसाधनों में एकीकरण - कुछ जिन्हें बिग डेटा माना जा सकता है और अन्य नहीं - दुर्जेय तार्किक और साथ ही विश्लेषणात्मक चुनौतियों को प्रस्तुत करते हैं, लेकिन कई शोधकर्ताओं का तर्क है कि इस तरह के एकीकरण विज्ञान में सबसे आशाजनक नई सीमाओं का प्रतिनिधित्व करने की संभावना है।[202] आकर्षक लेख में बिग डेटा के लिए महत्वपूर्ण प्रश्न,[203] लेखक बिग डेटा को पौराणिक कथाओं का एक हिस्सा कहते हैं: बिग डेटा सेट सच्चाई, निष्पक्षता और परिशुद्धता की आभा के साथ बुद्धि और ज्ञान [...] का एक उच्च रूप प्रदान करते हैं। बिग डेटा के उपयोगकर्ता प्रायः संख्याओं की विशाल मात्रा में नष्ट हो जाते हैं, और बिग डेटा के साथ काम करना अभी भी व्यक्तिपरक है, और यह जो परिमाणित करता है, वह अनिवार्य रूप से वस्तुगत सत्य पर एक निकटतम दावा नहीं करता है।[203] बीआई डोमेन में हाल के विकास, जैसे कि सक्रिय रिपोर्टिंग विशेष रूप से बिग डेटा की उपयोगिता में संशोधन को प्रयोजन करती है, बड़ी संरचनाएं अनुकरण सहसंबंधों से भरी होती हैं[204] या तो गैर-कारण संयोग (वास्तव में बड़ी संख्या का नियम), बड़ी यादृच्छिकता की प्रकृति[205][206] (रामसे सिद्धांत), या गैर-सम्मिलित कारकों के स्थिति के कारण संख्या के बड़े डेटाबेस बनाने के प्रारम्भिक प्रयोगकर्ताओं ने "स्वयं के लिए बोलते हैं" और वैज्ञानिक पद्धति में क्रांतिकारी परिवर्तन किया, इस पर सवाल किया गया है।[207] कैथरीन टकर ने बिग डेटा के प्रतिवेश प्रचार करने की ओर संकेत किया है, लिखते हुए, बिग डेटा मान होने की संभावना नहीं है। लेख समझाता है: कई संदर्भ जहां डेटा इसे संसाधित करने के लिए प्रतिभा को बनाए रखने की कीमत के सापेक्ष सस्ता है, यह सुझाव देता है कि एक स्थिर के लिए मूल्य बनाने में डेटा की तुलना में प्रसंस्करण कुशलता अधिक महत्वपूर्ण हैं।[208]

छोटे डेटा सेट के विश्लेषण की तुलना में बिग डेटा विश्लेषण प्रायः उथला होता है।[209] कई बड़ी डेटा परियोजनाओं में, कोई बिग डेटा विश्लेषण नहीं हो रहा है, लेकिन चुनौती डेटा पूर्व-प्रसंस्करण के हिस्से को निकालना, परिवर्तित करना, लोड करना है।[209]

बिग डेटा एक प्रचलित शब्द और एक अस्पष्ट शब्द है,[210][211] लेकिन साथ ही एक मनोग्रस्ति[211] उद्यमियों, सलाहकारों, वैज्ञानिकों और मीडिया के साथ बिग डेटा प्रदर्शन जैसे कि गूगल फ़्लू ट्रेंड हाल के वर्षों में अच्छी भविष्यवाणियां देने में विफल रहा, फ़्लू के प्रकोप को दो गुना बढ़ा दिया। इसी तरह, ट्विटर पर आधारित अकादमी पुरस्कार और भविष्यवाणियां प्रायः लक्ष्य से अधिक दूर थीं। बिग डेटा प्रायः छोटे डेटा के समान ही चुनौतियाँ प्रस्तुत करता है; अधिक डेटा जोड़ने से पक्षपात की समस्या का समाधान नहीं होता है, लेकिन अन्य समस्याओं पर जोर दिया जा सकता है। विशेष रूप से डेटा स्रोत जैसे कि ट्विटर समग्र जनसंख्या का प्रतिनिधित्व नहीं करते हैं, और ऐसे स्रोतों से निकाले गए परिणाम गलत निष्कर्ष निकाल सकते हैं। गूगल अनुवाद—जो टेक्स्ट के बिग डेटा सांख्यिकीय विश्लेषण पर आधारित है—वेब पेजों के अनुवाद में अच्छा काम करता है। हालाँकि, विशिष्ट प्रक्षेत्र से परिणाम प्रभावशाली तरीके से विषम हो सकते हैं। दूसरी ओर, बिग डेटा नई समस्याओं को भी प्रस्तुत कर सकता है, जैसे कि कई तुलनाओं की समस्या: एक साथ परिकल्पनाओं के एक बड़े सेट का परीक्षण करने से कई गलत परिणाम उत्पन्न होने की संभावना है जो गलती से महत्वपूर्ण दिखाई देते हैं। आयोनिडिस ने तर्क दिया कि अधिकांश प्रकाशित शोध निष्कर्ष असत्य हैं[212] अनिवार्य रूप से एक ही प्रभाव के कारण: जब कई वैज्ञानिक समूह और शोधकर्ता प्रत्येक कई प्रयोग करते हैं (अर्थात बड़ी मात्रा में वैज्ञानिक डेटा को संसाधित करते हैं; हालांकि बड़ी डेटा तकनीक के साथ नहीं), एक महत्वपूर्ण परिणाम के गलत होने की संभावना शीघ्रता से बढ़ती है - इससे भी अधिक, जब सिर्फ सकारात्मक परिणाम प्रकाशित होते हैं।

इसके अतिरिक्त, बिग डेटा विश्लेषिकी के परिणाम सिर्फ उतने ही अच्छे होते हैं जितने मॉडल पर वे समर्पित होते हैं। एक उदाहरण में, बिग डेटा ने 2016 के अमेरिकी राष्ट्रपति निर्वाचन के के परिणामों की अलग-अलग सफलता के साथ भविष्यवाणी करने के प्रयास में भाग लिया।[213]

बिग डेटा पुलिसिंग और सर्वेक्षण की समीक्षा

संयुक्त राज्य अमेरिका में कानून प्रवर्तन और निगमों जैसी संस्थाओं द्वारा पुलिसिंग (पुलिसव्यवस्था) और सर्विलांस (सर्वेक्षण) में बिग डेटा का उपयोग किया गया है।[214] पुलिसिंग के पारंपरिक तरीकों की तुलना में डेटा-आधारित सर्वेक्षण की प्रकृति कम दिखाई देने के कारण, बिग डेटा पुलिसिंग पर आपत्तियां उत्पन्न होने की संभावना कम होती है। सारा ब्रायन की बिग डेटा सर्वेक्षण: पुलिसिंग स्थिति के अनुसार,[215] बिग डेटा पुलिसिंग सम्मिलित सामाजिक असमानता को तीन तरीकों से पुन: प्रस्तुत कर सकती है:

  • एक गणितीय और इसलिए निष्पक्ष एल्गोरिथम के समर्थन का उपयोग करके लोगों को अधिक सुरक्षा में रखना
  • उन लोगों के क्षेत्र और संख्या में वृद्धि करना जो कानून प्रवर्तन अनुसरण के अधीन हैं और संयुक्त राज्य अमेरिका की आपराधिक न्याय प्रणाली में सम्मिलित नस्लीय अतिप्रतिनिधित्व को बढ़ा रहे हैं
  • समाज के सदस्यों को उन संस्थानों के साथ परस्पर क्रिया छोड़ने के लिए प्रोत्साहित करना जो एक डिजिटल अनुरेख बनाते हैं, इस प्रकार सामाजिक समावेशन में बाधाएं उत्पन्न करते हैं

यदि इन संभावित समस्याओं को सही या विनियमित नहीं किया जाता है, तो बिग डेटा पुलिसिंग के प्रभाव सामाजिक वर्गीकरण को आकार देना निरंतर रख सकते हैं। बिग डेटा पुलिसिंग के अंतर्विवेकशील उपयोग से व्यक्तिगत स्तर के पक्षपात को संस्थागत पक्षपात बनने से रोका जा सकता है, अतः ब्राएन भी टिप्पणी करते हैं।

यह भी देखें

कंपनियों और उपकरणों की सूची के लिए, यह भी देखें: श्रेणी:बिग डेटा

संदर्भ

  1. Hilbert, Martin; López, Priscila (2011). "स्टोर करने, संवाद करने और सूचना की गणना करने की विश्व की तकनीकी क्षमता". Science. 332 (6025): 60–65. Bibcode:2011Sci...332...60H. doi:10.1126/science.1200970. PMID 21310967. S2CID 206531385. Archived from the original on 14 April 2016. Retrieved 13 April 2016.
  2. Breur, Tom (July 2016). "सांख्यिकीय शक्ति विश्लेषण और सामाजिक विज्ञान में समकालीन "संकट"". Journal of Marketing Analytics. London, England: Palgrave Macmillan. 4 (2–3): 61–65. doi:10.1057/s41270-016-0001-3. ISSN 2050-3318.
  3. Mahdavi-Damghani, Babak (2019). Data-Driven Models & Mathematical Finance: Apposition or Opposition? (DPhil thesis). Oxford, England: University of Oxford. p. 21. SSRN 3521933.
  4. Jump up to: 4.0 4.1 "The 5 V's of big data". Watson Health Perspectives (in English). 2016-09-17. Archived from the original on 18 January 2021. Retrieved 2021-01-20.
  5. Cappa, Francesco; Oriani, Raffaele; Peruffo, Enzo; McCarthy, Ian (2021). "Big Data for Creating and Capturing Value in the Digitalized Environment: Unpacking the Effects of Volume, Variety, and Veracity on Firm Performance*". Journal of Product Innovation Management (in English). 38 (1): 49–67. doi:10.1111/jpim.12545. ISSN 0737-6782. S2CID 225209179.
  6. boyd, dana; Crawford, Kate (21 September 2011). "बिग डेटा के लिए छह प्रोवोकेशंस". Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society. doi:10.2139/ssrn.1926431. S2CID 148610111. Archived from the original on 28 February 2020. Retrieved 12 July 2019.
  7. Jump up to: 7.0 7.1 7.2 7.3 7.4 7.5 7.6 "डेटा, डेटा हर जगह". The Economist. 25 February 2010. Archived from the original on 27 May 2018. Retrieved 9 December 2012.
  8. "सामुदायिक चतुराई की आवश्यकता है". Nature. 455 (7209): 1. September 2008. Bibcode:2008Natur.455....1.. doi:10.1038/455001a. PMID 18769385.
  9. Reichman OJ, Jones MB, Schildhauer MP (February 2011). "पारिस्थितिकी में खुले डेटा की चुनौतियाँ और अवसर". Science. 331 (6018): 703–5. Bibcode:2011Sci...331..703R. doi:10.1126/science.1197962. PMID 21311007. S2CID 22686503. Archived from the original on 19 October 2020. Retrieved 12 July 2019.
  10. Hellerstein, Joe (9 November 2008). "बड़े डेटा के युग में समानांतर प्रोग्रामिंग". Gigaom Blog. Archived from the original on 7 October 2012. Retrieved 21 April 2010.
  11. Segaran, Toby; Hammerbacher, Jeff (2009). Beautiful Data: The Stories Behind Elegant Data Solutions. O'Reilly Media. p. 257. ISBN 978-0-596-15711-1. Archived from the original on 12 May 2016. Retrieved 31 December 2015.
  12. Jump up to: 12.0 12.1 Hilbert M, López P (April 2011). "जानकारी को स्टोर करने, संचार करने और गणना करने की दुनिया की तकनीकी क्षमता" (PDF). Science. 332 (6025): 60–5. Bibcode:2011Sci...332...60H. doi:10.1126/science.1200970. PMID 21310967. S2CID 206531385. Archived (PDF) from the original on 19 August 2019. Retrieved 11 May 2019.
  13. "IBM What is big data? – Bringing big data to the enterprise". ibm.com. Archived from the original on 24 August 2013. Retrieved 26 August 2013.
  14. Reinsel, David; Gantz, John; Rydning, John (13 April 2017). "Data Age 2025: The Evolution of Data to Life-Critical" (PDF). seagate.com. Framingham, MA, US: International Data Corporation. Archived (PDF) from the original on 8 December 2017. Retrieved 2 November 2017.
  15. "Global Spending on Big Data and Analytics Solutions Will Reach $215.7 Billion in 2021, According to a New IDC Spending Guide".
  16. "Big data and business analytics revenue 2022".
  17. "Global big data industry market size 2011-2027".
  18. Jump up to: 18.0 18.1 18.2 Big data: The next frontier for innovation, competition, and productivity McKinsey Global Institute May 2011
  19. Oracle and FSN, "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity" Archived 4 August 2013 at the Wayback Machine, December 2012
  20. Jacobs, A. (6 July 2009). "बिग डेटा की पैथोलॉजी". ACMQueue. Archived from the original on 8 December 2015. Retrieved 21 April 2010.
  21. Magoulas, Roger; Lorica, Ben (February 2009). "बिग डेटा का परिचय". Release 2.0. Sebastopol CA: O'Reilly Media (11). Archived from the original on 2 November 2021. Retrieved 26 February 2021.
  22. John R. Mashey (25 April 1998). "बिग डेटा ... और इन्फ्रास्ट्रेस की अगली लहर" (PDF). Slides from invited talk. Usenix. Archived (PDF) from the original on 12 October 2016. Retrieved 28 September 2016.
  23. Steve Lohr (1 February 2013). "The Origins of 'Big Data': An Etymological Detective Story". The New York Times. Archived from the original on 6 March 2016. Retrieved 28 September 2016.
  24. Jump up to: 24.0 24.1 Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'Big Data': Big gaps of knowledge in the field of Internet". International Journal of Internet Science. 7: 1–5. Archived from the original on 23 November 2019. Retrieved 13 April 2013.
  25. Dedić, N.; Stanier, C. (2017). "Towards Differentiating Business Intelligence, Big Data, Data Analytics and Knowledge Discovery". उद्यम सूचना प्रणाली प्रबंधन और इंजीनियरिंग में नवाचार. Lecture Notes in Business Information Processing. Vol. 285. Berlin; Heidelberg: Springer International Publishing. pp. 114–122. doi:10.1007/978-3-319-58801-8_10. ISBN 978-3-319-58800-1. ISSN 1865-1356. OCLC 909580101. Archived from the original on 27 November 2020. Retrieved 7 September 2019.
  26. Everts, Sarah (2016). "बहंत अधिक जानकारी". Distillations. Vol. 2, no. 2. pp. 26–33. Archived from the original on 3 April 2019. Retrieved 22 March 2018.
  27. Ibrahim; Targio Hashem, Abaker; Yaqoob, Ibrar; Badrul Anuar, Nor; Mokhtar, Salimah; Gani, Abdullah; Ullah Khan, Samee (2015). "big data" on cloud computing: Review and open research issues". Information Systems. 47: 98–115. doi:10.1016/j.is.2014.07.006.
  28. Grimes, Seth. "Big Data: Avoid 'Wanna V' Confusion". InformationWeek. Archived from the original on 23 December 2015. Retrieved 5 January 2016.
  29. Fox, Charles (25 March 2018). परिवहन के लिए डेटा विज्ञान. Springer Textbooks in Earth Sciences, Geography and Environment. Springer. ISBN 9783319729527. Archived from the original on 1 April 2018. Retrieved 31 March 2018.
  30. Kitchin, Rob; McArdle, Gavin (2016). "What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets". Big Data & Society. 3: 1–10. doi:10.1177/2053951716631130. S2CID 55539845.
  31. Balazka, Dominik; Rodighiero, Dario (2020). "Big Data and the Little Big Bang: An Epistemological (R)evolution". Frontiers in Big Data. 3: 31. doi:10.3389/fdata.2020.00031. hdl:1721.1/128865. PMC 7931920. PMID 33693404.
  32. "बिग डेटा और एनालिटिक्स पर फोकस के साथ" (PDF). Bigdataparis.com. Archived from the original (PDF) on 25 February 2021. Retrieved 8 October 2017.
  33. Jump up to: 33.0 33.1 Billings S.A. "Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains". Wiley, 2013
  34. "le Blog ANDSI » DSI Big Data". Andsi.fr. Archived from the original on 10 October 2017. Retrieved 8 October 2017.
  35. Les Echos (3 April 2013). "Les Echos – Big Data car Low-Density Data ? La faible densité en information comme facteur discriminant – Archives". Lesechos.fr. Archived from the original on 30 April 2014. Retrieved 8 October 2017.
  36. Sagiroglu, Seref (2013). "Big data: A review". 2013 International Conference on Collaboration Technologies and Systems (CTS): 42–47. doi:10.1109/CTS.2013.6567202. ISBN 978-1-4673-6404-1. S2CID 5724608.
  37. Kitchin, Rob; McArdle, Gavin (17 February 2016). "What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets". Big Data & Society. 3 (1): 205395171663113. doi:10.1177/2053951716631130.
  38. Onay, Ceylan; Öztürk, Elif (2018). "बिग डेटा के युग में क्रेडिट स्कोरिंग अनुसंधान की समीक्षा". Journal of Financial Regulation and Compliance. 26 (3): 382–405. doi:10.1108/JFRC-06-2017-0054. S2CID 158895306.
  39. Big Data's Fourth V
  40. "Measuring the Business Value of Big Data | IBM Big Data & Analytics Hub". www.ibmbigdatahub.com. Archived from the original on 28 January 2021. Retrieved 2021-01-20.
  41. Kitchin, Rob; McArdle, Gavin (5 January 2016). "What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets". Big Data & Society (in English). 3 (1): 205395171663113. doi:10.1177/2053951716631130. ISSN 2053-9517.
  42. "Survey: Biggest Databases Approach 30 Terabytes". Eweek.com. 8 November 2003. Retrieved 8 October 2017.
  43. "LexisNexis To Buy Seisint For $775 Million". The Washington Post. Archived from the original on 24 July 2008. Retrieved 15 July 2004.
  44. "वाशिंगटन पोस्ट". The Washington Post. Archived from the original on 19 October 2016. Retrieved 24 August 2017.
  45. Bertolucci, Jeff "Hadoop: From Experiment To Leading Big Data Platform" Archived 23 November 2020 at the Wayback Machine, "Information Week", 2013. Retrieved on 14 November 2013.
  46. Webster, John. "MapReduce: Simplified Data Processing on Large Clusters" Archived 14 December 2009 at the Wayback Machine, "Search Storage", 2004. Retrieved on 25 March 2013.
  47. "बिग डेटा समाधान की पेशकश". MIKE2.0. Archived from the original on 16 March 2013. Retrieved 8 December 2013.
  48. "बिग डेटा परिभाषा". MIKE2.0. Archived from the original on 25 September 2018. Retrieved 9 March 2013.
  49. Boja, C; Pocovnicu, A; Bătăgan, L. (2012). "बड़े डेटा के लिए वितरित समानांतर वास्तुकला". Informatica Economica. 16 (2): 116–127.
  50. "बिग डेटा लेक के साथ प्रमुख व्यावसायिक चुनौतियों का समाधान" (PDF). Hcltech.com. August 2014. Archived (PDF) from the original on 3 July 2017. Retrieved 8 October 2017.
  51. "MapReduce चौखटे की दोष सहिष्णुता के परीक्षण के लिए विधि" (PDF). Computer Networks. 2015. Archived (PDF) from the original on 22 July 2016. Retrieved 13 April 2016.
  52. Jump up to: 52.0 52.1 Manyika, James; Chui, Michael; Bughin, Jaques; Brown, Brad; Dobbs, Richard; Roxburgh, Charles; Byers, Angela Hung (May 2011). "Big Data: The next frontier for innovation, competition, and productivity" (PDF). McKinsey Global Institute. Archived (PDF) from the original on 25 July 2021. Retrieved 22 May 2021. {{cite journal}}: Cite journal requires |journal= (help)
  53. "टेन्सर-आधारित संगणना और मॉडलिंग में भविष्य की दिशाएँ" (PDF). May 2009. Archived (PDF) from the original on 17 April 2018. Retrieved 4 January 2013.
  54. Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "टेन्सर डेटा के लिए मल्टीलीनियर सबस्पेस लर्निंग का एक सर्वेक्षण" (PDF). Pattern Recognition. 44 (7): 1540–1551. Bibcode:2011PatRe..44.1540L. doi:10.1016/j.patcog.2011.01.004. Archived (PDF) from the original on 10 July 2019. Retrieved 21 January 2013.
  55. Pllana, Sabri; Janciak, Ivan; Brezany, Peter; Wöhrer, Alexander (2016). "A Survey of the State of the Art in Data Mining and Integration Query Languages". 2011 14th International Conference on Network-Based Information Systems. pp. 341–348. arXiv:1603.01113. Bibcode:2016arXiv160301113P. doi:10.1109/NBiS.2011.58. ISBN 978-1-4577-0789-6. S2CID 9285984. {{cite book}}: |website= ignored (help)
  56. Wang, Yandong; Goldstone, Robin; Yu, Weikuan; Wang, Teng (October 2014). "Characterization and Optimization of Memory-Resident MapReduce on HPC Systems". 2014 IEEE 28th International Parallel and Distributed Processing Symposium. IEEE. pp. 799–808. doi:10.1109/IPDPS.2014.87. ISBN 978-1-4799-3800-1. S2CID 11157612.
  57. L'Heureux, A.; Grolinger, K.; Elyamany, H. F.; Capretz, M. A. M. (2017). "Machine Learning With Big Data: Challenges and Approaches". IEEE Access. 5: 7776–7797. doi:10.1109/ACCESS.2017.2696365. ISSN 2169-3536.
  58. Monash, Curt (30 April 2009). "ईबे के दो विशाल डेटा वेयरहाउस". Archived from the original on 31 March 2019. Retrieved 11 November 2010.
    Monash, Curt (6 October 2010). "eBay followup – Greenplum out, Teradata > 10 petabytes, Hadoop has some value, and more". Archived from the original on 31 March 2019. Retrieved 11 November 2010.
  59. "बड़े डेटा का विश्लेषण करने के लिए टोपोलॉजिकल डेटा विश्लेषण का उपयोग कैसे किया जाता है, इस पर संसाधन". Ayasdi. Archived from the original on 3 March 2013. Retrieved 5 March 2013.
  60. CNET News (1 April 2011). "स्टोरेज एरिया नेटवर्क को लागू करने की आवश्यकता नहीं है". Archived from the original on 18 October 2013. Retrieved 17 April 2013.
  61. Hilbert, Martin (2014). "What is the Content of the World's Technologically Mediated Information and Communication Capacity: How Much Text, Image, Audio, and Video?". The Information Society. 30 (2): 127–143. doi:10.1080/01972243.2013.873748. S2CID 45759014. Archived from the original on 24 June 2020. Retrieved 12 July 2019.
  62. Rajpurohit, Anmol (11 July 2014). "Interview: Amy Gershkoff, Director of Customer Analytics & Insights, eBay on How to Design Custom In-House BI Tools". KDnuggets. Archived from the original on 14 July 2014. Retrieved 14 July 2014. आम तौर पर, मुझे लगता है कि ऑफ-द-शेल्फ व्यापार खुफिया उपकरण उन ग्राहकों की ज़रूरतों को पूरा नहीं करते हैं जो अपने डेटा से कस्टम अंतर्दृष्टि प्राप्त करना चाहते हैं। इसलिए, मजबूत तकनीकी प्रतिभा तक पहुंच वाले मध्यम से बड़े संगठनों के लिए, मैं आमतौर पर कस्टम, इन-हाउस समाधान बनाने की सलाह देता हूं।
  63. "The Government and big data: Use, problems and potential". Computerworld. 21 March 2012. Archived from the original on 15 September 2016. Retrieved 12 September 2016.
  64. "White Paper: Big Data for Development: Opportunities & Challenges (2012) – United Nations Global Pulse". Unglobalpulse.org. Archived from the original on 1 June 2020. Retrieved 13 April 2016.
  65. "WEF (World Economic Forum), & Vital Wave Consulting. (2012). Big Data, Big Impact: New Possibilities for International Development". World Economic Forum. Archived from the original on 1 June 2020. Retrieved 24 August 2012.
  66. Jump up to: 66.0 66.1 66.2 66.3 66.4 Hilbert, M. (2016). Big Data for Development: A Review of Promises and Challenges. Development Policy Review, 34(1), 135–174. https://doi.org/10.1111/dpr.12142 Archived 1 June 2022 at the Wayback Machine free access: https://www.martinhilbert.net/big-data-for-development/ Archived 21 April 2021 at the Wayback Machine
  67. "ऐलेना क्वोचको, बिग डेटा के बारे में बात करने के चार तरीके (विकास श्रृंखला के लिए सूचना संचार प्रौद्योगिकी)". worldbank.org. 4 December 2012. Archived from the original on 15 December 2012. Retrieved 30 May 2012.
  68. "Daniele Medri: Big Data & Business: An on-going revolution". Statistics Views. 21 October 2013. Archived from the original on 17 June 2015. Retrieved 21 June 2015.
  69. Tobias Knobloch and Julia Manske (11 January 2016). "डेटा का जिम्मेदार उपयोग". D+C, Development and Cooperation. Archived from the original on 13 January 2017. Retrieved 11 January 2017.
  70. Mann, S., & Hilbert, M. (2020). AI4D: Artificial Intelligence for Development. International Journal of Communication, 14(0), 21. https://www.martinhilbert.net/ai4d-artificial-intelligence-for-development/ Archived 22 April 2021 at the Wayback Machine
  71. Blumenstock, J. E. (2016). Fighting poverty with data. Science, 353(6301), 753–754. https://doi.org/10.1126/science.aah5217 Archived 1 June 2022 at the Wayback Machine
  72. Blumenstock, J., Cadamuro, G., & On, R. (2015). Predicting poverty and wealth from mobile phone metadata. Science, 350(6264), 1073–1076. https://doi.org/10.1126/science.aac4420 Archived 1 June 2022 at the Wayback Machine
  73. Jean, N., Burke, M., Xie, M., Davis, W. M., Lobell, D. B., & Ermon, S. (2016). Combining satellite imagery and machine learning to predict poverty. Science, 353(6301), 790–794. https://doi.org/10.1126/science.aaf7894 Archived 1 June 2022 at the Wayback Machine
  74. Jump up to: 74.0 74.1 Hilbert, M., & Lu, K. (2020). The online job market trace in Latin America and the Caribbean (UN ECLAC LC/TS.2020/83; p. 79). United Nations Economic Commission for Latin America and the Caribbean. https://www.cepal.org/en/publications/45892-online-job-market-trace-latin-america-and-caribbean Archived 22 September 2020 at the Wayback Machine
  75. UN ECLAC, (United Nations Economic Commission for Latin America and the Caribbean). (2020). Tracking the digital footprint in Latin America and the Caribbean: Lessons learned from using big data to assess the digital economy (Productive Development, Gender Affairs LC/TS.2020/12; Documentos de Proyecto). United Nations ECLAC. https://repositorio.cepal.org/handle/11362/45484 Archived 18 September 2020 at the Wayback Machine
  76. Banerjee, Amitav; Chaudhury, Suprakash (2010). "Statistics without tears: Populations and samples". Industrial Psychiatry Journal. 19 (1): 60–65. doi:10.4103/0972-6748.77642. ISSN 0972-6748. PMC 3105563. PMID 21694795.
  77. Aldridge, Irene (2016). Real-Time Risk : What Investors Should Know about FinTech, High-Frequency Trading, and Flash Crashes. Steven Krawciw. Somerset: John Wiley & Sons, Incorporated. ISBN 978-1-119-31906-1. OCLC 972292212.
  78. Aldridge, Irene (2021). वित्त में बड़ा डेटा विज्ञान. Marco Avellaneda. Hoboken, New Jersey. ISBN 978-1-119-60297-2. OCLC 1184122216.{{cite book}}: CS1 maint: location missing publisher (link)
  79. Huser V, Cimino JJ (July 2016). "बिग डेटा के उपयोग के लिए आसन्न चुनौतियाँ". International Journal of Radiation Oncology, Biology, Physics. 95 (3): 890–894. doi:10.1016/j.ijrobp.2015.10.060. PMC 4860172. PMID 26797535.
  80. Sejdic, Ervin; Falk, Tiago H. (4 July 2018). बायोमेडिकल बिग डेटा के लिए सिग्नल प्रोसेसिंग और मशीन लर्निंग।. Sejdić, Ervin, Falk, Tiago H. [Place of publication not identified]. ISBN 9781351061216. OCLC 1044733829.{{cite book}}: CS1 maint: location missing publisher (link)
  81. Raghupathi W, Raghupathi V (December 2014). "Big data analytics in healthcare: promise and potential". Health Information Science and Systems. 2 (1): 3. doi:10.1186/2047-2501-2-3. PMC 4341817. PMID 25825667.
  82. Viceconti M, Hunter P, Hose R (July 2015). "Big data, big knowledge: big data for personalized healthcare" (PDF). IEEE Journal of Biomedical and Health Informatics. 19 (4): 1209–15. doi:10.1109/JBHI.2015.2406883. PMID 26218867. S2CID 14710821. Archived (PDF) from the original on 23 July 2018. Retrieved 21 September 2019.
  83. O'Donoghue, John; Herbert, John (1 October 2012). "Data Management Within mHealth Environments: Patient Sensors, Mobile Devices, and Databases". Journal of Data and Information Quality. 4 (1): 5:1–5:20. doi:10.1145/2378016.2378021. S2CID 2318649.
  84. Mirkes EM, Coats TJ, Levesley J, Gorban AN (August 2016). "Handling missing data in large healthcare dataset: A case study of unknown trauma outcomes". Computers in Biology and Medicine. 75: 203–16. arXiv:1604.00627. Bibcode:2016arXiv160400627M. doi:10.1016/j.compbiomed.2016.06.004. PMID 27318570. S2CID 5874067.
  85. Murdoch TB, Detsky AS (April 2013). "स्वास्थ्य देखभाल के लिए बड़े डेटा का अपरिहार्य अनुप्रयोग". JAMA. 309 (13): 1351–2. doi:10.1001/jama.2013.393. PMID 23549579.
  86. Vayena E, Salathé M, Madoff LC, Brownstein JS (February 2015). "सार्वजनिक स्वास्थ्य में बड़े डेटा की नैतिक चुनौतियाँ". PLOS Computational Biology. 11 (2): e1003904. Bibcode:2015PLSCB..11E3904V. doi:10.1371/journal.pcbi.1003904. PMC 4321985. PMID 25664461.
  87. Copeland, CS (Jul–Aug 2017). "डेटा ड्राइविंग डिस्कवरी" (PDF). Healthcare Journal of New Orleans: 22–27. Archived (PDF) from the original on 5 December 2019. Retrieved 5 December 2019.
  88. Jump up to: 88.0 88.1 Yanase J, Triantaphyllou E (2019). "A Systematic Survey of Computer-Aided Diagnosis in Medicine: Past and Present Developments". Expert Systems with Applications. 138: 112821. doi:10.1016/j.eswa.2019.112821. S2CID 199019309.
  89. Dong X, Bahroos N, Sadhu E, Jackson T, Chukhman M, Johnson R, Boyd A, Hynes D (2013). "बड़े पैमाने पर नैदानिक ​​सूचना विज्ञान अनुप्रयोगों के लिए Hadoop ढांचे का लाभ उठाएं". AMIA Joint Summits on Translational Science Proceedings. AMIA Joint Summits on Translational Science. 2013: 53. PMID 24303235. {{cite journal}}: zero width space character in |title= at position 24 (help)
  90. Clunie D (2013). "ब्रेस्ट टोमोसिंथेसिस डिजिटल इमेजिंग इंफ्रास्ट्रक्चर को चुनौती देता है". Archived from the original on 24 February 2021. Retrieved 24 July 2019. {{cite journal}}: Cite journal requires |journal= (help)
  91. Yanase J, Triantaphyllou E (2019). "मेडिसिन में कंप्यूटर एडेड डायग्नोसिस के भविष्य के लिए सात प्रमुख चुनौतियाँ". International Journal of Medical Informatics. 129: 413–422. doi:10.1016/j.ijmedinf.2019.06.017. PMID 31445285. S2CID 198287435.
  92. "Degrees in Big Data: Fad or Fast Track to Career Success". Forbes. Archived from the original on 3 March 2016. Retrieved 21 February 2016.
  93. "NY gets new boot camp for data scientists: It's free but harder to get into than Harvard". Venture Beat. Archived from the original on 15 February 2016. Retrieved 21 February 2016.
  94. Wedel, Michel; Kannan, PK (2016). "डेटा-समृद्ध वातावरण के लिए मार्केटिंग एनालिटिक्स". Journal of Marketing. 80 (6): 97–121. doi:10.1509/jm.15.0413. S2CID 168410284.
  95. Couldry, Nick; Turow, Joseph (2014). "Advertising, Big Data, and the Clearance of the Public Realm: Marketers' New Approaches to the Content Subsidy". International Journal of Communication. 8: 1710–1726.
  96. "क्यों डिजिटल विज्ञापन एजेंसियां ​​अधिग्रहण में चूसती हैं और एआई असिस्टेड अपग्रेड की सख्त जरूरत है". Ishti.org. 15 April 2018. Archived from the original on 12 February 2019. Retrieved 15 April 2018. {{cite web}}: zero width space character in |title= at position 33 (help)
  97. "Big data and analytics: C4 and Genius Digital". Ibc.org. Archived from the original on 8 October 2017. Retrieved 8 October 2017.
  98. Marshall Allen (17 July 2018). "Health Insurers Are Vacuuming Up Details About You – And It Could Raise Your Rates". www.propublica.org. Archived from the original on 21 July 2018. Retrieved 21 July 2018.
  99. "QuiO ने एक्सेंचर हेल्थटेक इनोवेशन चैलेंज का इनोवेशन चैंपियन नामित किया". Businesswire.com. 10 January 2017. Archived from the original on 22 March 2017. Retrieved 8 October 2017.
  100. "ऑपरेशनल टेक्नोलॉजी इनोवेशन के लिए एक सॉफ्टवेयर प्लेटफॉर्म" (PDF). Predix.com. Archived from the original (PDF) on 22 March 2017. Retrieved 8 October 2017.
  101. Z. Jenipher Wang (March 2017). "Big Data Driven Smart Transportation: the Underlying Story of IoT Transformed Mobility". Archived from the original on 4 July 2018. Retrieved 4 July 2018.
  102. "वह इंटरनेट ऑफ थिंग्स।". 22 June 2009. Archived from the original on 2 May 2013. Retrieved 29 December 2017.
  103. Jump up to: 103.0 103.1 Solnik, Ray. "The Time Has Come: Analytics Delivers for IT Operations". Data Center Journal. Archived from the original on 4 August 2016. Retrieved 21 June 2016.
  104. Josh Rogin (2 August 2018). "Ethnic cleansing makes a comeback – in China". No. Washington Post. Archived from the original on 31 March 2019. Retrieved 4 August 2018. Add to that the unprecedented security and surveillance state in Xinjiang, which includes all-encompassing monitoring based on identity cards, checkpoints, facial recognition and the collection of DNA from millions of individuals. The authorities feed all this data into an artificial-intelligence machine that rates people's loyalty to the Communist Party in order to control every aspect of their lives.
  105. "China: Big Data Fuels Crackdown in Minority Region: Predictive Policing Program Flags Individuals for Investigations, Detentions". hrw.org. Human Rights Watch. 26 February 2018. Archived from the original on 21 December 2019. Retrieved 4 August 2018.
  106. "Discipline and Punish: The Birth of China's Social-Credit System". The Nation. 23 January 2019. Archived from the original on 13 September 2019. Retrieved 8 August 2019.
  107. "चीन की व्यवहार निगरानी प्रणाली कुछ लोगों को यात्रा, संपत्ति खरीदने पर रोक लगाती है". CBS News. 24 April 2018. Archived from the original on 13 August 2019. Retrieved 8 August 2019.
  108. "चीन की सामाजिक क्रेडिट प्रणाली के बारे में जटिल सच्चाई". WIRED. 21 January 2019. Archived from the original on 8 August 2019. Retrieved 8 August 2019.
  109. "News: Live Mint". Are Indian companies making enough sense of Big Data?. Live Mint. 23 June 2014. Archived from the original on 29 November 2014. Retrieved 22 November 2014.
  110. "इज़राइली स्टार्टअप मधुमेह के इलाज के लिए बड़े डेटा, न्यूनतम हार्डवेयर का उपयोग करता है I". The Times of Israel. Archived from the original on 1 March 2018. Retrieved 28 February 2018.
  111. Singh, Gurparkash, Duane Schulthess, Nigel Hughes, Bart Vannieuwenhuyse, and Dipak Kalra (2018). "क्लिनिकल रिसर्च और ड्रग डेवलपमेंट के लिए रियल वर्ल्ड बिग डेटा". Drug Discovery Today. 23 (3): 652–660. doi:10.1016/j.drudis.2017.12.002. PMID 29294362.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  112. "Recent advances delivered by Mobile Cloud Computing and Internet of Things for Big Data applications: a survey". International Journal of Network Management. 11 March 2016. Archived from the original on 1 June 2022. Retrieved 14 September 2016.
  113. Kalil, Tom (29 March 2012). "बिग डेटा एक बड़ी डील है". whitehouse.gov. Archived from the original on 10 January 2017. Retrieved 26 September 2012 – via National Archives.
  114. Lampitt, Andrew (14 February 2013). "बिग डेटा एनालिटिक्स ने ओबामा को जीतने में कितनी मदद की, इसकी असली कहानी". InfoWorld. Archived from the original on 5 July 2014. Retrieved 31 May 2014.
  115. Hoover, J. Nicholas. "सरकार के 10 सबसे शक्तिशाली सुपर कंप्यूटर". Information Week. UBM. Archived from the original on 16 October 2013. Retrieved 26 September 2012.
  116. Bamford, James (15 March 2012). "एनएसए देश का सबसे बड़ा जासूस केंद्र बना रहा है (देखें कि आप क्या कहते हैं)". Wired. Archived from the original on 4 April 2012. Retrieved 18 March 2013.
  117. "Groundbreaking Ceremony Held for $1.2 Billion Utah Data Center". National Security Agency Central Security Service. Archived from the original on 5 September 2013. Retrieved 18 March 2013.
  118. Hill, Kashmir. "यूटा में एनएसए के हास्यास्पद रूप से महंगे डेटा सेंटर के ब्लूप्रिंट सुझाव देते हैं कि इसमें विचार से कम जानकारी है". Forbes. Archived from the original on 29 March 2018. Retrieved 31 October 2013.
  119. Smith, Gerry; Hallman, Ben (12 June 2013). "एनएसए जासूसी विवाद हाइलाइट्स बिग डेटा का आलिंगन". Huffington Post. Archived from the original on 19 July 2017. Retrieved 7 May 2018.
  120. Wingfield, Nick (12 March 2013). "भविष्य के घर खरीदारों के लिए अधिक सटीक रूप से आवागमन की भविष्यवाणी करना". The New York Times. Archived from the original on 29 May 2013. Retrieved 21 July 2013.
  121. "FICO® Falcon® Fraud Manager". Fico.com. Archived from the original on 11 November 2012. Retrieved 21 July 2013.
  122. Alexandru, Dan. "प्रोफेसर" (PDF). cds.cern.ch. CERN. Archived (PDF) from the original on 15 July 2017. Retrieved 24 March 2015.
  123. "LHC Brochure, English version. A presentation of the largest and the most powerful particle accelerator in the world, the Large Hadron Collider (LHC), which started up in 2008. Its role, characteristics, technologies, etc. are explained for the general public". CERN-Brochure-2010-006-Eng. LHC Brochure, English version. CERN. Archived from the original on 19 March 2019. Retrieved 20 January 2013.
  124. "एलएचसी गाइड, अंग्रेजी संस्करण। प्रश्नों और उत्तरों के रूप में लार्ज हैड्रॉन कोलाइडर (LHC) के बारे में तथ्यों और आंकड़ों का संग्रह।". CERN-Brochure-2008-001-Eng. LHC Guide, English version. CERN. Archived from the original on 7 April 2020. Retrieved 20 January 2013.
  125. Brumfiel, Geoff (19 January 2011). "High-energy physics: Down the petabyte highway". Nature. 469 (7330): 282–83. Bibcode:2011Natur.469..282B. doi:10.1038/469282a. PMID 21248814. S2CID 533166.
  126. "IBM Research – Zurich" (PDF). Zurich.ibm.com. Archived from the original on 1 June 2022. Retrieved 8 October 2017.
  127. "फ्यूचर टेलिस्कोप ऐरे एक्साबाइट प्रोसेसिंग के विकास को संचालित करता है". Ars Technica. 2 April 2012. Archived from the original on 31 March 2019. Retrieved 15 April 2015.
  128. "Australia's bid for the Square Kilometre Array – an insider's perspective". The Conversation. 1 February 2012. Archived from the original on 12 October 2016. Retrieved 27 September 2016.
  129. "Delort P., OECD ICCP Technology Foresight Forum, 2012" (PDF). Oecd.org. Archived (PDF) from the original on 19 June 2017. Retrieved 8 October 2017.
  130. "NASA – NASA Goddard Introduces the NASA Center for Climate Simulation". Nasa.gov. Archived from the original on 3 April 2016. Retrieved 13 April 2016.
  131. Webster, Phil. "Supercomputing the Climate: NASA's Big Data Mission". CSC World. Computer Sciences Corporation. Archived from the original on 4 January 2013. Retrieved 18 January 2013.
  132. "ये छह महान तंत्रिका विज्ञान विचार प्रयोगशाला से बाजार तक छलांग लगा सकते हैं". The Globe and Mail. 20 November 2014. Archived from the original on 11 October 2016. Retrieved 1 October 2016.
  133. "डीएनएस्टैक Google जीनोमिक्स के साथ बड़े पैमाने पर, जटिल डीएनए डेटासेट से निपटता है". Google Cloud Platform. Archived from the original on 24 September 2016. Retrieved 1 October 2016.
  134. "23andMe – Ancestry". 23andme.com. Archived from the original on 18 December 2016. Retrieved 29 December 2016.
  135. Jump up to: 135.0 135.1 Potenza, Alessandra (13 July 2016). "23andMe wants researchers to use its kits, in a bid to expand its collection of genetic data". The Verge. Archived from the original on 29 December 2016. Retrieved 29 December 2016.
  136. "यह स्टार्टअप आपके डीएनए को सीक्वेंस करेगा, जिससे आप मेडिकल रिसर्च में योगदान दे सकते हैं". Fast Company. 23 December 2016. Archived from the original on 29 December 2016. Retrieved 29 December 2016.
  137. Seife, Charles. "23andMe Is Terrifying, but Not for the Reasons the FDA Thinks". Scientific American. Archived from the original on 29 December 2016. Retrieved 29 December 2016.
  138. Zaleski, Andrew (22 June 2016). "यह बायोटेक स्टार्ट-अप शर्त लगा रहा है कि आपके जीन अगली अद्भुत दवा का उत्पादन करेंगे". CNBC. Archived from the original on 29 December 2016. Retrieved 29 December 2016.
  139. Regalado, Antonio. "How 23andMe turned your DNA into a $1 billion drug discovery machine". MIT Technology Review. Archived from the original on 29 December 2016. Retrieved 29 December 2016.
  140. "23andMe reports jump in requests for data in wake of Pfizer depression study | FierceBiotech". fiercebiotech.com. 22 August 2016. Archived from the original on 29 December 2016. Retrieved 29 December 2016.
  141. Admire Moyo (23 October 2015). "डेटा वैज्ञानिक स्प्रिंगबोक हार की भविष्यवाणी करते हैं". itweb.co.za. Archived from the original on 22 December 2015. Retrieved 12 December 2015.
  142. Regina Pazvakavambwa (17 November 2015). "प्रिडिक्टिव एनालिटिक्स, बिग डेटा ट्रांसफॉर्म स्पोर्ट्स". itweb.co.za. Archived from the original on 22 December 2015. Retrieved 12 December 2015.
  143. Dave Ryan (13 November 2015). "Sports: Where Big Data Finally Makes Sense". huffingtonpost.com. Archived from the original on 22 December 2015. Retrieved 12 December 2015.
  144. Frank Bi. "फ़ॉर्मूला वन की टीमें कैसे अंदरूनी बढ़त हासिल करने के लिए बड़े डेटा का इस्तेमाल कर रही हैं". Forbes. Archived from the original on 20 December 2015. Retrieved 12 December 2015.
  145. Tay, Liz. "Inside eBay's 90PB data warehouse". ITNews. Archived from the original on 15 February 2016. Retrieved 12 February 2016.
  146. Layton, Julia (25 January 2006). "अमेज़न प्रौद्योगिकी". Money.howstuffworks.com. Archived from the original on 28 February 2013. Retrieved 5 March 2013.
  147. "Scaling Facebook to 500 Million Users and Beyond". Facebook.com. Archived from the original on 5 July 2013. Retrieved 21 July 2013.
  148. Constine, Josh (27 June 2017). "Facebook now has 2 billion monthly users… and responsibility". TechCrunch. Archived from the original on 27 December 2020. Retrieved 3 September 2018.
  149. "Google अभी भी प्रति वर्ष कम से कम 1 ट्रिलियन खोज कर रहा है". Search Engine Land. 16 January 2015. Archived from the original on 15 April 2015. Retrieved 15 April 2015.
  150. Haleem, Abid; Javaid, Mohd; Khan, Ibrahim; Vaishya, Raju (2020). "Significant Applications of Big Data in COVID-19 Pandemic". Indian Journal of Orthopaedics. 54 (4): 526–528. doi:10.1007/s43465-020-00129-z. PMC 7204193. PMID 32382166.
  151. Manancourt, Vincent (10 March 2020). "कोरोनावायरस गोपनीयता पर यूरोप के संकल्प का परीक्षण करता है". Politico. Archived from the original on 20 March 2020. Retrieved 30 October 2020.
  152. Choudhury, Amit Roy (27 March 2020). "कोरोना के समय में सरकार". Gov Insider. Archived from the original on 20 March 2020. Retrieved 30 October 2020.
  153. Cellan-Jones, Rory (11 February 2020). "चीन ने कोरोनावायरस 'क्लोज कॉन्टैक्ट डिटेक्टर' ऐप लॉन्च किया". BBC. Archived from the original on 28 February 2020. Retrieved 30 October 2020.
  154. Siwach, Gautam; Esmailpour, Amir (March 2014). बड़े डेटा में एन्क्रिप्टेड खोज और क्लस्टर फॉर्मेशन (PDF). ASEE 2014 Zone I Conference. University of Bridgeport, Bridgeport, Connecticut, US. Archived from the original (PDF) on 9 August 2014. Retrieved 26 July 2014.
  155. "Obama Administration Unveils "Big Data" Initiative:Announces $200 Million in New R&D Investments" (PDF). Office of Science and Technology Policy. Archived (PDF) from the original on 21 January 2017 – via National Archives.
  156. "कैलिफोर्निया विश्वविद्यालय, बर्कले में AMPLab". Amplab.cs.berkeley.edu. Archived from the original on 6 May 2011. Retrieved 5 March 2013.
  157. "NSF बिग डेटा में संघीय प्रयासों का नेतृत्व करता है". National Science Foundation (NSF). 29 March 2012. Archived from the original on 31 March 2019. Retrieved 6 April 2018.
  158. Timothy Hunter; Teodor Moldovan; Matei Zaharia; Justin Ma; Michael Franklin; Pieter Abbeel; Alexandre Bayen (October 2011). क्लाउड में मोबाइल मिलेनियम सिस्टम का विस्तार. Archived from the original on 31 March 2019. Retrieved 2 November 2012.
  159. David Patterson (5 December 2011). "कंप्यूटर वैज्ञानिकों के पास कैंसर का इलाज करने के लिए ज़रूरी चीज़ें हो सकती हैं". The New York Times. Archived from the original on 30 January 2017. Retrieved 26 February 2017.
  160. "सचिव चू ने डीओई सुपरकंप्यूटरों पर बड़े पैमाने पर डेटा सेट अनुसंधान में सुधार करने में वैज्ञानिकों की मदद करने के लिए नए संस्थान की घोषणा की". energy.gov. Archived from the original on 3 April 2019. Retrieved 2 November 2012.
  161. Young, Shannon (2012-05-30). "मास गवर्नर, एमआईटी ने बड़ी डेटा पहल की घोषणा की". Boston.com. Archived from the original on 29 July 2021. Retrieved 2021-07-29.
  162. "Big Data @ CSAIL". Bigdata.csail.mit.edu. 22 February 2013. Archived from the original on 30 March 2013. Retrieved 5 March 2013.
  163. "बिग डेटा पब्लिक प्राइवेट फोरम". cordis.europa.eu. 1 September 2012. Archived from the original on 9 March 2021. Retrieved 16 March 2020.
  164. "बड़े डेटा पर शोध करने के लिए एलन ट्यूरिंग इंस्टीट्यूट की स्थापना की जाएगी". BBC News. 19 March 2014. Archived from the original on 18 August 2021. Retrieved 19 March 2014.
  165. "वाटरलू विश्वविद्यालय, स्ट्रैटफ़ोर्ड कैंपस में प्रेरणा दिवस". betakit.com/. Archived from the original on 26 February 2014. Retrieved 28 February 2014.
  166. Jump up to: 166.0 166.1 166.2 Reips, Ulf-Dietrich; Matzat, Uwe (2014). "बिग डेटा सेवाओं का उपयोग करके "बिग डेटा" का खनन". International Journal of Internet Science. 1 (1): 1–8. Archived from the original on 14 August 2014. Retrieved 14 August 2014.
  167. Preis T, Moat HS, Stanley HE, Bishop SR (2012). "आगे देखने के लाभ की मात्रा निर्धारित करना". Scientific Reports. 2: 350. Bibcode:2012NatSR...2E.350P. doi:10.1038/srep00350. PMC 3320057. PMID 22482034.
  168. Marks, Paul (5 April 2012). "भविष्य के लिए ऑनलाइन खोज आर्थिक सफलता से जुड़ी हुई है". New Scientist. Archived from the original on 8 April 2012. Retrieved 9 April 2012.
  169. Johnston, Casey (6 April 2012). "गूगल ट्रेंड्स अमीर देशों की मानसिकता के बारे में सुराग दिखाता है". Ars Technica. Archived from the original on 7 April 2012. Retrieved 9 April 2012.
  170. Tobias Preis (24 May 2012). "Supplementary Information: The Future Orientation Index is available for download" (PDF). Archived (PDF) from the original on 17 January 2013. Retrieved 24 May 2012.
  171. Philip Ball (26 April 2013). "Google खोजों की गणना करने से बाज़ार की गतिविधियों का अनुमान लगाया जाता है". Nature. doi:10.1038/nature.2013.12879. S2CID 167357427. Archived from the original on 27 September 2013. Retrieved 9 August 2013.
  172. Preis T, Moat HS, Stanley HE (2013). "Google Trends का उपयोग करके वित्तीय बाज़ारों में व्यापारिक व्यवहार की मात्रा निर्धारित करना". Scientific Reports. 3: 1684. Bibcode:2013NatSR...3E1684P. doi:10.1038/srep01684. PMC 3635219. PMID 23619126.
  173. Nick Bilton (26 April 2013). "Google खोज शब्द स्टॉक मार्केट की भविष्यवाणी कर सकते हैं, अध्ययन ढूँढता है". The New York Times. Archived from the original on 2 June 2013. Retrieved 9 August 2013.
  174. Christopher Matthews (26 April 2013). "Trouble With Your Investment Portfolio? Google It!". Time. Archived from the original on 21 August 2013. Retrieved 9 August 2013.
  175. Philip Ball (26 April 2013). "Google खोजों की गणना करने से बाज़ार की गतिविधियों का अनुमान लगाया जाता है". Nature. doi:10.1038/nature.2013.12879. S2CID 167357427. Archived from the original on 27 September 2013. Retrieved 9 August 2013.
  176. Bernhard Warner (25 April 2013). "'बिग डेटा' शोधकर्ता बाज़ारों को मात देने के लिए Google का सहारा लेते हैं". Bloomberg Businessweek. Archived from the original on 23 July 2013. Retrieved 9 August 2013.
  177. Hamish McRae (28 April 2013). "Hamish McRae: Need a valuable handle on investor sentiment? Google it". The Independent. London. Archived from the original on 25 July 2018. Retrieved 9 August 2013.
  178. Richard Waters (25 April 2013). "शेयर बाजार की भविष्यवाणी में Google खोज नया शब्द साबित होता है". Financial Times. Archived from the original on 1 June 2022. Retrieved 9 August 2013.
  179. Jason Palmer (25 April 2013). "Google खोज बाजार की चाल का अनुमान लगाता है". BBC. Archived from the original on 5 June 2013. Retrieved 9 August 2013.
  180. E. Sejdić (March 2014). "Adapt current tools for use with big data". Nature. 507 (7492): 306.
  181. Stanford. "MMDS. Workshop on Algorithms for Modern Massive Data Sets" Archived 4 December 2019 at the Wayback Machine.
  182. Deepan Palguna; Vikas Joshi; Venkatesan Chakravarthy; Ravi Kothari & L. V. Subramaniam (2015). ट्विटर के लिए सैंपलिंग एल्गोरिदम का विश्लेषण. International Joint Conference on Artificial Intelligence.
  183. No label or title -- debug: Q56532925, Wikidata Q56532925
  184. Chris Anderson (23 June 2008). "The End of Theory: The Data Deluge Makes the Scientific Method Obsolete". Wired. Archived from the original on 27 March 2014. Retrieved 5 March 2017.
  185. Graham M. (9 March 2012). "Big data and the end of theory?". The Guardian. London. Archived from the original on 24 July 2013. Retrieved 14 December 2016.
  186. Shah, Shvetank; Horne, Andrew; Capellá, Jaime (April 2012). "अच्छा डेटा अच्छे निर्णयों की गारंटी नहीं देगा". Harvard Business Review. Archived from the original on 11 September 2012. Retrieved 8 September 2012.
  187. Jump up to: 187.0 187.1 Big Data requires Big Visions for Big Change. Archived 2 December 2016 at the Wayback Machine, Hilbert, M. (2014). London: TEDx UCL, x=independently organized TED talks
  188. Alemany Oliver, Mathieu; Vayre, Jean-Sebastien (2015). "Big Data and the Future of Knowledge Production in Marketing Research: Ethics, Digital Traces, and Abductive Reasoning". Journal of Marketing Analytics. 3 (1): 5–13. doi:10.1057/jma.2015.1. S2CID 111360835.
  189. Jonathan Rauch (1 April 2002). "चारों ओर कोनों को देखकर". The Atlantic. Archived from the original on 4 April 2017. Retrieved 5 March 2017.
  190. Epstein, J. M., & Axtell, R. L. (1996). Growing Artificial Societies: Social Science from the Bottom Up. A Bradford Book.
  191. "Delort P., Big data in Biosciences, Big Data Paris, 2012" (PDF). Bigdataparis.com. Archived from the original (PDF) on 30 July 2016. Retrieved 8 October 2017.
  192. "Next-generation genomics: an integrative approach" (PDF). nature. July 2010. Archived (PDF) from the original on 13 August 2017. Retrieved 18 October 2016.
  193. "बायोसाइंसेज में बड़ा डेटा". October 2015. Archived from the original on 1 June 2022. Retrieved 18 October 2016.
  194. "Big data: are we making a big mistake?". Financial Times. 28 March 2014. Archived from the original on 30 June 2016. Retrieved 20 October 2016.
  195. Ohm, Paul (23 August 2012). "बर्बादी का डाटाबेस मत बनाओ". Harvard Business Review. Archived from the original on 30 August 2012. Retrieved 29 August 2012.
  196. Bond-Graham, Darwin (2018). "The Perspective on Big Data" Archived 9 November 2020 at the Wayback Machine. The Perspective.
  197. Al-Rodhan, Nayef (16 September 2014). "The Social Contract 2.0: Big Data and the Need to Guarantee Privacy and Civil Liberties – Harvard International Review". Harvard International Review. Archived from the original on 13 April 2017. Retrieved 3 April 2017.
  198. Barocas, Solon; Nissenbaum, Helen; Lane, Julia; Stodden, Victoria; Bender, Stefan; Nissenbaum, Helen (June 2014). बड़े डेटा का अंत गुमनामी और सहमति के इर्द-गिर्द चलता है. Cambridge University Press. pp. 44–75. doi:10.1017/cbo9781107590205.004. ISBN 9781107067356. S2CID 152939392.
  199. Lugmayr, Artur; Stockleben, Bjoern; Scheib, Christoph; Mailaparampil, Mathew; Mesia, Noora; Ranta, Hannu; Lab, Emmi (1 June 2016). "A Comprehensive Survey On Big-Data Research and Its Implications – What is Really 'New' in Big Data? – It's Cognitive Big Data!". Archived from the original on 1 June 2022. Retrieved 30 December 2017. {{cite journal}}: Cite journal requires |journal= (help)
  200. danah boyd (29 April 2010). "बड़े डेटा के संदर्भ में गोपनीयता और प्रचार". WWW 2010 conference. Archived from the original on 22 October 2018. Retrieved 18 April 2011.
  201. Katyal, Sonia K. (2019). "आर्टिफिशियल इंटेलिजेंस, विज्ञापन और दुष्प्रचार". Advertising & Society Quarterly (in English). 20 (4). doi:10.1353/asr.2019.0026. ISSN 2475-1790. S2CID 213397212. Archived from the original on 28 October 2020. Retrieved 18 November 2020.
  202. Jones, MB; Schildhauer, MP; Reichman, OJ; Bowers, S (2006). "The New Bioinformatics: Integrating Ecological Data from the Gene to the Biosphere" (PDF). Annual Review of Ecology, Evolution, and Systematics. 37 (1): 519–544. doi:10.1146/annurev.ecolsys.37.091305.110031. Archived (PDF) from the original on 8 July 2019. Retrieved 19 September 2012.
  203. Jump up to: 203.0 203.1 Boyd, D.; Crawford, K. (2012). "बिग डेटा के लिए महत्वपूर्ण प्रश्न". Information, Communication & Society. 15 (5): 662–679. doi:10.1080/1369118X.2012.678878. hdl:10983/1320. S2CID 51843165.
  204. Failure to Launch: From Big Data to Big Decisions Archived 6 December 2016 at the Wayback Machine, Forte Wares.
  205. "15 Insane Things That Correlate with Each Other". Archived from the original on 27 June 2019. Retrieved 27 June 2019.
  206. "यादृच्छिक संरचनाएं और एल्गोरिदम". Archived from the original on 27 June 2019. Retrieved 27 June 2019.
  207. Cristian S. Calude, Giuseppe Longo, (2016), The Deluge of Spurious Correlations in Big Data, Foundations of Science
  208. Anja Lambrecht and Catherine Tucker (2016) "The 4 Mistakes Most Managers Make with Analytics," Harvard Business Review, July 12. https://hbr.org/2016/07/the-4-mistakes-most-managers-make-with-analytics Archived 26 January 2022 at the Wayback Machine
  209. Jump up to: 209.0 209.1 Gregory Piatetsky (12 August 2014). "Interview: Michael Berthold, KNIME Founder, on Research, Creativity, Big Data, and Privacy, Part 2". KDnuggets. Archived from the original on 13 August 2014. Retrieved 13 August 2014.
  210. Pelt, Mason (26 October 2015). ""बिग डेटा" एक अधिक इस्तेमाल किया जाने वाला मूलमंत्र है और यह ट्विटर बॉट इसे साबित करता है". Siliconangle. Archived from the original on 30 October 2015. Retrieved 4 November 2015.
  211. Jump up to: 211.0 211.1 Harford, Tim (28 March 2014). "Big data: are we making a big mistake?". Financial Times. Archived from the original on 7 April 2014. Retrieved 7 April 2014.
  212. Ioannidis JP (August 2005). "अधिकांश प्रकाशित शोध निष्कर्ष झूठे क्यों हैं I". PLOS Medicine. 2 (8): e124. doi:10.1371/journal.pmed.0020124. PMC 1182327. PMID 16060722.
  213. Lohr, Steve; Singer, Natasha (10 November 2016). "चुनाव बुलाने में डेटा कैसे विफल हुआ". The New York Times. ISSN 0362-4331. Archived from the original on 25 November 2016. Retrieved 27 November 2016.
  214. "कैसे डेटा-संचालित पुलिसिंग मानव स्वतंत्रता को खतरे में डालती है". The Economist. 4 June 2018. ISSN 0013-0613. Archived from the original on 27 October 2019. Retrieved 27 October 2019.
  215. Brayne, Sarah (29 August 2017). "Big Data Surveillance: The Case of Policing". American Sociological Review (in English). 82 (5): 977–1008. doi:10.1177/0003122417725865. S2CID 3609838.


अग्रिम पठन


बाहरी संबंध