डीप वेब

From Vigyanwiki
Revision as of 07:57, 16 June 2023 by alpha>Indicwiki (Created page with "{{short description|Content of the World Wide Web that is not indexed by search engines}} {{About | the part of the World Wide Web not indexed by traditional search engines}}...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

डीप वेब,[1] अदृश्य वेब,[2] या छिपा हुआ वेब[3] वर्ल्ड वाइड वेब के हिस्से हैं जिनकी सामग्री मानक वेब खोज इंजन|वेब सर्च-इंजन प्रोग्राम द्वारा खोज इंजन अनुक्रमण नहीं है। यह सतह का जाल के विपरीत है, जो इंटरनेट का उपयोग करने वाले किसी भी व्यक्ति के लिए सुलभ है।[4] कंप्यूटर विज्ञान | कंप्यूटर-वैज्ञानिक माइकल के. बर्गमैन को 2001 में खोज-अनुक्रमण शब्द के रूप में शब्द का आविष्कार करने का श्रेय दिया जाता है।[5] डीप वेब साइटों तक सीधे URL या IP पते द्वारा पहुँचा जा सकता है, लेकिन वास्तविक सामग्री तक पहुँचने के लिए पासवर्ड या अन्य सुरक्षा जानकारी दर्ज करने की आवश्यकता हो सकती है।[6][7] ऐसी साइटों में वेबमेल , ऑनलाइन बैंकिंग, घन संग्रहण , प्रतिबंधित-एक्सेस सामाजिक मीडिया पेज और प्रोफाइल, कुछ वेब मंचों और कोड भाषा जैसे उपयोग होते हैं जिन्हें सामग्री देखने के लिए पंजीकरण की आवश्यकता होती है। इसमें प्रचलित विडियो और कुछ ऑनलाइन पत्रिकाएं और समाचार पत्र जैसी भुगतान वाली सेवाएं भी शामिल हैं।

शब्दावली

डार्क वेब के साथ डीप वेब का पहला सम्मिश्रण 2009 के दौरान हुआ जब डीप वेब सर्च शब्दावली पर फ्रीनेट और डार्कनेट पर होने वाली अवैध गतिविधियों के साथ चर्चा की गई।[8] उन आपराधिक गतिविधियों में व्यक्तिगत पासवर्ड, झूठे दस्तावेज़, ड्रग्स, आग्नेयास्त्रों और बाल अश्लीलता का व्यापार शामिल है।[9] तब से, ब्लैक-मार्केट वेबसाइट सिल्क रोड (बाजार) पर मीडिया की रिपोर्टिंग में उनके उपयोग के बाद, मीडिया आउटलेट्स ने आमतौर पर डार्क वेब या डार्कनेट के साथ 'डीप वेब' कंजूस शब्द का इस्तेमाल किया है, एक तुलना को कुछ लोग गलत मानते हैं।[10] और फलस्वरूप भ्रम का एक निरंतर स्रोत बन गया है।[11] वायर्ड (वेबसाइट) रिपोर्टर की किम ज़ेटर [12] और एंडी ग्रीनबर्ग[13] अनुशंसा करते हैं कि शब्दों का अलग-अलग तरीके से उपयोग किया जाए। जबकि डीप वेब किसी भी साइट का एक संदर्भ है जिसे पारंपरिक खोज इंजन द्वारा एक्सेस नहीं किया जा सकता है, डार्क वेब डीप वेब का एक हिस्सा है जिसे जानबूझकर छिपाया गया है और मानक ब्राउज़रों और विधियों द्वारा दुर्गम है।[14][15][16][17][18]


गैर-अनुक्रमित सामग्री

बर्गमैन ने द जर्नल ऑफ इलेक्ट्रॉनिक पब्लिशिंग में प्रकाशित डीप वेब पर एक पेपर में उल्लेख किया है कि जिल एल्सवर्थ ने 1994 में अदृश्य वेब शब्द का इस्तेमाल उन वेबसाइटों को संदर्भित करने के लिए किया था जो किसी भी सर्च इंजन के साथ पंजीकृत नहीं थीं।[19] बर्गमैन ने फ्रैंक गार्सिया के एक जनवरी 1996 के लेख का हवाला दिया:[20] <ब्लॉककोट> यह एक ऐसी साइट होगी जो संभवतः यथोचित रूप से डिज़ाइन की गई हो, लेकिन उन्होंने इसे किसी भी खोज इंजन के साथ पंजीकृत करने की जहमत नहीं उठाई। तो, कोई उन्हें ढूंढ नहीं सकता! तुम छिपे हो। मैं उसे अदृश्य वेब कहता हूं। </ब्लॉककोट>

दिसंबर 1996 की प्रेस विज्ञप्ति में नंबर 1 डीप वेब प्रोग्राम के विवरण में ब्रूस माउंट और पर्सनल लाइब्रेरी सॉफ्टवेयर के मैथ्यू बी. कोल द्वारा अदृश्य वेब शब्द का एक और प्रारंभिक उपयोग किया गया था।[21] विशिष्ट शब्द डीप वेब का पहला प्रयोग, जिसे अब आम तौर पर स्वीकार किया जाता है, उपर्युक्त 2001 बर्गमैन अध्ययन में हुआ।[19]


इंडेक्सिंग के तरीके

ऐसे तरीके जो वेब पेजों को पारंपरिक खोज इंजनों द्वारा अनुक्रमित होने से रोकते हैं, उन्हें निम्नलिखित में से एक या अधिक के रूप में वर्गीकृत किया जा सकता है:

  1. प्रासंगिक वेब: अलग-अलग एक्सेस संदर्भों के लिए अलग-अलग सामग्री वाले पेज (उदाहरण के लिए, क्लाइंट आईपी एड्रेस या पिछले नेविगेशन अनुक्रम की रेंज)।
  2. डायनेमिक कंटेंट: गतिशील वेब पेज, जो एक सबमिट की गई क्वेरी के जवाब में लौटाए जाते हैं या केवल एक फॉर्म के जरिए एक्सेस किए जाते हैं, खासकर अगर ओपन-डोमेन इनपुट एलिमेंट्स (जैसे टेक्स्ट फील्ड्स) का इस्तेमाल किया जाता है; डोमेन ज्ञान के बिना ऐसे क्षेत्रों में नेविगेट करना कठिन होता है।
  3. सीमित पहुंच वाली सामग्री: ऐसी साइटें जो तकनीकी तरीके से अपने पृष्ठों तक पहुंच को सीमित करती हैं (उदाहरण के लिए, रोबोट बहिष्करण मानक या कॅप्चा , या नो-स्टोर निर्देश का उपयोग करना, जो खोज इंजनों को उन्हें ब्राउज़ करने और वेब कैश कॉपी बनाने से रोकते हैं)।[22] साइटों में ऐसे पृष्ठों की खोज के लिए एक आंतरिक खोज इंजन हो सकता है।[23][24]
  4. गैर-एचटीएमएल/पाठ सामग्री: मल्टीमीडिया (छवि या वीडियो) फ़ाइलों या विशिष्ट फ़ाइल स्वरूपों में एन्कोडेड पाठ्य सामग्री खोज इंजन द्वारा मान्यता प्राप्त नहीं है।
  5. निजी वेब: वे साइटें जिन्हें पंजीकरण और लॉगिन (पासवर्ड-सुरक्षित संसाधन) की आवश्यकता होती है।
  6. स्क्रिप्टेड सामग्री: वे पृष्ठ जो केवल जावास्क्रिप्ट द्वारा निर्मित लिंक के साथ-साथ एडोब फ्लैश या अजाक्स (प्रोग्रामिंग) समाधानों के माध्यम से वेब सर्वर से गतिशील रूप से डाउनलोड की जाने वाली सामग्री तक पहुंच योग्य हैं।
  7. सॉफ़्टवेयर: नियमित इंटरनेट से कुछ सामग्री जानबूझकर छिपाई जाती है, केवल विशेष सॉफ़्टवेयर जैसे Tor (गुमनामी नेटवर्क), I2P, या अन्य डार्कनेट सॉफ़्टवेयर के साथ ही एक्सेस की जा सकती है। उदाहरण के लिए, टोर उपयोगकर्ताओं को अज्ञात रूप से .onion सर्वर पते का उपयोग करके वेबसाइटों तक पहुंचने की अनुमति देता है, उनके आईपी पते को छुपाता है।
  8. अनलिंक की गई सामग्री: वे पृष्ठ जो अन्य पृष्ठों से लिंक नहीं हैं, जो वेब क्रॉलिंग प्रोग्राम को सामग्री तक पहुँचने से रोक सकते हैं। इस सामग्री को बिना बैकलिंक वाले पेज कहा जाता है (इनलिंक के रूप में भी जाना जाता है)। साथ ही, सर्च इंजन हमेशा खोजे गए वेब पेजों से सभी बैकलिंक्स का पता नहीं लगाते हैं।
  9. वेब संग्रह: वेब अभिलेखीय सेवाएं जैसे कि वेबैक मशीन उपयोगकर्ताओं को समय-समय पर वेब पेजों के संग्रहीत संस्करणों को देखने में सक्षम बनाती हैं, जिसमें वे वेबसाइटें शामिल हैं जो दुर्गम हो गई हैं और Google जैसे खोज इंजन द्वारा अनुक्रमित नहीं की गई हैं। वेबैक मशीन को डीप वेब देखने के लिए एक कार्यक्रम कहा जा सकता है, क्योंकि वेब संग्रह जो वर्तमान से नहीं हैं, उन्हें अनुक्रमित नहीं किया जा सकता है, क्योंकि वेबसाइटों के पिछले संस्करणों को खोज द्वारा देखना असंभव है। सभी वेबसाइटों को कभी न कभी अपडेट किया जाता है, यही कारण है कि वेब संग्रह को डीप वेब सामग्री माना जाता है।[25]


सामग्री प्रकार

हालांकि एक विशिष्ट वेब सर्वर की सामग्री को सीधे खोजना हमेशा संभव नहीं होता है ताकि इसे अनुक्रमित किया जा सके, एक साइट को संभावित रूप से अप्रत्यक्ष रूप से एक्सेस किया जा सकता है (भेद्यता (कंप्यूटिंग) के कारण)।

वेब पर सामग्री खोजने के लिए, खोज इंजन वेब क्रॉलर का उपयोग करते हैं जो ज्ञात प्रोटोकॉल वर्चुअल पोर्ट (कंप्यूटर नेटवर्किंग) के माध्यम से हाइपरलिंक का अनुसरण करते हैं। यह तकनीक सरफेस वेब पर सामग्री खोजने के लिए आदर्श है लेकिन डीप वेब सामग्री खोजने में अक्सर अप्रभावी होती है। उदाहरण के लिए, ये क्रॉलर डायनेमिक पेजों को खोजने का प्रयास नहीं करते हैं जो संभावित प्रश्नों की अनिश्चित संख्या के कारण डेटाबेस क्वेरीज़ का परिणाम हैं।[26] यह नोट किया गया है कि क्वेरी परिणामों के लिंक प्रदान करके इसे (आंशिक रूप से) दूर किया जा सकता है, लेकिन यह अनजाने में डीप वेब की साइट की लोकप्रियता को बढ़ा सकता है।

DeepPeep, Intute, Deep Web Technologies, Scirus, और Ahmia.fi कुछ ऐसे सर्च इंजन हैं, जिन्होंने डीप वेब तक पहुंच बनाई है। Intute की फंडिंग खत्म हो गई है और जुलाई 2011 तक यह एक अस्थायी स्टेटिक आर्काइव है।[27] साइरस जनवरी 2013 के अंत में सेवानिवृत्त हुए।[28] शोधकर्ता इस बात की खोज कर रहे हैं कि डीप वेब को स्वचालित रूप से कैसे क्रॉल किया जा सकता है, जिसमें ऐसी सामग्री भी शामिल है जिसे केवल विशेष सॉफ़्टवेयर जैसे टोर (गुमनामी नेटवर्क) द्वारा एक्सेस किया जा सकता है। 2001 में, श्रीराम राघवन और हेक्टर गार्सिया-मोलिना (स्टैनफोर्ड कंप्यूटर साइंस डिपार्टमेंट, स्टैनफोर्ड यूनिवर्सिटी)[29][30] एक छिपे हुए वेब क्रॉलर के लिए एक वास्तुशिल्प मॉडल प्रस्तुत किया जो उपयोगकर्ताओं द्वारा प्रदान की गई महत्वपूर्ण शर्तों का उपयोग करता है या वेब फॉर्म को क्वेरी करने और डीप वेब सामग्री को क्रॉल करने के लिए क्वेरी इंटरफेस से एकत्र किया जाता है। कैलिफोर्निया विश्वविद्यालय, लॉस एंजिल्स के एलेक्जेंड्रोस एनटूलास, पेट्रोस जेरफोस और जुन्घू चो ने एक छिपे हुए वेब क्रॉलर का निर्माण किया जो स्वचालित रूप से खोज प्रपत्रों के खिलाफ जारी करने के लिए सार्थक प्रश्न उत्पन्न करता है।[31] कई प्रपत्र क्वेरी भाषा (यानी, SEQUEL[32]) प्रस्तावित किया गया है कि, क्वेरी जारी करने के अलावा, परिणाम पृष्ठों से संरचित डेटा निकालने की भी अनुमति दें। एक और प्रयास डीपपीप है, जो राष्ट्रीय विज्ञान संस्था द्वारा प्रायोजित यूटा विश्वविद्यालय की एक परियोजना है, जिसने उपन्यास केंद्रित क्रॉलर तकनीकों के आधार पर विभिन्न डोमेन में छिपे हुए वेब स्रोत (वेब ​​फॉर्म) एकत्र किए।[33][34] वाणिज्यिक खोज इंजनों ने डीप वेब को क्रॉल करने के लिए वैकल्पिक तरीकों की खोज शुरू कर दी है। साइटमैप प्रोटोकॉल (पहली बार 2005 में Google द्वारा विकसित और पेश किया गया) और मेटाडेटा हार्वेस्टिंग के लिए ओपन आर्काइव्स इनिशिएटिव प्रोटोकॉल|OAI-PMH ऐसे तंत्र हैं जो सर्च इंजन और अन्य इच्छुक पार्टियों को विशेष वेब सर्वर पर गहरे वेब संसाधनों की खोज करने की अनुमति देते हैं। दोनों तंत्र वेब सर्वरों को उन यूआरएल का विज्ञापन करने की अनुमति देते हैं जो उन पर पहुंच योग्य हैं, जिससे उन संसाधनों की स्वत: खोज की अनुमति मिलती है जो सीधे सतही वेब से जुड़े नहीं हैं। Google का डीप वेब सरफेसिंग सिस्टम प्रत्येक HTML फॉर्म के लिए सबमिशन की गणना करता है और परिणामी HTML पेजों को Google सर्च इंजन इंडेक्स में जोड़ता है। सामने आए परिणाम गहरी वेब सामग्री के प्रति सेकंड एक हजार प्रश्नों के लिए खाते हैं।[35] इस प्रणाली में, प्रस्तुतियाँ की पूर्व-गणना तीन एल्गोरिदम का उपयोग करके की जाती है:

  1. कीवर्ड स्वीकार करने वाले पाठ खोज इनपुट के लिए इनपुट मानों का चयन करना,
  2. उन इनपुट की पहचान करना जो केवल एक विशिष्ट प्रकार (जैसे, दिनांक) के मान स्वीकार करते हैं और
  3. वेब सर्च इंडेक्स में शामिल करने के लिए उपयुक्त यूआरएल उत्पन्न करने वाले इनपुट संयोजनों की एक छोटी संख्या का चयन करना।

2008 में, Tor (गुमनामी नेटवर्क) #छिपी सेवाओं के उपयोगकर्ताओं को उनकी पहुंच और एक छिपे हुए .onion प्रत्यय की खोज में सुविधा के लिए, हारून स्वार्ट्ज ने Tor2web को डिजाइन किया- एक प्रॉक्सी एप्लिकेशन जो आम वेब ब्राउज़रों के माध्यम से पहुंच प्रदान करने में सक्षम है।[36] इस एप्लिकेशन का उपयोग करते हुए, गहरे वेब लिंक .onion शीर्ष-स्तरीय डोमेन के बाद अक्षरों के एक यादृच्छिक अनुक्रम के रूप में दिखाई देते हैं।

यह भी देखें

संदर्भ

  1. Hamilton, Nigel (2019–2020). "The Mechanics of a Deep Net Metasearch Engine". In Isaías, Pedro; Palma dos Reis, António (eds.). ई-सोसायटी पर IADIS अंतर्राष्ट्रीय सम्मेलन की कार्यवाही. pp. 1034–6. CiteSeerX 10.1.1.90.5847. ISBN 978-972-98947-0-1.
  2. Devine, Jane; Egger-Sider, Francine (August 2021). "Beyond google: the invisible web in the academic library". The Journal of Academic Librarianship. 30 (4): 265–269. doi:10.1016/j.acalib.2004.04.010.
  3. Raghavan, Sriram; Garcia-Molina, Hector (September 11–14, 2001). "छिपे हुए वेब को क्रॉल करना". 27th International Conference on Very Large Data Bases.
  4. "भूतल वेब". Computer Hope. Retrieved June 20, 2018.
  5. Wright, Alex (February 22, 2009). "Exploring a 'Deep Web' That Google Can't Grasp". The New York Times. Retrieved September 2, 2019. [...] Mike Bergman, a computer scientist and consultant who is credited with coining the term Deep Web.
  6. Madhavan, J., Ko, D., Kot, Ł., Ganapathy, V., Rasmussen, A., & Halevy, A. (2008). Google's deep web crawl. Proceedings of the VLDB Endowment, 1(2), 1241–52.
  7. Shedden, Sam (June 8, 2014). "How Do You Want Me to Do It? Does It Have to Look like an Accident? – an Assassin Selling a Hit on the Net; Revealed Inside the Deep Web". Sunday Mail. Archived from the original on March 1, 2020.
  8. Beckett, Andy (November 26, 2009). "इंटरनेट का काला पक्ष". Retrieved August 9, 2015.
  9. D. Day. Easiest Catch: Don't Be Another Fish in the Dark Net. Wake Forest University: TEDx Talks. Archived from the original on November 13, 2021.
  10. "Clearing Up Confusion – Deep Web vs. Dark Web". BrightPlanet. March 27, 2014.
  11. Solomon, Jane (May 6, 2015). "डीप वेब बनाम डार्क वेब". Retrieved May 26, 2015.
  12. NPR Staff (May 25, 2014). "Going Dark: The Internet Behind The Internet". Retrieved May 29, 2015.
  13. Greenberg, Andy (November 19, 2014). "Hacker Lexicon: What Is the Dark Web?". Retrieved June 6, 2015.
  14. "इंटरनेट गवर्नेंस और साइबर सुरक्षा पर डार्क वेब का प्रभाव" (PDF). January 20, 2014. Archived from the original (PDF) on January 16, 2017. Retrieved January 15, 2017.
  15. Lam, Kwok-Yan; Chi, Chi-Hung; Qing, Sihan (November 23, 2016). Information and Communications Security: 18th International Conference, ICICS 2016, Singapore, Singapore, November 29 – December 2, 2016, Proceedings (in English). Springer. ISBN 9783319500119. Retrieved January 15, 2017.
  16. "The Deep Web vs. The Dark Web | Dictionary.com Blog". Dictionary Blog. May 6, 2015. Retrieved January 15, 2017.
  17. Akhgar, Babak; Bayerl, P. Saskia; Sampson, Fraser (January 1, 2017). Open Source Intelligence Investigation: From Strategy to Implementation (in English). Springer. ISBN 9783319476711. Retrieved January 15, 2017.
  18. "What is the dark web and who uses it?". The Globe and Mail. Retrieved January 15, 2017.
  19. 19.0 19.1 Bergman, Michael K (August 2001). "The Deep Web: Surfacing Hidden Value". The Journal of Electronic Publishing. 7 (1). doi:10.3998/3336451.0007.104.
  20. Garcia, Frank (January 1996). "Business and Marketing on the Internet". Masthead. 15 (1). Archived from the original on December 5, 1996. Retrieved February 24, 2009.
  21. @1 started with 5.7 terabytes of content, estimated to be 30 times the size of the nascent World Wide Web; PLS was acquired by AOL in 1998 and @1 was abandoned. "PLS introduces AT1, the first 'second generation' Internet search service" (Press release). Personal Library Software. December 1996. Archived from the original on October 21, 1997. Retrieved February 24, 2009.
  22. Fielding, R.; Nottingham, M.; Reschke, J. (2014). Fielding, R.; Nottingham, M.; Reschke, J. (eds.). "Hypertext Transfer Protocol (HTTP/1.1): Caching". Internet Engineering Task Force. doi:10.17487/RFC7234. Retrieved July 30, 2014. {{cite journal}}: Cite journal requires |journal= (help)
  23. Special:Search
  24. "Internet Archive Search".
  25. Wiener-Bronner, Danielle (June 10, 2015). "Google मानव जाति को वह दिखाने के लिए 'डीप वेब' को अनुक्रमित कर रहा है जो Google नहीं करेगा". Fusion. Archived from the original on June 30, 2015. Retrieved June 27, 2015. There are other simpler versions of Memex already available. "If you've ever used the Internet Archive's Wayback Machine", which gives you past versions of a website not accessible through Google, then you've technically searched the Deep Web, said Chris Mattmann.
  26. Wright, Alex (February 22, 2009). "Exploring a 'Deep Web' That Google Can't Grasp". The New York Times. Retrieved February 23, 2009.
  27. "इंट्यूट एफएक्यू, डेड लिंक". Retrieved October 13, 2012.
  28. "एल्सेवियर लोकप्रिय विज्ञान खोज इंजन को सेवानिवृत्त करेगा". library.bldrdoc.gov. December 2013. Archived from the original on June 23, 2015. Retrieved June 22, 2015. by end of January 2014, Elsevier will be discontinuing Scirus, its free science search engine. Scirus has been a wide-ranging research tool, with over 575 million items indexed for searching, including webpages, pre-print articles, patents, and repositories.
  29. Sriram Raghavan; Garcia-Molina, Hector (2000). "Crawling the Hidden Web" (PDF). Stanford Digital Libraries Technical Report. Retrieved December 27, 2008. {{cite journal}}: Cite journal requires |journal= (help)
  30. Raghavan, Sriram; Garcia-Molina, Hector (2001). "छिपे हुए वेब को क्रॉल करना" (PDF). Proceedings of the 27th International Conference on Very Large Data Bases (VLDB). pp. 129–38.
  31. Alexandros, Ntoulas; Zerfos, Petros; Cho, Junghoo (2005). "Downloading Hidden Web Content" (PDF). UCLA Computer Science. Retrieved February 24, 2009. {{cite journal}}: Cite journal requires |journal= (help)
  32. Shestakov, Denis; Bhowmick, Sourav S.; Lim, Ee-Peng (2005). "DEQUE: Querying the Deep Web" (PDF). Data & Knowledge Engineering. 52 (3): 273–311. doi:10.1016/S0169-023X(04)00107-7.
  33. Barbosa, Luciano; Freire, Juliana (2007). "An Adaptive Crawler for Locating Hidden-Web Entry Points" (PDF). WWW Conference 2007. Archived from the original (PDF) on June 5, 2011. Retrieved March 20, 2009. {{cite journal}}: Cite journal requires |journal= (help)
  34. Barbosa, Luciano; Freire, Juliana (2005). "Searching for Hidden-Web Databases" (PDF). WebDB 2005. Archived from the original (PDF) on June 5, 2011. Retrieved March 20, 2009. {{cite journal}}: Cite journal requires |journal= (help)
  35. Madhavan, Jayant; Ko, David; Kot, Łucja; Ganapathy, Vignesh; Rasmussen, Alex; Halevy, Alon (2008). "Google's Deep-Web Crawl" (PDF). VLDB Endowment, ACM. Retrieved April 17, 2009. {{cite journal}}: Cite journal requires |journal= (help)
  36. Aaron, Swartz. "गुमनामी की रक्षा में". Retrieved February 4, 2014.


अग्रिम पठन


बाहरी संबंध

Media related to डीप वेब at Wikimedia Commons