डीप वेब: Difference between revisions
No edit summary |
No edit summary |
||
(23 intermediate revisions by 4 users not shown) | |||
Line 1: | Line 1: | ||
{{short description|Content of the World Wide Web that is not indexed by search engines}} | {{short description|Content of the World Wide Web that is not indexed by search engines}} | ||
{{About | यह लेख वर्ल्ड वाइड वेब के उस भाग के बारे में है,जिसकी अनुक्रमित पारंपरिक | {{About | यह लेख वर्ल्ड वाइड वेब के उस भाग के बारे में है,जिसकी अनुक्रमित पारंपरिक सर्च इंजन के रूप में नहीं है। अन्य उपयोगों के लिए गहरी वेब असंबद्धता में दिखया गया है }} | ||
[[Index.php?title=अंधेरे जाल| | [[Index.php?title=अंधेरे जाल|डीप वेब]] के साथ भ्रमित न हों। | ||
'''डीप वेब''',<ref>{{cite book |citeseerx= 10.1.1.90.5847 |chapter-url= http://www.iadisportal.org/digital-library/the-mechanics-of-a-deep-net-metasearch-engine |chapter=The Mechanics of a Deep Net Metasearch Engine |pages=1034–6 |last= Hamilton |first= Nigel |year= 2019–2020 |editor1-first= Pedro |editor1-last= Isaías |editor2-first= António |editor2-last= Palma dos Reis |title= ई-सोसायटी पर IADIS अंतर्राष्ट्रीय सम्मेलन की कार्यवाही|isbn= 978-972-98947-0-1 }}</ref> '''अदृश्य | '''डीप वेब''',<ref>{{cite book |citeseerx= 10.1.1.90.5847 |chapter-url= http://www.iadisportal.org/digital-library/the-mechanics-of-a-deep-net-metasearch-engine |chapter=The Mechanics of a Deep Net Metasearch Engine |pages=1034–6 |last= Hamilton |first= Nigel |year= 2019–2020 |editor1-first= Pedro |editor1-last= Isaías |editor2-first= António |editor2-last= Palma dos Reis |title= ई-सोसायटी पर IADIS अंतर्राष्ट्रीय सम्मेलन की कार्यवाही|isbn= 978-972-98947-0-1 }}</ref> '''अदृश्य वेब''',<ref>{{cite journal |last1= Devine |first1= Jane |last2= Egger-Sider |first2= Francine |title= Beyond google: the invisible web in the academic library |journal= The Journal of Academic Librarianship |date= August 2021 |volume= 30 |issue= 4 |pages= 265–269 |doi= 10.1016/j.acalib.2004.04.010 }}</ref> या '''हिडन वेब'''<ref name="cthw">{{cite journal|title= छिपे हुए वेब को क्रॉल करना|journal= 27th International Conference on Very Large Data Bases|date= September 11–14, 2001|first1= Sriram|last1= Raghavan|first2= Hector|last2= Garcia-Molina|url=http://ilpubs.stanford.edu:8090/725/}}</ref> [[वर्ल्ड वाइड वेब]] के भाग के रूप में होते है, जिसके कंटेंट मानक [[वेब सर्च-इंजन प्रोग्राम]] द्वारा [[अनुक्रमित]] नहीं हैं। यह [[ सतह का जाल |सतह वेब]] के विपरीत होते है, जिसकी पहुंच इंटरनेट का उपयोग करने वाले किसी भी व्यक्ति के लिए सुलभ हो सकती है।<ref>{{cite web |title= भूतल वेब|url= https://www.computerhope.com/jargon/s/surface-web.htm |publisher= Computer Hope |access-date= June 20, 2018}}</ref> [[कंप्यूटर विज्ञान]] माइकल के. बर्गमैन को 2001 में सर्च -इंडेक्सिंग शब्द के रूप में सर्च करने का श्रेय दिया गया है।<ref> | ||
{{cite news | {{cite news | ||
| last = Wright | | last = Wright | ||
Line 19: | Line 18: | ||
</ref> | </ref> | ||
डीप वेब साइटों का | डीप वेब साइटों का प्रत्यक्ष [[URL|यूआरएल]] या आईपी एड्रेस के द्वारा किया जा सकता है, लेकिन वास्तविक कंटेंट तक पहुँचने के लिए पासवर्ड या अन्य सुरक्षा जानकारी अंकित करने की आवश्यकता हो सकती है।<ref>Madhavan, J., Ko, D., Kot, Ł., Ganapathy, V., Rasmussen, A., & Halevy, A. (2008). Google's deep web crawl. Proceedings of the VLDB Endowment, 1(2), 1241–52.</ref><ref>{{cite web |url= https://www.questia.com/article/1G1-370513892/how-do-you-want-me-to-do-it-does-it-have-to-look |title= How Do You Want Me to Do It? Does It Have to Look like an Accident? – an Assassin Selling a Hit on the Net; Revealed Inside the Deep Web |url-access= |newspaper= [[Sunday Mail (Scotland)|Sunday Mail]] |date= June 8, 2014 |first= Sam |last= Shedden |access-date= |archive-date= March 1, 2020 |archive-url= https://web.archive.org/web/20200301174912/https://www.questia.com/article/1G1-370513892/how-do-you-want-me-to-do-it-does-it-have-to-look |url-status= dead }}</ref> ऐसी साइटों में [[ वेबमेल |वेब मेल]], [[ऑनलाइन बैंकिंग]], [[ घन संग्रहण |क्लाउड स्टोरेज]], सीमित पहुंच वाले [[ सामाजिक मीडिया |सामाजिक मीडिया]] पेज और प्रोफाइल कुछ [[वेब मंचों|वेब फ़ोरम्स]] और कोड लैंग्वेज के रूप में उपयोग किया जाता है, जिसमें कंटेंट देखने के लिए पंजीकरण की आवश्यकता होती है। इसमें [[प्रचलित विडियो]] और कुछ ऑनलाइन पत्रिकाएं और समाचार पत्र जैसी मांग के रूप में सेवाएं भी सम्मलित होती है। | ||
== शब्दावली == | == शब्दावली == | ||
[[डार्क | [[डार्क वेब]] के साथ डीप वेब का पहला सम्मिश्रण 2009 के समय हुआ था, जब डीप वेब सर्च शब्दावली पर [[फ्रीनेट]] और [[डार्कनेट]] पर होने वाली अवैध गतिविधियों के साथ चर्चा की गई थी।<ref>{{cite news|last1=Beckett|first1=Andy|title=इंटरनेट का काला पक्ष|url=https://www.theguardian.com/technology/2009/nov/26/dark-side-internet-freenet |date=November 26, 2009 |access-date=August 9, 2015}}</ref> उन आपराधिक गतिविधियों में व्यक्तिगत पासवर्ड, झूठे दस्तावेज़, ड्रग्स, [[आग्नेयास्त्रों]] और [[बाल अश्लीलता|चाइल्ड पोनोग्राफी]] का व्यापार के रूप में सम्मलित किया गया है।<ref>{{cite video|url=https://www.youtube.com/watch?v=GEwmYk15ZcU| archive-url=https://ghostarchive.org/varchive/youtube/20211113/GEwmYk15ZcU| archive-date=November 13, 2021 | url-status=live|author=D. Day|title=Easiest Catch: Don't Be Another Fish in the Dark Net|publisher=[[TEDx Talks]]|location=Wake Forest University}}{{cbignore}}</ref> | ||
ब्लैक मार्केट [[सिल्क रोड]] पर मीडिया द्वारा रिपोर्ट करने के बाद से मीडिया आउटलेट्स ने सामान्य रूप से डीप वेब का प्रयोग किया है, जो कि सामान्यतः डार्क वेब या डार्कनेट के रूप में उपयोग किया जाता है, इस तुलना को कुछ लोग गलत समझते हैं।<ref name="confusion">{{cite web|url=http://www.brightplanet.com/2014/03/clearing-confusion-deep-web-vs-dark-web/|title=Clearing Up Confusion – Deep Web vs. Dark Web|publisher=BrightPlanet|date=March 27, 2014}}</ref> और इसके परिणामस्वरूप लगातार असमंजित के रूप में एक निरंतर स्रोत बन गया है।<ref>{{cite news|last1=Solomon|first1=Jane|title=डीप वेब बनाम डार्क वेब|url=http://blog.dictionary.com/dark-web/ |date=May 6, 2015 |access-date=May 26, 2015}}</ref> [[वायर्ड (वेबसाइट)]] रिपोर्टर[[ किम ज़ेटर | किम ज़ेटर]] <ref>{{cite news|last1=NPR Staff|title=Going Dark: The Internet Behind The Internet|url=https://www.npr.org/sections/alltechconsidered/2014/05/25/315821415/going-dark-the-internet-behind-the-internet|access-date=May 29, 2015|date=May 25, 2014}}</ref> और [[एंडी ग्रीनबर्ग]]<ref>{{cite news|last1=Greenberg|first1=Andy|title=Hacker Lexicon: What Is the Dark Web?|url=https://www.wired.com/2014/11/hacker-lexicon-whats-dark-web/ |date=November 19, 2014 |access-date=June 6, 2015}}</ref> ने अनुशंसा करते हुए कहा कि शब्दों का भिन्न-भिन्न विधि से उपयोग किया जाता है। जबकि डीप वेब किसी भी साइट का एक संदर्भ है, जिसे पारंपरिक सर्च इंजन द्वारा एक्सेस नहीं किया जा सकता है। लेकिन डार्क वेब ,डीप वेब का एक भाग है, जिसे जानबूझकर छिपाया गया है और मानक ब्राउज़रों और विधियों द्वारा द्वारा एक्सेस किया जाता है।<ref>{{cite web|title=इंटरनेट गवर्नेंस और साइबर सुरक्षा पर डार्क वेब का प्रभाव|date=January 20, 2014|url=https://www.ourinternet.org/sites/default/files/publications/GCIG_Paper_No6.pdf|access-date=January 15, 2017|archive-date=January 16, 2017|archive-url=https://web.archive.org/web/20170116173141/https://www.ourinternet.org/sites/default/files/publications/GCIG_Paper_No6.pdf|url-status=dead}}</ref><ref>{{cite book|last1=Lam|first1=Kwok-Yan|last2=Chi|first2=Chi-Hung|last3=Qing|first3=Sihan|title=Information and Communications Security: 18th International Conference, ICICS 2016, Singapore, Singapore, November 29 – December 2, 2016, Proceedings|publisher=Springer|isbn=9783319500119|url=https://books.google.com/books?id=uraVDQAAQBAJ&pg=PA174 |language=en |date=November 23, 2016 |access-date=January 15, 2017}}</ref><ref>{{cite web|title=The Deep Web vs. The Dark Web {{!}} Dictionary.com Blog|url=http://blog.dictionary.com/dark-web/|publisher=Dictionary Blog |date=May 6, 2015 |access-date=January 15, 2017}}</ref><ref>{{cite book|last1=Akhgar|first1=Babak|last2=Bayerl|first2=P. Saskia|last3=Sampson|first3=Fraser|title=Open Source Intelligence Investigation: From Strategy to Implementation|publisher=Springer|isbn=9783319476711|url=https://books.google.com/books?id=39zTDQAAQBAJ&pg=PA112 |language=en |date=January 1, 2017 |access-date=January 15, 2017}}</ref><ref>{{cite news|title=What is the dark web and who uses it?|url=https://www.theglobeandmail.com/technology/tech-news/what-is-the-dark-web-and-who-uses-it/article26026082/|newspaper=The Globe and Mail|access-date=January 15, 2017}}</ref> | |||
== गैर-अनुक्रमित सामग्री == | == गैर-अनुक्रमित सामग्री == | ||
बर्गमैन ने द जर्नल ऑफ इलेक्ट्रॉनिक | बर्गमैन ने द जर्नल ऑफ इलेक्ट्रॉनिक प्रकाशन में प्रकाशित डीप वेब पर एक पेपर में उल्लेख किया है, कि जिल एल्सवर्थ ने 1994 में [[ अदृश्य वेब |अदृश्य वेब]] शब्द का उपयोग उन वेबसाइटों को संदर्भित करने के लिए किया था, जो किसी भी सर्च इंजन के साथ पंजीकृत नहीं थीं।<ref name="bergman2001">{{cite journal |first= Michael K | last= Bergman | title=The Deep Web: Surfacing Hidden Value | journal=The Journal of Electronic Publishing |date=August 2001 | volume=7 | issue=1 | url=http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0007.104 |doi=10.3998/3336451.0007.104| doi-access=free }}</ref> और इस प्रकार बर्गमैन ने फ्रैंक गार्सिया के एक जनवरी 1996 के लेख का हवाला दिया था।<ref>{{cite journal | ||
| last = Garcia | | last = Garcia | ||
| first = Frank | | first = Frank | ||
Line 37: | Line 36: | ||
| access-date=February 24, 2009 |archive-url=https://web.archive.org/web/19961205083117/http://tcp.ca/Jan96/BusandMark.html |archive-date=December 5, 1996}}</ref> | | access-date=February 24, 2009 |archive-url=https://web.archive.org/web/19961205083117/http://tcp.ca/Jan96/BusandMark.html |archive-date=December 5, 1996}}</ref> | ||
यह एक ऐसी साइट होगी जो संभवतः यथोचित रूप से डिज़ाइन की गई है, लेकिन उन्होंने इसे किसी भी सर्च इंजन के साथ पंजीकृत करने की परेशानी नहीं उठाई थीं। इसलिए कोई उन्हें ढूंढ नहीं सकता था और वे छिपे हुए होते है और इसे अदृश्य वेब के रूप में जाना जाता है। | |||
यह एक ऐसी साइट होगी जो संभवतः यथोचित रूप से डिज़ाइन की गई | |||
दिसंबर 1996 की प्रेस विज्ञप्ति में नंबर 1 डीप वेब प्रोग्राम के विवरण में पाया गया है। कि ब्रूस माउंट और [[पर्सनल लाइब्रेरी सॉफ्टवेयर]] के मैथ्यू बी. कोल द्वारा अदृश्य वेब शब्द का एक और प्रारंभिक उपयोग किया गया था।<ref name="PLS">@1 started with 5.7 terabytes of content, estimated to be 30 times the size of the nascent World Wide Web; PLS was acquired by AOL in 1998 and @1 was abandoned. {{cite press release |title=PLS introduces AT1, the first 'second generation' Internet search service |publisher=Personal Library Software |date=December 1996 |url=http://www.pls.com/news/pr961212_at1.html |access-date=February 24, 2009 |url-status=dead |archive-url=https://web.archive.org/web/19971021232057/http://www.pls.com/news/pr961212_at1.html |archive-date=October 21, 1997 }}</ref> | |||
उपर्युक्त 2001 बर्गमैन के अध्ययन में, विशेष 'डीप वेब' का पहला प्रयोग किया गया था, जिसे सामान्यतः रूप में स्वीकार किया जाता है।<ref name="bergman2001" /> | |||
== इंडेक्सिंग के विधि == | == इंडेक्सिंग के विधि == | ||
ऐसे विधि जो | ऐसे विधि जो वेब पेजों को पारंपरिक सर्च इंजनों द्वारा अनुक्रमित होने से रोकते हैं, उन्हें निम्नलिखित में से एक या अधिक के रूप में वर्गीकृत किया जा सकता है: | ||
# प्रासंगिक | # '''प्रासंगिक वेब''': विभिन्न एक्सेस संदर्भों के लिए भिन्न-भिन्न कंटेंट वाले पेज होते है।उदाहरण के लिए, क्लाइंट आईपी एड्रेस या पिछले नेविगेशन अनुक्रम की रेंज के रूप होते है। | ||
# डायनेमिक कंटेंट: [[गतिशील | # '''डायनेमिक कंटेंट''': [[गतिशील वेब पेज]], जो एक सबमिट की गई क्वेरी के उत्तर में लौटाए जाते हैं या मात्र एक फॉर्म के जरिए एक्सेस किए जाते हैं, विशेष रूप से यदि ओपन-डोमेन इनपुट एलिमेंट्स जैसे टेक्स्ट फील्ड्स का उपयोग किया जाता है। ऐसे क्षेत्रों का उपयोग डोमेन ज्ञान के बिना नेविगेट करना कठिन होता है.। | ||
# सीमित पहुंच वाली सामग्री: ऐसी साइटें जो | # '''सीमित पहुंच वाली सामग्री''': ऐसी साइटें जो प्रौद्योगिकीय विधि से अपने पृष्ठों तक पहुंच को सीमित करती हैं, उदाहरण के लिए [[रोबोट बहिष्करण मानक]] या [[ कॅप्चा |कॅप्चा]] ,किसी स्टोर निर्देश का उपयोग नहीं करता है, जो सर्च इंजनों को उन्हें ब्राउज़ करने और वेब [[कैश]] प्रतियां बनाने से रोकता हैं।<ref>{{cite journal|title=Hypertext Transfer Protocol (HTTP/1.1): Caching|publisher=[[Internet Engineering Task Force]]|year=2014|doi=10.17487/RFC7234 |url=http://tools.ietf.org/html/rfc7234#section-5.2.2.3|access-date=July 30, 2014|editor-last1=Fielding |editor-last2=Nottingham |editor-last3=Reschke |editor-first1=R. |editor-first2=M. |editor-first3=J. |last1=Fielding |first1=R. |last2=Nottingham |first2=M. |last3=Reschke |first3=J. }}</ref> ऐसे पृष्ठों की सर्च के लिए साइटों में एक आंतरिक सर्च इंजन के रूप में सुविधा हो सकती है।<ref>[[Special:Search]]</ref><ref>{{Cite web|url=https://archive.org/search.php|title=Internet Archive Search}}</ref> | ||
# गैर-एचटीएमएल/पाठ सामग्री: मल्टीमीडिया | # '''गैर-एचटीएमएल/पाठ सामग्री''': पाठ कंटेंट जो मल्टीमीडिया छवि या वीडियो विशिष्ट फ़ाइल स्वरूपों में एन्कोडेड होता है, फ़ाइल स्वरूपों को सर्च इंजन के रूप में मान्यता प्राप्त नहीं है। | ||
# | #'''प्राइवेट वेब''': वे साइटें जिन्हें पंजीकरण और लॉगिन पासवर्ड से सुरक्षित संसाधनों की आवश्यकता होती है। | ||
# स्क्रिप्टेड सामग्री: वे पृष्ठ जो मात्र [[जावास्क्रिप्ट]] द्वारा निर्मित लिंक के साथ-साथ [[एडोब फ्लैश]] या [[अजाक्स (प्रोग्रामिंग)]] समाधानों के माध्यम से | # '''स्क्रिप्टेड सामग्री''': वे पृष्ठ जो मात्र [[जावास्क्रिप्ट]] द्वारा निर्मित लिंक के साथ-साथ [[एडोब फ्लैश]] या [[अजाक्स (प्रोग्रामिंग)]] समाधानों के माध्यम से वेब सर्वर से गतिशील रूप से डाउनलोड की जाने वाली कंटेंट तक पहुंच योग्य हैं। | ||
# सॉफ़्टवेयर: नियमित इंटरनेट से कुछ | # '''सॉफ़्टवेयर''': नियमित इंटरनेट से कुछ कंटेंट जानबूझकर छिपाई जाती है, जो विशेष सॉफ़्टवेयर जैसे Tor (गुमनामी नेटवर्क), [[I2P]], या अन्य डार्कनेट सॉफ़्टवेयर के साथ ही एक्सेस की जा सकती है। उदाहरण के लिए, टोर उपयोगकर्ताओं को अज्ञात रूप से अनियन सर्वर एड्रेस का उपयोग गुमनाम तरीके से वेबसाइटों तक पहुंचने की अनुमति देता है, उनके आईपी एड्रेस को छुपाता है। | ||
# अनलिंक की गई सामग्री: | # '''अनलिंक की गई सामग्री''': ऐसे पृष्ठ जो अन्य पृष्ठों के साथ जुड़े नहीं हैं, जो [[वेब क्रॉलिंग]] प्रोग्राम को कंटेंट तक पहुँचने से रोक सकते हैं। इस कंटेंट को बिना [[बैकलिंक]] वाले पेज कहा जाता है, जिसे इनलिंक्स के रूप में भी जाना जाता है। सर्च इंजन हमेशा सर्च े गए वेब पृष्ठों में से सभी बैकलिंक नहीं सर्च पाते हैं। | ||
# वेब संग्रह: | # '''वेब संग्रह''': वेब अभिलेखीय सेवाएं जैसे कि [[वेबैक मशीन]] उपयोगकर्ताओं को समय-समय पर वेब पेजों के संग्रहीत संस्करणों को देखने में सक्षम बनाती हैं, जिसमें वे वेबसाइटें सम्मलित होती हैं, जो अभी तक पहुंच में नहीं हैं और गूगल जैसे सर्च इंजन द्वारा अनुक्रमित नहीं की गई हैं। वेबैक मशीन को गहन वेब देखने के लिए एक प्रोग्राम के रूप में कहा जा सकता है, क्योंकि वेब संग्रह जो वर्तमान से नहीं हैं, उन्हें अनुक्रमित नहीं किया जा सकता है, क्योंकि वेबसाइटों के पिछले संस्करणों को सर्च द्वारा देखना असंभव है। सभी वेबसाइटों को कुछ समय पर अपडेट किया जाता है, यही कारण है कि वेब संग्रह को वेब कंटेंट माना जाता है।<ref>{{cite web|last1=Wiener-Bronner|first1=Danielle|title=Google मानव जाति को वह दिखाने के लिए 'डीप वेब' को अनुक्रमित कर रहा है जो Google नहीं करेगा|url=http://fusion.net/story/145885/nasa-is-indexing-the-deep-web-to-show-mankind-what-google-wont/|publisher=Fusion|date=June 10, 2015|access-date=June 27, 2015|quote=There are other simpler versions of Memex already available. "If you've ever used the Internet Archive's Wayback Machine", which gives you past versions of a website not accessible through Google, then you've technically searched the Deep Web, said [[Chris Mattmann]].|archive-date=June 30, 2015|archive-url=https://web.archive.org/web/20150630010143/http://fusion.net/story/145885/nasa-is-indexing-the-deep-web-to-show-mankind-what-google-wont/|url-status=dead}}</ref> | ||
== कंटेंट प्रकार == | |||
चूंकि एक विशिष्ट वेब सर्वर की कंटेंट को सीधे सर्च ना निरंतर संभव नहीं होता है, जिससे की इसे अनुक्रमित किया जा सके, एक साइट को संभावित रूप से अप्रत्यक्ष रूप से एक्सेस किया जा सकता है और इस प्रकार ये [[कंप्यूटर]] [[भेद्यता (कंप्यूटिंग)|वल्नेरेबिलिटी]] के कारण होता है। | |||
वेब पर कंटेंट सर्च ने के लिए, सर्च इंजन [[वेब क्रॉलर]] का उपयोग करते हैं, जो ज्ञात प्रोटोकॉल वर्चुअल [[पोर्ट (कंप्यूटर नेटवर्किंग)]] के माध्यम से हाइपरलिंक का अनुसरण करने वाले वेब क्रॉलर का उपयोग करते हैं। यह प्रौद्योगिकीय सतह वेब पर कंटेंट सर्च ने के लिए आदर्श है, लेकिन अक्सर डीप वेब कंटेंट सर्च ने में अधिकांशतः अप्रभावी होती है। उदाहरण के लिए, ये क्रॉलर डायनेमिक पेजों को सर्च ने का प्रयास नहीं करते हैं जो संभावित प्रश्नों की अनिश्चित संख्या के कारण डेटाबेस क्वेरीज़ का परिणाम हैं।<ref name="wright2009">{{cite news | |||
वेब पर | |||
| last = Wright | | last = Wright | ||
| first = Alex | | first = Alex | ||
Line 71: | Line 63: | ||
| date = February 22, 2009 | | date = February 22, 2009 | ||
| url = https://www.nytimes.com/2009/02/23/technology/internet/23search.html?th&emc=th | | url = https://www.nytimes.com/2009/02/23/technology/internet/23search.html?th&emc=th | ||
| access-date = February 23, 2009}}</ref> यह नोट किया गया है कि क्वेरी परिणामों के लिंक प्रदान करके इसे | | access-date = February 23, 2009}}</ref> यह नोट किया गया है कि क्वेरी परिणामों के लिंक प्रदान करके इसे आंशिक रूप से दूर किया जा सकता है, लेकिन यह अनजाने में डीप वेब की साइट की लोकप्रियता को बढ़ा सकता है। | ||
[[DeepPeep]], [[ | [[DeepPeep|डीपपीप,]], [[इंटुटे]],[[डीप वेब टेक्नोलॉजीज]], [[Scirus|साइरस]], और अहमिया.एफ कुछ ऐसे सर्च इंजन हैं, जिन्होंने डीप वेब के रूप में पहुंच बनाई है। इनटूट की फंडिंग खत्म हो गई है और जुलाई 2011 तक यह एक अस्थायी स्टेटिक आर्काइव है।<ref>{{cite web | url=http://www.intute.ac.uk/faq.html | title=इंट्यूट एफएक्यू, डेड लिंक| access-date=October 13, 2012}}</ref> जनवरी 2013 के अंत में साइरस सेवानिवृत्त हुए।।<ref>{{cite web|title=एल्सेवियर लोकप्रिय विज्ञान खोज इंजन को सेवानिवृत्त करेगा|url=http://library.bldrdoc.gov/newsarc/201312.html|website=library.bldrdoc.gov|date=December 2013|access-date=June 22, 2015|quote=by end of January 2014, Elsevier will be discontinuing Scirus, its free science search engine. Scirus has been a wide-ranging research tool, with over 575 million items indexed for searching, including webpages, pre-print articles, patents, and repositories.|archive-url=https://web.archive.org/web/20150623002452/http://library.bldrdoc.gov/newsarc/201312.html|archive-date=June 23, 2015|url-status=dead}}</ref>शोधकर्ता इस बात की सर्च कर रहे हैं कि डीप वेब को स्वचालित रूप से कैसे क्रॉल किया जा सकता है, जिसमें ऐसी कंटेंट भी सम्मलित है जिसे मात्र विशेष सॉफ़्टवेयर जैसे टोर गुमनामी नेटवर्क द्वारा एक्सेस किया जा सकता है। 2001 में श्रीराम राघवन और हेक्टर गार्सिया-मोलिना स्टैनफोर्ड कंप्यूटर साइंस डिपार्टमेंट, स्टैनफोर्ड यूनिवर्सिटी होती है।<ref name="raghavan2000">{{cite journal | ||
शोधकर्ता इस बात की | |||
| author = Sriram Raghavan | | author = Sriram Raghavan | ||
| first2 = Hector | last2 = Garcia-Molina | | first2 = Hector | last2 = Garcia-Molina | ||
Line 81: | Line 72: | ||
| year = 2000 | | year = 2000 | ||
| url = http://ilpubs.stanford.edu:8090/456/1/2000-36.pdf | | url = http://ilpubs.stanford.edu:8090/456/1/2000-36.pdf | ||
| access-date = December 27, 2008}}</ref><ref>{{cite conference |first=Sriram |last=Raghavan |author2=Garcia-Molina, Hector | year=2001 | title=छिपे हुए वेब को क्रॉल करना| book-title=Proceedings of the 27th International Conference on Very Large Data Bases (VLDB) | pages=129–38 | url=http://www.dia.uniroma3.it/~vldbproc/017_129.pdf }}</ref> एक छिपे हुए | | access-date = December 27, 2008}}</ref><ref>{{cite conference |first=Sriram |last=Raghavan |author2=Garcia-Molina, Hector | year=2001 | title=छिपे हुए वेब को क्रॉल करना| book-title=Proceedings of the 27th International Conference on Very Large Data Bases (VLDB) | pages=129–38 | url=http://www.dia.uniroma3.it/~vldbproc/017_129.pdf }}</ref> एक छिपे हुए वेब क्रॉलर के लिए एक वास्तुशिल्प नमूना प्रस्तुत किया जो उपयोगकर्ताओं द्वारा प्रदान की गई महत्वपूर्ण शर्तों का उपयोग करता है या वेब फॉर्म को क्वेरी करने और डीप वेब कंटेंट को क्रॉल करने के लिए क्वेरी इंटरफेस से एकत्र किया जाता है। कैलिफोर्निया विश्वविद्यालय, लॉस एंजिल्स के एलेक्जेंड्रोस एनटूलास, पेट्रोस जेरफोस और जुन्घू चो ने एक छिपे हुए वेब क्रॉलर का निर्माण किया जो स्वचालित रूप से सर्च प्रपत्रों के विरुद्ध जारी करने के लिए सार्थक प्रश्न उत्पन्न करता है।<ref>{{cite journal | ||
| first1 = Ntoulas | | first1 = Ntoulas | ||
| last1 = Alexandros | | last1 = Alexandros | ||
Line 89: | Line 80: | ||
| year = 2005 | | year = 2005 | ||
| url = http://oak.cs.ucla.edu/~cho/papers/ntoulas-hidden.pdf | | url = http://oak.cs.ucla.edu/~cho/papers/ntoulas-hidden.pdf | ||
| access-date = February 24, 2009}}</ref> कई प्रपत्र क्वेरी | | access-date = February 24, 2009}}</ref> कई प्रपत्र क्वेरी लैंग्वेज अर्थात, शेष<ref>{{cite journal | ||
| first1 = Denis | | first1 = Denis | ||
| last1 = Shestakov | | last1 = Shestakov | ||
Line 99: | Line 90: | ||
| doi = 10.1016/S0169-023X(04)00107-7 | | doi = 10.1016/S0169-023X(04)00107-7 | ||
| url = http://www.inf.ufsc.br/~r.mello/deepWeb/querying/DKE2005-Sourav.pdf | | url = http://www.inf.ufsc.br/~r.mello/deepWeb/querying/DKE2005-Sourav.pdf | ||
}}</ref> | }}</ref> के रूप में प्रस्तावित किया गया है, कि, क्वेरी जारी करने के अतिरिक्त परिणाम पृष्ठों से संरचित डेटा निकालने की भी अनुमति भी दी जाती है। एक और प्रयास डीपपीप है, जो [[ राष्ट्रीय विज्ञान संस्था |राष्ट्रीय विज्ञान संस्था]] द्वारा प्रायोजित [[यूटा विश्वविद्यालय]] की एक परियोजना है, जिसने उपन्यास केंद्रित क्रॉलर प्रौद्योगिकीय के आधार पर विभिन्न डोमेन में छिपे हुए होते है , वेब स्रोत (वेब फॉर्म) के रूप में एकत्र किए गए ।<ref>{{cite journal | ||
| first1 = Luciano | | first1 = Luciano | ||
| last1 = Barbosa | | last1 = Barbosa | ||
Line 128: | Line 119: | ||
| url-status = dead | | url-status = dead | ||
}}</ref> | }}</ref> | ||
वाणिज्यिक | |||
वाणिज्यिक सर्च इंजनों ने डीप वेब को क्रॉल करने के लिए वैकल्पिक विधियों की सर्च प्रारंभ कर दी है। [[साइटमैप प्रोटोकॉल]] पहली बार 2005 में गूगल द्वारा विकसित और प्रस्तुत किया गया और [[मेटाडेटा हार्वेस्टिंग के लिए ओपन आर्काइव्स इनिशिएटिव प्रोटोकॉल]] ओएई-पीएचएच ऐसे तंत्र हैं जो सर्च इंजन और अन्य इच्छुक पार्टियों को विशेष वेब सर्वर पर डीप वेब संसाधनों की सर्च करने की अनुमति देते हैं। दोनों तंत्र वेब सर्वरों को उन यूआरएल का विज्ञापन करने की अनुमति देते हैं, जो उनके लिए सुलभ होते हैं, जिससे उन संसाधनों की स्वत: सर्च की अनुमति मिलती है, जो सीधे सतही वेब से जुड़े नहीं हैं। गूगल का डीप वेब सतह सिस्टम प्रत्येक एचटीएमएल फॉर्म के लिए सबमिशन की गणना करता है और परिणामी एचटीएमएल पेजों को गूगल सर्च इंजन इंडेक्स में जोड़ता है। सामने आए परिणाम डीप वेब कंटेंट के प्रति सेकंड एक हजार प्रश्नों के लिए खाते के रूप में होते है। <ref>{{cite journal | |||
| first1 = Jayant | | first1 = Jayant | ||
| last1 = Madhavan | | last1 = Madhavan | ||
Line 136: | Line 128: | ||
| year = 2008 | | year = 2008 | ||
| url = https://homes.cs.washington.edu/~alon/files/vldb08deepweb.pdf | | url = https://homes.cs.washington.edu/~alon/files/vldb08deepweb.pdf | ||
| access-date = April 17, 2009}}</ref> इस प्रणाली में | | access-date = April 17, 2009}}</ref> इस प्रणाली में प्रस्तुतियाँ की पूर्व-गणना तीन एल्गोरिदम का उपयोग करके की जाती है। | ||
# कीवर्ड स्वीकार करने वाले पाठ | |||
# | # कीवर्ड स्वीकार करने वाले पाठ सर्च इनपुट के लिए इनपुट मानों का चयन के रूप में होते है। | ||
# वेब सर्च इंडेक्स में सम्मलित करने के लिए उपयुक्त यूआरएल उत्पन्न करने वाले इनपुट संयोजनों की एक छोटी संख्या | # सी विशिष्ट प्रकार (जैसे, तिथि) के मान स्वीकार करने वाले इनपुट की पहचान करना होते है। | ||
# वेब सर्च इंडेक्स में सम्मलित करने के लिए उपयुक्त यूआरएल उत्पन्न करने वाले इनपुट संयोजनों की एक छोटी संख्या के रूप में चयन करना होता है। | |||
2008 में | वर्ष 2008 में टोर हिडन सेवाओं के उपयोगकर्ताओं को उनकी पहुंच और इन्हें सर्च ने में मदद करने के लिए अनियन प्रत्यय की सर्च में सुविधा के लिए, [[हारून स्वार्ट्ज]] ने [[Tor2web|टोर2]][[वेब क्रॉलर|वेब]] को इस तरह डिजाइन किया गया हैं। एक प्रॉक्सी एप्लिकेशन जो आम वेब ब्राउज़रों के माध्यम से पहुंच प्रदान करने में सक्षम है।<ref name=RELEASE>{{cite web|last=Aaron|first=Swartz|title=गुमनामी की रक्षा में|url=http://www.aaronsw.com/weblog/tor2web|access-date=February 4, 2014}}</ref> इस एप्लिकेशन का उपयोग करते हुए, डीप वेब लिंक अनियन [[शीर्ष-स्तरीय डोमेन]] के बाद अक्षरों के एक यादृच्छिक अनुक्रम के रूप में दिखाई देते हैं। | ||
== यह भी देखें == | == यह भी देखें == | ||
{{Portal|Internet}} | {{Portal|Internet}} | ||
* | * डारपा का मेमेक्स कार्यक्रम | ||
* [[डीप लिंकिंग|वेबलिंकिंग]] | * [[डीप लिंकिंग|वेबलिंकिंग]] | ||
Line 179: | Line 172: | ||
<!--Category:Search indexing?--> | <!--Category:Search indexing?--> | ||
[[Category: | [[Category:2000 के दशक के नवविज्ञान]] | ||
[[Category:All articles with dead external links]] | |||
[[Category:Articles with dead external links from June 2021]] | |||
[[Category:Articles with hatnote templates targeting a nonexistent page]] | |||
[[Category:CS1 English-language sources (en)]] | |||
[[Category:CS1 errors]] | |||
[[Category:Created On 16/06/2023]] | [[Category:Created On 16/06/2023]] | ||
[[Category:Lua-based templates]] | |||
[[Category:Machine Translated Page]] | |||
[[Category:Pages with empty portal template]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Portal templates with redlinked portals]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:Templates that add a tracking category]] | |||
[[Category:Templates that generate short descriptions]] | |||
[[Category:Templates using TemplateData]] | |||
[[Category:इंटरनेट शब्दावली]] | |||
[[Category:इंटरनेट सर्च इंजन]] | |||
[[Category:डार्क वेब]] |
Latest revision as of 19:51, 3 July 2023
डीप वेब के साथ भ्रमित न हों।
डीप वेब,[1] अदृश्य वेब,[2] या हिडन वेब[3] वर्ल्ड वाइड वेब के भाग के रूप में होते है, जिसके कंटेंट मानक वेब सर्च-इंजन प्रोग्राम द्वारा अनुक्रमित नहीं हैं। यह सतह वेब के विपरीत होते है, जिसकी पहुंच इंटरनेट का उपयोग करने वाले किसी भी व्यक्ति के लिए सुलभ हो सकती है।[4] कंप्यूटर विज्ञान माइकल के. बर्गमैन को 2001 में सर्च -इंडेक्सिंग शब्द के रूप में सर्च करने का श्रेय दिया गया है।[5]
डीप वेब साइटों का प्रत्यक्ष यूआरएल या आईपी एड्रेस के द्वारा किया जा सकता है, लेकिन वास्तविक कंटेंट तक पहुँचने के लिए पासवर्ड या अन्य सुरक्षा जानकारी अंकित करने की आवश्यकता हो सकती है।[6][7] ऐसी साइटों में वेब मेल, ऑनलाइन बैंकिंग, क्लाउड स्टोरेज, सीमित पहुंच वाले सामाजिक मीडिया पेज और प्रोफाइल कुछ वेब फ़ोरम्स और कोड लैंग्वेज के रूप में उपयोग किया जाता है, जिसमें कंटेंट देखने के लिए पंजीकरण की आवश्यकता होती है। इसमें प्रचलित विडियो और कुछ ऑनलाइन पत्रिकाएं और समाचार पत्र जैसी मांग के रूप में सेवाएं भी सम्मलित होती है।
शब्दावली
डार्क वेब के साथ डीप वेब का पहला सम्मिश्रण 2009 के समय हुआ था, जब डीप वेब सर्च शब्दावली पर फ्रीनेट और डार्कनेट पर होने वाली अवैध गतिविधियों के साथ चर्चा की गई थी।[8] उन आपराधिक गतिविधियों में व्यक्तिगत पासवर्ड, झूठे दस्तावेज़, ड्रग्स, आग्नेयास्त्रों और चाइल्ड पोनोग्राफी का व्यापार के रूप में सम्मलित किया गया है।[9]
ब्लैक मार्केट सिल्क रोड पर मीडिया द्वारा रिपोर्ट करने के बाद से मीडिया आउटलेट्स ने सामान्य रूप से डीप वेब का प्रयोग किया है, जो कि सामान्यतः डार्क वेब या डार्कनेट के रूप में उपयोग किया जाता है, इस तुलना को कुछ लोग गलत समझते हैं।[10] और इसके परिणामस्वरूप लगातार असमंजित के रूप में एक निरंतर स्रोत बन गया है।[11] वायर्ड (वेबसाइट) रिपोर्टर किम ज़ेटर [12] और एंडी ग्रीनबर्ग[13] ने अनुशंसा करते हुए कहा कि शब्दों का भिन्न-भिन्न विधि से उपयोग किया जाता है। जबकि डीप वेब किसी भी साइट का एक संदर्भ है, जिसे पारंपरिक सर्च इंजन द्वारा एक्सेस नहीं किया जा सकता है। लेकिन डार्क वेब ,डीप वेब का एक भाग है, जिसे जानबूझकर छिपाया गया है और मानक ब्राउज़रों और विधियों द्वारा द्वारा एक्सेस किया जाता है।[14][15][16][17][18]
गैर-अनुक्रमित सामग्री
बर्गमैन ने द जर्नल ऑफ इलेक्ट्रॉनिक प्रकाशन में प्रकाशित डीप वेब पर एक पेपर में उल्लेख किया है, कि जिल एल्सवर्थ ने 1994 में अदृश्य वेब शब्द का उपयोग उन वेबसाइटों को संदर्भित करने के लिए किया था, जो किसी भी सर्च इंजन के साथ पंजीकृत नहीं थीं।[19] और इस प्रकार बर्गमैन ने फ्रैंक गार्सिया के एक जनवरी 1996 के लेख का हवाला दिया था।[20]
यह एक ऐसी साइट होगी जो संभवतः यथोचित रूप से डिज़ाइन की गई है, लेकिन उन्होंने इसे किसी भी सर्च इंजन के साथ पंजीकृत करने की परेशानी नहीं उठाई थीं। इसलिए कोई उन्हें ढूंढ नहीं सकता था और वे छिपे हुए होते है और इसे अदृश्य वेब के रूप में जाना जाता है।
दिसंबर 1996 की प्रेस विज्ञप्ति में नंबर 1 डीप वेब प्रोग्राम के विवरण में पाया गया है। कि ब्रूस माउंट और पर्सनल लाइब्रेरी सॉफ्टवेयर के मैथ्यू बी. कोल द्वारा अदृश्य वेब शब्द का एक और प्रारंभिक उपयोग किया गया था।[21]
उपर्युक्त 2001 बर्गमैन के अध्ययन में, विशेष 'डीप वेब' का पहला प्रयोग किया गया था, जिसे सामान्यतः रूप में स्वीकार किया जाता है।[19]
इंडेक्सिंग के विधि
ऐसे विधि जो वेब पेजों को पारंपरिक सर्च इंजनों द्वारा अनुक्रमित होने से रोकते हैं, उन्हें निम्नलिखित में से एक या अधिक के रूप में वर्गीकृत किया जा सकता है:
- प्रासंगिक वेब: विभिन्न एक्सेस संदर्भों के लिए भिन्न-भिन्न कंटेंट वाले पेज होते है।उदाहरण के लिए, क्लाइंट आईपी एड्रेस या पिछले नेविगेशन अनुक्रम की रेंज के रूप होते है।
- डायनेमिक कंटेंट: गतिशील वेब पेज, जो एक सबमिट की गई क्वेरी के उत्तर में लौटाए जाते हैं या मात्र एक फॉर्म के जरिए एक्सेस किए जाते हैं, विशेष रूप से यदि ओपन-डोमेन इनपुट एलिमेंट्स जैसे टेक्स्ट फील्ड्स का उपयोग किया जाता है। ऐसे क्षेत्रों का उपयोग डोमेन ज्ञान के बिना नेविगेट करना कठिन होता है.।
- सीमित पहुंच वाली सामग्री: ऐसी साइटें जो प्रौद्योगिकीय विधि से अपने पृष्ठों तक पहुंच को सीमित करती हैं, उदाहरण के लिए रोबोट बहिष्करण मानक या कॅप्चा ,किसी स्टोर निर्देश का उपयोग नहीं करता है, जो सर्च इंजनों को उन्हें ब्राउज़ करने और वेब कैश प्रतियां बनाने से रोकता हैं।[22] ऐसे पृष्ठों की सर्च के लिए साइटों में एक आंतरिक सर्च इंजन के रूप में सुविधा हो सकती है।[23][24]
- गैर-एचटीएमएल/पाठ सामग्री: पाठ कंटेंट जो मल्टीमीडिया छवि या वीडियो विशिष्ट फ़ाइल स्वरूपों में एन्कोडेड होता है, फ़ाइल स्वरूपों को सर्च इंजन के रूप में मान्यता प्राप्त नहीं है।
- प्राइवेट वेब: वे साइटें जिन्हें पंजीकरण और लॉगिन पासवर्ड से सुरक्षित संसाधनों की आवश्यकता होती है।
- स्क्रिप्टेड सामग्री: वे पृष्ठ जो मात्र जावास्क्रिप्ट द्वारा निर्मित लिंक के साथ-साथ एडोब फ्लैश या अजाक्स (प्रोग्रामिंग) समाधानों के माध्यम से वेब सर्वर से गतिशील रूप से डाउनलोड की जाने वाली कंटेंट तक पहुंच योग्य हैं।
- सॉफ़्टवेयर: नियमित इंटरनेट से कुछ कंटेंट जानबूझकर छिपाई जाती है, जो विशेष सॉफ़्टवेयर जैसे Tor (गुमनामी नेटवर्क), I2P, या अन्य डार्कनेट सॉफ़्टवेयर के साथ ही एक्सेस की जा सकती है। उदाहरण के लिए, टोर उपयोगकर्ताओं को अज्ञात रूप से अनियन सर्वर एड्रेस का उपयोग गुमनाम तरीके से वेबसाइटों तक पहुंचने की अनुमति देता है, उनके आईपी एड्रेस को छुपाता है।
- अनलिंक की गई सामग्री: ऐसे पृष्ठ जो अन्य पृष्ठों के साथ जुड़े नहीं हैं, जो वेब क्रॉलिंग प्रोग्राम को कंटेंट तक पहुँचने से रोक सकते हैं। इस कंटेंट को बिना बैकलिंक वाले पेज कहा जाता है, जिसे इनलिंक्स के रूप में भी जाना जाता है। सर्च इंजन हमेशा सर्च े गए वेब पृष्ठों में से सभी बैकलिंक नहीं सर्च पाते हैं।
- वेब संग्रह: वेब अभिलेखीय सेवाएं जैसे कि वेबैक मशीन उपयोगकर्ताओं को समय-समय पर वेब पेजों के संग्रहीत संस्करणों को देखने में सक्षम बनाती हैं, जिसमें वे वेबसाइटें सम्मलित होती हैं, जो अभी तक पहुंच में नहीं हैं और गूगल जैसे सर्च इंजन द्वारा अनुक्रमित नहीं की गई हैं। वेबैक मशीन को गहन वेब देखने के लिए एक प्रोग्राम के रूप में कहा जा सकता है, क्योंकि वेब संग्रह जो वर्तमान से नहीं हैं, उन्हें अनुक्रमित नहीं किया जा सकता है, क्योंकि वेबसाइटों के पिछले संस्करणों को सर्च द्वारा देखना असंभव है। सभी वेबसाइटों को कुछ समय पर अपडेट किया जाता है, यही कारण है कि वेब संग्रह को वेब कंटेंट माना जाता है।[25]
कंटेंट प्रकार
चूंकि एक विशिष्ट वेब सर्वर की कंटेंट को सीधे सर्च ना निरंतर संभव नहीं होता है, जिससे की इसे अनुक्रमित किया जा सके, एक साइट को संभावित रूप से अप्रत्यक्ष रूप से एक्सेस किया जा सकता है और इस प्रकार ये कंप्यूटर वल्नेरेबिलिटी के कारण होता है।
वेब पर कंटेंट सर्च ने के लिए, सर्च इंजन वेब क्रॉलर का उपयोग करते हैं, जो ज्ञात प्रोटोकॉल वर्चुअल पोर्ट (कंप्यूटर नेटवर्किंग) के माध्यम से हाइपरलिंक का अनुसरण करने वाले वेब क्रॉलर का उपयोग करते हैं। यह प्रौद्योगिकीय सतह वेब पर कंटेंट सर्च ने के लिए आदर्श है, लेकिन अक्सर डीप वेब कंटेंट सर्च ने में अधिकांशतः अप्रभावी होती है। उदाहरण के लिए, ये क्रॉलर डायनेमिक पेजों को सर्च ने का प्रयास नहीं करते हैं जो संभावित प्रश्नों की अनिश्चित संख्या के कारण डेटाबेस क्वेरीज़ का परिणाम हैं।[26] यह नोट किया गया है कि क्वेरी परिणामों के लिंक प्रदान करके इसे आंशिक रूप से दूर किया जा सकता है, लेकिन यह अनजाने में डीप वेब की साइट की लोकप्रियता को बढ़ा सकता है।
डीपपीप,, इंटुटे,डीप वेब टेक्नोलॉजीज, साइरस, और अहमिया.एफ कुछ ऐसे सर्च इंजन हैं, जिन्होंने डीप वेब के रूप में पहुंच बनाई है। इनटूट की फंडिंग खत्म हो गई है और जुलाई 2011 तक यह एक अस्थायी स्टेटिक आर्काइव है।[27] जनवरी 2013 के अंत में साइरस सेवानिवृत्त हुए।।[28]शोधकर्ता इस बात की सर्च कर रहे हैं कि डीप वेब को स्वचालित रूप से कैसे क्रॉल किया जा सकता है, जिसमें ऐसी कंटेंट भी सम्मलित है जिसे मात्र विशेष सॉफ़्टवेयर जैसे टोर गुमनामी नेटवर्क द्वारा एक्सेस किया जा सकता है। 2001 में श्रीराम राघवन और हेक्टर गार्सिया-मोलिना स्टैनफोर्ड कंप्यूटर साइंस डिपार्टमेंट, स्टैनफोर्ड यूनिवर्सिटी होती है।[29][30] एक छिपे हुए वेब क्रॉलर के लिए एक वास्तुशिल्प नमूना प्रस्तुत किया जो उपयोगकर्ताओं द्वारा प्रदान की गई महत्वपूर्ण शर्तों का उपयोग करता है या वेब फॉर्म को क्वेरी करने और डीप वेब कंटेंट को क्रॉल करने के लिए क्वेरी इंटरफेस से एकत्र किया जाता है। कैलिफोर्निया विश्वविद्यालय, लॉस एंजिल्स के एलेक्जेंड्रोस एनटूलास, पेट्रोस जेरफोस और जुन्घू चो ने एक छिपे हुए वेब क्रॉलर का निर्माण किया जो स्वचालित रूप से सर्च प्रपत्रों के विरुद्ध जारी करने के लिए सार्थक प्रश्न उत्पन्न करता है।[31] कई प्रपत्र क्वेरी लैंग्वेज अर्थात, शेष[32] के रूप में प्रस्तावित किया गया है, कि, क्वेरी जारी करने के अतिरिक्त परिणाम पृष्ठों से संरचित डेटा निकालने की भी अनुमति भी दी जाती है। एक और प्रयास डीपपीप है, जो राष्ट्रीय विज्ञान संस्था द्वारा प्रायोजित यूटा विश्वविद्यालय की एक परियोजना है, जिसने उपन्यास केंद्रित क्रॉलर प्रौद्योगिकीय के आधार पर विभिन्न डोमेन में छिपे हुए होते है , वेब स्रोत (वेब फॉर्म) के रूप में एकत्र किए गए ।[33][34]
वाणिज्यिक सर्च इंजनों ने डीप वेब को क्रॉल करने के लिए वैकल्पिक विधियों की सर्च प्रारंभ कर दी है। साइटमैप प्रोटोकॉल पहली बार 2005 में गूगल द्वारा विकसित और प्रस्तुत किया गया और मेटाडेटा हार्वेस्टिंग के लिए ओपन आर्काइव्स इनिशिएटिव प्रोटोकॉल ओएई-पीएचएच ऐसे तंत्र हैं जो सर्च इंजन और अन्य इच्छुक पार्टियों को विशेष वेब सर्वर पर डीप वेब संसाधनों की सर्च करने की अनुमति देते हैं। दोनों तंत्र वेब सर्वरों को उन यूआरएल का विज्ञापन करने की अनुमति देते हैं, जो उनके लिए सुलभ होते हैं, जिससे उन संसाधनों की स्वत: सर्च की अनुमति मिलती है, जो सीधे सतही वेब से जुड़े नहीं हैं। गूगल का डीप वेब सतह सिस्टम प्रत्येक एचटीएमएल फॉर्म के लिए सबमिशन की गणना करता है और परिणामी एचटीएमएल पेजों को गूगल सर्च इंजन इंडेक्स में जोड़ता है। सामने आए परिणाम डीप वेब कंटेंट के प्रति सेकंड एक हजार प्रश्नों के लिए खाते के रूप में होते है। [35] इस प्रणाली में प्रस्तुतियाँ की पूर्व-गणना तीन एल्गोरिदम का उपयोग करके की जाती है।
- कीवर्ड स्वीकार करने वाले पाठ सर्च इनपुट के लिए इनपुट मानों का चयन के रूप में होते है।
- सी विशिष्ट प्रकार (जैसे, तिथि) के मान स्वीकार करने वाले इनपुट की पहचान करना होते है।
- वेब सर्च इंडेक्स में सम्मलित करने के लिए उपयुक्त यूआरएल उत्पन्न करने वाले इनपुट संयोजनों की एक छोटी संख्या के रूप में चयन करना होता है।
वर्ष 2008 में टोर हिडन सेवाओं के उपयोगकर्ताओं को उनकी पहुंच और इन्हें सर्च ने में मदद करने के लिए अनियन प्रत्यय की सर्च में सुविधा के लिए, हारून स्वार्ट्ज ने टोर2वेब को इस तरह डिजाइन किया गया हैं। एक प्रॉक्सी एप्लिकेशन जो आम वेब ब्राउज़रों के माध्यम से पहुंच प्रदान करने में सक्षम है।[36] इस एप्लिकेशन का उपयोग करते हुए, डीप वेब लिंक अनियन शीर्ष-स्तरीय डोमेन के बाद अक्षरों के एक यादृच्छिक अनुक्रम के रूप में दिखाई देते हैं।
यह भी देखें
- डारपा का मेमेक्स कार्यक्रम
- वेबलिंकिंग
संदर्भ
- ↑ Hamilton, Nigel (2019–2020). "The Mechanics of a Deep Net Metasearch Engine". In Isaías, Pedro; Palma dos Reis, António (eds.). ई-सोसायटी पर IADIS अंतर्राष्ट्रीय सम्मेलन की कार्यवाही. pp. 1034–6. CiteSeerX 10.1.1.90.5847. ISBN 978-972-98947-0-1.
- ↑ Devine, Jane; Egger-Sider, Francine (August 2021). "Beyond google: the invisible web in the academic library". The Journal of Academic Librarianship. 30 (4): 265–269. doi:10.1016/j.acalib.2004.04.010.
- ↑ Raghavan, Sriram; Garcia-Molina, Hector (September 11–14, 2001). "छिपे हुए वेब को क्रॉल करना". 27th International Conference on Very Large Data Bases.
- ↑ "भूतल वेब". Computer Hope. Retrieved June 20, 2018.
- ↑
Wright, Alex (February 22, 2009). "Exploring a 'Deep Web' That Google Can't Grasp". The New York Times. Retrieved September 2, 2019.
[...] Mike Bergman, a computer scientist and consultant who is credited with coining the term Deep Web.
- ↑ Madhavan, J., Ko, D., Kot, Ł., Ganapathy, V., Rasmussen, A., & Halevy, A. (2008). Google's deep web crawl. Proceedings of the VLDB Endowment, 1(2), 1241–52.
- ↑ Shedden, Sam (June 8, 2014). "How Do You Want Me to Do It? Does It Have to Look like an Accident? – an Assassin Selling a Hit on the Net; Revealed Inside the Deep Web". Sunday Mail. Archived from the original on March 1, 2020.
- ↑ Beckett, Andy (November 26, 2009). "इंटरनेट का काला पक्ष". Retrieved August 9, 2015.
- ↑ D. Day. Easiest Catch: Don't Be Another Fish in the Dark Net. Wake Forest University: TEDx Talks. Archived from the original on November 13, 2021.
- ↑ "Clearing Up Confusion – Deep Web vs. Dark Web". BrightPlanet. March 27, 2014.
- ↑ Solomon, Jane (May 6, 2015). "डीप वेब बनाम डार्क वेब". Retrieved May 26, 2015.
- ↑ NPR Staff (May 25, 2014). "Going Dark: The Internet Behind The Internet". Retrieved May 29, 2015.
- ↑ Greenberg, Andy (November 19, 2014). "Hacker Lexicon: What Is the Dark Web?". Retrieved June 6, 2015.
- ↑ "इंटरनेट गवर्नेंस और साइबर सुरक्षा पर डार्क वेब का प्रभाव" (PDF). January 20, 2014. Archived from the original (PDF) on January 16, 2017. Retrieved January 15, 2017.
- ↑ Lam, Kwok-Yan; Chi, Chi-Hung; Qing, Sihan (November 23, 2016). Information and Communications Security: 18th International Conference, ICICS 2016, Singapore, Singapore, November 29 – December 2, 2016, Proceedings (in English). Springer. ISBN 9783319500119. Retrieved January 15, 2017.
- ↑ "The Deep Web vs. The Dark Web | Dictionary.com Blog". Dictionary Blog. May 6, 2015. Retrieved January 15, 2017.
- ↑ Akhgar, Babak; Bayerl, P. Saskia; Sampson, Fraser (January 1, 2017). Open Source Intelligence Investigation: From Strategy to Implementation (in English). Springer. ISBN 9783319476711. Retrieved January 15, 2017.
- ↑ "What is the dark web and who uses it?". The Globe and Mail. Retrieved January 15, 2017.
- ↑ 19.0 19.1 Bergman, Michael K (August 2001). "The Deep Web: Surfacing Hidden Value". The Journal of Electronic Publishing. 7 (1). doi:10.3998/3336451.0007.104.
- ↑ Garcia, Frank (January 1996). "Business and Marketing on the Internet". Masthead. 15 (1). Archived from the original on December 5, 1996. Retrieved February 24, 2009.
- ↑ @1 started with 5.7 terabytes of content, estimated to be 30 times the size of the nascent World Wide Web; PLS was acquired by AOL in 1998 and @1 was abandoned. "PLS introduces AT1, the first 'second generation' Internet search service" (Press release). Personal Library Software. December 1996. Archived from the original on October 21, 1997. Retrieved February 24, 2009.
- ↑ Fielding, R.; Nottingham, M.; Reschke, J. (2014). Fielding, R.; Nottingham, M.; Reschke, J. (eds.). "Hypertext Transfer Protocol (HTTP/1.1): Caching". Internet Engineering Task Force. doi:10.17487/RFC7234. Retrieved July 30, 2014.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Special:Search
- ↑ "Internet Archive Search".
- ↑ Wiener-Bronner, Danielle (June 10, 2015). "Google मानव जाति को वह दिखाने के लिए 'डीप वेब' को अनुक्रमित कर रहा है जो Google नहीं करेगा". Fusion. Archived from the original on June 30, 2015. Retrieved June 27, 2015.
There are other simpler versions of Memex already available. "If you've ever used the Internet Archive's Wayback Machine", which gives you past versions of a website not accessible through Google, then you've technically searched the Deep Web, said Chris Mattmann.
- ↑ Wright, Alex (February 22, 2009). "Exploring a 'Deep Web' That Google Can't Grasp". The New York Times. Retrieved February 23, 2009.
- ↑ "इंट्यूट एफएक्यू, डेड लिंक". Retrieved October 13, 2012.
- ↑ "एल्सेवियर लोकप्रिय विज्ञान खोज इंजन को सेवानिवृत्त करेगा". library.bldrdoc.gov. December 2013. Archived from the original on June 23, 2015. Retrieved June 22, 2015.
by end of January 2014, Elsevier will be discontinuing Scirus, its free science search engine. Scirus has been a wide-ranging research tool, with over 575 million items indexed for searching, including webpages, pre-print articles, patents, and repositories.
- ↑ Sriram Raghavan; Garcia-Molina, Hector (2000). "Crawling the Hidden Web" (PDF). Stanford Digital Libraries Technical Report. Retrieved December 27, 2008.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Raghavan, Sriram; Garcia-Molina, Hector (2001). "छिपे हुए वेब को क्रॉल करना" (PDF). Proceedings of the 27th International Conference on Very Large Data Bases (VLDB). pp. 129–38.
- ↑ Alexandros, Ntoulas; Zerfos, Petros; Cho, Junghoo (2005). "Downloading Hidden Web Content" (PDF). UCLA Computer Science. Retrieved February 24, 2009.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Shestakov, Denis; Bhowmick, Sourav S.; Lim, Ee-Peng (2005). "DEQUE: Querying the Deep Web" (PDF). Data & Knowledge Engineering. 52 (3): 273–311. doi:10.1016/S0169-023X(04)00107-7.
- ↑ Barbosa, Luciano; Freire, Juliana (2007). "An Adaptive Crawler for Locating Hidden-Web Entry Points" (PDF). WWW Conference 2007. Archived from the original (PDF) on June 5, 2011. Retrieved March 20, 2009.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Barbosa, Luciano; Freire, Juliana (2005). "Searching for Hidden-Web Databases" (PDF). WebDB 2005. Archived from the original (PDF) on June 5, 2011. Retrieved March 20, 2009.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Madhavan, Jayant; Ko, David; Kot, Łucja; Ganapathy, Vignesh; Rasmussen, Alex; Halevy, Alon (2008). "Google's Deep-Web Crawl" (PDF). VLDB Endowment, ACM. Retrieved April 17, 2009.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Aaron, Swartz. "गुमनामी की रक्षा में". Retrieved February 4, 2014.
अग्रिम पठन
- Barker, Joe (January 2004). "Invisible Web: What it is, Why it exists, How to find it, and its inherent ambiguity". University of California, Berkeley, Teaching Library Internet Workshops. Archived from the original on July 29, 2005. Retrieved July 26, 2011..
- Basu, Saikat (March 14, 2010). "10 Search Engines to Explore the Invisible Web". MakeUseOf.com..
- Ozkan, Akin (November 2014). "Deep Web /Derin İnternet"..
- Gruchawka, Steve (June 2006). "How-To Guide to the Deep Web". Archived from the original on January 5, 2014. Retrieved February 28, 2007..
- Hamilton, Nigel (2003). "The Mechanics of a Deep Net Metasearch Engine". 12th World Wide Web Conference..
- He, Bin; Chang, Kevin Chen-Chuan (2003). "Statistical Schema Matching across Web Query Interfaces" (PDF). Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data. Archived from the original (PDF) on July 20, 2011.
- Howell O'Neill, Patrick (October 2013). "How to search the Deep Web". The Daily Dot..
- Ipeirotis, Panagiotis G.; Gravano, Luis; Sahami, Mehran (2001). "Probe, Count, and Classify: Categorizing Hidden-Web Databases" (PDF). Proceedings of the 2001 ACM SIGMOD International Conference on Management of Data. pp. 67–78. Archived from the original (PDF) on September 12, 2006. Retrieved September 26, 2006.
- King, John D.; Li, Yuefeng; Tao, Daniel; Nayak, Richi (November 2007). "Mining World Knowledge for Analysis of Search Engine Content" (PDF). Web Intelligence and Agent Systems. 5 (3): 233–53. Archived from the original (PDF) on December 3, 2008. Retrieved July 26, 2011.
- McCown, Frank; Liu, Xiaoming; Nelson, Michael L.; Zubair, Mohammad (March–April 2006). "Search Engine Coverage of the OAI-PMH Corpus" (PDF). IEEE Internet Computing. 10 (2): 66–73. doi:10.1109/MIC.2006.41. S2CID 15511914.
- Price, Gary; Sherman, Chris (July 2001). The Invisible Web: Uncovering Information Sources Search Engines Can't See. CyberAge Books. ISBN 978-0-910965-51-4.
- Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing. TUCS Doctoral Dissertations 104, University of Turku
- Whoriskey, Peter (December 11, 2008). "Firms Push for a More Searchable Federal Web". The Washington Post. p. D01.[dead link].
- Wright, Alex (March 2004). "In Search of the Deep Web". Salon. Archived from the original on March 9, 2007..
- Scientists, Naked (December 2014). "The Internet: the good, the bad and the ugly – In-depth exploration of the Internet and the Dark Web by Cambridge University's Naked Scientists" (Podcast).
बाहरी संबंध
Media related to डीप वेब at Wikimedia Commons