इमेज नेट: Difference between revisions
No edit summary |
|||
(39 intermediate revisions by 4 users not shown) | |||
Line 2: | Line 2: | ||
{{Use dmy dates|date=September 2019}} | {{Use dmy dates|date=September 2019}} | ||
इमेज नेट प्रोजेक्ट एक बड़ा दृश्य [[डेटाबेस]] है जिसे [[वस्तु पहचान की रूपरेखा]] अनुसंधान में उपयोग के लिए अभिकल्प किया गया है। 14 मिलियन से अधिक<ref name="New Scientist">{{cite news|title=New computer vision challenge wants to teach robots to see in 3D|url=https://www.newscientist.com/article/2127131-new-computer-vision-challenge-wants-to-teach-robots-to-see-in-3d/|access-date=3 February 2018|work=New Scientist|date=7 April 2017}}</ref><ref name="nytimes 2012">{{cite news|last1=Markoff|first1=John|title=वेब छवियों के लिए, तलाशने और खोजने के लिए नई तकनीक बनाना|url=https://www.nytimes.com/2012/11/20/science/for-web-images-creating-new-technology-to-seek-and-find.html|access-date=3 February 2018|work=The New York Times|date=19 November 2012}}</ref> | इमेज नेट प्रोजेक्ट एक बड़ा दृश्य [[डेटाबेस]] है जिसे [[वस्तु पहचान की रूपरेखा]] अनुसंधान में उपयोग के लिए अभिकल्प किया गया है। 14 मिलियन से अधिक<ref name="New Scientist">{{cite news|title=New computer vision challenge wants to teach robots to see in 3D|url=https://www.newscientist.com/article/2127131-new-computer-vision-challenge-wants-to-teach-robots-to-see-in-3d/|access-date=3 February 2018|work=New Scientist|date=7 April 2017}}</ref><ref name="nytimes 2012">{{cite news|last1=Markoff|first1=John|title=वेब छवियों के लिए, तलाशने और खोजने के लिए नई तकनीक बनाना|url=https://www.nytimes.com/2012/11/20/science/for-web-images-creating-new-technology-to-seek-and-find.html|access-date=3 February 2018|work=The New York Times|date=19 November 2012}}</ref> चित्रों को परियोजना द्वारा हाथ से सूचीत किया गया है यह इंगित करने के लिए कि कौन सी वस्तुओं को चित्रित किया जाए और कम से कम दस लाख चित्र में, सीमांकन बॉक्स भी प्रदान किए गए हैं।<ref name=":1">{{Cite web |date=2020-09-07 |title=इमेज नेट|url=http://image-net.org/about-stats.php |archive-url=https://web.archive.org/web/20200907212153/http://image-net.org/about-stats.php |archive-date=2020-09-07 |access-date=2022-10-11 }}</ref> इमेजनेट में <ref name="nytimes 2012" />एक विशिष्ट श्रेणी के साथ 20,000 से अधिक श्रेणियां हैं, जैसे कि बैलून या स्ट्रॉबेरी, जिसमें कई सौ चित्र सम्मलित हैं।<ref name="economist">{{cite news|title=काम न करने से लेकर न्यूरल नेटवर्किंग तक|url=https://www.economist.com/news/special-report/21700756-artificial-intelligence-boom-based-old-idea-modern-twist-not|access-date=3 February 2018|newspaper=The Economist|date=25 June 2016}}</ref> तृतीय-पक्ष चित्र [[URL|यूआरएल]] के सूची का डेटाबेस सीधे इमेजनेट से स्वतंत्र रूप से उपलब्ध है, चूंकि वास्तविक चित्र का स्वामित्व इमेजनेट के पास नहीं है।<ref name=":2">{{cite web|title=इमेजनेट अवलोकन|url=https://image-net.org/about.php|publisher=ImageNet|access-date=15 October 2022}}</ref> 2010 के पश्चात से, इमेजनेट परियोजना एक वार्षिक सॉफ्टवेयर प्रतियोगिता, इमेजनेट लार्ज स्केल विज़ुअल रिकग्निशन चैलेंज (आईएलएसवीआरसी) चलाती है, जहाँ सॉफ्टवेयर प्रोग्राम वस्तुओं और दृश्यों को सही ढंग से वर्गीकृत करने और पहचानने के लिए प्रतिस्पर्धा करते हैं। वह चुनौती एक हजार गैर-अतिव्यापी वर्गों की "छंटनी" सूची का उपयोग करती है।<ref name="ILJVRC-2015" /> | ||
== गहरी शिक्षा के लिए महत्व == | == गहरी शिक्षा के लिए महत्व == | ||
30 सितंबर 2012 को, [[एलेक्सनेट]] | 30 सितंबर 2012 को, [[एलेक्सनेट]] नामक एक [[दृढ़ तंत्रिका नेटवर्क]] (सीएनएन) ने इमेजनेट 2012 चैलेंज में 15.3% की शीर्ष -5 त्रुटि प्राप्त की, जो उपविजेता की तुलना में 10.8 प्रतिशत अंक कम है।<ref name=":0">{{Cite journal|last1=Krizhevsky|first1=Alex|last2=Sutskever|first2=Ilya|last3=Hinton|first3=Geoffrey E.|access-date=24 May 2017|title=डीप कन्वोल्यूशनल न्यूरल नेटवर्क्स के साथ इमेजनेट वर्गीकरण|url=https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf|journal=Communications of the ACM|volume=60|issue=6|date=June 2017|pages=84–90|doi=10.1145/3065386|s2cid=195908774|issn=0001-0782|doi-access=free}}</ref> प्रशिक्षण के समय[[ ग्राफ़िक्स प्रोसेसिंग युनिट | ग्राफ़िक्स प्रोसेसिंग युनिट]] (जीपीयू) के उपयोग के कारण इसे संभव गहन शिक्षण क्रांति का एक अनिवार्य घटक बनाया गया था।<ref name=":0" /> [[अर्थशास्त्री]] के अनुसार, अचानक लोगों ने केवल एआई समुदाय के भीतर ही नहीं बल्कि पूरे प्रौद्योगिकी उद्योग पर ध्यान देना शुरू कर दिया।<ref name=economist/><ref>{{cite news|title=बढ़ती संख्या में कार्यों के लिए मशीनें 'मनुष्यों को हरा' देती हैं|url=https://www.ft.com/content/4cc048f6-d5f4-11e7-a303-9060cb1e5f44|access-date=3 February 2018|work=Financial Times|date=30 November 2017}}</ref><ref>{{Cite web|url=https://qz.com/1307091/the-inside-story-of-how-ai-got-good-enough-to-dominate-silicon-valley/|title=सिलिकॉन वैली पर हावी होने के लिए एआई कैसे काफी अच्छा है, इसकी अंदरूनी कहानी|last1=Gershgorn|first1=Dave|website=Quartz|date=18 June 2018 |access-date=10 December 2018}}</ref> | ||
2015 में, [[ResNets|एलेक्सनेट]] | 2015 में, [[ResNets|एलेक्सनेट]] को 100 से अधिक परतों के साथ माइक्रोसॉफ्ट के बहुत गहरे सीएनएन द्वारा मात दी गई थी, जिसने इमेजनेट 2015 प्रतियोगिता जीती थी।<ref name="microsoft2015">{{cite journal|last1=He|first1=Kaiming|last2=Zhang|first2=Xiangyu|last3=Ren|first3=Shaoqing|last4=Sun|first4=Jian|title=इमेज रिकग्निशन के लिए डीप रेजिडुअल लर्निंग।|journal= 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)|pages=770–778|year=2016|doi=10.1109/CVPR.2016.90|arxiv=1512.03385|isbn=978-1-4673-8851-1|s2cid=206594692}}</ref> | ||
== डेटाबेस का इतिहास == | == डेटाबेस का इतिहास == | ||
एआई शोधकर्ता फी-फी ली ने 2006 में इमेजनेट के विचार पर काम करना शुरू किया। ऐसे समय में जब अधिकांश एआई अनुसंधान प्रतिरूप और एल्गोरिदम पर केंद्रित थे, ली एआई एल्गोरिदम को प्रशिक्षित करने के लिए उपलब्ध डेटा का विस्तार और सुधार करना चाहते थे।<ref name="WiredQuest">{{Cite magazine |url=https://www.wired.com/story/fei-fei-li-artificial-intelligence-humanity/ |title=एआई को मानवता के लिए बेहतर बनाने की फी-फी ली की खोज|last=Hempel |first=Jesse |magazine=Wired |quote=When Li, who had moved back to Princeton to take a job as an assistant professor in 2007, talked up her idea for ImageNet, she had a hard time getting faculty members to help out. Finally, a professor who specialized in computer architecture agreed to join her as a collaborator. |date=13 November 2018 |access-date=5 May 2019}}</ref> 2007 में, ली ने प्रोजेक्ट पर चर्चा करने के लिए [[ शब्दतंत्र |शब्दतंत्र]] के रचनाकारों में से एक, प्रिंसटन के प्रोफेसर [[क्रिश्चियन फेलबौम]] से | एआई शोधकर्ता फी-फी ली ने 2006 में इमेजनेट के विचार पर काम करना शुरू किया। ऐसे समय में जब अधिकांश एआई अनुसंधान प्रतिरूप और एल्गोरिदम पर केंद्रित थे, ली एआई एल्गोरिदम को प्रशिक्षित करने के लिए उपलब्ध डेटा का विस्तार और सुधार करना चाहते थे।<ref name="WiredQuest">{{Cite magazine |url=https://www.wired.com/story/fei-fei-li-artificial-intelligence-humanity/ |title=एआई को मानवता के लिए बेहतर बनाने की फी-फी ली की खोज|last=Hempel |first=Jesse |magazine=Wired |quote=When Li, who had moved back to Princeton to take a job as an assistant professor in 2007, talked up her idea for ImageNet, she had a hard time getting faculty members to help out. Finally, a professor who specialized in computer architecture agreed to join her as a collaborator. |date=13 November 2018 |access-date=5 May 2019}}</ref> 2007 में, ली ने प्रोजेक्ट पर चर्चा करने के लिए [[ शब्दतंत्र |शब्दतंत्र]] के रचनाकारों में से एक, प्रिंसटन के प्रोफेसर [[क्रिश्चियन फेलबौम]] से भेंट की। इस बैठक के परिणामस्वरूप, ली ने इमेजनेट का निर्माण वर्डनेट के शब्द डेटाबेस से शुरू किया और इसकी कई विशेषताओं का उपयोग किया।<ref name="Gershgorn"/> | ||
प्रिंसटन में एक सहायक प्रोफेसर के रूप में, ली ने इमेजनेट परियोजना पर काम करने के लिए शोधकर्ताओं की एक टीम को | प्रिंसटन में एक सहायक प्रोफेसर के रूप में, ली ने इमेजनेट परियोजना पर काम करने के लिए शोधकर्ताओं की एक टीम को संघटित किया। उन्होंने चित्रों के वर्गीकरण में सहायता के लिए [[अमेज़ॅन मैकेनिकल तुर्क]] का उपयोग किया।<ref name="Gershgorn"/> | ||
उन्होंने फ़्लोरिडा में [[कंप्यूटर विजन और पैटर्न पहचान पर सम्मेलन]] (सीवीपीआर) पर 2009 के सम्मेलन में विज्ञापन देने के रूप में पहली बार अपना डेटाबेस प्रस्तुत किया।<ref name="Gershgorn">{{cite web |url=https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/ |title=The data that transformed AI research—and possibly the world |last=Gershgorn |first=Dave |date=26 July 2017 |website=Quartz |publisher=Atlantic Media Co.|quote=Having read about WordNet's approach, Li met with professor Christiane Fellbaum, a researcher influential in the continued work on WordNet, during a 2006 visit to Princeton. |access-date=26 July 2017 }}</ref><ref>{{Citation |last1=Deng |first1=Jia |last2=Dong |first2=Wei |last3=Socher |first3=Richard |last4=Li |first4=Li-Jia |last5=Li |first5=Kai |last6=Fei-Fei |first6=Li |contribution=ImageNet: A Large-Scale Hierarchical Image Database |year=2009 |title=2009 conference on Computer Vision and Pattern Recognition |contribution-url=http://www.image-net.org/papers/imagenet_cvpr09.pdf |access-date=26 July 2017 |archive-date=15 January 2021 |archive-url=https://web.archive.org/web/20210115185228/http://www.image-net.org/papers/imagenet_cvpr09.pdf |url-status=dead }}</ref><ref>{{Citation|last=Li|first=Fei-Fei|title=How we're teaching computers to understand pictures|date=23 March 2015 |url=https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures?language=en|access-date=16 December 2018}}</ref> | उन्होंने फ़्लोरिडा में [[कंप्यूटर विजन और पैटर्न पहचान पर सम्मेलन]] (सीवीपीआर) पर 2009 के सम्मेलन में विज्ञापन देने के रूप में पहली बार अपना डेटाबेस प्रस्तुत किया।<ref name="Gershgorn">{{cite web |url=https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/ |title=The data that transformed AI research—and possibly the world |last=Gershgorn |first=Dave |date=26 July 2017 |website=Quartz |publisher=Atlantic Media Co.|quote=Having read about WordNet's approach, Li met with professor Christiane Fellbaum, a researcher influential in the continued work on WordNet, during a 2006 visit to Princeton. |access-date=26 July 2017 }}</ref><ref>{{Citation |last1=Deng |first1=Jia |last2=Dong |first2=Wei |last3=Socher |first3=Richard |last4=Li |first4=Li-Jia |last5=Li |first5=Kai |last6=Fei-Fei |first6=Li |contribution=ImageNet: A Large-Scale Hierarchical Image Database |year=2009 |title=2009 conference on Computer Vision and Pattern Recognition |contribution-url=http://www.image-net.org/papers/imagenet_cvpr09.pdf |access-date=26 July 2017 |archive-date=15 January 2021 |archive-url=https://web.archive.org/web/20210115185228/http://www.image-net.org/papers/imagenet_cvpr09.pdf |url-status=dead }}</ref><ref>{{Citation|last=Li|first=Fei-Fei|title=How we're teaching computers to understand pictures|date=23 March 2015 |url=https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures?language=en|access-date=16 December 2018}}</ref> | ||
== डेटासेट == | == डेटासेट == | ||
इमेजनेट इसकी सूची प्रक्रिया को [[क्राउडसोर्स]] करता है। चित्र-स्तरीय सूची एक चित्र में एक वस्तु वर्ग की उपस्थिति या अनुपस्थिति का संकेत देते हैं, जैसे "इस चित्र में बाघ हैं" या "इस चित्र में कोई बाघ नहीं हैं"। वस्तु-स्तरीय सूची संकेतित वस्तु (दृश्यमान भाग) के चारों ओर एक सीमांकन बॉक्स प्रदान करते हैं। इमेजनेट वस्तुओं को वर्गीकृत करने के लिए बड़े पैमाने पर वर्डनेट स्कीमा | इमेजनेट इसकी सूची प्रक्रिया को [[क्राउडसोर्स]] करता है। चित्र-स्तरीय सूची एक चित्र में एक वस्तु वर्ग की उपस्थिति या अनुपस्थिति का संकेत देते हैं, जैसे "इस चित्र में बाघ हैं" या "इस चित्र में कोई बाघ नहीं हैं"। वस्तु-स्तरीय सूची संकेतित वस्तु (दृश्यमान भाग) के चारों ओर एक सीमांकन बॉक्स प्रदान करते हैं। इमेजनेट वस्तुओं को वर्गीकृत करने के लिए बड़े पैमाने पर एक प्रकार के वर्डनेट स्कीमा का उपयोग करता है, जो सूक्ष्म वर्गीकरण को प्रदर्शित करने के लिए कुत्ते की नस्लों की 120 श्रेणियों के साथ संवर्धित है।<ref name=ILJVRC-2015>Olga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, [[Andrej Karpathy]], Aditya Khosla, Michael Bernstein, Alexander C. Berg and Li Fei-Fei. (* = equal contribution) ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015.</ref> वर्डनेट उपयोग का एक नकारात्मक पक्ष यह है कि इमेजनेट के लिए इष्टतम होने की तुलना में श्रेणियां अधिक उन्नत हो सकती हैं: अधिकांश लोग लेडी गागा या आईपॉड मिनी में इस दुर्लभ प्रकार के [[डिप्लोडोकस]] से अधिक रुचि रखते हैं। 2012 में इमेजनेट मैकेनिकल तुर्क का दुनिया का सबसे बड़ा शैक्षणिक उपयोगकर्ता था। औसत कार्यकर्ता ने प्रति मिनट 50 चित्रों की पहचान की।<ref name="nytimes 2012"/> | ||
== डेटासेट के सबसेट == | == डेटासेट के सबसेट == | ||
विभिन्न संदर्भों में उपयोग किए जाने वाले इमेजनेट डेटासेट के विभिन्न उपसमुच्चय हैं। इमेजनेट के सबसे अधिक उपयोग किए जाने वाले उपसमुच्चय में से एक | विभिन्न संदर्भों में उपयोग किए जाने वाले इमेजनेट डेटासेट के विभिन्न उपसमुच्चय हैं। इमेजनेट के सबसे अधिक उपयोग किए जाने वाले उपसमुच्चय में से एक इमेजनेट लार्ज स्केल विज़ुअल रिकग्निशन चैलेंज (आईएलएसवीआरसी) 2012-2017 इमेज क्लासिफिकेशन एंड लोकलाइजेशन डेटासेट" है। इसे अनुसंधान साहित्य में इमेजनेट-1K या आईएलएसवीआरसी 2017 के रूप में भी संदर्भित किया गया है, जो मूल आईएलएसवीआरसी की चुनौती को दर्शाता है जिसमें 1,000 क्लास सम्मलित थे। इमेजनेट-1K में 1,281,167 प्रशिक्षण चित्र, 50,000 मान्यकरण चित्र और 100,000 परीक्षण चित्र सम्मलित हैं।<ref>{{Cite web |title=इमेज नेट|url=https://www.image-net.org/download.php |access-date=2022-10-19 |website=www.image-net.org}}</ref> पूर्ण मूल डेटासेट को इमेजनेट-21K कहा जाता है। इमेजनेट-21k में 14,197,122 चित्र हैं, जो 21,841 क्लास में विभाजित हैं। कुछ पेपर इसे पुष्ट करते हैं और इसे इमेजनेट-22k नाम देते हैं।<ref>{{cite arXiv |last1=Ridnik |first1=Tal |last2=Ben-Baruch |first2=Emanuel |last3=Noy |first3=Asaf |last4=Zelnik-Manor |first4=Lihi |date=2021-08-05 |title=ImageNet-21K Pretraining for the Masses |class=cs.CV |eprint=2104.10972 }}</ref> | ||
== इमेजनेट चुनौती का इतिहास == | == इमेजनेट चुनौती का इतिहास == | ||
[[File:ImageNet_error_rate_history_(just_systems).svg|thumb|इमेजनेट पर त्रुटि दर इतिहास (प्रति टीम सर्वश्रेष्ठ परिणाम और प्रति वर्ष 10 प्रविष्टियां दिखा रहा है)]]आईएलएसवीआरसी का उद्देश्य 2005 में स्थापित छोटे पैमाने के पास्कल वीओसी चुनौती के "पदचिह्नों पर चलना" है, जिसमें केवल प्राय 20,000 | [[File:ImageNet_error_rate_history_(just_systems).svg|thumb|इमेजनेट पर त्रुटि दर इतिहास (प्रति टीम सर्वश्रेष्ठ परिणाम और प्रति वर्ष 10 प्रविष्टियां दिखा रहा है)]]आईएलएसवीआरसी का उद्देश्य 2005 में स्थापित छोटे पैमाने के पास्कल वीओसी चुनौती के "पदचिह्नों पर चलना" है, जिसमें केवल प्राय 20,000 चित्र और बीस वस्तु क्लास सम्मलित थे।<ref name="ILJVRC-2015" />इमेजनेट को "लोकतांत्रिक" बनाने के लिए, फी-फी ली ने पास्कल वीओसी टीम को एक सहयोग का प्रस्ताव दिया, जो 2010 में शुरू हुआ, जहां अनुसंधान दल दिए गए डेटा सेट पर अपने एल्गोरिदम का मूल्यांकन करेंगे, और कई दृश्य पहचान कार्यों पर उच्च सटीकता प्राप्त करने के लिए प्रतिस्पर्धा करेंगे।<ref name="Gershgorn" /> | ||
परिणामी वार्षिक प्रतियोगिता को अब इमेजनेट लार्ज स्केल विज़ुअल रिकॉग्निशन चैलेंज (आईएलएसवीआरसी) के रूप में जाना जाता है। आईएलएसवीआरसी केवल 1000 | परिणामी वार्षिक प्रतियोगिता को अब इमेजनेट लार्ज स्केल विज़ुअल रिकॉग्निशन चैलेंज (आईएलएसवीआरसी) के रूप में जाना जाता है। आईएलएसवीआरसी केवल 1000 चित्र श्रेणियों या "क्लास" की "छंटनी" सूची का उपयोग करता है, जिसमें पूर्ण इमेजनेट स्कीमा द्वारा वर्गीकृत 120 कुत्तों की नस्लों में से 90 सम्मलित हैं।<ref name="ILJVRC-2015" />2010 के दशक में चित्र प्रसंस्करण में नाटकीय प्रगति देखी गई। 2011 के आसपास, एक अच्छा आईएलएसवीआरसी वर्गीकरण जिसके शीर्ष-5 में त्रुटि दर 25% थी। 2012 में, एलेक्सनेट नामक एक डीप लर्निंग न्यूरल नेटवर्क ने त्रुटि दर 16% प्राप्त कि; अगले कुछ वर्षों में, शीर्ष-5 त्रुटि दर कुछ प्रतिशत तक गिर गई।<ref>{{cite news|last1=Robbins|first1=Martin|title=Does an AI need to make love to Rembrandt's girlfriend to make art?|url=https://www.theguardian.com/science/2016/may/06/does-an-ai-need-to-make-love-to-rembrandts-girlfriend-to-make-art|access-date=22 June 2016|work=The Guardian|date=6 May 2016}}</ref> जबकि 2012 की सफलता "संयुक्त टुकड़े जो पहले वहां थे", नाटकीय मात्रात्मक सुधार ने एक उद्योग-व्यापी कृत्रिम बुद्धि उछाल की शुरुआत को चिह्नित किया।<ref name="economist" />2015 तक, माइक्रोसॉफ्ट के शोधकर्ताओं ने बताया कि संकीर्ण आईएलएसवीआरसी कार्यों में उनके सीएनएन मानव क्षमता से अधिक हो गए है।<ref name="microsoft2015" /><ref>{{cite news|last1=Markoff|first1=John|title=आर्टिफिशियल इंटेलिजेंस प्रतिद्वंद्वियों मानव क्षमताओं में एक सीखने की प्रगति|url=https://www.nytimes.com/2015/12/11/science/an-advance-in-artificial-intelligence-rivals-human-vision-abilities.html|access-date=22 June 2016|work=The New York Times|date=10 December 2015}}</ref> चूंकि, चुनौती के आयोजकों में से एक के रूप में, [[ओल्गा रसाकोवस्की]] ने 2015 में बताया, कार्यक्रमों को केवल एक हजार श्रेणियों में से एक के रूप में चित्र की पहचान करनी है; मनुष्य बड़ी संख्या में श्रेणियों को पहचान सकते हैं, और (कार्यक्रमों के विपरीत) एक चित्र के संदर्भ का न्याय कर सकते हैं।<ref>{{cite news|last1=Aron|first1=Jacob|title=Forget the Turing test – there are better ways of judging AI|url=https://www.newscientist.com/article/dn28206-forget-the-turing-test-there-are-better-ways-of-judging-ai/|access-date=22 June 2016|work=New Scientist|date=21 September 2015}}</ref> | ||
2014 तक, पचास से अधिक संस्थानों ने आईएलएसवीआरसी में भाग लिया।<ref name=ILJVRC-2015 />2017 में, 38 प्रतिस्पर्धी टीमों में से 29 की सटीकता 95% से अधिक थी।<ref>{{cite news|last1=Gershgorn|first1=Dave|title=The Quartz guide to artificial intelligence: What is it, why is it important, and should we be afraid?|url=https://qz.com/1046350/the-quartz-guide-to-artificial-intelligence-what-is-it-why-is-it-important-and-should-we-be-afraid/|access-date=3 February 2018|work=Quartz|date=10 September 2017}}</ref> 2017 में इमेजनेट ने कहा कि यह 2018 में एक नई, अधिक कठिन चुनौती | 2014 तक, पचास से अधिक संस्थानों ने आईएलएसवीआरसी में भाग लिया।<ref name=ILJVRC-2015 />2017 में, 38 प्रतिस्पर्धी टीमों में से 29 की सटीकता 95% से अधिक थी।<ref>{{cite news|last1=Gershgorn|first1=Dave|title=The Quartz guide to artificial intelligence: What is it, why is it important, and should we be afraid?|url=https://qz.com/1046350/the-quartz-guide-to-artificial-intelligence-what-is-it-why-is-it-important-and-should-we-be-afraid/|access-date=3 February 2018|work=Quartz|date=10 September 2017}}</ref> 2017 में इमेजनेट ने कहा कि यह 2018 में एक नई, अधिक कठिन चुनौती प्रस्तुत करेगा जिसमें प्राकृतिक भाषा का उपयोग करके 3डी वस्तुओं को वर्गीकृत करना सम्मलित होगा। क्योंकि 3डी डेटा बनाना पहले से उपस्थित 2डी चित्र को सूची करने की तुलना में अधिक महंगा है, तथा डेटासेट के छोटे होने की उम्मीद है। इस क्षेत्र में प्रगति के अनुप्रयोग रोबोटिक मार्गदर्शन से लेकर [[संवर्धित वास्तविकता]] तक होंगे।<ref name="New Scientist"/> | ||
== इमेजनेट में पूर्वाग्रह == | == इमेजनेट में पूर्वाग्रह == | ||
2019 में इमेजनेट और वर्डनेट की कई परतों (टैक्सोनॉमी, ऑब्जेक्ट क्लासेस और लेबलिंग) के इतिहास के एक अध्ययन में बताया गया है कि कैसे सभी प्रकार | 2019 में इमेजनेट और वर्डनेट की कई परतों (टैक्सोनॉमी, ऑब्जेक्ट क्लासेस और लेबलिंग) के इतिहास के एक अध्ययन में बताया गया है कि कैसे सभी प्रकार के चित्रों के लिए अधिकांश [[वर्गीकरण (सामान्य)]] दृष्टिकोणों में [[एल्गोरिथम पूर्वाग्रह]] गहराई से अंतर्निहित है।<ref>{{Cite magazine|url=https://www.wired.com/story/viral-app-labels-you-isnt-what-you-think/|title=आपको लेबल करने वाला वायरल ऐप वैसा नहीं है जैसा आप सोचते हैं|magazine=Wired|access-date=22 September 2019|issn=1059-1028}}</ref><ref>{{Cite news|url=https://www.theguardian.com/technology/2019/sep/17/imagenet-roulette-asian-racist-slur-selfie|title=The viral selfie app ImageNet Roulette seemed fun – until it called me a racist slur|last=Wong|first=Julia Carrie|date=18 September 2019|work=The Guardian|access-date=22 September 2019|issn=0261-3077}}</ref><ref>{{Cite web|url=https://www.excavating.ai/|title=Excavating AI: The Politics of Training Sets for Machine Learning|last1=Crawford|first1=Kate|last2=Paglen|first2=Trevor|date=19 September 2019|website=-|access-date=22 September 2019}}</ref><ref>{{Cite journal|title=Excavating "Excavating AI": The Elephant in the Gallery |last=Lyons|first=Michael|date=4 September 2020|doi=10.5281/zenodo.4037538|arxiv=2009.01215 |s2cid=221447952}}</ref> इमेजनेट पूर्वाग्रह के विभिन्न स्रोतों को संबोधित करने के लिए काम कर रहा है।<ref>{{Cite web|url=http://image-net.org/update-sep-17-2019.php|title=Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy|date=17 September 2019|website=image-net.org|access-date=22 September 2019}}</ref> | ||
== यह भी देखें == | == यह भी देखें == | ||
* [[कंप्यूटर दृष्टि]] | * [[कंप्यूटर दृष्टि]] | ||
Line 37: | Line 37: | ||
* {{Official website|image-net.org}} | * {{Official website|image-net.org}} | ||
[[Category:CS1 errors]] | |||
[[Category:Citation Style 1 templates|M]] | |||
[[Category: | [[Category:Collapse templates]] | ||
[[Category: | |||
[[Category:Created On 21/03/2023]] | [[Category:Created On 21/03/2023]] | ||
[[Category:Lua-based templates]] | |||
[[Category:Machine Translated Page]] | |||
[[Category:Navigational boxes| ]] | |||
[[Category:Navigational boxes without horizontal lists]] | |||
[[Category:Official website not in Wikidata]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Short description with empty Wikidata description]] | |||
[[Category:Sidebars with styles needing conversion]] | |||
[[Category:Template documentation pages|Documentation/doc]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:Templates based on the Citation/CS1 Lua module]] | |||
[[Category:Templates generating COinS|Cite magazine]] | |||
[[Category:Templates generating microformats]] | |||
[[Category:Templates that add a tracking category]] | |||
[[Category:Templates that are not mobile friendly]] | |||
[[Category:Templates that generate short descriptions]] | |||
[[Category:Templates using TemplateData]] | |||
[[Category:Use dmy dates from September 2019]] | |||
[[Category:Wikipedia fully protected templates|Cite magazine]] | |||
[[Category:Wikipedia metatemplates]] | |||
[[Category:कंप्यूटर दृष्टि में डेटासेट]] | |||
[[Category:कंप्यूटर विज्ञान प्रतियोगिताओं]] | |||
[[Category:कंप्यूटिंग में 2009]] | |||
[[Category:डेटाबेस]] | |||
[[Category:वस्तु पहचान और वर्गीकरण]] |
Latest revision as of 17:47, 7 April 2023
इमेज नेट प्रोजेक्ट एक बड़ा दृश्य डेटाबेस है जिसे वस्तु पहचान की रूपरेखा अनुसंधान में उपयोग के लिए अभिकल्प किया गया है। 14 मिलियन से अधिक[1][2] चित्रों को परियोजना द्वारा हाथ से सूचीत किया गया है यह इंगित करने के लिए कि कौन सी वस्तुओं को चित्रित किया जाए और कम से कम दस लाख चित्र में, सीमांकन बॉक्स भी प्रदान किए गए हैं।[3] इमेजनेट में [2]एक विशिष्ट श्रेणी के साथ 20,000 से अधिक श्रेणियां हैं, जैसे कि बैलून या स्ट्रॉबेरी, जिसमें कई सौ चित्र सम्मलित हैं।[4] तृतीय-पक्ष चित्र यूआरएल के सूची का डेटाबेस सीधे इमेजनेट से स्वतंत्र रूप से उपलब्ध है, चूंकि वास्तविक चित्र का स्वामित्व इमेजनेट के पास नहीं है।[5] 2010 के पश्चात से, इमेजनेट परियोजना एक वार्षिक सॉफ्टवेयर प्रतियोगिता, इमेजनेट लार्ज स्केल विज़ुअल रिकग्निशन चैलेंज (आईएलएसवीआरसी) चलाती है, जहाँ सॉफ्टवेयर प्रोग्राम वस्तुओं और दृश्यों को सही ढंग से वर्गीकृत करने और पहचानने के लिए प्रतिस्पर्धा करते हैं। वह चुनौती एक हजार गैर-अतिव्यापी वर्गों की "छंटनी" सूची का उपयोग करती है।[6]
गहरी शिक्षा के लिए महत्व
30 सितंबर 2012 को, एलेक्सनेट नामक एक दृढ़ तंत्रिका नेटवर्क (सीएनएन) ने इमेजनेट 2012 चैलेंज में 15.3% की शीर्ष -5 त्रुटि प्राप्त की, जो उपविजेता की तुलना में 10.8 प्रतिशत अंक कम है।[7] प्रशिक्षण के समय ग्राफ़िक्स प्रोसेसिंग युनिट (जीपीयू) के उपयोग के कारण इसे संभव गहन शिक्षण क्रांति का एक अनिवार्य घटक बनाया गया था।[7] अर्थशास्त्री के अनुसार, अचानक लोगों ने केवल एआई समुदाय के भीतर ही नहीं बल्कि पूरे प्रौद्योगिकी उद्योग पर ध्यान देना शुरू कर दिया।[4][8][9]
2015 में, एलेक्सनेट को 100 से अधिक परतों के साथ माइक्रोसॉफ्ट के बहुत गहरे सीएनएन द्वारा मात दी गई थी, जिसने इमेजनेट 2015 प्रतियोगिता जीती थी।[10]
डेटाबेस का इतिहास
एआई शोधकर्ता फी-फी ली ने 2006 में इमेजनेट के विचार पर काम करना शुरू किया। ऐसे समय में जब अधिकांश एआई अनुसंधान प्रतिरूप और एल्गोरिदम पर केंद्रित थे, ली एआई एल्गोरिदम को प्रशिक्षित करने के लिए उपलब्ध डेटा का विस्तार और सुधार करना चाहते थे।[11] 2007 में, ली ने प्रोजेक्ट पर चर्चा करने के लिए शब्दतंत्र के रचनाकारों में से एक, प्रिंसटन के प्रोफेसर क्रिश्चियन फेलबौम से भेंट की। इस बैठक के परिणामस्वरूप, ली ने इमेजनेट का निर्माण वर्डनेट के शब्द डेटाबेस से शुरू किया और इसकी कई विशेषताओं का उपयोग किया।[12]
प्रिंसटन में एक सहायक प्रोफेसर के रूप में, ली ने इमेजनेट परियोजना पर काम करने के लिए शोधकर्ताओं की एक टीम को संघटित किया। उन्होंने चित्रों के वर्गीकरण में सहायता के लिए अमेज़ॅन मैकेनिकल तुर्क का उपयोग किया।[12]
उन्होंने फ़्लोरिडा में कंप्यूटर विजन और पैटर्न पहचान पर सम्मेलन (सीवीपीआर) पर 2009 के सम्मेलन में विज्ञापन देने के रूप में पहली बार अपना डेटाबेस प्रस्तुत किया।[12][13][14]
डेटासेट
इमेजनेट इसकी सूची प्रक्रिया को क्राउडसोर्स करता है। चित्र-स्तरीय सूची एक चित्र में एक वस्तु वर्ग की उपस्थिति या अनुपस्थिति का संकेत देते हैं, जैसे "इस चित्र में बाघ हैं" या "इस चित्र में कोई बाघ नहीं हैं"। वस्तु-स्तरीय सूची संकेतित वस्तु (दृश्यमान भाग) के चारों ओर एक सीमांकन बॉक्स प्रदान करते हैं। इमेजनेट वस्तुओं को वर्गीकृत करने के लिए बड़े पैमाने पर एक प्रकार के वर्डनेट स्कीमा का उपयोग करता है, जो सूक्ष्म वर्गीकरण को प्रदर्शित करने के लिए कुत्ते की नस्लों की 120 श्रेणियों के साथ संवर्धित है।[6] वर्डनेट उपयोग का एक नकारात्मक पक्ष यह है कि इमेजनेट के लिए इष्टतम होने की तुलना में श्रेणियां अधिक उन्नत हो सकती हैं: अधिकांश लोग लेडी गागा या आईपॉड मिनी में इस दुर्लभ प्रकार के डिप्लोडोकस से अधिक रुचि रखते हैं। 2012 में इमेजनेट मैकेनिकल तुर्क का दुनिया का सबसे बड़ा शैक्षणिक उपयोगकर्ता था। औसत कार्यकर्ता ने प्रति मिनट 50 चित्रों की पहचान की।[2]
डेटासेट के सबसेट
विभिन्न संदर्भों में उपयोग किए जाने वाले इमेजनेट डेटासेट के विभिन्न उपसमुच्चय हैं। इमेजनेट के सबसे अधिक उपयोग किए जाने वाले उपसमुच्चय में से एक इमेजनेट लार्ज स्केल विज़ुअल रिकग्निशन चैलेंज (आईएलएसवीआरसी) 2012-2017 इमेज क्लासिफिकेशन एंड लोकलाइजेशन डेटासेट" है। इसे अनुसंधान साहित्य में इमेजनेट-1K या आईएलएसवीआरसी 2017 के रूप में भी संदर्भित किया गया है, जो मूल आईएलएसवीआरसी की चुनौती को दर्शाता है जिसमें 1,000 क्लास सम्मलित थे। इमेजनेट-1K में 1,281,167 प्रशिक्षण चित्र, 50,000 मान्यकरण चित्र और 100,000 परीक्षण चित्र सम्मलित हैं।[15] पूर्ण मूल डेटासेट को इमेजनेट-21K कहा जाता है। इमेजनेट-21k में 14,197,122 चित्र हैं, जो 21,841 क्लास में विभाजित हैं। कुछ पेपर इसे पुष्ट करते हैं और इसे इमेजनेट-22k नाम देते हैं।[16]
इमेजनेट चुनौती का इतिहास
आईएलएसवीआरसी का उद्देश्य 2005 में स्थापित छोटे पैमाने के पास्कल वीओसी चुनौती के "पदचिह्नों पर चलना" है, जिसमें केवल प्राय 20,000 चित्र और बीस वस्तु क्लास सम्मलित थे।[6]इमेजनेट को "लोकतांत्रिक" बनाने के लिए, फी-फी ली ने पास्कल वीओसी टीम को एक सहयोग का प्रस्ताव दिया, जो 2010 में शुरू हुआ, जहां अनुसंधान दल दिए गए डेटा सेट पर अपने एल्गोरिदम का मूल्यांकन करेंगे, और कई दृश्य पहचान कार्यों पर उच्च सटीकता प्राप्त करने के लिए प्रतिस्पर्धा करेंगे।[12]
परिणामी वार्षिक प्रतियोगिता को अब इमेजनेट लार्ज स्केल विज़ुअल रिकॉग्निशन चैलेंज (आईएलएसवीआरसी) के रूप में जाना जाता है। आईएलएसवीआरसी केवल 1000 चित्र श्रेणियों या "क्लास" की "छंटनी" सूची का उपयोग करता है, जिसमें पूर्ण इमेजनेट स्कीमा द्वारा वर्गीकृत 120 कुत्तों की नस्लों में से 90 सम्मलित हैं।[6]2010 के दशक में चित्र प्रसंस्करण में नाटकीय प्रगति देखी गई। 2011 के आसपास, एक अच्छा आईएलएसवीआरसी वर्गीकरण जिसके शीर्ष-5 में त्रुटि दर 25% थी। 2012 में, एलेक्सनेट नामक एक डीप लर्निंग न्यूरल नेटवर्क ने त्रुटि दर 16% प्राप्त कि; अगले कुछ वर्षों में, शीर्ष-5 त्रुटि दर कुछ प्रतिशत तक गिर गई।[17] जबकि 2012 की सफलता "संयुक्त टुकड़े जो पहले वहां थे", नाटकीय मात्रात्मक सुधार ने एक उद्योग-व्यापी कृत्रिम बुद्धि उछाल की शुरुआत को चिह्नित किया।[4]2015 तक, माइक्रोसॉफ्ट के शोधकर्ताओं ने बताया कि संकीर्ण आईएलएसवीआरसी कार्यों में उनके सीएनएन मानव क्षमता से अधिक हो गए है।[10][18] चूंकि, चुनौती के आयोजकों में से एक के रूप में, ओल्गा रसाकोवस्की ने 2015 में बताया, कार्यक्रमों को केवल एक हजार श्रेणियों में से एक के रूप में चित्र की पहचान करनी है; मनुष्य बड़ी संख्या में श्रेणियों को पहचान सकते हैं, और (कार्यक्रमों के विपरीत) एक चित्र के संदर्भ का न्याय कर सकते हैं।[19]
2014 तक, पचास से अधिक संस्थानों ने आईएलएसवीआरसी में भाग लिया।[6]2017 में, 38 प्रतिस्पर्धी टीमों में से 29 की सटीकता 95% से अधिक थी।[20] 2017 में इमेजनेट ने कहा कि यह 2018 में एक नई, अधिक कठिन चुनौती प्रस्तुत करेगा जिसमें प्राकृतिक भाषा का उपयोग करके 3डी वस्तुओं को वर्गीकृत करना सम्मलित होगा। क्योंकि 3डी डेटा बनाना पहले से उपस्थित 2डी चित्र को सूची करने की तुलना में अधिक महंगा है, तथा डेटासेट के छोटे होने की उम्मीद है। इस क्षेत्र में प्रगति के अनुप्रयोग रोबोटिक मार्गदर्शन से लेकर संवर्धित वास्तविकता तक होंगे।[1]
इमेजनेट में पूर्वाग्रह
2019 में इमेजनेट और वर्डनेट की कई परतों (टैक्सोनॉमी, ऑब्जेक्ट क्लासेस और लेबलिंग) के इतिहास के एक अध्ययन में बताया गया है कि कैसे सभी प्रकार के चित्रों के लिए अधिकांश वर्गीकरण (सामान्य) दृष्टिकोणों में एल्गोरिथम पूर्वाग्रह गहराई से अंतर्निहित है।[21][22][23][24] इमेजनेट पूर्वाग्रह के विभिन्न स्रोतों को संबोधित करने के लिए काम कर रहा है।[25]
यह भी देखें
संदर्भ
- ↑ 1.0 1.1 "New computer vision challenge wants to teach robots to see in 3D". New Scientist. 7 April 2017. Retrieved 3 February 2018.
- ↑ 2.0 2.1 2.2 Markoff, John (19 November 2012). "वेब छवियों के लिए, तलाशने और खोजने के लिए नई तकनीक बनाना". The New York Times. Retrieved 3 February 2018.
- ↑ "इमेज नेट". 7 September 2020. Archived from the original on 7 September 2020. Retrieved 11 October 2022.
- ↑ 4.0 4.1 4.2 "काम न करने से लेकर न्यूरल नेटवर्किंग तक". The Economist. 25 June 2016. Retrieved 3 February 2018.
- ↑ "इमेजनेट अवलोकन". ImageNet. Retrieved 15 October 2022.
- ↑ 6.0 6.1 6.2 6.3 6.4 Olga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg and Li Fei-Fei. (* = equal contribution) ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015.
- ↑ 7.0 7.1 Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (June 2017). "डीप कन्वोल्यूशनल न्यूरल नेटवर्क्स के साथ इमेजनेट वर्गीकरण" (PDF). Communications of the ACM. 60 (6): 84–90. doi:10.1145/3065386. ISSN 0001-0782. S2CID 195908774. Retrieved 24 May 2017.
- ↑ "बढ़ती संख्या में कार्यों के लिए मशीनें 'मनुष्यों को हरा' देती हैं". Financial Times. 30 November 2017. Retrieved 3 February 2018.
- ↑ Gershgorn, Dave (18 June 2018). "सिलिकॉन वैली पर हावी होने के लिए एआई कैसे काफी अच्छा है, इसकी अंदरूनी कहानी". Quartz. Retrieved 10 December 2018.
- ↑ 10.0 10.1 He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "इमेज रिकग्निशन के लिए डीप रेजिडुअल लर्निंग।". 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 770–778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1. S2CID 206594692.
- ↑ Hempel, Jesse (13 November 2018). "एआई को मानवता के लिए बेहतर बनाने की फी-फी ली की खोज". Wired. Retrieved 5 May 2019.
When Li, who had moved back to Princeton to take a job as an assistant professor in 2007, talked up her idea for ImageNet, she had a hard time getting faculty members to help out. Finally, a professor who specialized in computer architecture agreed to join her as a collaborator.
- ↑ 12.0 12.1 12.2 12.3 Gershgorn, Dave (26 July 2017). "The data that transformed AI research—and possibly the world". Quartz. Atlantic Media Co. Retrieved 26 July 2017.
Having read about WordNet's approach, Li met with professor Christiane Fellbaum, a researcher influential in the continued work on WordNet, during a 2006 visit to Princeton.
- ↑ Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (2009), "ImageNet: A Large-Scale Hierarchical Image Database" (PDF), 2009 conference on Computer Vision and Pattern Recognition, archived from the original (PDF) on 15 January 2021, retrieved 26 July 2017
- ↑ Li, Fei-Fei (23 March 2015), How we're teaching computers to understand pictures, retrieved 16 December 2018
- ↑ "इमेज नेट". www.image-net.org. Retrieved 19 October 2022.
- ↑ Ridnik, Tal; Ben-Baruch, Emanuel; Noy, Asaf; Zelnik-Manor, Lihi (5 August 2021). "ImageNet-21K Pretraining for the Masses". arXiv:2104.10972 [cs.CV].
- ↑ Robbins, Martin (6 May 2016). "Does an AI need to make love to Rembrandt's girlfriend to make art?". The Guardian. Retrieved 22 June 2016.
- ↑ Markoff, John (10 December 2015). "आर्टिफिशियल इंटेलिजेंस प्रतिद्वंद्वियों मानव क्षमताओं में एक सीखने की प्रगति". The New York Times. Retrieved 22 June 2016.
- ↑ Aron, Jacob (21 September 2015). "Forget the Turing test – there are better ways of judging AI". New Scientist. Retrieved 22 June 2016.
- ↑ Gershgorn, Dave (10 September 2017). "The Quartz guide to artificial intelligence: What is it, why is it important, and should we be afraid?". Quartz. Retrieved 3 February 2018.
- ↑ "आपको लेबल करने वाला वायरल ऐप वैसा नहीं है जैसा आप सोचते हैं". Wired. ISSN 1059-1028. Retrieved 22 September 2019.
- ↑ Wong, Julia Carrie (18 September 2019). "The viral selfie app ImageNet Roulette seemed fun – until it called me a racist slur". The Guardian. ISSN 0261-3077. Retrieved 22 September 2019.
- ↑ Crawford, Kate; Paglen, Trevor (19 September 2019). "Excavating AI: The Politics of Training Sets for Machine Learning". -. Retrieved 22 September 2019.
- ↑ Lyons, Michael (4 September 2020). "Excavating "Excavating AI": The Elephant in the Gallery". arXiv:2009.01215. doi:10.5281/zenodo.4037538. S2CID 221447952.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ "Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy". image-net.org. 17 September 2019. Retrieved 22 September 2019.