इमेज नेट
इमेज नेट प्रोजेक्ट एक बड़ा दृश्य डेटाबेस है जिसे वस्तु पहचान की रूपरेखा अनुसंधान में उपयोग के लिए अभिकल्प किया गया है। 14 मिलियन से अधिक[1][2] चित्रों को परियोजना द्वारा हाथ से सूचीत किया गया है यह इंगित करने के लिए कि कौन सी वस्तुओं को चित्रित किया जाए और कम से कम दस लाख चित्र में, सीमांकन बॉक्स भी प्रदान किए गए हैं।[3] इमेजनेट में [2]एक विशिष्ट श्रेणी के साथ 20,000 से अधिक श्रेणियां हैं, जैसे कि बैलून या स्ट्रॉबेरी, जिसमें कई सौ चित्र सम्मलित हैं।[4] तृतीय-पक्ष चित्र यूआरएल के सूची का डेटाबेस सीधे इमेजनेट से स्वतंत्र रूप से उपलब्ध है, चूंकि वास्तविक चित्र का स्वामित्व इमेजनेट के पास नहीं है।[5] 2010 के पश्चात से, इमेजनेट परियोजना एक वार्षिक सॉफ्टवेयर प्रतियोगिता, इमेजनेट बड़े पैमाने पर दृश्य पहचान चुनौती (आईएलएसवीआरसी) चलाती है, जहाँ सॉफ्टवेयर प्रोग्राम वस्तुओं और दृश्यों को सही ढंग से वर्गीकृत करने और पहचानने के लिए प्रतिस्पर्धा करते हैं। वह चुनौती एक हजार गैर-अतिव्यापी वर्गों की "छंटनी" सूची का उपयोग करती है।[6]
गहरी शिक्षा के लिए महत्व
30 सितंबर 2012 को, एलेक्सनेट नामक एक दृढ़ तंत्रिका नेटवर्क (सीएनएन) ने इमेजनेट 2012 चैलेंज में 15.3% की शीर्ष -5 त्रुटि प्राप्त की, जो उपविजेता की तुलना में 10.8 प्रतिशत अंक कम है।[7] प्रशिक्षण के समय ग्राफ़िक्स प्रोसेसिंग युनिट (जीपीयू) के उपयोग के कारण इसे संभव गहन शिक्षण क्रांति का एक अनिवार्य घटक बनाया गया था।[7] अर्थशास्त्री के अनुसार, अचानक लोगों ने केवल एआई समुदाय के भीतर ही नहीं बल्कि पूरे प्रौद्योगिकी उद्योग पर ध्यान देना शुरू कर दिया।[4][8][9]
2015 में, एलेक्सनेट को 100 से अधिक परतों के साथ माइक्रोसॉफ्ट के बहुत गहरे सीएनएन द्वारा मात दी गई थी, जिसने इमेजनेट 2015 प्रतियोगिता जीती थी।[10]
डेटाबेस का इतिहास
एआई शोधकर्ता फी-फी ली ने 2006 में इमेजनेट के विचार पर काम करना शुरू किया। ऐसे समय में जब अधिकांश एआई अनुसंधान प्रतिरूप और एल्गोरिदम पर केंद्रित थे, ली एआई एल्गोरिदम को प्रशिक्षित करने के लिए उपलब्ध डेटा का विस्तार और सुधार करना चाहते थे।[11] 2007 में, ली ने प्रोजेक्ट पर चर्चा करने के लिए शब्दतंत्र के रचनाकारों में से एक, प्रिंसटन के प्रोफेसर क्रिश्चियन फेलबौम से भेंट की। इस बैठक के परिणामस्वरूप, ली ने इमेजनेट का निर्माण वर्डनेट के शब्द डेटाबेस से शुरू किया और इसकी कई विशेषताओं का उपयोग किया।[12]
प्रिंसटन में एक सहायक प्रोफेसर के रूप में, ली ने इमेजनेट परियोजना पर काम करने के लिए शोधकर्ताओं की एक टीम को संघटित किया। उन्होंने चित्रों के वर्गीकरण में सहायता के लिए अमेज़ॅन मैकेनिकल तुर्क का उपयोग किया।[12]
उन्होंने फ़्लोरिडा में कंप्यूटर विजन और पैटर्न पहचान पर सम्मेलन (सीवीपीआर) पर 2009 के सम्मेलन में विज्ञापन देने के रूप में पहली बार अपना डेटाबेस प्रस्तुत किया।[12][13][14]
डेटासेट
इमेजनेट इसकी सूची प्रक्रिया को क्राउडसोर्स करता है। चित्र-स्तरीय सूची एक चित्र में एक वस्तु वर्ग की उपस्थिति या अनुपस्थिति का संकेत देते हैं, जैसे "इस चित्र में बाघ हैं" या "इस चित्र में कोई बाघ नहीं हैं"। वस्तु-स्तरीय सूची संकेतित वस्तु (दृश्यमान भाग) के चारों ओर एक सीमांकन बॉक्स प्रदान करते हैं। इमेजनेट वस्तुओं को वर्गीकृत करने के लिए बड़े पैमाने पर एक प्रकार के वर्डनेट स्कीमा का उपयोग करता है, जो सूक्ष्म वर्गीकरण को प्रदर्शित करने के लिए कुत्ते की नस्लों की 120 श्रेणियों के साथ संवर्धित है।[6] वर्डनेट उपयोग का एक नकारात्मक पक्ष यह है कि इमेजनेट के लिए इष्टतम होने की तुलना में श्रेणियां अधिक उन्नत हो सकती हैं: अधिकांश लोग लेडी गागा या आईपॉड मिनी में इस दुर्लभ प्रकार के डिप्लोडोकस से अधिक रुचि रखते हैं। 2012 में इमेजनेट मैकेनिकल तुर्क दुनिया का सबसे बड़ा शैक्षणिक उपयोगकर्ता था। औसत कार्यकर्ता ने प्रति मिनट 50 चित्रों की पहचान की।[2]
डेटासेट के सबसेट
विभिन्न संदर्भों में उपयोग किए जाने वाले इमेजनेट डेटासेट के विभिन्न उपसमुच्चय हैं। इमेजनेट के सबसे अधिक उपयोग किए जाने वाले उपसमुच्चय में से एक "इमेजनेट लार्ज स्केल विज़ुअल रिकग्निशन चैलेंज (आईएलएसवीआरसी) 2012-2017 इमेज क्लासिफिकेशन एंड लोकलाइजेशन डेटासेट" है। इसे अनुसंधान साहित्य में इमेजनेट-1K या आईएलएसवीआरसी 2017 के रूप में भी संदर्भित किया गया है, जो मूल आईएलएसवीआरसी की चुनौती को दर्शाता है जिसमें 1,000 क्लास सम्मलित थे। इमेजनेट-1K में 1,281,167 प्रशिक्षण चित्र, 50,000 मान्यकरण चित्र और 100,000 परीक्षण चित्र सम्मलित हैं।[15] पूर्ण मूल डेटासेट को इमेजनेट-21K कहा जाता है। इमेजनेट-21k में 14,197,122 चित्र हैं, जो 21,841 क्लास में विभाजित हैं। कुछ पेपर इसे पुष्ट करते हैं और इसे इमेजनेट-22k नाम देते हैं।[16]
इमेजनेट चुनौती का इतिहास
आईएलएसवीआरसी का उद्देश्य 2005 में स्थापित छोटे पैमाने के पास्कल वीओसी चुनौती के "पदचिह्नों पर चलना" है, जिसमें केवल प्राय 20,000 चित्र और बीस वस्तु क्लास सम्मलित थे।[6]इमेजनेट को "लोकतांत्रिक" बनाने के लिए, फी-फी ली ने पास्कल वीओसी टीम को एक सहयोग का प्रस्ताव दिया, जो 2010 में शुरू हुआ, जहां अनुसंधान दल दिए गए डेटा सेट पर अपने एल्गोरिदम का मूल्यांकन करेंगे, और कई दृश्य पहचान कार्यों पर उच्च सटीकता प्राप्त करने के लिए प्रतिस्पर्धा करेंगे।[12]
परिणामी वार्षिक प्रतियोगिता को अब इमेजनेट लार्ज स्केल विज़ुअल रिकॉग्निशन चैलेंज (आईएलएसवीआरसी) के रूप में जाना जाता है। आईएलएसवीआरसी केवल 1000 चित्र श्रेणियों या "क्लास" की "छंटनी" सूची का उपयोग करता है, जिसमें पूर्ण इमेजनेट स्कीमा द्वारा वर्गीकृत 120 कुत्तों की नस्लों में से 90 सम्मलित हैं।[6]2010 के दशक में चित्र प्रसंस्करण में नाटकीय प्रगति देखी गई। 2011 के आसपास, एक अच्छा आईएलएसवीआरसी वर्गीकरण जिसके शीर्ष-5 में त्रुटि दर 25% थी। 2012 में, एलेक्सनेट नामक एक डीप लर्निंग न्यूरल नेटवर्क ने त्रुटि दर 16% प्राप्त किया; अगले कुछ वर्षों में, शीर्ष-5 त्रुटि दर कुछ प्रतिशत तक गिर गई।[17] जबकि 2012 की सफलता "संयुक्त टुकड़े जो पहले वहां थे", नाटकीय मात्रात्मक सुधार ने एक उद्योग-व्यापी कृत्रिम बुद्धि उछाल की शुरुआत को चिह्नित किया।[4]2015 तक, माइक्रोसॉफ्ट के शोधकर्ताओं ने बताया कि संकीर्ण आईएलएसवीआरसी कार्यों में उनके सीएनएन मानव क्षमता से अधिक हो गए है।[10][18] चूंकि, चुनौती के आयोजकों में से एक के रूप में, ओल्गा रसाकोवस्की ने 2015 में बताया, कार्यक्रमों को केवल एक हजार श्रेणियों में से एक के रूप में चित्र की पहचान करनी है; मनुष्य बड़ी संख्या में श्रेणियों को पहचान सकते हैं, और (कार्यक्रमों के विपरीत) एक चित्र के संदर्भ का न्याय कर सकते हैं।[19]
2014 तक, पचास से अधिक संस्थानों ने आईएलएसवीआरसी में भाग लिया।[6]2017 में, 38 प्रतिस्पर्धी टीमों में से 29 की सटीकता 95% से अधिक थी।[20] 2017 में इमेजनेट ने कहा कि यह 2018 में एक नई, अधिक कठिन चुनौती प्रस्तुत करेगा जिसमें प्राकृतिक भाषा का उपयोग करके 3डी वस्तुओं को वर्गीकृत करना सम्मलित होगा। क्योंकि 3डी डेटा बनाना पहले से उपस्थित 2डी चित्र को सूची करने की तुलना में अधिक महंगा है, तथा डेटासेट के छोटे होने की उम्मीद है। इस क्षेत्र में प्रगति के अनुप्रयोग रोबोटिक मार्गदर्शन से लेकर संवर्धित वास्तविकता तक होंगे।[1]
इमेजनेट में पूर्वाग्रह
2019 में इमेजनेट और वर्डनेट की कई परतों (टैक्सोनॉमी, ऑब्जेक्ट क्लासेस और लेबलिंग) के इतिहास के एक अध्ययन में बताया गया है कि कैसे सभी प्रकार के चित्रों के लिए अधिकांश वर्गीकरण (सामान्य) दृष्टिकोणों में एल्गोरिथम पूर्वाग्रह गहराई से अंतर्निहित है।[21][22][23][24] इमेजनेट पूर्वाग्रह के विभिन्न स्रोतों को संबोधित करने के लिए काम कर रहा है।[25]
यह भी देखें
संदर्भ
- ↑ 1.0 1.1 "New computer vision challenge wants to teach robots to see in 3D". New Scientist. 7 April 2017. Retrieved 3 February 2018.
- ↑ 2.0 2.1 2.2 Markoff, John (19 November 2012). "वेब छवियों के लिए, तलाशने और खोजने के लिए नई तकनीक बनाना". The New York Times. Retrieved 3 February 2018.
- ↑ "इमेज नेट". 7 September 2020. Archived from the original on 7 September 2020. Retrieved 11 October 2022.
- ↑ 4.0 4.1 4.2 "काम न करने से लेकर न्यूरल नेटवर्किंग तक". The Economist. 25 June 2016. Retrieved 3 February 2018.
- ↑ "इमेजनेट अवलोकन". ImageNet. Retrieved 15 October 2022.
- ↑ 6.0 6.1 6.2 6.3 6.4 Olga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg and Li Fei-Fei. (* = equal contribution) ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015.
- ↑ 7.0 7.1 Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (June 2017). "डीप कन्वोल्यूशनल न्यूरल नेटवर्क्स के साथ इमेजनेट वर्गीकरण" (PDF). Communications of the ACM. 60 (6): 84–90. doi:10.1145/3065386. ISSN 0001-0782. S2CID 195908774. Retrieved 24 May 2017.
- ↑ "बढ़ती संख्या में कार्यों के लिए मशीनें 'मनुष्यों को हरा' देती हैं". Financial Times. 30 November 2017. Retrieved 3 February 2018.
- ↑ Gershgorn, Dave (18 June 2018). "सिलिकॉन वैली पर हावी होने के लिए एआई कैसे काफी अच्छा है, इसकी अंदरूनी कहानी". Quartz. Retrieved 10 December 2018.
- ↑ 10.0 10.1 He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "इमेज रिकग्निशन के लिए डीप रेजिडुअल लर्निंग।". 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 770–778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1. S2CID 206594692.
- ↑ Hempel, Jesse (13 November 2018). "एआई को मानवता के लिए बेहतर बनाने की फी-फी ली की खोज". Wired. Retrieved 5 May 2019.
When Li, who had moved back to Princeton to take a job as an assistant professor in 2007, talked up her idea for ImageNet, she had a hard time getting faculty members to help out. Finally, a professor who specialized in computer architecture agreed to join her as a collaborator.
- ↑ 12.0 12.1 12.2 12.3 Gershgorn, Dave (26 July 2017). "The data that transformed AI research—and possibly the world". Quartz. Atlantic Media Co. Retrieved 26 July 2017.
Having read about WordNet's approach, Li met with professor Christiane Fellbaum, a researcher influential in the continued work on WordNet, during a 2006 visit to Princeton.
- ↑ Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (2009), "ImageNet: A Large-Scale Hierarchical Image Database" (PDF), 2009 conference on Computer Vision and Pattern Recognition, archived from the original (PDF) on 15 January 2021, retrieved 26 July 2017
- ↑ Li, Fei-Fei (23 March 2015), How we're teaching computers to understand pictures, retrieved 16 December 2018
- ↑ "इमेज नेट". www.image-net.org. Retrieved 19 October 2022.
- ↑ Ridnik, Tal; Ben-Baruch, Emanuel; Noy, Asaf; Zelnik-Manor, Lihi (5 August 2021). "ImageNet-21K Pretraining for the Masses". arXiv:2104.10972 [cs.CV].
- ↑ Robbins, Martin (6 May 2016). "Does an AI need to make love to Rembrandt's girlfriend to make art?". The Guardian. Retrieved 22 June 2016.
- ↑ Markoff, John (10 December 2015). "आर्टिफिशियल इंटेलिजेंस प्रतिद्वंद्वियों मानव क्षमताओं में एक सीखने की प्रगति". The New York Times. Retrieved 22 June 2016.
- ↑ Aron, Jacob (21 September 2015). "Forget the Turing test – there are better ways of judging AI". New Scientist. Retrieved 22 June 2016.
- ↑ Gershgorn, Dave (10 September 2017). "The Quartz guide to artificial intelligence: What is it, why is it important, and should we be afraid?". Quartz. Retrieved 3 February 2018.
- ↑ "आपको लेबल करने वाला वायरल ऐप वैसा नहीं है जैसा आप सोचते हैं". Wired. ISSN 1059-1028. Retrieved 22 September 2019.
- ↑ Wong, Julia Carrie (18 September 2019). "The viral selfie app ImageNet Roulette seemed fun – until it called me a racist slur". The Guardian. ISSN 0261-3077. Retrieved 22 September 2019.
- ↑ Crawford, Kate; Paglen, Trevor (19 September 2019). "Excavating AI: The Politics of Training Sets for Machine Learning". -. Retrieved 22 September 2019.
- ↑ Lyons, Michael (4 September 2020). "Excavating "Excavating AI": The Elephant in the Gallery". arXiv:2009.01215. doi:10.5281/zenodo.4037538. S2CID 221447952.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ "Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy". image-net.org. 17 September 2019. Retrieved 22 September 2019.