कंप्यूटर स्टीरियो विज़न

From Vigyanwiki
Revision as of 23:34, 7 August 2023 by alpha>Garima

कंप्यूटर स्टीरियो विज़न डिजिटल छवियों से 3डी जानकारी का निष्कर्षण है, जैसे कि सीसीडी कैमरे द्वारा प्राप्त की गई छवियां हैं। दो सुविधाजनक बिंदुओं से किसी दृश्य के बारे में जानकारी की तुलना करके, दो पैनलों में वस्तुओं की सापेक्ष स्थिति की जांच करके 3डी जानकारी निकाली जा सकती है। यह स्टीरिओप्सिस की जैविक प्रक्रिया के समान है।

रूपरेखा

पारंपरिक स्टीरियो विज़न में, एक दूसरे से क्षैतिज रूप से विस्थापित दो कैमरों का उपयोग मानव दूरबीन दृष्टि के समान तरीके से एक दृश्य पर दो अलग-अलग दृश्य प्राप्त करने के लिए किया जाता है। इन दो छवियों की तुलना करके, सापेक्ष गहराई की जानकारी एक असमानता मानचित्र के रूप में प्राप्त की जा सकती है, जो संबंधित छवि बिंदुओं के क्षैतिज निर्देशांक में अंतर को एन्कोड करता है। इस असमानता मानचित्र में मान संबंधित पिक्सेल स्थान पर दृश्य की गहराई के व्युत्क्रमानुपाती होते हैं।

किसी इंसान के लिए दो छवियों की तुलना करने के लिए, उन्हें एक स्टीरियोस्कोपिक डिवाइस में सुपरइम्पोज़ किया जाना चाहिए, जिसमें दाएं कैमरे से छवि पर्यवेक्षक की दाहिनी आंख पर और बाएं से बाईं आंख पर दिखाई जाएगी।

कंप्यूटर विज़न सिस्टम में, कई पूर्व-प्रसंस्करण चरणों की आवश्यकता होती है।[1]

  1. छवि को पहले विकृत नहीं किया जाना चाहिए, जैसे कि बैरल विरूपण और विरूपण (ऑप्टिक्स) हटा दिए जाएं। यह सुनिश्चित करता है कि देखी गई छवि एक आदर्श पिनहोल कैमरा के प्रक्षेपण से मेल खाती है।
  2. छवि जोड़े की तुलना की अनुमति देने के लिए छवि को वापस एक सामान्य तल पर प्रक्षेपित किया जाना चाहिए, जिसे छवि सुधार के रूप में जाना जाता है।
  3. एक सूचना माप जो दो छवियों की तुलना करता है उसे न्यूनतम कर दिया गया है। यह दो छवियों में सुविधाओं की स्थिति का सर्वोत्तम अनुमान देता है, और एक असमानता मानचित्र बनाता है।
  4. वैकल्पिक रूप से, प्राप्त असमानता मानचित्र को एक बिंदु बादल में प्रक्षेपित किया जाता है। कैमरे के प्रक्षेप्य मापदंडों का उपयोग करके, बिंदु बादल की गणना इस तरह की जा सकती है कि यह ज्ञात पैमाने पर माप प्रदान करता है।

सक्रिय स्टीरियो विज़न

सक्रिय स्टीरियो विज़न स्टीरियो विज़न का एक रूप है जो स्टीरियो मिलान समस्या को सरल बनाने के लिए लेजर या संरचित प्रकाश जैसे प्रकाश को सक्रिय रूप से नियोजित करता है। विरोधी शब्द निष्क्रिय स्टीरियो विज़न है।

पारंपरिक संरचित-प्रकाश दृष्टि (एसएलवी)

पारंपरिक संरचित-प्रकाश दृष्टि (एसएलवी) एक संरचित प्रकाश या लेजर का उपयोग करती है, और प्रोजेक्टर-कैमरा पत्राचार ढूंढती है।[2][3]


पारंपरिक सक्रिय स्टीरियो विज़न (एएसवी)

पारंपरिक सक्रिय स्टीरियो विज़न (एएसवी) एक संरचित प्रकाश या लेजर का उपयोग करता है, हालांकि, स्टीरियो मिलान केवल कैमरा-कैमरा पत्राचार के लिए किया जाता है, उसी तरह जैसे निष्क्रिय स्टीरियो विज़न।

संरचित-प्रकाश स्टीरियो (एसएलएस)

एक हाइब्रिड तकनीक है, जो कैमरा-कैमरा और प्रोजेक्टर-कैमरा दोनों पत्राचार का उपयोग करती है।[4]

अनुप्रयोग

3डी स्टीरियो डिस्प्ले का मनोरंजन, सूचना हस्तांतरण और स्वचालित प्रणालियों में कई अनुप्रयोग हैं। स्वायत्त प्रणालियों के आसपास 3डी वस्तुओं की सापेक्ष स्थिति के बारे में जानकारी निकालने के लिए रोबोटिक्स जैसे क्षेत्रों में स्टीरियो विज़न अत्यधिक महत्वपूर्ण है। रोबोटिक्स के अन्य अनुप्रयोगों में वस्तु पहचान,[5] जहां गहराई की जानकारी सिस्टम को छवि घटकों को अलग करने की अनुमति देती है, जैसे कि एक कुर्सी दूसरे के सामने, जिसे रोबोट अन्यथा किसी अन्य मानदंड से एक अलग वस्तु के रूप में अलग करने में सक्षम नहीं हो सकता है।

डिजिटल स्टीरियो विज़न के लिए वैज्ञानिक अनुप्रयोगों में हवाई सर्वेक्षणों से जानकारी निकालना, समोच्च मानचित्रों की गणना या यहां तक ​​कि 3डी बिल्डिंग मैपिंग, फोटोग्राममेट्रिक सैटेलाइट मैपिंग के लिए ज्यामिति निष्कर्षण शामिल है।[6] या नासा स्टीरियो प्रोजेक्ट द्वारा प्राप्त 3डी हेलियोग्राफी जानकारी की गणना।

विस्तृत परिभाषा

सपाट सह-तलीय छवियों को मानते हुए, स्टीरियोस्कोपिक छवियों के साथ गहराई तक छवि विस्थापन के संबंध का वर्णन करने वाला आरेख

एक पिक्सेल किसी स्थिति में रंग रिकॉर्ड करता है। स्थिति की पहचान पिक्सेल (x, y) की ग्रिड में स्थिति और पिक्सेल z की गहराई से की जाती है।

त्रिविम दृष्टि अलग-अलग स्थितियों से एक ही दृश्य की दो छवियां देती है। आसन्न आरेख में बिंदु A से प्रकाश B और D पर पिनहोल कैमरों के प्रवेश बिंदुओं के माध्यम से E और H पर छवि स्क्रीन पर प्रसारित होता है।

संलग्न आरेख में दो कैमरा लेंस के केंद्रों के बीच की दूरी BD = BC + CD है। त्रिभुज समरूप हैं,

  • ACB और BFE
  • ACD और DGH

  • k = BD BF
  • z = AC कैमरे के तल से वस्तु तक की दूरी है।

तो यह मानते हुए कि कैमरे समतल हैं, और छवि तल एक ही तल पर सपाट हैं, दो छवियों में समान पिक्सेल के बीच y-अक्ष में विस्थापन है,

जहां k दो कैमरों के बीच की दूरी है, जो लेंस से छवि तक की दूरी का गुना है।

दो छवियों में गहराई घटक हैं और , द्वारा दिए गए,

ये सूत्र वस्तु की सतह पर एक छवि में दिखाई देने वाले स्वरों की छिपी हुई सतह का निर्धारण करने की अनुमति देते हैं, वस्तु की सतह पर दूसरी छवि में देखे गए निकट स्वरों द्वारा।

छवि सुधार

जहां छवि तल सह-तलीय नहीं हैं, वहां छवियों को समायोजित करने के लिए छवि सुधार की आवश्यकता होती है जैसे कि वे सह-तलीय हों। इसे रैखिक परिवर्तन द्वारा प्राप्त किया जा सकता है।

प्रत्येक छवि को समतल तल पर प्रक्षेपित पिनहोल कैमरे से ली गई छवि के बराबर बनाने के लिए छवियों में सुधार की भी आवश्यकता हो सकती है।

चिकनाई

चिकनाई रंगों की समानता का माप है। इस धारणा को देखते हुए कि एक अलग वस्तु में रंगों की एक छोटी संख्या होती है, समान रंग वाले पिक्सेल कई वस्तुओं की तुलना में एक ही वस्तु से संबंधित होने की अधिक संभावना रखते हैं।

चिकनाई का मूल्यांकन करने के लिए ऊपर वर्णित विधि सूचना सिद्धांत पर आधारित है, और एक धारणा है कि एक स्वर के रंग का प्रभाव बिंदुओं के बीच की दूरी पर सामान्य वितरण के अनुसार पास के स्वर के रंग को प्रभावित करता है। यह मॉडल दुनिया के बारे में अनुमानित धारणाओं पर आधारित है।

सहजता की पूर्व धारणाओं पर आधारित एक अन्य विधि ऑटो-सहसंबंध है।

चिकनाई किसी छवि की आंतरिक संपत्ति के बजाय दुनिया की एक संपत्ति है। यादृच्छिक बिंदुओं वाली छवि में कोई चिकनाई नहीं होगी, और पड़ोसी बिंदुओं के बारे में अनुमान बेकार होगा।

सिद्धांत रूप में, दुनिया के अन्य गुणों की तरह, सहजता को भी सीखना चाहिए। ऐसा प्रतीत होता है कि मानव दृष्टि प्रणाली यही करती है।[citation needed]

सूचना माप

न्यूनतम वर्ग जानकारी माप

सामान्य वितरण है

संभाव्यता न्यूनतम संदेश लंबाई एल द्वारा वर्णित सूचना सामग्री से संबंधित है,

इसलिए,

त्रिविम छवियों की तुलना के प्रयोजनों के लिए, केवल सापेक्ष संदेश की लंबाई मायने रखती है। इसके आधार पर, सूचना माप I, जिसे अंतरों के वर्गों का योग (SSD) कहा जाता है, है,

कहाँ,

एसएसडी में संख्याओं के वर्ग को संसाधित करने में लगने वाले समय की लागत के कारण, कई कार्यान्वयन सूचना माप की गणना के आधार के रूप में निरपेक्ष अंतर के योग (एसएडी) का उपयोग करते हैं। अन्य विधियाँ सामान्यीकृत क्रॉस सहसंबंध (एनसीसी) का उपयोग करती हैं।

त्रिविम छवियों के लिए सूचना माप

त्रिविम छवियों की सूचना सामग्री को मापने के लिए न्यूनतम वर्ग माप का उपयोग किया जा सकता है,[7] प्रत्येक बिंदु पर गहराई दी गई है . सबसे पहले एक छवि को दूसरे के संदर्भ में व्यक्त करने के लिए आवश्यक जानकारी प्राप्त की जाती है। यह कहा जाता है .

रंगों के बीच अंतर को उचित रूप से मापने के लिए कलर डिफ्रेंस फ़ंक्शन का उपयोग किया जाना चाहिए। कलर डिफ्रेंस फ़ंक्शन निम्नलिखित में सीडी (cd) लिखा गया है। दो छवियों के बीच रंग मिलान को रिकॉर्ड करने के लिए आवश्यक जानकारी का माप है,

छवि की सहजता के बारे में एक धारणा बनाई गई है। मान लें कि दो पिक्सेल के एक ही रंग के होने की अधिक संभावना है, वे जितने स्वरों का प्रतिनिधित्व करते हैं वे उतने ही करीब होंगे। इस उपाय का उद्देश्य समान गहराई पर समान रंगों को समूहीकृत करना है। उदाहरण के लिए, यदि सामने कोई वस्तु पीछे आकाश के एक क्षेत्र को घेरती है, तो चिकनाई का माप सभी नीले पिक्सेल को एक ही गहराई पर एक साथ समूहीकृत करने का पक्ष लेता है।

चिकनाई का कुल माप कलर डिफ्रेंस के अपेक्षित मानक विचलन के अनुमान के रूप में स्वरों के बीच की दूरी का उपयोग करता है,

कुल सूचना सामग्री तब योग है,

सूचना सामग्री के लिए न्यूनतम मान देने के लिए प्रत्येक पिक्सेल के z घटक को चुना जाना चाहिए। यह प्रत्येक पिक्सेल पर सबसे संभावित गहराई देगा। न्यूनतम कुल सूचना माप है,

बाएँ और दाएँ छवियों के लिए गहराई फ़ंक्शन जोड़ी हैं,


कार्यान्वयन के तरीके

न्यूनतमकरण समस्या एनपी-पूर्ण है। इसका मतलब है कि इस समस्या का सामान्य समाधान पहुंचने में काफी समय लगेगा। हालाँकि कंप्यूटर के लिए अनुमान आधारित विधियाँ मौजूद हैं जो उचित समय में परिणाम का अनुमान लगाती हैं। तंत्रिका नेटवर्क पर आधारित विधियाँ भी मौजूद हैं।[8] त्रिविम दृष्टि का कुशल कार्यान्वयन सक्रिय अनुसंधान का एक क्षेत्र है।

यह भी देखें

संदर्भ

  1. Bradski, Gary; Kaehler, Adrian. Learning OpenCV: Computer Vision with the OpenCV Library. O'Reilly.
  2. Je, Changsoo; Lee, Sang Wook; Park, Rae-Hong (2004). "High-Contrast Color-Stripe Pattern for Rapid Structured-Light Range Imaging". Computer Vision - ECCV 2004. Lecture Notes in Computer Science. Vol. 3021. pp. 95–107. arXiv:1508.04981. doi:10.1007/978-3-540-24670-1_8. ISBN 978-3-540-21984-2. S2CID 13277591.
  3. Je, Changsoo; Lee, Sang Wook; Park, Rae-Hong (2012). "तीव्र संरचित-प्रकाश रेंज इमेजिंग के लिए रंग-धारी क्रमपरिवर्तन पैटर्न". Optics Communications. 285 (9): 2320–2331. Bibcode:2012OptCo.285.2320J. doi:10.1016/j.optcom.2012.01.025.
  4. Jang, Wonkwi; Je, Changsoo; Seo, Yongduek; Lee, Sang Wook (2013). "संरचित-प्रकाश स्टीरियो: गतिशील आकार को मापने के लिए संरचित-प्रकाश और सक्रिय स्टीरियो का तुलनात्मक विश्लेषण और एकीकरण". Optics and Lasers in Engineering. 51 (11): 1255–1264. Bibcode:2013OptLE..51.1255J. doi:10.1016/j.optlaseng.2013.05.001.
  5. Sumi, Yasushi; Kawai, Yoshihiro; Yoshimi, Takashi; Tomita, Fumiaki (2002). "3D Object Recognition in Cluttered Environments by Segment-Based Stereo Vision". International Journal of Computer Vision. 46 (1): 5–23. doi:10.1023/A:1013240031067. S2CID 22926546.
  6. Tatar, Nurollah, et al. "High-Resolution Satellite Stereo Matching by Object-Based Semiglobal Matching and Iterative Guided Edge-Preserving Filter." IEEE Geoscience and Remote Sensing Letters (2020): 1-5.
  7. Lazaros, Nalpantidis; Sirakoulis, Georgios Christou; Gasteratos1, Antonios (2008). "Review of Stereo Vision Algorithms: From Software to Hardware". International Journal of Optomechatronics. 2 (4): 435–462. doi:10.1080/15599610802438680. S2CID 18115413.
  8. WANG, JUNG-HUA; HSIAO, CHIH-PING (1999). "On disparity matching in stereo vision via a neural network framework". Proc. Natl. Sci. Counc. ROC(A). 23 (5): 665–678. CiteSeerX 10.1.1.105.9067.


बाहरी संबंध