कंप्यूटर स्टीरियो विज़न: Difference between revisions
No edit summary |
No edit summary |
||
Line 68: | Line 68: | ||
प्रत्येक छवि को समतल तल पर प्रक्षेपित पिनहोल कैमरे से ली गई छवि के बराबर बनाने के लिए छवियों में सुधार की भी आवश्यकता हो सकती है। | प्रत्येक छवि को समतल तल पर प्रक्षेपित पिनहोल कैमरे से ली गई छवि के बराबर बनाने के लिए छवियों में सुधार की भी आवश्यकता हो सकती है। | ||
=== | === स्मूथनेस === | ||
चिकनापन रंगों की समानता का एक माप है। इस धारणा को देखते हुए कि एक अलग वस्तु में रंगों की एक छोटी संख्या होती है, समान रंग वाले पिक्सेल कई वस्तुओं की तुलना में एक ही वस्तु से संबंधित होने की अधिक संभावना रखते हैं। | |||
स्मूथनेस का मूल्यांकन करने के लिए ऊपर वर्णित विधि सूचना सिद्धांत पर आधारित है, और एक धारणा है कि एक स्वर के रंग का प्रभाव बिंदुओं के बीच की दूरी पर सामान्य वितरण के अनुसार पास के स्वर के रंग को प्रभावित करता है। यह मॉडल दुनिया के बारे में अनुमानित धारणाओं पर आधारित है। | |||
सुचारुता की पूर्व धारणाओं पर आधारित एक अन्य विधि स्वतः-सहसंबंध है। | |||
सहजता किसी छवि की आंतरिक संपत्ति के बजाय दुनिया की एक संपत्ति है। यादृच्छिक बिंदुओं वाली छवि में कोई स्मूथनेस नहीं होगी, और पड़ोसी बिंदुओं के बारे में अनुमान बेकार होगा। | |||
सिद्धांत रूप में, दुनिया के अन्य गुणों की तरह, सहजता | सिद्धांत रूप में, दुनिया के अन्य गुणों की तरह, सहजता भी सीखी जानी चाहिए। ऐसा प्रतीत होता है कि मानव दृष्टि प्रणाली यही करती है।{{Citation needed|date=October 2022}} | ||
== सूचना माप == | == सूचना माप == | ||
Line 115: | Line 115: | ||
रंगों के बीच अंतर को उचित रूप से मापने के लिए कलर डिफ्रेंस फ़ंक्शन का उपयोग किया जाना चाहिए। कलर डिफ्रेंस फ़ंक्शन निम्नलिखित में सीडी (''cd'') लिखा गया है। दो छवियों के बीच रंग मिलान को रिकॉर्ड करने के लिए आवश्यक जानकारी का माप है, | रंगों के बीच अंतर को उचित रूप से मापने के लिए कलर डिफ्रेंस फ़ंक्शन का उपयोग किया जाना चाहिए। कलर डिफ्रेंस फ़ंक्शन निम्नलिखित में सीडी (''cd'') लिखा गया है। दो छवियों के बीच रंग मिलान को रिकॉर्ड करने के लिए आवश्यक जानकारी का माप है, | ||
:<math>I_m(z_1, z_2) = \frac{1}{\sigma_m^2} \sum_{x, y}\operatorname{cd}(\operatorname{color}_1(x, y + \frac{k}{z_1(x, y)}), \operatorname{color}_2(x, y))^2 </math> | :<math>I_m(z_1, z_2) = \frac{1}{\sigma_m^2} \sum_{x, y}\operatorname{cd}(\operatorname{color}_1(x, y + \frac{k}{z_1(x, y)}), \operatorname{color}_2(x, y))^2 </math> | ||
छवि की सहजता के बारे में एक धारणा बनाई गई है। मान लें कि दो पिक्सेल के एक ही रंग के होने की अधिक संभावना है, वे जितने स्वरों का प्रतिनिधित्व करते हैं वे उतने ही करीब होंगे। इस उपाय का उद्देश्य समान गहराई पर समान रंगों को समूहीकृत करना है। उदाहरण के लिए, यदि सामने कोई वस्तु पीछे आकाश के एक क्षेत्र को घेरती है, तो | छवि की सहजता के बारे में एक धारणा बनाई गई है। मान लें कि दो पिक्सेल के एक ही रंग के होने की अधिक संभावना है, वे जितने स्वरों का प्रतिनिधित्व करते हैं वे उतने ही करीब होंगे। इस उपाय का उद्देश्य समान गहराई पर समान रंगों को समूहीकृत करना है। उदाहरण के लिए, यदि सामने कोई वस्तु पीछे आकाश के एक क्षेत्र को घेरती है, तो स्मूथनेस का माप सभी नीले पिक्सेल को एक ही गहराई पर एक साथ समूहीकृत करने का पक्ष लेता है। | ||
स्मूथनेस का कुल माप कलर डिफ्रेंस के अपेक्षित मानक विचलन के अनुमान के रूप में स्वरों के बीच की दूरी का उपयोग करता है, | |||
:<math>I_s(z_1, z_2) = \frac{1}{2 \sigma_h^2} \sum_{i : \{1, 2\}} \sum_{x_1, y_1} \sum_{x_2, y_2} \frac{\operatorname{cd}(\operatorname{color}_i(x_1, y_1), \operatorname{color}_i(x_2, y_2))^2}{(x_1 - x_2)^2 + (y_1 - y_2)^2 + (z_i(x_1, y_1) - z_i(x_2, y_2))^2} </math> | :<math>I_s(z_1, z_2) = \frac{1}{2 \sigma_h^2} \sum_{i : \{1, 2\}} \sum_{x_1, y_1} \sum_{x_2, y_2} \frac{\operatorname{cd}(\operatorname{color}_i(x_1, y_1), \operatorname{color}_i(x_2, y_2))^2}{(x_1 - x_2)^2 + (y_1 - y_2)^2 + (z_i(x_1, y_1) - z_i(x_2, y_2))^2} </math> | ||
कुल सूचना सामग्री तब योग है, | कुल सूचना सामग्री तब योग है, | ||
Line 128: | Line 128: | ||
== कार्यान्वयन के तरीके == | == कार्यान्वयन के तरीके == | ||
न्यूनतमकरण समस्या एनपी-पूर्ण है। इसका मतलब है कि इस समस्या का सामान्य समाधान पहुंचने में काफी समय लगेगा। हालाँकि कंप्यूटर के लिए | न्यूनतमकरण की समस्या एनपी-पूर्ण है। इसका मतलब है कि इस समस्या का सामान्य समाधान पहुंचने में काफी समय लगेगा। हालाँकि, कंप्यूटर के लिए अनुमानों पर आधारित विधियाँ मौजूद हैं जो उचित समय में परिणाम का अनुमान लगाती हैं। इसके अतिरिक्त, तंत्रिका नेटवर्क पर आधारित विधियाँ भी मौजूद हैं।<ref name="Neural Network"> | ||
{{cite journal | {{cite journal | ||
|first1=JUNG-HUA | |first1=JUNG-HUA | ||
Line 141: | Line 141: | ||
|title=On disparity matching in stereo vision via a neural network framework | |title=On disparity matching in stereo vision via a neural network framework | ||
|citeseerx=10.1.1.105.9067 | |citeseerx=10.1.1.105.9067 | ||
}}</ref> त्रिविम दृष्टि का कुशल कार्यान्वयन सक्रिय अनुसंधान का एक क्षेत्र | }}</ref> त्रिविम दृष्टि का कुशल कार्यान्वयन सक्रिय अनुसंधान का एक क्षेत्र है | ||
== यह भी देखें == | == यह भी देखें == |
Revision as of 23:38, 7 August 2023
कंप्यूटर स्टीरियो विज़न डिजिटल छवियों से 3डी जानकारी का निष्कर्षण है, जैसे कि सीसीडी कैमरे द्वारा प्राप्त की गई छवियां हैं। दो सुविधाजनक बिंदुओं से किसी दृश्य के बारे में जानकारी की तुलना करके, दो पैनलों में वस्तुओं की सापेक्ष स्थिति की जांच करके 3डी जानकारी निकाली जा सकती है। यह स्टीरिओप्सिस की जैविक प्रक्रिया के समान है।
रूपरेखा
पारंपरिक स्टीरियो विज़न में, एक दूसरे से क्षैतिज रूप से विस्थापित दो कैमरों का उपयोग मानव दूरबीन दृष्टि के समान तरीके से एक दृश्य पर दो अलग-अलग दृश्य प्राप्त करने के लिए किया जाता है। इन दो छवियों की तुलना करके, सापेक्ष गहराई की जानकारी एक असमानता मानचित्र के रूप में प्राप्त की जा सकती है, जो संबंधित छवि बिंदुओं के क्षैतिज निर्देशांक में अंतर को एन्कोड करता है। इस असमानता मानचित्र में मान संबंधित पिक्सेल स्थान पर दृश्य की गहराई के व्युत्क्रमानुपाती होते हैं।
किसी इंसान के लिए दो छवियों की तुलना करने के लिए, उन्हें एक स्टीरियोस्कोपिक डिवाइस में सुपरइम्पोज़ किया जाना चाहिए, जिसमें दाएं कैमरे से छवि पर्यवेक्षक की दाहिनी आंख पर और बाएं से बाईं आंख पर दिखाई जाएगी।
कंप्यूटर विज़न सिस्टम में, कई पूर्व-प्रसंस्करण चरणों की आवश्यकता होती है।[1]
- छवि को पहले विकृत नहीं किया जाना चाहिए, जैसे कि बैरल विरूपण और विरूपण (ऑप्टिक्स) हटा दिए जाएं। यह सुनिश्चित करता है कि देखी गई छवि एक आदर्श पिनहोल कैमरा के प्रक्षेपण से मेल खाती है।
- छवि जोड़े की तुलना की अनुमति देने के लिए छवि को वापस एक सामान्य तल पर प्रक्षेपित किया जाना चाहिए, जिसे छवि सुधार के रूप में जाना जाता है।
- एक सूचना माप जो दो छवियों की तुलना करता है उसे न्यूनतम कर दिया गया है। यह दो छवियों में सुविधाओं की स्थिति का सर्वोत्तम अनुमान देता है, और एक असमानता मानचित्र बनाता है।
- वैकल्पिक रूप से, प्राप्त असमानता मानचित्र को एक बिंदु बादल में प्रक्षेपित किया जाता है। कैमरे के प्रक्षेप्य मापदंडों का उपयोग करके, बिंदु बादल की गणना इस तरह की जा सकती है कि यह ज्ञात पैमाने पर माप प्रदान करता है।
सक्रिय स्टीरियो विज़न
सक्रिय स्टीरियो विज़न स्टीरियो विज़न का एक रूप है जो स्टीरियो मिलान समस्या को सरल बनाने के लिए लेजर या संरचित प्रकाश जैसे प्रकाश को सक्रिय रूप से नियोजित करता है। विरोधी शब्द निष्क्रिय स्टीरियो विज़न है।
पारंपरिक संरचित-प्रकाश दृष्टि (एसएलवी)
पारंपरिक संरचित-प्रकाश दृष्टि (एसएलवी) एक संरचित प्रकाश या लेजर का उपयोग करती है, और प्रोजेक्टर-कैमरा पत्राचार ढूंढती है।[2][3]
पारंपरिक सक्रिय स्टीरियो विज़न (एएसवी)
पारंपरिक सक्रिय स्टीरियो विज़न (एएसवी) एक संरचित प्रकाश या लेजर का उपयोग करता है, हालांकि, स्टीरियो मिलान केवल कैमरा-कैमरा पत्राचार के लिए किया जाता है, उसी तरह जैसे निष्क्रिय स्टीरियो विज़न।
संरचित-प्रकाश स्टीरियो (एसएलएस)
एक हाइब्रिड तकनीक है, जो कैमरा-कैमरा और प्रोजेक्टर-कैमरा दोनों पत्राचार का उपयोग करती है।[4]
अनुप्रयोग
3डी स्टीरियो डिस्प्ले का मनोरंजन, सूचना हस्तांतरण और स्वचालित प्रणालियों में कई अनुप्रयोग हैं। स्वायत्त प्रणालियों के आसपास 3डी वस्तुओं की सापेक्ष स्थिति के बारे में जानकारी निकालने के लिए रोबोटिक्स जैसे क्षेत्रों में स्टीरियो विज़न अत्यधिक महत्वपूर्ण है। रोबोटिक्स के अन्य अनुप्रयोगों में वस्तु पहचान,[5] जहां गहराई की जानकारी सिस्टम को छवि घटकों को अलग करने की अनुमति देती है, जैसे कि एक कुर्सी दूसरे के सामने, जिसे रोबोट अन्यथा किसी अन्य मानदंड से एक अलग वस्तु के रूप में अलग करने में सक्षम नहीं हो सकता है।
डिजिटल स्टीरियो विज़न के लिए वैज्ञानिक अनुप्रयोगों में हवाई सर्वेक्षणों से जानकारी निकालना, समोच्च मानचित्रों की गणना या यहां तक कि 3डी बिल्डिंग मैपिंग, फोटोग्राममेट्रिक सैटेलाइट मैपिंग के लिए ज्यामिति निष्कर्षण शामिल है।[6] या नासा स्टीरियो प्रोजेक्ट द्वारा प्राप्त 3डी हेलियोग्राफी जानकारी की गणना।
विस्तृत परिभाषा
एक पिक्सेल किसी स्थिति में रंग रिकॉर्ड करता है। स्थिति की पहचान पिक्सेल (x, y) की ग्रिड में स्थिति और पिक्सेल z की गहराई से की जाती है।
त्रिविम दृष्टि अलग-अलग स्थितियों से एक ही दृश्य की दो छवियां देती है। आसन्न आरेख में बिंदु A से प्रकाश B और D पर पिनहोल कैमरों के प्रवेश बिंदुओं के माध्यम से E और H पर छवि स्क्रीन पर प्रसारित होता है।
संलग्न आरेख में दो कैमरा लेंस के केंद्रों के बीच की दूरी BD = BC + CD है। त्रिभुज समरूप हैं,
- ACB और BFE
- ACD और DGH
- k = BD BF
- z = AC कैमरे के तल से वस्तु तक की दूरी है।
तो यह मानते हुए कि कैमरे समतल हैं, और छवि तल एक ही तल पर सपाट हैं, दो छवियों में समान पिक्सेल के बीच y-अक्ष में विस्थापन है,
जहां k दो कैमरों के बीच की दूरी है, जो लेंस से छवि तक की दूरी का गुना है।
दो छवियों में गहराई घटक हैं और , द्वारा दिए गए,
ये सूत्र वस्तु की सतह पर एक छवि में दिखाई देने वाले स्वरों की छिपी हुई सतह का निर्धारण करने की अनुमति देते हैं, वस्तु की सतह पर दूसरी छवि में देखे गए निकट स्वरों द्वारा।
छवि सुधार
जहां छवि तल सह-तलीय नहीं हैं, वहां छवियों को समायोजित करने के लिए छवि सुधार की आवश्यकता होती है जैसे कि वे सह-तलीय हों। इसे रैखिक परिवर्तन द्वारा प्राप्त किया जा सकता है।
प्रत्येक छवि को समतल तल पर प्रक्षेपित पिनहोल कैमरे से ली गई छवि के बराबर बनाने के लिए छवियों में सुधार की भी आवश्यकता हो सकती है।
स्मूथनेस
चिकनापन रंगों की समानता का एक माप है। इस धारणा को देखते हुए कि एक अलग वस्तु में रंगों की एक छोटी संख्या होती है, समान रंग वाले पिक्सेल कई वस्तुओं की तुलना में एक ही वस्तु से संबंधित होने की अधिक संभावना रखते हैं।
स्मूथनेस का मूल्यांकन करने के लिए ऊपर वर्णित विधि सूचना सिद्धांत पर आधारित है, और एक धारणा है कि एक स्वर के रंग का प्रभाव बिंदुओं के बीच की दूरी पर सामान्य वितरण के अनुसार पास के स्वर के रंग को प्रभावित करता है। यह मॉडल दुनिया के बारे में अनुमानित धारणाओं पर आधारित है।
सुचारुता की पूर्व धारणाओं पर आधारित एक अन्य विधि स्वतः-सहसंबंध है।
सहजता किसी छवि की आंतरिक संपत्ति के बजाय दुनिया की एक संपत्ति है। यादृच्छिक बिंदुओं वाली छवि में कोई स्मूथनेस नहीं होगी, और पड़ोसी बिंदुओं के बारे में अनुमान बेकार होगा।
सिद्धांत रूप में, दुनिया के अन्य गुणों की तरह, सहजता भी सीखी जानी चाहिए। ऐसा प्रतीत होता है कि मानव दृष्टि प्रणाली यही करती है।[citation needed]
सूचना माप
न्यूनतम वर्ग जानकारी माप
सामान्य वितरण है
संभाव्यता न्यूनतम संदेश लंबाई एल द्वारा वर्णित सूचना सामग्री से संबंधित है,
इसलिए,
त्रिविम छवियों की तुलना के प्रयोजनों के लिए, केवल सापेक्ष संदेश की लंबाई मायने रखती है। इसके आधार पर, सूचना माप I, जिसे अंतरों के वर्गों का योग (SSD) कहा जाता है, है,
कहाँ,
एसएसडी में संख्याओं के वर्ग को संसाधित करने में लगने वाले समय की लागत के कारण, कई कार्यान्वयन सूचना माप की गणना के आधार के रूप में निरपेक्ष अंतर के योग (एसएडी) का उपयोग करते हैं। अन्य विधियाँ सामान्यीकृत क्रॉस सहसंबंध (एनसीसी) का उपयोग करती हैं।
त्रिविम छवियों के लिए सूचना माप
त्रिविम छवियों की सूचना सामग्री को मापने के लिए न्यूनतम वर्ग माप का उपयोग किया जा सकता है,[7] प्रत्येक बिंदु पर गहराई दी गई है . सबसे पहले एक छवि को दूसरे के संदर्भ में व्यक्त करने के लिए आवश्यक जानकारी प्राप्त की जाती है। यह कहा जाता है .
रंगों के बीच अंतर को उचित रूप से मापने के लिए कलर डिफ्रेंस फ़ंक्शन का उपयोग किया जाना चाहिए। कलर डिफ्रेंस फ़ंक्शन निम्नलिखित में सीडी (cd) लिखा गया है। दो छवियों के बीच रंग मिलान को रिकॉर्ड करने के लिए आवश्यक जानकारी का माप है,
छवि की सहजता के बारे में एक धारणा बनाई गई है। मान लें कि दो पिक्सेल के एक ही रंग के होने की अधिक संभावना है, वे जितने स्वरों का प्रतिनिधित्व करते हैं वे उतने ही करीब होंगे। इस उपाय का उद्देश्य समान गहराई पर समान रंगों को समूहीकृत करना है। उदाहरण के लिए, यदि सामने कोई वस्तु पीछे आकाश के एक क्षेत्र को घेरती है, तो स्मूथनेस का माप सभी नीले पिक्सेल को एक ही गहराई पर एक साथ समूहीकृत करने का पक्ष लेता है।
स्मूथनेस का कुल माप कलर डिफ्रेंस के अपेक्षित मानक विचलन के अनुमान के रूप में स्वरों के बीच की दूरी का उपयोग करता है,
कुल सूचना सामग्री तब योग है,
सूचना सामग्री के लिए न्यूनतम मान देने के लिए प्रत्येक पिक्सेल के z घटक को चुना जाना चाहिए। यह प्रत्येक पिक्सेल पर सबसे संभावित गहराई देगा। न्यूनतम कुल सूचना माप है,
बाएँ और दाएँ छवियों के लिए गहराई फ़ंक्शन जोड़ी हैं,
कार्यान्वयन के तरीके
न्यूनतमकरण की समस्या एनपी-पूर्ण है। इसका मतलब है कि इस समस्या का सामान्य समाधान पहुंचने में काफी समय लगेगा। हालाँकि, कंप्यूटर के लिए अनुमानों पर आधारित विधियाँ मौजूद हैं जो उचित समय में परिणाम का अनुमान लगाती हैं। इसके अतिरिक्त, तंत्रिका नेटवर्क पर आधारित विधियाँ भी मौजूद हैं।[8] त्रिविम दृष्टि का कुशल कार्यान्वयन सक्रिय अनुसंधान का एक क्षेत्र है
यह भी देखें
- कई छवियों से 3डी पुनर्निर्माण
- 3डी स्कैनर
- ऑटोस्टीरियोस्कोपी
- कंप्यूटर दृष्टि
- एपिपोलर ज्यामिति
- अर्ध-वैश्विक मिलान
- गति से संरचना
- स्टीरियो कैमरा
- स्टीरियोफोटोग्राममेट्री
- स्टीरियोप्सिस
- स्टीरियोस्कोपिक गहराई प्रस्तुति
- स्टिक्सेल
- ट्राइफोकल टेंसर - ट्राइफोकल स्टीरियोस्कोपी के लिए (दो के बजाय तीन छवियों का उपयोग करके)
संदर्भ
- ↑ Bradski, Gary; Kaehler, Adrian. Learning OpenCV: Computer Vision with the OpenCV Library. O'Reilly.
- ↑ Je, Changsoo; Lee, Sang Wook; Park, Rae-Hong (2004). "High-Contrast Color-Stripe Pattern for Rapid Structured-Light Range Imaging". Computer Vision - ECCV 2004. Lecture Notes in Computer Science. Vol. 3021. pp. 95–107. arXiv:1508.04981. doi:10.1007/978-3-540-24670-1_8. ISBN 978-3-540-21984-2. S2CID 13277591.
- ↑ Je, Changsoo; Lee, Sang Wook; Park, Rae-Hong (2012). "तीव्र संरचित-प्रकाश रेंज इमेजिंग के लिए रंग-धारी क्रमपरिवर्तन पैटर्न". Optics Communications. 285 (9): 2320–2331. Bibcode:2012OptCo.285.2320J. doi:10.1016/j.optcom.2012.01.025.
- ↑ Jang, Wonkwi; Je, Changsoo; Seo, Yongduek; Lee, Sang Wook (2013). "संरचित-प्रकाश स्टीरियो: गतिशील आकार को मापने के लिए संरचित-प्रकाश और सक्रिय स्टीरियो का तुलनात्मक विश्लेषण और एकीकरण". Optics and Lasers in Engineering. 51 (11): 1255–1264. Bibcode:2013OptLE..51.1255J. doi:10.1016/j.optlaseng.2013.05.001.
- ↑ Sumi, Yasushi; Kawai, Yoshihiro; Yoshimi, Takashi; Tomita, Fumiaki (2002). "3D Object Recognition in Cluttered Environments by Segment-Based Stereo Vision". International Journal of Computer Vision. 46 (1): 5–23. doi:10.1023/A:1013240031067. S2CID 22926546.
- ↑ Tatar, Nurollah, et al. "High-Resolution Satellite Stereo Matching by Object-Based Semiglobal Matching and Iterative Guided Edge-Preserving Filter." IEEE Geoscience and Remote Sensing Letters (2020): 1-5.
- ↑ Lazaros, Nalpantidis; Sirakoulis, Georgios Christou; Gasteratos1, Antonios (2008). "Review of Stereo Vision Algorithms: From Software to Hardware". International Journal of Optomechatronics. 2 (4): 435–462. doi:10.1080/15599610802438680. S2CID 18115413.
- ↑ WANG, JUNG-HUA; HSIAO, CHIH-PING (1999). "On disparity matching in stereo vision via a neural network framework". Proc. Natl. Sci. Counc. ROC(A). 23 (5): 665–678. CiteSeerX 10.1.1.105.9067.