कंप्यूटर स्टीरियो विज़न: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(5 intermediate revisions by 4 users not shown)
Line 7: Line 7:
किसी इंसान के लिए दो छवियों की तुलना करने के लिए, उन्हें एक स्टीरियोस्कोपिक डिवाइस में सुपरइम्पोज़ किया जाना चाहिए, जिसमें दाएं कैमरे से छवि पर्यवेक्षक की दाहिनी आंख पर और बाएं से बाईं आंख पर दिखाई जाएगी।
किसी इंसान के लिए दो छवियों की तुलना करने के लिए, उन्हें एक स्टीरियोस्कोपिक डिवाइस में सुपरइम्पोज़ किया जाना चाहिए, जिसमें दाएं कैमरे से छवि पर्यवेक्षक की दाहिनी आंख पर और बाएं से बाईं आंख पर दिखाई जाएगी।


कंप्यूटर विज़न सिस्टम में, कई पूर्व-प्रसंस्करण चरणों की आवश्यकता होती है।<ref>{{cite book|title=Learning OpenCV: Computer Vision with the OpenCV Library|publisher=O'Reilly|author1=Bradski, Gary  |author2=Kaehler, Adrian}}</ref>
[[कंप्यूटर]] विज़न सिस्टम में, कई पूर्व-प्रसंस्करण चरणों की आवश्यकता होती है।<ref>{{cite book|title=Learning OpenCV: Computer Vision with the OpenCV Library|publisher=O'Reilly|author1=Bradski, Gary  |author2=Kaehler, Adrian}}</ref>
# छवि को पहले विकृत नहीं किया जाना चाहिए, जैसे कि [[बैरल विरूपण]] और विरूपण (ऑप्टिक्स) हटा दिए जाएं। यह सुनिश्चित करता है कि देखी गई छवि एक आदर्श [[पिनहोल कैमरा]] के प्रक्षेपण से मेल खाती है।
# छवि को पहले विकृत नहीं किया जाना चाहिए, जैसे कि बैरल विरूपण और स्पर्शरेखा विरूपण हटा दिया जाए। यह सुनिश्चित करता है कि देखी गई छवि एक आदर्श पिनहोल कैमरे के प्रक्षेपण से मेल खाती है।
# छवि जोड़े की तुलना की अनुमति देने के लिए छवि को वापस एक सामान्य तल पर प्रक्षेपित किया जाना चाहिए, जिसे [[छवि सुधार]] के रूप में जाना जाता है।
# छवि जोड़े की तुलना की अनुमति देने के लिए छवि को एक सामान्य विमान में वापस प्रक्षेपित किया जाना चाहिए, जिसे छवि सुधार के रूप में जाना जाता है।
# एक सूचना माप जो दो छवियों की तुलना करता है उसे न्यूनतम कर दिया गया है। यह दो छवियों में सुविधाओं की स्थिति का सर्वोत्तम अनुमान देता है, और एक असमानता मानचित्र बनाता है।
# एक सूचना माप जो दो छवियों की तुलना करता है उसे न्यूनतम कर दिया गया है। यह दो छवियों में विशेषताओं की स्थिति का सबसे अच्छा अनुमान देता है और एक असमानता मानचित्र बनाता है।
# वैकल्पिक रूप से, प्राप्त असमानता मानचित्र को एक बिंदु बादल में प्रक्षेपित किया जाता है। कैमरे के प्रक्षेप्य मापदंडों का उपयोग करके, बिंदु बादल की गणना इस तरह की जा सकती है कि यह ज्ञात पैमाने पर माप प्रदान करता है।
# वैकल्पिक रूप से, प्राप्त असमानता मानचित्र को 3डी बिंदु क्लाउड में प्रक्षेपित किया जाता है। कैमरों के प्रक्षेप्य मापदंडों का उपयोग करके, बिंदु क्लाउड की गणना इस तरह की जा सकती है कि यह एक ज्ञात पैमाने पर माप प्रदान करता है।


== सक्रिय स्टीरियो विज़न ==
== सक्रिय स्टीरियो विज़न ==
Line 68: Line 68:
प्रत्येक छवि को समतल तल पर प्रक्षेपित पिनहोल कैमरे से ली गई छवि के बराबर बनाने के लिए छवियों में सुधार की भी आवश्यकता हो सकती है।
प्रत्येक छवि को समतल तल पर प्रक्षेपित पिनहोल कैमरे से ली गई छवि के बराबर बनाने के लिए छवियों में सुधार की भी आवश्यकता हो सकती है।


=== चिकनाई ===
=== स्मूथनेस ===
चिकनाई रंगों की समानता का माप है। इस धारणा को देखते हुए कि एक अलग वस्तु में रंगों की एक छोटी संख्या होती है, समान रंग वाले पिक्सेल कई वस्तुओं की तुलना में एक ही वस्तु से संबंधित होने की अधिक संभावना रखते हैं।
चिकनापन रंगों की समानता का एक माप है। इस धारणा को देखते हुए कि एक अलग वस्तु में रंगों की एक छोटी संख्या होती है, समान रंग वाले पिक्सेल कई वस्तुओं की तुलना में एक ही वस्तु से संबंधित होने की अधिक संभावना रखते हैं।


चिकनाई का मूल्यांकन करने के लिए ऊपर वर्णित विधि सूचना सिद्धांत पर आधारित है, और एक धारणा है कि एक स्वर के रंग का प्रभाव बिंदुओं के बीच की दूरी पर सामान्य वितरण के अनुसार पास के स्वर के रंग को प्रभावित करता है। यह मॉडल दुनिया के बारे में अनुमानित धारणाओं पर आधारित है।
स्मूथनेस का मूल्यांकन करने के लिए ऊपर वर्णित विधि सूचना सिद्धांत पर आधारित है, और एक धारणा है कि एक स्वर के रंग का प्रभाव बिंदुओं के बीच की दूरी पर सामान्य वितरण के अनुसार पास के स्वर के रंग को प्रभावित करता है। यह मॉडल दुनिया के बारे में अनुमानित धारणाओं पर आधारित है।


सहजता की पूर्व धारणाओं पर आधारित एक अन्य विधि ऑटो-सहसंबंध है।
सुचारुता की पूर्व धारणाओं पर आधारित एक अन्य विधि स्वतः-सहसंबंध है।


चिकनाई किसी छवि की आंतरिक संपत्ति के बजाय दुनिया की एक संपत्ति है। यादृच्छिक बिंदुओं वाली छवि में कोई चिकनाई नहीं होगी, और पड़ोसी बिंदुओं के बारे में अनुमान बेकार होगा।
सहजता किसी छवि की आंतरिक संपत्ति के बजाय दुनिया की एक संपत्ति है। यादृच्छिक बिंदुओं वाली छवि में कोई स्मूथनेस नहीं होगी, और पड़ोसी बिंदुओं के बारे में अनुमान बेकार होगा।


सिद्धांत रूप में, दुनिया के अन्य गुणों की तरह, सहजता को भी सीखना चाहिए। ऐसा प्रतीत होता है कि मानव दृष्टि प्रणाली यही करती है।{{Citation needed|date=October 2022}}
सिद्धांत रूप में, दुनिया के अन्य गुणों की तरह, सहजता भी सीखी जानी चाहिए। ऐसा प्रतीत होता है कि मानव दृष्टि प्रणाली यही करती है।{{Citation needed|date=October 2022}}


== सूचना माप ==
== सूचना माप ==
Line 115: Line 115:
रंगों के बीच अंतर को उचित रूप से मापने के लिए कलर डिफ्रेंस फ़ंक्शन का उपयोग किया जाना चाहिए। कलर डिफ्रेंस फ़ंक्शन निम्नलिखित में सीडी (''cd'') लिखा गया है। दो छवियों के बीच रंग मिलान को रिकॉर्ड करने के लिए आवश्यक जानकारी का माप है,
रंगों के बीच अंतर को उचित रूप से मापने के लिए कलर डिफ्रेंस फ़ंक्शन का उपयोग किया जाना चाहिए। कलर डिफ्रेंस फ़ंक्शन निम्नलिखित में सीडी (''cd'') लिखा गया है। दो छवियों के बीच रंग मिलान को रिकॉर्ड करने के लिए आवश्यक जानकारी का माप है,
:<math>I_m(z_1, z_2) = \frac{1}{\sigma_m^2} \sum_{x, y}\operatorname{cd}(\operatorname{color}_1(x, y + \frac{k}{z_1(x, y)}),  \operatorname{color}_2(x, y))^2 </math>
:<math>I_m(z_1, z_2) = \frac{1}{\sigma_m^2} \sum_{x, y}\operatorname{cd}(\operatorname{color}_1(x, y + \frac{k}{z_1(x, y)}),  \operatorname{color}_2(x, y))^2 </math>
छवि की सहजता के बारे में एक धारणा बनाई गई है। मान लें कि दो पिक्सेल के एक ही रंग के होने की अधिक संभावना है, वे जितने स्वरों का प्रतिनिधित्व करते हैं वे उतने ही करीब होंगे। इस उपाय का उद्देश्य समान गहराई पर समान रंगों को समूहीकृत करना है। उदाहरण के लिए, यदि सामने कोई वस्तु पीछे आकाश के एक क्षेत्र को घेरती है, तो चिकनाई का माप सभी नीले पिक्सेल को एक ही गहराई पर एक साथ समूहीकृत करने का पक्ष लेता है।
छवि की सहजता के बारे में एक धारणा बनाई गई है। मान लें कि दो पिक्सेल के एक ही रंग के होने की अधिक संभावना है, वे जितने स्वरों का प्रतिनिधित्व करते हैं वे उतने ही करीब होंगे। इस उपाय का उद्देश्य समान गहराई पर समान रंगों को समूहीकृत करना है। उदाहरण के लिए, यदि सामने कोई वस्तु पीछे आकाश के एक क्षेत्र को घेरती है, तो स्मूथनेस का माप सभी नीले पिक्सेल को एक ही गहराई पर एक साथ समूहीकृत करने का पक्ष लेता है।


चिकनाई का कुल माप कलर डिफ्रेंस के अपेक्षित मानक विचलन के अनुमान के रूप में स्वरों के बीच की दूरी का उपयोग करता है,
स्मूथनेस का कुल माप कलर डिफ्रेंस के अपेक्षित मानक विचलन के अनुमान के रूप में स्वरों के बीच की दूरी का उपयोग करता है,
:<math>I_s(z_1, z_2) = \frac{1}{2 \sigma_h^2} \sum_{i : \{1, 2\}} \sum_{x_1, y_1} \sum_{x_2, y_2} \frac{\operatorname{cd}(\operatorname{color}_i(x_1, y_1),  \operatorname{color}_i(x_2, y_2))^2}{(x_1 - x_2)^2 + (y_1 - y_2)^2 + (z_i(x_1, y_1) - z_i(x_2, y_2))^2} </math>
:<math>I_s(z_1, z_2) = \frac{1}{2 \sigma_h^2} \sum_{i : \{1, 2\}} \sum_{x_1, y_1} \sum_{x_2, y_2} \frac{\operatorname{cd}(\operatorname{color}_i(x_1, y_1),  \operatorname{color}_i(x_2, y_2))^2}{(x_1 - x_2)^2 + (y_1 - y_2)^2 + (z_i(x_1, y_1) - z_i(x_2, y_2))^2} </math>
कुल सूचना सामग्री तब योग है,
कुल सूचना सामग्री तब योग है,
Line 128: Line 128:


== कार्यान्वयन के तरीके ==
== कार्यान्वयन के तरीके ==
न्यूनतमकरण समस्या एनपी-पूर्ण है। इसका मतलब है कि इस समस्या का सामान्य समाधान पहुंचने में काफी समय लगेगा। हालाँकि कंप्यूटर के लिए अनुमान आधारित विधियाँ मौजूद हैं जो उचित समय में परिणाम का अनुमान लगाती हैं। [[तंत्रिका नेटवर्क]] पर आधारित विधियाँ भी मौजूद हैं।<ref name="Neural Network">
न्यूनतमकरण की समस्या एनपी-पूर्ण है। इसका मतलब है कि इस समस्या का सामान्य समाधान पहुंचने में काफी समय लगेगा। हालाँकि, कंप्यूटर के लिए अनुमानों पर आधारित विधियाँ मौजूद हैं जो उचित समय में परिणाम का अनुमान लगाती हैं। इसके अतिरिक्त, तंत्रिका नेटवर्क पर आधारित विधियाँ भी मौजूद हैं।<ref name="Neural Network">
{{cite journal
{{cite journal
|first1=JUNG-HUA
|first1=JUNG-HUA
Line 141: Line 141:
|title=On disparity matching in stereo vision via a neural network framework
|title=On disparity matching in stereo vision via a neural network framework
|citeseerx=10.1.1.105.9067
|citeseerx=10.1.1.105.9067
}}</ref> त्रिविम दृष्टि का कुशल कार्यान्वयन सक्रिय अनुसंधान का एक क्षेत्र है।
}}</ref> त्रिविम दृष्टि का कुशल कार्यान्वयन सक्रिय अनुसंधान का एक क्षेत्र है


== यह भी देखें ==
== यह भी देखें ==
Line 167: Line 167:
*[http://www2.ece.ohio-state.edu/ion/documents/IEEE_aero.pdf Stereo Vision and Rover Navigation Software for Planetary Exploration]
*[http://www2.ece.ohio-state.edu/ion/documents/IEEE_aero.pdf Stereo Vision and Rover Navigation Software for Planetary Exploration]


{{Computer vision footer}}
[[Category:All articles with unsourced statements]]
{{Stereoscopy}}
[[Category:Articles with hatnote templates targeting a nonexistent page]]
[[Category: कंप्यूटर विज़न के अनुप्रयोग]] [[Category: कंप्यूटर दृष्टि में ज्यामिति]] [[Category: दृष्टि]] [[Category: स्टीरियोस्कोपी]] [[Category: स्टीरियोफोटोग्राममेट्री]]  
[[Category:Articles with unsourced statements from October 2022]]
 
 
 
[[Category: Machine Translated Page]]
[[Category:Created On 25/07/2023]]
[[Category:Created On 25/07/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Short description with empty Wikidata description]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:कंप्यूटर दृष्टि में ज्यामिति]]
[[Category:कंप्यूटर विज़न के अनुप्रयोग]]
[[Category:दृष्टि]]
[[Category:स्टीरियोफोटोग्राममेट्री]]
[[Category:स्टीरियोस्कोपी]]

Latest revision as of 18:52, 21 August 2023

कंप्यूटर स्टीरियो विज़न डिजिटल छवियों से 3डी जानकारी का निष्कर्षण है, जैसे कि सीसीडी कैमरे द्वारा प्राप्त की गई छवियां हैं। दो सुविधाजनक बिंदुओं से किसी दृश्य के बारे में जानकारी की तुलना करके, दो पैनलों में वस्तुओं की सापेक्ष स्थिति की जांच करके 3डी जानकारी निकाली जा सकती है। यह स्टीरिओप्सिस की जैविक प्रक्रिया के समान है।

रूपरेखा

पारंपरिक स्टीरियो विज़न में, एक दूसरे से क्षैतिज रूप से विस्थापित दो कैमरों का उपयोग मानव दूरबीन दृष्टि के समान तरीके से एक दृश्य पर दो अलग-अलग दृश्य प्राप्त करने के लिए किया जाता है। इन दो छवियों की तुलना करके, सापेक्ष गहराई की जानकारी एक असमानता मानचित्र के रूप में प्राप्त की जा सकती है, जो संबंधित छवि बिंदुओं के क्षैतिज निर्देशांक में अंतर को एन्कोड करता है। इस असमानता मानचित्र में मान संबंधित पिक्सेल स्थान पर दृश्य की गहराई के व्युत्क्रमानुपाती होते हैं।

किसी इंसान के लिए दो छवियों की तुलना करने के लिए, उन्हें एक स्टीरियोस्कोपिक डिवाइस में सुपरइम्पोज़ किया जाना चाहिए, जिसमें दाएं कैमरे से छवि पर्यवेक्षक की दाहिनी आंख पर और बाएं से बाईं आंख पर दिखाई जाएगी।

कंप्यूटर विज़न सिस्टम में, कई पूर्व-प्रसंस्करण चरणों की आवश्यकता होती है।[1]

  1. छवि को पहले विकृत नहीं किया जाना चाहिए, जैसे कि बैरल विरूपण और स्पर्शरेखा विरूपण हटा दिया जाए। यह सुनिश्चित करता है कि देखी गई छवि एक आदर्श पिनहोल कैमरे के प्रक्षेपण से मेल खाती है।
  2. छवि जोड़े की तुलना की अनुमति देने के लिए छवि को एक सामान्य विमान में वापस प्रक्षेपित किया जाना चाहिए, जिसे छवि सुधार के रूप में जाना जाता है।
  3. एक सूचना माप जो दो छवियों की तुलना करता है उसे न्यूनतम कर दिया गया है। यह दो छवियों में विशेषताओं की स्थिति का सबसे अच्छा अनुमान देता है और एक असमानता मानचित्र बनाता है।
  4. वैकल्पिक रूप से, प्राप्त असमानता मानचित्र को 3डी बिंदु क्लाउड में प्रक्षेपित किया जाता है। कैमरों के प्रक्षेप्य मापदंडों का उपयोग करके, बिंदु क्लाउड की गणना इस तरह की जा सकती है कि यह एक ज्ञात पैमाने पर माप प्रदान करता है।

सक्रिय स्टीरियो विज़न

सक्रिय स्टीरियो विज़न स्टीरियो विज़न का एक रूप है जो स्टीरियो मिलान समस्या को सरल बनाने के लिए लेजर या संरचित प्रकाश जैसे प्रकाश को सक्रिय रूप से नियोजित करता है। विरोधी शब्द निष्क्रिय स्टीरियो विज़न है।

पारंपरिक संरचित-प्रकाश दृष्टि (एसएलवी)

पारंपरिक संरचित-प्रकाश दृष्टि (एसएलवी) एक संरचित प्रकाश या लेजर का उपयोग करती है, और प्रोजेक्टर-कैमरा पत्राचार ढूंढती है।[2][3]


पारंपरिक सक्रिय स्टीरियो विज़न (एएसवी)

पारंपरिक सक्रिय स्टीरियो विज़न (एएसवी) एक संरचित प्रकाश या लेजर का उपयोग करता है, हालांकि, स्टीरियो मिलान केवल कैमरा-कैमरा पत्राचार के लिए किया जाता है, उसी तरह जैसे निष्क्रिय स्टीरियो विज़न।

संरचित-प्रकाश स्टीरियो (एसएलएस)

एक हाइब्रिड तकनीक है, जो कैमरा-कैमरा और प्रोजेक्टर-कैमरा दोनों पत्राचार का उपयोग करती है।[4]

अनुप्रयोग

3डी स्टीरियो डिस्प्ले का मनोरंजन, सूचना हस्तांतरण और स्वचालित प्रणालियों में कई अनुप्रयोग हैं। स्वायत्त प्रणालियों के आसपास 3डी वस्तुओं की सापेक्ष स्थिति के बारे में जानकारी निकालने के लिए रोबोटिक्स जैसे क्षेत्रों में स्टीरियो विज़न अत्यधिक महत्वपूर्ण है। रोबोटिक्स के अन्य अनुप्रयोगों में वस्तु पहचान,[5] जहां गहराई की जानकारी सिस्टम को छवि घटकों को अलग करने की अनुमति देती है, जैसे कि एक कुर्सी दूसरे के सामने, जिसे रोबोट अन्यथा किसी अन्य मानदंड से एक अलग वस्तु के रूप में अलग करने में सक्षम नहीं हो सकता है।

डिजिटल स्टीरियो विज़न के लिए वैज्ञानिक अनुप्रयोगों में हवाई सर्वेक्षणों से जानकारी निकालना, समोच्च मानचित्रों की गणना या यहां तक ​​कि 3डी बिल्डिंग मैपिंग, फोटोग्राममेट्रिक सैटेलाइट मैपिंग के लिए ज्यामिति निष्कर्षण शामिल है।[6] या नासा स्टीरियो प्रोजेक्ट द्वारा प्राप्त 3डी हेलियोग्राफी जानकारी की गणना।

विस्तृत परिभाषा

सपाट सह-तलीय छवियों को मानते हुए, स्टीरियोस्कोपिक छवियों के साथ गहराई तक छवि विस्थापन के संबंध का वर्णन करने वाला आरेख

एक पिक्सेल किसी स्थिति में रंग रिकॉर्ड करता है। स्थिति की पहचान पिक्सेल (x, y) की ग्रिड में स्थिति और पिक्सेल z की गहराई से की जाती है।

त्रिविम दृष्टि अलग-अलग स्थितियों से एक ही दृश्य की दो छवियां देती है। आसन्न आरेख में बिंदु A से प्रकाश B और D पर पिनहोल कैमरों के प्रवेश बिंदुओं के माध्यम से E और H पर छवि स्क्रीन पर प्रसारित होता है।

संलग्न आरेख में दो कैमरा लेंस के केंद्रों के बीच की दूरी BD = BC + CD है। त्रिभुज समरूप हैं,

  • ACB और BFE
  • ACD और DGH

  • k = BD BF
  • z = AC कैमरे के तल से वस्तु तक की दूरी है।

तो यह मानते हुए कि कैमरे समतल हैं, और छवि तल एक ही तल पर सपाट हैं, दो छवियों में समान पिक्सेल के बीच y-अक्ष में विस्थापन है,

जहां k दो कैमरों के बीच की दूरी है, जो लेंस से छवि तक की दूरी का गुना है।

दो छवियों में गहराई घटक हैं और , द्वारा दिए गए,

ये सूत्र वस्तु की सतह पर एक छवि में दिखाई देने वाले स्वरों की छिपी हुई सतह का निर्धारण करने की अनुमति देते हैं, वस्तु की सतह पर दूसरी छवि में देखे गए निकट स्वरों द्वारा।

छवि सुधार

जहां छवि तल सह-तलीय नहीं हैं, वहां छवियों को समायोजित करने के लिए छवि सुधार की आवश्यकता होती है जैसे कि वे सह-तलीय हों। इसे रैखिक परिवर्तन द्वारा प्राप्त किया जा सकता है।

प्रत्येक छवि को समतल तल पर प्रक्षेपित पिनहोल कैमरे से ली गई छवि के बराबर बनाने के लिए छवियों में सुधार की भी आवश्यकता हो सकती है।

स्मूथनेस

चिकनापन रंगों की समानता का एक माप है। इस धारणा को देखते हुए कि एक अलग वस्तु में रंगों की एक छोटी संख्या होती है, समान रंग वाले पिक्सेल कई वस्तुओं की तुलना में एक ही वस्तु से संबंधित होने की अधिक संभावना रखते हैं।

स्मूथनेस का मूल्यांकन करने के लिए ऊपर वर्णित विधि सूचना सिद्धांत पर आधारित है, और एक धारणा है कि एक स्वर के रंग का प्रभाव बिंदुओं के बीच की दूरी पर सामान्य वितरण के अनुसार पास के स्वर के रंग को प्रभावित करता है। यह मॉडल दुनिया के बारे में अनुमानित धारणाओं पर आधारित है।

सुचारुता की पूर्व धारणाओं पर आधारित एक अन्य विधि स्वतः-सहसंबंध है।

सहजता किसी छवि की आंतरिक संपत्ति के बजाय दुनिया की एक संपत्ति है। यादृच्छिक बिंदुओं वाली छवि में कोई स्मूथनेस नहीं होगी, और पड़ोसी बिंदुओं के बारे में अनुमान बेकार होगा।

सिद्धांत रूप में, दुनिया के अन्य गुणों की तरह, सहजता भी सीखी जानी चाहिए। ऐसा प्रतीत होता है कि मानव दृष्टि प्रणाली यही करती है।[citation needed]

सूचना माप

न्यूनतम वर्ग जानकारी माप

सामान्य वितरण है

संभाव्यता न्यूनतम संदेश लंबाई एल द्वारा वर्णित सूचना सामग्री से संबंधित है,

इसलिए,

त्रिविम छवियों की तुलना के प्रयोजनों के लिए, केवल सापेक्ष संदेश की लंबाई मायने रखती है। इसके आधार पर, सूचना माप I, जिसे अंतरों के वर्गों का योग (SSD) कहा जाता है, है,

कहाँ,

एसएसडी में संख्याओं के वर्ग को संसाधित करने में लगने वाले समय की लागत के कारण, कई कार्यान्वयन सूचना माप की गणना के आधार के रूप में निरपेक्ष अंतर के योग (एसएडी) का उपयोग करते हैं। अन्य विधियाँ सामान्यीकृत क्रॉस सहसंबंध (एनसीसी) का उपयोग करती हैं।

त्रिविम छवियों के लिए सूचना माप

त्रिविम छवियों की सूचना सामग्री को मापने के लिए न्यूनतम वर्ग माप का उपयोग किया जा सकता है,[7] प्रत्येक बिंदु पर गहराई दी गई है . सबसे पहले एक छवि को दूसरे के संदर्भ में व्यक्त करने के लिए आवश्यक जानकारी प्राप्त की जाती है। यह कहा जाता है .

रंगों के बीच अंतर को उचित रूप से मापने के लिए कलर डिफ्रेंस फ़ंक्शन का उपयोग किया जाना चाहिए। कलर डिफ्रेंस फ़ंक्शन निम्नलिखित में सीडी (cd) लिखा गया है। दो छवियों के बीच रंग मिलान को रिकॉर्ड करने के लिए आवश्यक जानकारी का माप है,

छवि की सहजता के बारे में एक धारणा बनाई गई है। मान लें कि दो पिक्सेल के एक ही रंग के होने की अधिक संभावना है, वे जितने स्वरों का प्रतिनिधित्व करते हैं वे उतने ही करीब होंगे। इस उपाय का उद्देश्य समान गहराई पर समान रंगों को समूहीकृत करना है। उदाहरण के लिए, यदि सामने कोई वस्तु पीछे आकाश के एक क्षेत्र को घेरती है, तो स्मूथनेस का माप सभी नीले पिक्सेल को एक ही गहराई पर एक साथ समूहीकृत करने का पक्ष लेता है।

स्मूथनेस का कुल माप कलर डिफ्रेंस के अपेक्षित मानक विचलन के अनुमान के रूप में स्वरों के बीच की दूरी का उपयोग करता है,

कुल सूचना सामग्री तब योग है,

सूचना सामग्री के लिए न्यूनतम मान देने के लिए प्रत्येक पिक्सेल के z घटक को चुना जाना चाहिए। यह प्रत्येक पिक्सेल पर सबसे संभावित गहराई देगा। न्यूनतम कुल सूचना माप है,

बाएँ और दाएँ छवियों के लिए गहराई फ़ंक्शन जोड़ी हैं,


कार्यान्वयन के तरीके

न्यूनतमकरण की समस्या एनपी-पूर्ण है। इसका मतलब है कि इस समस्या का सामान्य समाधान पहुंचने में काफी समय लगेगा। हालाँकि, कंप्यूटर के लिए अनुमानों पर आधारित विधियाँ मौजूद हैं जो उचित समय में परिणाम का अनुमान लगाती हैं। इसके अतिरिक्त, तंत्रिका नेटवर्क पर आधारित विधियाँ भी मौजूद हैं।[8] त्रिविम दृष्टि का कुशल कार्यान्वयन सक्रिय अनुसंधान का एक क्षेत्र है

यह भी देखें

संदर्भ

  1. Bradski, Gary; Kaehler, Adrian. Learning OpenCV: Computer Vision with the OpenCV Library. O'Reilly.
  2. Je, Changsoo; Lee, Sang Wook; Park, Rae-Hong (2004). "High-Contrast Color-Stripe Pattern for Rapid Structured-Light Range Imaging". Computer Vision - ECCV 2004. Lecture Notes in Computer Science. Vol. 3021. pp. 95–107. arXiv:1508.04981. doi:10.1007/978-3-540-24670-1_8. ISBN 978-3-540-21984-2. S2CID 13277591.
  3. Je, Changsoo; Lee, Sang Wook; Park, Rae-Hong (2012). "तीव्र संरचित-प्रकाश रेंज इमेजिंग के लिए रंग-धारी क्रमपरिवर्तन पैटर्न". Optics Communications. 285 (9): 2320–2331. Bibcode:2012OptCo.285.2320J. doi:10.1016/j.optcom.2012.01.025.
  4. Jang, Wonkwi; Je, Changsoo; Seo, Yongduek; Lee, Sang Wook (2013). "संरचित-प्रकाश स्टीरियो: गतिशील आकार को मापने के लिए संरचित-प्रकाश और सक्रिय स्टीरियो का तुलनात्मक विश्लेषण और एकीकरण". Optics and Lasers in Engineering. 51 (11): 1255–1264. Bibcode:2013OptLE..51.1255J. doi:10.1016/j.optlaseng.2013.05.001.
  5. Sumi, Yasushi; Kawai, Yoshihiro; Yoshimi, Takashi; Tomita, Fumiaki (2002). "3D Object Recognition in Cluttered Environments by Segment-Based Stereo Vision". International Journal of Computer Vision. 46 (1): 5–23. doi:10.1023/A:1013240031067. S2CID 22926546.
  6. Tatar, Nurollah, et al. "High-Resolution Satellite Stereo Matching by Object-Based Semiglobal Matching and Iterative Guided Edge-Preserving Filter." IEEE Geoscience and Remote Sensing Letters (2020): 1-5.
  7. Lazaros, Nalpantidis; Sirakoulis, Georgios Christou; Gasteratos1, Antonios (2008). "Review of Stereo Vision Algorithms: From Software to Hardware". International Journal of Optomechatronics. 2 (4): 435–462. doi:10.1080/15599610802438680. S2CID 18115413.
  8. WANG, JUNG-HUA; HSIAO, CHIH-PING (1999). "On disparity matching in stereo vision via a neural network framework". Proc. Natl. Sci. Counc. ROC(A). 23 (5): 665–678. CiteSeerX 10.1.1.105.9067.


बाहरी संबंध