कंप्यूटर स्टीरियो विज़न: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Extraction of 3D data from digital images}} कंप्यूटर स्टीरियो विज़न डिजिटल छवियों से...")
 
No edit summary
 
(6 intermediate revisions by 4 users not shown)
Line 1: Line 1:
{{Short description|Extraction of 3D data from digital images}}
{{Short description|Extraction of 3D data from digital images}}
कंप्यूटर स्टीरियो विज़न डिजिटल छवियों से 3डी जानकारी निकालना है, जैसे कि [[सीसीडी कैमरा]] द्वारा प्राप्त की गई छवियां। किसी दृश्य के बारे में दो सुविधाजनक बिंदुओं से जानकारी की तुलना करके, दो पैनलों में वस्तुओं की सापेक्ष स्थिति की जांच करके 3डी जानकारी निकाली जा सकती है। यह [[स्टीरियोप्सिस]] की जैविक प्रक्रिया के समान है।
'''कंप्यूटर स्टीरियो विज़न''' डिजिटल छवियों से 3डी जानकारी का निष्कर्षण है, जैसे कि सीसीडी कैमरे द्वारा प्राप्त की गई छवियां हैं। दो सुविधाजनक बिंदुओं से किसी दृश्य के बारे में जानकारी की तुलना करके, दो पैनलों में वस्तुओं की सापेक्ष स्थिति की जांच करके 3डी जानकारी निकाली जा सकती है। यह स्टीरिओप्सिस की जैविक प्रक्रिया के समान है।


== रूपरेखा ==
== रूपरेखा ==
पारंपरिक स्टीरियो विज़न में, एक दूसरे से क्षैतिज रूप से विस्थापित दो कैमरों का उपयोग, मानव दूरबीन दृष्टि के समान, एक दृश्य पर दो अलग-अलग दृश्य प्राप्त करने के लिए किया जाता है। इन दो छवियों की तुलना करके, सापेक्ष गहराई की जानकारी [[दूरबीन असमानता]] के रूप में प्राप्त की जा सकती है, जो [[पत्राचार समस्या]] छवि बिंदुओं के क्षैतिज निर्देशांक में अंतर को एन्कोड करती है। इस असमानता मानचित्र में मान संबंधित पिक्सेल स्थान पर दृश्य की गहराई के व्युत्क्रमानुपाती होते हैं।
पारंपरिक स्टीरियो विज़न में, एक दूसरे से क्षैतिज रूप से विस्थापित दो कैमरों का उपयोग मानव दूरबीन दृष्टि के समान तरीके से एक दृश्य पर दो अलग-अलग दृश्य प्राप्त करने के लिए किया जाता है। इन दो छवियों की तुलना करके, सापेक्ष गहराई की जानकारी एक असमानता मानचित्र के रूप में प्राप्त की जा सकती है, जो संबंधित छवि बिंदुओं के क्षैतिज निर्देशांक में अंतर को एन्कोड करता है। इस असमानता मानचित्र में मान संबंधित पिक्सेल स्थान पर दृश्य की गहराई के व्युत्क्रमानुपाती होते हैं।


किसी इंसान के लिए दो छवियों की तुलना करने के लिए, उन्हें एक स्टीरियोस्कोपिक डिवाइस में सुपरइम्पोज़ किया जाना चाहिए, जिसमें दाएं कैमरे से छवि पर्यवेक्षक की दाहिनी आंख पर और बाएं कैमरे से बाईं आंख पर दिखाई जाएगी।
किसी इंसान के लिए दो छवियों की तुलना करने के लिए, उन्हें एक स्टीरियोस्कोपिक डिवाइस में सुपरइम्पोज़ किया जाना चाहिए, जिसमें दाएं कैमरे से छवि पर्यवेक्षक की दाहिनी आंख पर और बाएं से बाईं आंख पर दिखाई जाएगी।


कंप्यूटर विज़न सिस्टम में, कई पूर्व-प्रसंस्करण चरणों की आवश्यकता होती है।<ref>{{cite book|title=Learning OpenCV: Computer Vision with the OpenCV Library|publisher=O'Reilly|author1=Bradski, Gary  |author2=Kaehler, Adrian}}</ref>
[[कंप्यूटर]] विज़न सिस्टम में, कई पूर्व-प्रसंस्करण चरणों की आवश्यकता होती है।<ref>{{cite book|title=Learning OpenCV: Computer Vision with the OpenCV Library|publisher=O'Reilly|author1=Bradski, Gary  |author2=Kaehler, Adrian}}</ref>
# छवि को पहले विकृत नहीं किया जाना चाहिए, जैसे कि [[बैरल विरूपण]] और विरूपण (ऑप्टिक्स) हटा दिए जाएं। यह सुनिश्चित करता है कि देखी गई छवि एक आदर्श [[पिनहोल कैमरा]] के प्रक्षेपण से मेल खाती है।
# छवि को पहले विकृत नहीं किया जाना चाहिए, जैसे कि बैरल विरूपण और स्पर्शरेखा विरूपण हटा दिया जाए। यह सुनिश्चित करता है कि देखी गई छवि एक आदर्श पिनहोल कैमरे के प्रक्षेपण से मेल खाती है।
# छवि जोड़े की तुलना की अनुमति देने के लिए छवि को वापस एक सामान्य तल पर प्रक्षेपित किया जाना चाहिए, जिसे [[छवि सुधार]] के रूप में जाना जाता है।
# छवि जोड़े की तुलना की अनुमति देने के लिए छवि को एक सामान्य विमान में वापस प्रक्षेपित किया जाना चाहिए, जिसे छवि सुधार के रूप में जाना जाता है।
# एक सूचना माप जो दो छवियों की तुलना करता है उसे न्यूनतम कर दिया गया है। यह दो छवियों में सुविधाओं की स्थिति का सर्वोत्तम अनुमान देता है, और एक असमानता मानचित्र बनाता है।
# एक सूचना माप जो दो छवियों की तुलना करता है उसे न्यूनतम कर दिया गया है। यह दो छवियों में विशेषताओं की स्थिति का सबसे अच्छा अनुमान देता है और एक असमानता मानचित्र बनाता है।
# वैकल्पिक रूप से, प्राप्त असमानता मानचित्र को एक बिंदु बादल में प्रक्षेपित किया जाता है। कैमरे के प्रक्षेप्य मापदंडों का उपयोग करके, बिंदु बादल की गणना इस तरह की जा सकती है कि यह ज्ञात पैमाने पर माप प्रदान करता है।
# वैकल्पिक रूप से, प्राप्त असमानता मानचित्र को 3डी बिंदु क्लाउड में प्रक्षेपित किया जाता है। कैमरों के प्रक्षेप्य मापदंडों का उपयोग करके, बिंदु क्लाउड की गणना इस तरह की जा सकती है कि यह एक ज्ञात पैमाने पर माप प्रदान करता है।


== सक्रिय स्टीरियो विज़न ==
== सक्रिय स्टीरियो विज़न ==
Line 32: Line 32:


== विस्तृत परिभाषा ==
== विस्तृत परिभाषा ==
{{further|Triangulation (computer vision)}}
{{further|ट्राईऐन्ग्युलेशंस (कंप्यूटर विज़न)}}
[[File:Stereoscopic images, depth to displacement relationship assuming flat co-planar images..png|thumb|right|300px|सपाट सह-तलीय छवियों को मानते हुए, स्टीरियोस्कोपिक छवियों के साथ गहराई तक छवि विस्थापन के संबंध का वर्णन करने वाला आरेख]]एक पिक्सेल किसी स्थिति में रंग रिकॉर्ड करता है। स्थिति की पहचान पिक्सेल (x, y) की ग्रिड में स्थिति और पिक्सेल z की गहराई से की जाती है।
[[File:Stereoscopic images, depth to displacement relationship assuming flat co-planar images..png|thumb|right|300px|सपाट सह-तलीय छवियों को मानते हुए, स्टीरियोस्कोपिक छवियों के साथ गहराई तक छवि विस्थापन के संबंध का वर्णन करने वाला आरेख]]एक पिक्सेल किसी स्थिति में रंग रिकॉर्ड करता है। स्थिति की पहचान पिक्सेल (x, y) की ग्रिड में स्थिति और पिक्सेल z की गहराई से की जाती है।


Line 38: Line 38:


संलग्न आरेख में दो कैमरा लेंस के केंद्रों के बीच की दूरी BD = BC + CD है। त्रिभुज समरूप हैं,
संलग्न आरेख में दो कैमरा लेंस के केंद्रों के बीच की दूरी BD = BC + CD है। त्रिभुज समरूप हैं,
* एसीबी और बीएफई
* ''ACB''  और ''BFE''
* एसीडी और डीजीएच
* ''ACD'' और ''DGH''


<math> \begin{align}  
<math> \begin{align}  
Line 49: Line 49:
&= \frac{k}{z}  \text{, where}\\ \end{align}
&= \frac{k}{z}  \text{, where}\\ \end{align}
</math>
</math>
* के = बीडी बीएफ
 
* ''k = BD BF''
 
*
* z = AC कैमरे के तल से वस्तु तक की दूरी है।
* z = AC कैमरे के तल से वस्तु तक की दूरी है।
तो यह मानते हुए कि कैमरे समतल हैं, और छवि तल एक ही तल पर सपाट हैं, दो छवियों में समान पिक्सेल के बीच y अक्ष में विस्थापन है,
तो यह मानते हुए कि कैमरे समतल हैं, और छवि तल एक ही तल पर सपाट हैं, दो छवियों में समान पिक्सेल के बीच y-अक्ष में विस्थापन है,
:<math>d = \frac{k}{z} </math>
:<math>d = \frac{k}{z} </math>
जहां k दो कैमरों के बीच की दूरी है, जो लेंस से छवि तक की दूरी का गुना है।
जहां k दो कैमरों के बीच की दूरी है, जो लेंस से छवि तक की दूरी का गुना है।
Line 58: Line 61:
:<math>z_2(x, y) = \min \left \{v : v = z_1(x, y - \frac{k}{z_1(x, y)})\right \} </math>
:<math>z_2(x, y) = \min \left \{v : v = z_1(x, y - \frac{k}{z_1(x, y)})\right \} </math>
:<math>z_1(x, y) = \min \left \{v : v = z_2(x, y + \frac{k}{z_2(x, y)}) \right \} </math>
:<math>z_1(x, y) = \min \left \{v : v = z_2(x, y + \frac{k}{z_2(x, y)}) \right \} </math>
ये सूत्र वस्तु की सतह पर एक छवि में दिखाई देने वाले [[स्वर]]ों की [[छिपी हुई सतह का निर्धारण]] करने की अनुमति देते हैं, वस्तु की सतह पर दूसरी छवि में देखे गए निकट स्वरों द्वारा।
ये सूत्र वस्तु की सतह पर एक छवि में दिखाई देने वाले [[स्वर]]ों की छिपी हुई सतह का निर्धारण करने की अनुमति देते हैं, वस्तु की सतह पर दूसरी छवि में देखे गए निकट स्वरों द्वारा।


===छवि सुधार===
===छवि सुधार===
Line 65: Line 68:
प्रत्येक छवि को समतल तल पर प्रक्षेपित पिनहोल कैमरे से ली गई छवि के बराबर बनाने के लिए छवियों में सुधार की भी आवश्यकता हो सकती है।
प्रत्येक छवि को समतल तल पर प्रक्षेपित पिनहोल कैमरे से ली गई छवि के बराबर बनाने के लिए छवियों में सुधार की भी आवश्यकता हो सकती है।


=== चिकनाई ===
=== स्मूथनेस ===
चिकनाई रंगों की समानता का माप है। इस धारणा को देखते हुए कि एक अलग वस्तु में रंगों की एक छोटी संख्या होती है, समान रंग वाले पिक्सेल कई वस्तुओं की तुलना में एक ही वस्तु से संबंधित होने की अधिक संभावना रखते हैं।
चिकनापन रंगों की समानता का एक माप है। इस धारणा को देखते हुए कि एक अलग वस्तु में रंगों की एक छोटी संख्या होती है, समान रंग वाले पिक्सेल कई वस्तुओं की तुलना में एक ही वस्तु से संबंधित होने की अधिक संभावना रखते हैं।


चिकनाई का मूल्यांकन करने के लिए ऊपर वर्णित विधि सूचना सिद्धांत पर आधारित है, और एक धारणा है कि एक स्वर के रंग का प्रभाव बिंदुओं के बीच की दूरी पर सामान्य वितरण के अनुसार पास के स्वर के रंग को प्रभावित करता है। यह मॉडल दुनिया के बारे में अनुमानित धारणाओं पर आधारित है।
स्मूथनेस का मूल्यांकन करने के लिए ऊपर वर्णित विधि सूचना सिद्धांत पर आधारित है, और एक धारणा है कि एक स्वर के रंग का प्रभाव बिंदुओं के बीच की दूरी पर सामान्य वितरण के अनुसार पास के स्वर के रंग को प्रभावित करता है। यह मॉडल दुनिया के बारे में अनुमानित धारणाओं पर आधारित है।


सहजता की पूर्व धारणाओं पर आधारित एक अन्य विधि ऑटो-सहसंबंध है।
सुचारुता की पूर्व धारणाओं पर आधारित एक अन्य विधि स्वतः-सहसंबंध है।


चिकनाई किसी छवि की आंतरिक संपत्ति के बजाय दुनिया की एक संपत्ति है। यादृच्छिक बिंदुओं वाली छवि में कोई चिकनाई नहीं होगी, और पड़ोसी बिंदुओं के बारे में अनुमान बेकार होगा।
सहजता किसी छवि की आंतरिक संपत्ति के बजाय दुनिया की एक संपत्ति है। यादृच्छिक बिंदुओं वाली छवि में कोई स्मूथनेस नहीं होगी, और पड़ोसी बिंदुओं के बारे में अनुमान बेकार होगा।


सिद्धांत रूप में, दुनिया के अन्य गुणों की तरह, सहजता को भी सीखना चाहिए। ऐसा प्रतीत होता है कि मानव दृष्टि प्रणाली यही करती है।{{Citation needed|date=October 2022}}
सिद्धांत रूप में, दुनिया के अन्य गुणों की तरह, सहजता भी सीखी जानी चाहिए। ऐसा प्रतीत होता है कि मानव दृष्टि प्रणाली यही करती है।{{Citation needed|date=October 2022}}


== सूचना माप ==
== सूचना माप ==
Line 110: Line 113:
</ref> प्रत्येक बिंदु पर गहराई दी गई है <math>z(x, y)</math>. सबसे पहले एक छवि को दूसरे के संदर्भ में व्यक्त करने के लिए आवश्यक जानकारी प्राप्त की जाती है। यह कहा जाता है <math>I_m</math>.
</ref> प्रत्येक बिंदु पर गहराई दी गई है <math>z(x, y)</math>. सबसे पहले एक छवि को दूसरे के संदर्भ में व्यक्त करने के लिए आवश्यक जानकारी प्राप्त की जाती है। यह कहा जाता है <math>I_m</math>.


रंगों के बीच अंतर को उचित रूप से मापने के लिए रंग अंतर फ़ंक्शन का उपयोग किया जाना चाहिए। रंग अंतर फ़ंक्शन निम्नलिखित में सीडी लिखा गया है। दो छवियों के बीच रंग मिलान को रिकॉर्ड करने के लिए आवश्यक जानकारी का माप है,
रंगों के बीच अंतर को उचित रूप से मापने के लिए कलर डिफ्रेंस फ़ंक्शन का उपयोग किया जाना चाहिए। कलर डिफ्रेंस फ़ंक्शन निम्नलिखित में सीडी (''cd'') लिखा गया है। दो छवियों के बीच रंग मिलान को रिकॉर्ड करने के लिए आवश्यक जानकारी का माप है,
:<math>I_m(z_1, z_2) = \frac{1}{\sigma_m^2} \sum_{x, y}\operatorname{cd}(\operatorname{color}_1(x, y + \frac{k}{z_1(x, y)}),  \operatorname{color}_2(x, y))^2 </math>
:<math>I_m(z_1, z_2) = \frac{1}{\sigma_m^2} \sum_{x, y}\operatorname{cd}(\operatorname{color}_1(x, y + \frac{k}{z_1(x, y)}),  \operatorname{color}_2(x, y))^2 </math>
छवि की सहजता के बारे में एक धारणा बनाई गई है। मान लें कि दो पिक्सेल के एक ही रंग के होने की अधिक संभावना है, वे जितने स्वरों का प्रतिनिधित्व करते हैं वे उतने ही करीब होंगे। इस उपाय का उद्देश्य समान गहराई पर समान रंगों को समूहीकृत करना है। उदाहरण के लिए, यदि सामने कोई वस्तु पीछे आकाश के एक क्षेत्र को घेरती है, तो चिकनाई का माप सभी नीले पिक्सेल को एक ही गहराई पर एक साथ समूहीकृत करने का पक्ष लेता है।
छवि की सहजता के बारे में एक धारणा बनाई गई है। मान लें कि दो पिक्सेल के एक ही रंग के होने की अधिक संभावना है, वे जितने स्वरों का प्रतिनिधित्व करते हैं वे उतने ही करीब होंगे। इस उपाय का उद्देश्य समान गहराई पर समान रंगों को समूहीकृत करना है। उदाहरण के लिए, यदि सामने कोई वस्तु पीछे आकाश के एक क्षेत्र को घेरती है, तो स्मूथनेस का माप सभी नीले पिक्सेल को एक ही गहराई पर एक साथ समूहीकृत करने का पक्ष लेता है।


चिकनाई का कुल माप रंग अंतर के अपेक्षित मानक विचलन के अनुमान के रूप में स्वरों के बीच की दूरी का उपयोग करता है,
स्मूथनेस का कुल माप कलर डिफ्रेंस के अपेक्षित मानक विचलन के अनुमान के रूप में स्वरों के बीच की दूरी का उपयोग करता है,
:<math>I_s(z_1, z_2) = \frac{1}{2 \sigma_h^2} \sum_{i : \{1, 2\}} \sum_{x_1, y_1} \sum_{x_2, y_2} \frac{\operatorname{cd}(\operatorname{color}_i(x_1, y_1),  \operatorname{color}_i(x_2, y_2))^2}{(x_1 - x_2)^2 + (y_1 - y_2)^2 + (z_i(x_1, y_1) - z_i(x_2, y_2))^2} </math>
:<math>I_s(z_1, z_2) = \frac{1}{2 \sigma_h^2} \sum_{i : \{1, 2\}} \sum_{x_1, y_1} \sum_{x_2, y_2} \frac{\operatorname{cd}(\operatorname{color}_i(x_1, y_1),  \operatorname{color}_i(x_2, y_2))^2}{(x_1 - x_2)^2 + (y_1 - y_2)^2 + (z_i(x_1, y_1) - z_i(x_2, y_2))^2} </math>
कुल सूचना सामग्री तब योग है,
कुल सूचना सामग्री तब योग है,
Line 125: Line 128:


== कार्यान्वयन के तरीके ==
== कार्यान्वयन के तरीके ==
न्यूनतमकरण समस्या एनपी-पूर्ण है। इसका मतलब है कि इस समस्या का सामान्य समाधान पहुंचने में काफी समय लगेगा। हालाँकि कंप्यूटर के लिए अनुमान आधारित विधियाँ मौजूद हैं जो उचित समय में परिणाम का अनुमान लगाती हैं। [[तंत्रिका नेटवर्क]] पर आधारित विधियाँ भी मौजूद हैं।<ref name="Neural Network">
न्यूनतमकरण की समस्या एनपी-पूर्ण है। इसका मतलब है कि इस समस्या का सामान्य समाधान पहुंचने में काफी समय लगेगा। हालाँकि, कंप्यूटर के लिए अनुमानों पर आधारित विधियाँ मौजूद हैं जो उचित समय में परिणाम का अनुमान लगाती हैं। इसके अतिरिक्त, तंत्रिका नेटवर्क पर आधारित विधियाँ भी मौजूद हैं।<ref name="Neural Network">
{{cite journal
{{cite journal
|first1=JUNG-HUA
|first1=JUNG-HUA
Line 138: Line 141:
|title=On disparity matching in stereo vision via a neural network framework
|title=On disparity matching in stereo vision via a neural network framework
|citeseerx=10.1.1.105.9067
|citeseerx=10.1.1.105.9067
}}</ref> त्रिविम दृष्टि का कुशल कार्यान्वयन सक्रिय अनुसंधान का एक क्षेत्र है।
}}</ref> त्रिविम दृष्टि का कुशल कार्यान्वयन सक्रिय अनुसंधान का एक क्षेत्र है


== यह भी देखें ==
== यह भी देखें ==
Line 152: Line 155:
*स्टीरियोप्सिस
*स्टीरियोप्सिस
*स्टीरियोस्कोपिक गहराई प्रस्तुति
*स्टीरियोस्कोपिक गहराई प्रस्तुति
*[[स्टिक्सेल]]
*स्टिक्सेल
*[[ट्राइफोकल टेंसर]] - ट्राइफोकल स्टीरियोस्कोपी के लिए (दो के बजाय तीन छवियों का उपयोग करके)
*[[ट्राइफोकल टेंसर]] - ट्राइफोकल स्टीरियोस्कोपी के लिए (दो के बजाय तीन छवियों का उपयोग करके)


Line 164: Line 167:
*[http://www2.ece.ohio-state.edu/ion/documents/IEEE_aero.pdf Stereo Vision and Rover Navigation Software for Planetary Exploration]
*[http://www2.ece.ohio-state.edu/ion/documents/IEEE_aero.pdf Stereo Vision and Rover Navigation Software for Planetary Exploration]


{{Computer vision footer}}
[[Category:All articles with unsourced statements]]
{{Stereoscopy}}
[[Category:Articles with hatnote templates targeting a nonexistent page]]
[[Category: कंप्यूटर विज़न के अनुप्रयोग]] [[Category: कंप्यूटर दृष्टि में ज्यामिति]] [[Category: दृष्टि]] [[Category: स्टीरियोस्कोपी]] [[Category: स्टीरियोफोटोग्राममेट्री]]  
[[Category:Articles with unsourced statements from October 2022]]
 
 
 
[[Category: Machine Translated Page]]
[[Category:Created On 25/07/2023]]
[[Category:Created On 25/07/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Short description with empty Wikidata description]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:कंप्यूटर दृष्टि में ज्यामिति]]
[[Category:कंप्यूटर विज़न के अनुप्रयोग]]
[[Category:दृष्टि]]
[[Category:स्टीरियोफोटोग्राममेट्री]]
[[Category:स्टीरियोस्कोपी]]

Latest revision as of 18:52, 21 August 2023

कंप्यूटर स्टीरियो विज़न डिजिटल छवियों से 3डी जानकारी का निष्कर्षण है, जैसे कि सीसीडी कैमरे द्वारा प्राप्त की गई छवियां हैं। दो सुविधाजनक बिंदुओं से किसी दृश्य के बारे में जानकारी की तुलना करके, दो पैनलों में वस्तुओं की सापेक्ष स्थिति की जांच करके 3डी जानकारी निकाली जा सकती है। यह स्टीरिओप्सिस की जैविक प्रक्रिया के समान है।

रूपरेखा

पारंपरिक स्टीरियो विज़न में, एक दूसरे से क्षैतिज रूप से विस्थापित दो कैमरों का उपयोग मानव दूरबीन दृष्टि के समान तरीके से एक दृश्य पर दो अलग-अलग दृश्य प्राप्त करने के लिए किया जाता है। इन दो छवियों की तुलना करके, सापेक्ष गहराई की जानकारी एक असमानता मानचित्र के रूप में प्राप्त की जा सकती है, जो संबंधित छवि बिंदुओं के क्षैतिज निर्देशांक में अंतर को एन्कोड करता है। इस असमानता मानचित्र में मान संबंधित पिक्सेल स्थान पर दृश्य की गहराई के व्युत्क्रमानुपाती होते हैं।

किसी इंसान के लिए दो छवियों की तुलना करने के लिए, उन्हें एक स्टीरियोस्कोपिक डिवाइस में सुपरइम्पोज़ किया जाना चाहिए, जिसमें दाएं कैमरे से छवि पर्यवेक्षक की दाहिनी आंख पर और बाएं से बाईं आंख पर दिखाई जाएगी।

कंप्यूटर विज़न सिस्टम में, कई पूर्व-प्रसंस्करण चरणों की आवश्यकता होती है।[1]

  1. छवि को पहले विकृत नहीं किया जाना चाहिए, जैसे कि बैरल विरूपण और स्पर्शरेखा विरूपण हटा दिया जाए। यह सुनिश्चित करता है कि देखी गई छवि एक आदर्श पिनहोल कैमरे के प्रक्षेपण से मेल खाती है।
  2. छवि जोड़े की तुलना की अनुमति देने के लिए छवि को एक सामान्य विमान में वापस प्रक्षेपित किया जाना चाहिए, जिसे छवि सुधार के रूप में जाना जाता है।
  3. एक सूचना माप जो दो छवियों की तुलना करता है उसे न्यूनतम कर दिया गया है। यह दो छवियों में विशेषताओं की स्थिति का सबसे अच्छा अनुमान देता है और एक असमानता मानचित्र बनाता है।
  4. वैकल्पिक रूप से, प्राप्त असमानता मानचित्र को 3डी बिंदु क्लाउड में प्रक्षेपित किया जाता है। कैमरों के प्रक्षेप्य मापदंडों का उपयोग करके, बिंदु क्लाउड की गणना इस तरह की जा सकती है कि यह एक ज्ञात पैमाने पर माप प्रदान करता है।

सक्रिय स्टीरियो विज़न

सक्रिय स्टीरियो विज़न स्टीरियो विज़न का एक रूप है जो स्टीरियो मिलान समस्या को सरल बनाने के लिए लेजर या संरचित प्रकाश जैसे प्रकाश को सक्रिय रूप से नियोजित करता है। विरोधी शब्द निष्क्रिय स्टीरियो विज़न है।

पारंपरिक संरचित-प्रकाश दृष्टि (एसएलवी)

पारंपरिक संरचित-प्रकाश दृष्टि (एसएलवी) एक संरचित प्रकाश या लेजर का उपयोग करती है, और प्रोजेक्टर-कैमरा पत्राचार ढूंढती है।[2][3]


पारंपरिक सक्रिय स्टीरियो विज़न (एएसवी)

पारंपरिक सक्रिय स्टीरियो विज़न (एएसवी) एक संरचित प्रकाश या लेजर का उपयोग करता है, हालांकि, स्टीरियो मिलान केवल कैमरा-कैमरा पत्राचार के लिए किया जाता है, उसी तरह जैसे निष्क्रिय स्टीरियो विज़न।

संरचित-प्रकाश स्टीरियो (एसएलएस)

एक हाइब्रिड तकनीक है, जो कैमरा-कैमरा और प्रोजेक्टर-कैमरा दोनों पत्राचार का उपयोग करती है।[4]

अनुप्रयोग

3डी स्टीरियो डिस्प्ले का मनोरंजन, सूचना हस्तांतरण और स्वचालित प्रणालियों में कई अनुप्रयोग हैं। स्वायत्त प्रणालियों के आसपास 3डी वस्तुओं की सापेक्ष स्थिति के बारे में जानकारी निकालने के लिए रोबोटिक्स जैसे क्षेत्रों में स्टीरियो विज़न अत्यधिक महत्वपूर्ण है। रोबोटिक्स के अन्य अनुप्रयोगों में वस्तु पहचान,[5] जहां गहराई की जानकारी सिस्टम को छवि घटकों को अलग करने की अनुमति देती है, जैसे कि एक कुर्सी दूसरे के सामने, जिसे रोबोट अन्यथा किसी अन्य मानदंड से एक अलग वस्तु के रूप में अलग करने में सक्षम नहीं हो सकता है।

डिजिटल स्टीरियो विज़न के लिए वैज्ञानिक अनुप्रयोगों में हवाई सर्वेक्षणों से जानकारी निकालना, समोच्च मानचित्रों की गणना या यहां तक ​​कि 3डी बिल्डिंग मैपिंग, फोटोग्राममेट्रिक सैटेलाइट मैपिंग के लिए ज्यामिति निष्कर्षण शामिल है।[6] या नासा स्टीरियो प्रोजेक्ट द्वारा प्राप्त 3डी हेलियोग्राफी जानकारी की गणना।

विस्तृत परिभाषा

सपाट सह-तलीय छवियों को मानते हुए, स्टीरियोस्कोपिक छवियों के साथ गहराई तक छवि विस्थापन के संबंध का वर्णन करने वाला आरेख

एक पिक्सेल किसी स्थिति में रंग रिकॉर्ड करता है। स्थिति की पहचान पिक्सेल (x, y) की ग्रिड में स्थिति और पिक्सेल z की गहराई से की जाती है।

त्रिविम दृष्टि अलग-अलग स्थितियों से एक ही दृश्य की दो छवियां देती है। आसन्न आरेख में बिंदु A से प्रकाश B और D पर पिनहोल कैमरों के प्रवेश बिंदुओं के माध्यम से E और H पर छवि स्क्रीन पर प्रसारित होता है।

संलग्न आरेख में दो कैमरा लेंस के केंद्रों के बीच की दूरी BD = BC + CD है। त्रिभुज समरूप हैं,

  • ACB और BFE
  • ACD और DGH

  • k = BD BF
  • z = AC कैमरे के तल से वस्तु तक की दूरी है।

तो यह मानते हुए कि कैमरे समतल हैं, और छवि तल एक ही तल पर सपाट हैं, दो छवियों में समान पिक्सेल के बीच y-अक्ष में विस्थापन है,

जहां k दो कैमरों के बीच की दूरी है, जो लेंस से छवि तक की दूरी का गुना है।

दो छवियों में गहराई घटक हैं और , द्वारा दिए गए,

ये सूत्र वस्तु की सतह पर एक छवि में दिखाई देने वाले स्वरों की छिपी हुई सतह का निर्धारण करने की अनुमति देते हैं, वस्तु की सतह पर दूसरी छवि में देखे गए निकट स्वरों द्वारा।

छवि सुधार

जहां छवि तल सह-तलीय नहीं हैं, वहां छवियों को समायोजित करने के लिए छवि सुधार की आवश्यकता होती है जैसे कि वे सह-तलीय हों। इसे रैखिक परिवर्तन द्वारा प्राप्त किया जा सकता है।

प्रत्येक छवि को समतल तल पर प्रक्षेपित पिनहोल कैमरे से ली गई छवि के बराबर बनाने के लिए छवियों में सुधार की भी आवश्यकता हो सकती है।

स्मूथनेस

चिकनापन रंगों की समानता का एक माप है। इस धारणा को देखते हुए कि एक अलग वस्तु में रंगों की एक छोटी संख्या होती है, समान रंग वाले पिक्सेल कई वस्तुओं की तुलना में एक ही वस्तु से संबंधित होने की अधिक संभावना रखते हैं।

स्मूथनेस का मूल्यांकन करने के लिए ऊपर वर्णित विधि सूचना सिद्धांत पर आधारित है, और एक धारणा है कि एक स्वर के रंग का प्रभाव बिंदुओं के बीच की दूरी पर सामान्य वितरण के अनुसार पास के स्वर के रंग को प्रभावित करता है। यह मॉडल दुनिया के बारे में अनुमानित धारणाओं पर आधारित है।

सुचारुता की पूर्व धारणाओं पर आधारित एक अन्य विधि स्वतः-सहसंबंध है।

सहजता किसी छवि की आंतरिक संपत्ति के बजाय दुनिया की एक संपत्ति है। यादृच्छिक बिंदुओं वाली छवि में कोई स्मूथनेस नहीं होगी, और पड़ोसी बिंदुओं के बारे में अनुमान बेकार होगा।

सिद्धांत रूप में, दुनिया के अन्य गुणों की तरह, सहजता भी सीखी जानी चाहिए। ऐसा प्रतीत होता है कि मानव दृष्टि प्रणाली यही करती है।[citation needed]

सूचना माप

न्यूनतम वर्ग जानकारी माप

सामान्य वितरण है

संभाव्यता न्यूनतम संदेश लंबाई एल द्वारा वर्णित सूचना सामग्री से संबंधित है,

इसलिए,

त्रिविम छवियों की तुलना के प्रयोजनों के लिए, केवल सापेक्ष संदेश की लंबाई मायने रखती है। इसके आधार पर, सूचना माप I, जिसे अंतरों के वर्गों का योग (SSD) कहा जाता है, है,

कहाँ,

एसएसडी में संख्याओं के वर्ग को संसाधित करने में लगने वाले समय की लागत के कारण, कई कार्यान्वयन सूचना माप की गणना के आधार के रूप में निरपेक्ष अंतर के योग (एसएडी) का उपयोग करते हैं। अन्य विधियाँ सामान्यीकृत क्रॉस सहसंबंध (एनसीसी) का उपयोग करती हैं।

त्रिविम छवियों के लिए सूचना माप

त्रिविम छवियों की सूचना सामग्री को मापने के लिए न्यूनतम वर्ग माप का उपयोग किया जा सकता है,[7] प्रत्येक बिंदु पर गहराई दी गई है . सबसे पहले एक छवि को दूसरे के संदर्भ में व्यक्त करने के लिए आवश्यक जानकारी प्राप्त की जाती है। यह कहा जाता है .

रंगों के बीच अंतर को उचित रूप से मापने के लिए कलर डिफ्रेंस फ़ंक्शन का उपयोग किया जाना चाहिए। कलर डिफ्रेंस फ़ंक्शन निम्नलिखित में सीडी (cd) लिखा गया है। दो छवियों के बीच रंग मिलान को रिकॉर्ड करने के लिए आवश्यक जानकारी का माप है,

छवि की सहजता के बारे में एक धारणा बनाई गई है। मान लें कि दो पिक्सेल के एक ही रंग के होने की अधिक संभावना है, वे जितने स्वरों का प्रतिनिधित्व करते हैं वे उतने ही करीब होंगे। इस उपाय का उद्देश्य समान गहराई पर समान रंगों को समूहीकृत करना है। उदाहरण के लिए, यदि सामने कोई वस्तु पीछे आकाश के एक क्षेत्र को घेरती है, तो स्मूथनेस का माप सभी नीले पिक्सेल को एक ही गहराई पर एक साथ समूहीकृत करने का पक्ष लेता है।

स्मूथनेस का कुल माप कलर डिफ्रेंस के अपेक्षित मानक विचलन के अनुमान के रूप में स्वरों के बीच की दूरी का उपयोग करता है,

कुल सूचना सामग्री तब योग है,

सूचना सामग्री के लिए न्यूनतम मान देने के लिए प्रत्येक पिक्सेल के z घटक को चुना जाना चाहिए। यह प्रत्येक पिक्सेल पर सबसे संभावित गहराई देगा। न्यूनतम कुल सूचना माप है,

बाएँ और दाएँ छवियों के लिए गहराई फ़ंक्शन जोड़ी हैं,


कार्यान्वयन के तरीके

न्यूनतमकरण की समस्या एनपी-पूर्ण है। इसका मतलब है कि इस समस्या का सामान्य समाधान पहुंचने में काफी समय लगेगा। हालाँकि, कंप्यूटर के लिए अनुमानों पर आधारित विधियाँ मौजूद हैं जो उचित समय में परिणाम का अनुमान लगाती हैं। इसके अतिरिक्त, तंत्रिका नेटवर्क पर आधारित विधियाँ भी मौजूद हैं।[8] त्रिविम दृष्टि का कुशल कार्यान्वयन सक्रिय अनुसंधान का एक क्षेत्र है

यह भी देखें

संदर्भ

  1. Bradski, Gary; Kaehler, Adrian. Learning OpenCV: Computer Vision with the OpenCV Library. O'Reilly.
  2. Je, Changsoo; Lee, Sang Wook; Park, Rae-Hong (2004). "High-Contrast Color-Stripe Pattern for Rapid Structured-Light Range Imaging". Computer Vision - ECCV 2004. Lecture Notes in Computer Science. Vol. 3021. pp. 95–107. arXiv:1508.04981. doi:10.1007/978-3-540-24670-1_8. ISBN 978-3-540-21984-2. S2CID 13277591.
  3. Je, Changsoo; Lee, Sang Wook; Park, Rae-Hong (2012). "तीव्र संरचित-प्रकाश रेंज इमेजिंग के लिए रंग-धारी क्रमपरिवर्तन पैटर्न". Optics Communications. 285 (9): 2320–2331. Bibcode:2012OptCo.285.2320J. doi:10.1016/j.optcom.2012.01.025.
  4. Jang, Wonkwi; Je, Changsoo; Seo, Yongduek; Lee, Sang Wook (2013). "संरचित-प्रकाश स्टीरियो: गतिशील आकार को मापने के लिए संरचित-प्रकाश और सक्रिय स्टीरियो का तुलनात्मक विश्लेषण और एकीकरण". Optics and Lasers in Engineering. 51 (11): 1255–1264. Bibcode:2013OptLE..51.1255J. doi:10.1016/j.optlaseng.2013.05.001.
  5. Sumi, Yasushi; Kawai, Yoshihiro; Yoshimi, Takashi; Tomita, Fumiaki (2002). "3D Object Recognition in Cluttered Environments by Segment-Based Stereo Vision". International Journal of Computer Vision. 46 (1): 5–23. doi:10.1023/A:1013240031067. S2CID 22926546.
  6. Tatar, Nurollah, et al. "High-Resolution Satellite Stereo Matching by Object-Based Semiglobal Matching and Iterative Guided Edge-Preserving Filter." IEEE Geoscience and Remote Sensing Letters (2020): 1-5.
  7. Lazaros, Nalpantidis; Sirakoulis, Georgios Christou; Gasteratos1, Antonios (2008). "Review of Stereo Vision Algorithms: From Software to Hardware". International Journal of Optomechatronics. 2 (4): 435–462. doi:10.1080/15599610802438680. S2CID 18115413.
  8. WANG, JUNG-HUA; HSIAO, CHIH-PING (1999). "On disparity matching in stereo vision via a neural network framework". Proc. Natl. Sci. Counc. ROC(A). 23 (5): 665–678. CiteSeerX 10.1.1.105.9067.


बाहरी संबंध