कंप्यूटर स्टीरियो विज़न: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Extraction of 3D data from digital images}} कंप्यूटर स्टीरियो विज़न डिजिटल छवियों से...")
 
No edit summary
Line 1: Line 1:
{{Short description|Extraction of 3D data from digital images}}
{{Short description|Extraction of 3D data from digital images}}
कंप्यूटर स्टीरियो विज़न डिजिटल छवियों से 3डी जानकारी निकालना है, जैसे कि [[सीसीडी कैमरा]] द्वारा प्राप्त की गई छवियां। किसी दृश्य के बारे में दो सुविधाजनक बिंदुओं से जानकारी की तुलना करके, दो पैनलों में वस्तुओं की सापेक्ष स्थिति की जांच करके 3डी जानकारी निकाली जा सकती है। यह [[स्टीरियोप्सिस]] की जैविक प्रक्रिया के समान है।
'''कंप्यूटर स्टीरियो विज़न''' डिजिटल छवियों से 3डी जानकारी का निष्कर्षण है, जैसे कि सीसीडी कैमरे द्वारा प्राप्त की गई छवियां हैं। दो सुविधाजनक बिंदुओं से किसी दृश्य के बारे में जानकारी की तुलना करके, दो पैनलों में वस्तुओं की सापेक्ष स्थिति की जांच करके 3डी जानकारी निकाली जा सकती है। यह स्टीरिओप्सिस की जैविक प्रक्रिया के समान है।


== रूपरेखा ==
== रूपरेखा ==
पारंपरिक स्टीरियो विज़न में, एक दूसरे से क्षैतिज रूप से विस्थापित दो कैमरों का उपयोग, मानव दूरबीन दृष्टि के समान, एक दृश्य पर दो अलग-अलग दृश्य प्राप्त करने के लिए किया जाता है। इन दो छवियों की तुलना करके, सापेक्ष गहराई की जानकारी [[दूरबीन असमानता]] के रूप में प्राप्त की जा सकती है, जो [[पत्राचार समस्या]] छवि बिंदुओं के क्षैतिज निर्देशांक में अंतर को एन्कोड करती है। इस असमानता मानचित्र में मान संबंधित पिक्सेल स्थान पर दृश्य की गहराई के व्युत्क्रमानुपाती होते हैं।
पारंपरिक स्टीरियो विज़न में, एक दूसरे से क्षैतिज रूप से विस्थापित दो कैमरों का उपयोग मानव दूरबीन दृष्टि के समान तरीके से एक दृश्य पर दो अलग-अलग दृश्य प्राप्त करने के लिए किया जाता है। इन दो छवियों की तुलना करके, सापेक्ष गहराई की जानकारी एक असमानता मानचित्र के रूप में प्राप्त की जा सकती है, जो संबंधित छवि बिंदुओं के क्षैतिज निर्देशांक में अंतर को एन्कोड करता है। इस असमानता मानचित्र में मान संबंधित पिक्सेल स्थान पर दृश्य की गहराई के व्युत्क्रमानुपाती होते हैं।


किसी इंसान के लिए दो छवियों की तुलना करने के लिए, उन्हें एक स्टीरियोस्कोपिक डिवाइस में सुपरइम्पोज़ किया जाना चाहिए, जिसमें दाएं कैमरे से छवि पर्यवेक्षक की दाहिनी आंख पर और बाएं कैमरे से बाईं आंख पर दिखाई जाएगी।
किसी इंसान के लिए दो छवियों की तुलना करने के लिए, उन्हें एक स्टीरियोस्कोपिक डिवाइस में सुपरइम्पोज़ किया जाना चाहिए, जिसमें दाएं कैमरे से छवि पर्यवेक्षक की दाहिनी आंख पर और बाएं से बाईं आंख पर दिखाई जाएगी।


कंप्यूटर विज़न सिस्टम में, कई पूर्व-प्रसंस्करण चरणों की आवश्यकता होती है।<ref>{{cite book|title=Learning OpenCV: Computer Vision with the OpenCV Library|publisher=O'Reilly|author1=Bradski, Gary  |author2=Kaehler, Adrian}}</ref>
कंप्यूटर विज़न सिस्टम में, कई पूर्व-प्रसंस्करण चरणों की आवश्यकता होती है।<ref>{{cite book|title=Learning OpenCV: Computer Vision with the OpenCV Library|publisher=O'Reilly|author1=Bradski, Gary  |author2=Kaehler, Adrian}}</ref>
Line 32: Line 32:


== विस्तृत परिभाषा ==
== विस्तृत परिभाषा ==
{{further|Triangulation (computer vision)}}
{{further|ट्राईऐन्ग्युलेशंस (कंप्यूटर विज़न)}}
[[File:Stereoscopic images, depth to displacement relationship assuming flat co-planar images..png|thumb|right|300px|सपाट सह-तलीय छवियों को मानते हुए, स्टीरियोस्कोपिक छवियों के साथ गहराई तक छवि विस्थापन के संबंध का वर्णन करने वाला आरेख]]एक पिक्सेल किसी स्थिति में रंग रिकॉर्ड करता है। स्थिति की पहचान पिक्सेल (x, y) की ग्रिड में स्थिति और पिक्सेल z की गहराई से की जाती है।
[[File:Stereoscopic images, depth to displacement relationship assuming flat co-planar images..png|thumb|right|300px|सपाट सह-तलीय छवियों को मानते हुए, स्टीरियोस्कोपिक छवियों के साथ गहराई तक छवि विस्थापन के संबंध का वर्णन करने वाला आरेख]]एक पिक्सेल किसी स्थिति में रंग रिकॉर्ड करता है। स्थिति की पहचान पिक्सेल (x, y) की ग्रिड में स्थिति और पिक्सेल z की गहराई से की जाती है।


Line 38: Line 38:


संलग्न आरेख में दो कैमरा लेंस के केंद्रों के बीच की दूरी BD = BC + CD है। त्रिभुज समरूप हैं,
संलग्न आरेख में दो कैमरा लेंस के केंद्रों के बीच की दूरी BD = BC + CD है। त्रिभुज समरूप हैं,
* एसीबी और बीएफई
* ''ACB''  और ''BFE''
* एसीडी और डीजीएच
* ''ACD'' और ''DGH''


<math> \begin{align}  
<math> \begin{align}  
Line 49: Line 49:
&= \frac{k}{z}  \text{, where}\\ \end{align}
&= \frac{k}{z}  \text{, where}\\ \end{align}
</math>
</math>
* के = बीडी बीएफ
 
* ''k = BD BF''
 
*
* z = AC कैमरे के तल से वस्तु तक की दूरी है।
* z = AC कैमरे के तल से वस्तु तक की दूरी है।
तो यह मानते हुए कि कैमरे समतल हैं, और छवि तल एक ही तल पर सपाट हैं, दो छवियों में समान पिक्सेल के बीच y अक्ष में विस्थापन है,
तो यह मानते हुए कि कैमरे समतल हैं, और छवि तल एक ही तल पर सपाट हैं, दो छवियों में समान पिक्सेल के बीच y-अक्ष में विस्थापन है,
:<math>d = \frac{k}{z} </math>
:<math>d = \frac{k}{z} </math>
जहां k दो कैमरों के बीच की दूरी है, जो लेंस से छवि तक की दूरी का गुना है।
जहां k दो कैमरों के बीच की दूरी है, जो लेंस से छवि तक की दूरी का गुना है।
Line 58: Line 61:
:<math>z_2(x, y) = \min \left \{v : v = z_1(x, y - \frac{k}{z_1(x, y)})\right \} </math>
:<math>z_2(x, y) = \min \left \{v : v = z_1(x, y - \frac{k}{z_1(x, y)})\right \} </math>
:<math>z_1(x, y) = \min \left \{v : v = z_2(x, y + \frac{k}{z_2(x, y)}) \right \} </math>
:<math>z_1(x, y) = \min \left \{v : v = z_2(x, y + \frac{k}{z_2(x, y)}) \right \} </math>
ये सूत्र वस्तु की सतह पर एक छवि में दिखाई देने वाले [[स्वर]]ों की [[छिपी हुई सतह का निर्धारण]] करने की अनुमति देते हैं, वस्तु की सतह पर दूसरी छवि में देखे गए निकट स्वरों द्वारा।
ये सूत्र वस्तु की सतह पर एक छवि में दिखाई देने वाले [[स्वर]]ों की छिपी हुई सतह का निर्धारण करने की अनुमति देते हैं, वस्तु की सतह पर दूसरी छवि में देखे गए निकट स्वरों द्वारा।


===छवि सुधार===
===छवि सुधार===
Line 110: Line 113:
</ref> प्रत्येक बिंदु पर गहराई दी गई है <math>z(x, y)</math>. सबसे पहले एक छवि को दूसरे के संदर्भ में व्यक्त करने के लिए आवश्यक जानकारी प्राप्त की जाती है। यह कहा जाता है <math>I_m</math>.
</ref> प्रत्येक बिंदु पर गहराई दी गई है <math>z(x, y)</math>. सबसे पहले एक छवि को दूसरे के संदर्भ में व्यक्त करने के लिए आवश्यक जानकारी प्राप्त की जाती है। यह कहा जाता है <math>I_m</math>.


रंगों के बीच अंतर को उचित रूप से मापने के लिए रंग अंतर फ़ंक्शन का उपयोग किया जाना चाहिए। रंग अंतर फ़ंक्शन निम्नलिखित में सीडी लिखा गया है। दो छवियों के बीच रंग मिलान को रिकॉर्ड करने के लिए आवश्यक जानकारी का माप है,
रंगों के बीच अंतर को उचित रूप से मापने के लिए कलर डिफ्रेंस फ़ंक्शन का उपयोग किया जाना चाहिए। कलर डिफ्रेंस फ़ंक्शन निम्नलिखित में सीडी (''cd'') लिखा गया है। दो छवियों के बीच रंग मिलान को रिकॉर्ड करने के लिए आवश्यक जानकारी का माप है,
:<math>I_m(z_1, z_2) = \frac{1}{\sigma_m^2} \sum_{x, y}\operatorname{cd}(\operatorname{color}_1(x, y + \frac{k}{z_1(x, y)}),  \operatorname{color}_2(x, y))^2 </math>
:<math>I_m(z_1, z_2) = \frac{1}{\sigma_m^2} \sum_{x, y}\operatorname{cd}(\operatorname{color}_1(x, y + \frac{k}{z_1(x, y)}),  \operatorname{color}_2(x, y))^2 </math>
छवि की सहजता के बारे में एक धारणा बनाई गई है। मान लें कि दो पिक्सेल के एक ही रंग के होने की अधिक संभावना है, वे जितने स्वरों का प्रतिनिधित्व करते हैं वे उतने ही करीब होंगे। इस उपाय का उद्देश्य समान गहराई पर समान रंगों को समूहीकृत करना है। उदाहरण के लिए, यदि सामने कोई वस्तु पीछे आकाश के एक क्षेत्र को घेरती है, तो चिकनाई का माप सभी नीले पिक्सेल को एक ही गहराई पर एक साथ समूहीकृत करने का पक्ष लेता है।
छवि की सहजता के बारे में एक धारणा बनाई गई है। मान लें कि दो पिक्सेल के एक ही रंग के होने की अधिक संभावना है, वे जितने स्वरों का प्रतिनिधित्व करते हैं वे उतने ही करीब होंगे। इस उपाय का उद्देश्य समान गहराई पर समान रंगों को समूहीकृत करना है। उदाहरण के लिए, यदि सामने कोई वस्तु पीछे आकाश के एक क्षेत्र को घेरती है, तो चिकनाई का माप सभी नीले पिक्सेल को एक ही गहराई पर एक साथ समूहीकृत करने का पक्ष लेता है।


चिकनाई का कुल माप रंग अंतर के अपेक्षित मानक विचलन के अनुमान के रूप में स्वरों के बीच की दूरी का उपयोग करता है,
चिकनाई का कुल माप कलर डिफ्रेंस के अपेक्षित मानक विचलन के अनुमान के रूप में स्वरों के बीच की दूरी का उपयोग करता है,
:<math>I_s(z_1, z_2) = \frac{1}{2 \sigma_h^2} \sum_{i : \{1, 2\}} \sum_{x_1, y_1} \sum_{x_2, y_2} \frac{\operatorname{cd}(\operatorname{color}_i(x_1, y_1),  \operatorname{color}_i(x_2, y_2))^2}{(x_1 - x_2)^2 + (y_1 - y_2)^2 + (z_i(x_1, y_1) - z_i(x_2, y_2))^2} </math>
:<math>I_s(z_1, z_2) = \frac{1}{2 \sigma_h^2} \sum_{i : \{1, 2\}} \sum_{x_1, y_1} \sum_{x_2, y_2} \frac{\operatorname{cd}(\operatorname{color}_i(x_1, y_1),  \operatorname{color}_i(x_2, y_2))^2}{(x_1 - x_2)^2 + (y_1 - y_2)^2 + (z_i(x_1, y_1) - z_i(x_2, y_2))^2} </math>
कुल सूचना सामग्री तब योग है,
कुल सूचना सामग्री तब योग है,
Line 152: Line 155:
*स्टीरियोप्सिस
*स्टीरियोप्सिस
*स्टीरियोस्कोपिक गहराई प्रस्तुति
*स्टीरियोस्कोपिक गहराई प्रस्तुति
*[[स्टिक्सेल]]
*स्टिक्सेल
*[[ट्राइफोकल टेंसर]] - ट्राइफोकल स्टीरियोस्कोपी के लिए (दो के बजाय तीन छवियों का उपयोग करके)
*[[ट्राइफोकल टेंसर]] - ट्राइफोकल स्टीरियोस्कोपी के लिए (दो के बजाय तीन छवियों का उपयोग करके)



Revision as of 23:34, 7 August 2023

कंप्यूटर स्टीरियो विज़न डिजिटल छवियों से 3डी जानकारी का निष्कर्षण है, जैसे कि सीसीडी कैमरे द्वारा प्राप्त की गई छवियां हैं। दो सुविधाजनक बिंदुओं से किसी दृश्य के बारे में जानकारी की तुलना करके, दो पैनलों में वस्तुओं की सापेक्ष स्थिति की जांच करके 3डी जानकारी निकाली जा सकती है। यह स्टीरिओप्सिस की जैविक प्रक्रिया के समान है।

रूपरेखा

पारंपरिक स्टीरियो विज़न में, एक दूसरे से क्षैतिज रूप से विस्थापित दो कैमरों का उपयोग मानव दूरबीन दृष्टि के समान तरीके से एक दृश्य पर दो अलग-अलग दृश्य प्राप्त करने के लिए किया जाता है। इन दो छवियों की तुलना करके, सापेक्ष गहराई की जानकारी एक असमानता मानचित्र के रूप में प्राप्त की जा सकती है, जो संबंधित छवि बिंदुओं के क्षैतिज निर्देशांक में अंतर को एन्कोड करता है। इस असमानता मानचित्र में मान संबंधित पिक्सेल स्थान पर दृश्य की गहराई के व्युत्क्रमानुपाती होते हैं।

किसी इंसान के लिए दो छवियों की तुलना करने के लिए, उन्हें एक स्टीरियोस्कोपिक डिवाइस में सुपरइम्पोज़ किया जाना चाहिए, जिसमें दाएं कैमरे से छवि पर्यवेक्षक की दाहिनी आंख पर और बाएं से बाईं आंख पर दिखाई जाएगी।

कंप्यूटर विज़न सिस्टम में, कई पूर्व-प्रसंस्करण चरणों की आवश्यकता होती है।[1]

  1. छवि को पहले विकृत नहीं किया जाना चाहिए, जैसे कि बैरल विरूपण और विरूपण (ऑप्टिक्स) हटा दिए जाएं। यह सुनिश्चित करता है कि देखी गई छवि एक आदर्श पिनहोल कैमरा के प्रक्षेपण से मेल खाती है।
  2. छवि जोड़े की तुलना की अनुमति देने के लिए छवि को वापस एक सामान्य तल पर प्रक्षेपित किया जाना चाहिए, जिसे छवि सुधार के रूप में जाना जाता है।
  3. एक सूचना माप जो दो छवियों की तुलना करता है उसे न्यूनतम कर दिया गया है। यह दो छवियों में सुविधाओं की स्थिति का सर्वोत्तम अनुमान देता है, और एक असमानता मानचित्र बनाता है।
  4. वैकल्पिक रूप से, प्राप्त असमानता मानचित्र को एक बिंदु बादल में प्रक्षेपित किया जाता है। कैमरे के प्रक्षेप्य मापदंडों का उपयोग करके, बिंदु बादल की गणना इस तरह की जा सकती है कि यह ज्ञात पैमाने पर माप प्रदान करता है।

सक्रिय स्टीरियो विज़न

सक्रिय स्टीरियो विज़न स्टीरियो विज़न का एक रूप है जो स्टीरियो मिलान समस्या को सरल बनाने के लिए लेजर या संरचित प्रकाश जैसे प्रकाश को सक्रिय रूप से नियोजित करता है। विरोधी शब्द निष्क्रिय स्टीरियो विज़न है।

पारंपरिक संरचित-प्रकाश दृष्टि (एसएलवी)

पारंपरिक संरचित-प्रकाश दृष्टि (एसएलवी) एक संरचित प्रकाश या लेजर का उपयोग करती है, और प्रोजेक्टर-कैमरा पत्राचार ढूंढती है।[2][3]


पारंपरिक सक्रिय स्टीरियो विज़न (एएसवी)

पारंपरिक सक्रिय स्टीरियो विज़न (एएसवी) एक संरचित प्रकाश या लेजर का उपयोग करता है, हालांकि, स्टीरियो मिलान केवल कैमरा-कैमरा पत्राचार के लिए किया जाता है, उसी तरह जैसे निष्क्रिय स्टीरियो विज़न।

संरचित-प्रकाश स्टीरियो (एसएलएस)

एक हाइब्रिड तकनीक है, जो कैमरा-कैमरा और प्रोजेक्टर-कैमरा दोनों पत्राचार का उपयोग करती है।[4]

अनुप्रयोग

3डी स्टीरियो डिस्प्ले का मनोरंजन, सूचना हस्तांतरण और स्वचालित प्रणालियों में कई अनुप्रयोग हैं। स्वायत्त प्रणालियों के आसपास 3डी वस्तुओं की सापेक्ष स्थिति के बारे में जानकारी निकालने के लिए रोबोटिक्स जैसे क्षेत्रों में स्टीरियो विज़न अत्यधिक महत्वपूर्ण है। रोबोटिक्स के अन्य अनुप्रयोगों में वस्तु पहचान,[5] जहां गहराई की जानकारी सिस्टम को छवि घटकों को अलग करने की अनुमति देती है, जैसे कि एक कुर्सी दूसरे के सामने, जिसे रोबोट अन्यथा किसी अन्य मानदंड से एक अलग वस्तु के रूप में अलग करने में सक्षम नहीं हो सकता है।

डिजिटल स्टीरियो विज़न के लिए वैज्ञानिक अनुप्रयोगों में हवाई सर्वेक्षणों से जानकारी निकालना, समोच्च मानचित्रों की गणना या यहां तक ​​कि 3डी बिल्डिंग मैपिंग, फोटोग्राममेट्रिक सैटेलाइट मैपिंग के लिए ज्यामिति निष्कर्षण शामिल है।[6] या नासा स्टीरियो प्रोजेक्ट द्वारा प्राप्त 3डी हेलियोग्राफी जानकारी की गणना।

विस्तृत परिभाषा

सपाट सह-तलीय छवियों को मानते हुए, स्टीरियोस्कोपिक छवियों के साथ गहराई तक छवि विस्थापन के संबंध का वर्णन करने वाला आरेख

एक पिक्सेल किसी स्थिति में रंग रिकॉर्ड करता है। स्थिति की पहचान पिक्सेल (x, y) की ग्रिड में स्थिति और पिक्सेल z की गहराई से की जाती है।

त्रिविम दृष्टि अलग-अलग स्थितियों से एक ही दृश्य की दो छवियां देती है। आसन्न आरेख में बिंदु A से प्रकाश B और D पर पिनहोल कैमरों के प्रवेश बिंदुओं के माध्यम से E और H पर छवि स्क्रीन पर प्रसारित होता है।

संलग्न आरेख में दो कैमरा लेंस के केंद्रों के बीच की दूरी BD = BC + CD है। त्रिभुज समरूप हैं,

  • ACB और BFE
  • ACD और DGH

  • k = BD BF
  • z = AC कैमरे के तल से वस्तु तक की दूरी है।

तो यह मानते हुए कि कैमरे समतल हैं, और छवि तल एक ही तल पर सपाट हैं, दो छवियों में समान पिक्सेल के बीच y-अक्ष में विस्थापन है,

जहां k दो कैमरों के बीच की दूरी है, जो लेंस से छवि तक की दूरी का गुना है।

दो छवियों में गहराई घटक हैं और , द्वारा दिए गए,

ये सूत्र वस्तु की सतह पर एक छवि में दिखाई देने वाले स्वरों की छिपी हुई सतह का निर्धारण करने की अनुमति देते हैं, वस्तु की सतह पर दूसरी छवि में देखे गए निकट स्वरों द्वारा।

छवि सुधार

जहां छवि तल सह-तलीय नहीं हैं, वहां छवियों को समायोजित करने के लिए छवि सुधार की आवश्यकता होती है जैसे कि वे सह-तलीय हों। इसे रैखिक परिवर्तन द्वारा प्राप्त किया जा सकता है।

प्रत्येक छवि को समतल तल पर प्रक्षेपित पिनहोल कैमरे से ली गई छवि के बराबर बनाने के लिए छवियों में सुधार की भी आवश्यकता हो सकती है।

चिकनाई

चिकनाई रंगों की समानता का माप है। इस धारणा को देखते हुए कि एक अलग वस्तु में रंगों की एक छोटी संख्या होती है, समान रंग वाले पिक्सेल कई वस्तुओं की तुलना में एक ही वस्तु से संबंधित होने की अधिक संभावना रखते हैं।

चिकनाई का मूल्यांकन करने के लिए ऊपर वर्णित विधि सूचना सिद्धांत पर आधारित है, और एक धारणा है कि एक स्वर के रंग का प्रभाव बिंदुओं के बीच की दूरी पर सामान्य वितरण के अनुसार पास के स्वर के रंग को प्रभावित करता है। यह मॉडल दुनिया के बारे में अनुमानित धारणाओं पर आधारित है।

सहजता की पूर्व धारणाओं पर आधारित एक अन्य विधि ऑटो-सहसंबंध है।

चिकनाई किसी छवि की आंतरिक संपत्ति के बजाय दुनिया की एक संपत्ति है। यादृच्छिक बिंदुओं वाली छवि में कोई चिकनाई नहीं होगी, और पड़ोसी बिंदुओं के बारे में अनुमान बेकार होगा।

सिद्धांत रूप में, दुनिया के अन्य गुणों की तरह, सहजता को भी सीखना चाहिए। ऐसा प्रतीत होता है कि मानव दृष्टि प्रणाली यही करती है।[citation needed]

सूचना माप

न्यूनतम वर्ग जानकारी माप

सामान्य वितरण है

संभाव्यता न्यूनतम संदेश लंबाई एल द्वारा वर्णित सूचना सामग्री से संबंधित है,

इसलिए,

त्रिविम छवियों की तुलना के प्रयोजनों के लिए, केवल सापेक्ष संदेश की लंबाई मायने रखती है। इसके आधार पर, सूचना माप I, जिसे अंतरों के वर्गों का योग (SSD) कहा जाता है, है,

कहाँ,

एसएसडी में संख्याओं के वर्ग को संसाधित करने में लगने वाले समय की लागत के कारण, कई कार्यान्वयन सूचना माप की गणना के आधार के रूप में निरपेक्ष अंतर के योग (एसएडी) का उपयोग करते हैं। अन्य विधियाँ सामान्यीकृत क्रॉस सहसंबंध (एनसीसी) का उपयोग करती हैं।

त्रिविम छवियों के लिए सूचना माप

त्रिविम छवियों की सूचना सामग्री को मापने के लिए न्यूनतम वर्ग माप का उपयोग किया जा सकता है,[7] प्रत्येक बिंदु पर गहराई दी गई है . सबसे पहले एक छवि को दूसरे के संदर्भ में व्यक्त करने के लिए आवश्यक जानकारी प्राप्त की जाती है। यह कहा जाता है .

रंगों के बीच अंतर को उचित रूप से मापने के लिए कलर डिफ्रेंस फ़ंक्शन का उपयोग किया जाना चाहिए। कलर डिफ्रेंस फ़ंक्शन निम्नलिखित में सीडी (cd) लिखा गया है। दो छवियों के बीच रंग मिलान को रिकॉर्ड करने के लिए आवश्यक जानकारी का माप है,

छवि की सहजता के बारे में एक धारणा बनाई गई है। मान लें कि दो पिक्सेल के एक ही रंग के होने की अधिक संभावना है, वे जितने स्वरों का प्रतिनिधित्व करते हैं वे उतने ही करीब होंगे। इस उपाय का उद्देश्य समान गहराई पर समान रंगों को समूहीकृत करना है। उदाहरण के लिए, यदि सामने कोई वस्तु पीछे आकाश के एक क्षेत्र को घेरती है, तो चिकनाई का माप सभी नीले पिक्सेल को एक ही गहराई पर एक साथ समूहीकृत करने का पक्ष लेता है।

चिकनाई का कुल माप कलर डिफ्रेंस के अपेक्षित मानक विचलन के अनुमान के रूप में स्वरों के बीच की दूरी का उपयोग करता है,

कुल सूचना सामग्री तब योग है,

सूचना सामग्री के लिए न्यूनतम मान देने के लिए प्रत्येक पिक्सेल के z घटक को चुना जाना चाहिए। यह प्रत्येक पिक्सेल पर सबसे संभावित गहराई देगा। न्यूनतम कुल सूचना माप है,

बाएँ और दाएँ छवियों के लिए गहराई फ़ंक्शन जोड़ी हैं,


कार्यान्वयन के तरीके

न्यूनतमकरण समस्या एनपी-पूर्ण है। इसका मतलब है कि इस समस्या का सामान्य समाधान पहुंचने में काफी समय लगेगा। हालाँकि कंप्यूटर के लिए अनुमान आधारित विधियाँ मौजूद हैं जो उचित समय में परिणाम का अनुमान लगाती हैं। तंत्रिका नेटवर्क पर आधारित विधियाँ भी मौजूद हैं।[8] त्रिविम दृष्टि का कुशल कार्यान्वयन सक्रिय अनुसंधान का एक क्षेत्र है।

यह भी देखें

संदर्भ

  1. Bradski, Gary; Kaehler, Adrian. Learning OpenCV: Computer Vision with the OpenCV Library. O'Reilly.
  2. Je, Changsoo; Lee, Sang Wook; Park, Rae-Hong (2004). "High-Contrast Color-Stripe Pattern for Rapid Structured-Light Range Imaging". Computer Vision - ECCV 2004. Lecture Notes in Computer Science. Vol. 3021. pp. 95–107. arXiv:1508.04981. doi:10.1007/978-3-540-24670-1_8. ISBN 978-3-540-21984-2. S2CID 13277591.
  3. Je, Changsoo; Lee, Sang Wook; Park, Rae-Hong (2012). "तीव्र संरचित-प्रकाश रेंज इमेजिंग के लिए रंग-धारी क्रमपरिवर्तन पैटर्न". Optics Communications. 285 (9): 2320–2331. Bibcode:2012OptCo.285.2320J. doi:10.1016/j.optcom.2012.01.025.
  4. Jang, Wonkwi; Je, Changsoo; Seo, Yongduek; Lee, Sang Wook (2013). "संरचित-प्रकाश स्टीरियो: गतिशील आकार को मापने के लिए संरचित-प्रकाश और सक्रिय स्टीरियो का तुलनात्मक विश्लेषण और एकीकरण". Optics and Lasers in Engineering. 51 (11): 1255–1264. Bibcode:2013OptLE..51.1255J. doi:10.1016/j.optlaseng.2013.05.001.
  5. Sumi, Yasushi; Kawai, Yoshihiro; Yoshimi, Takashi; Tomita, Fumiaki (2002). "3D Object Recognition in Cluttered Environments by Segment-Based Stereo Vision". International Journal of Computer Vision. 46 (1): 5–23. doi:10.1023/A:1013240031067. S2CID 22926546.
  6. Tatar, Nurollah, et al. "High-Resolution Satellite Stereo Matching by Object-Based Semiglobal Matching and Iterative Guided Edge-Preserving Filter." IEEE Geoscience and Remote Sensing Letters (2020): 1-5.
  7. Lazaros, Nalpantidis; Sirakoulis, Georgios Christou; Gasteratos1, Antonios (2008). "Review of Stereo Vision Algorithms: From Software to Hardware". International Journal of Optomechatronics. 2 (4): 435–462. doi:10.1080/15599610802438680. S2CID 18115413.
  8. WANG, JUNG-HUA; HSIAO, CHIH-PING (1999). "On disparity matching in stereo vision via a neural network framework". Proc. Natl. Sci. Counc. ROC(A). 23 (5): 665–678. CiteSeerX 10.1.1.105.9067.


बाहरी संबंध