3डी वस्तु पहचान: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(6 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{FeatureDetectionCompVisNavbox}}
{{FeatureDetectionCompVisNavbox}}


[[कंप्यूटर दृष्टि]] में, [[3डी वस्तु]] पहचान में छवि या [[3डी स्कैनिंग]] में उपयोगकर्ता द्वारा चुनी गई 3डी वस्तुओं की 3डी जानकारी जैसे [[मुद्रा (कंप्यूटर दृष्टि)]], मात्रा या आकार को पहचानना और निर्धारित करना सम्मिलित है। विशिष्ट रूप से, पहचानी जाने वाली वस्तु का उदाहरण नियंत्रित वातावरण में दृष्टि प्रणाली को प्रस्तुत किया जाता है, और फिर स्वैच्छिक इनपुट जैसे [[ विडियो स्ट्रीम ]] के लिए, प्रणाली पहले प्रस्तुत वस्तु का पता लगाता है। यह या तो ऑफ़लाइन या [[रीयल-टाइम कंप्यूटर ग्राफिक्स]] में किया जा सकता है। इस समस्या का समाधान करने के लिए [[एल्गोरिदम]] पूर्व-पहचानी गई वस्तु का पता लगाने के लिए विशिष्ट हैं, और उन एल्गोरिदम के विपरीत हो सकते हैं जो [[चेहरे की पहचान प्रणाली]] या 3 डी जेनेरिक वस्तु पहचान जैसी वस्तुओं के सामान्य वर्गों पर काम करते हैं। कम लागत और छवि प्राप्त करने में आसानी के कारण, अनुसंधान का महत्वपूर्ण भाग छवियों में 3डी वस्तु पहचान के लिए समर्पित किया गया है।
[[कंप्यूटर दृष्टि]] में, '''[[3डी वस्तु]] पहचान''' में छवि या [[3डी स्कैनिंग]] में उपयोगकर्ता द्वारा चुनी गई 3डी वस्तुओं की 3डी जानकारी जैसे [[मुद्रा (कंप्यूटर दृष्टि)]], मात्रा या आकार को पहचानना और निर्धारित करना सम्मिलित है। विशिष्ट रूप से, पहचानी जाने वाली वस्तु का उदाहरण नियंत्रित वातावरण में दृष्टि प्रणाली को प्रस्तुत किया जाता है, और फिर स्वैच्छिक इनपुट जैसे [[ विडियो स्ट्रीम |विडियो स्ट्रीम]] के लिए, प्रणाली पहले प्रस्तुत वस्तु का पता लगाता है। यह या तो ऑफ़लाइन या [[रीयल-टाइम कंप्यूटर ग्राफिक्स]] में किया जा सकता है। इस समस्या का समाधान करने के लिए [[एल्गोरिदम]] पूर्व-पहचानी गई वस्तु का पता लगाने के लिए विशिष्ट हैं, और उन एल्गोरिदम के विपरीत हो सकते हैं जो [[चेहरे की पहचान प्रणाली|फलक की पहचान प्रणाली]] या 3 डी जेनेरिक वस्तु पहचान जैसी वस्तुओं के सामान्य वर्गों पर काम करते हैं। कम लागत और छवि प्राप्त करने में आसानी के कारण, अनुसंधान का महत्वपूर्ण भाग छवियों में 3डी वस्तु पहचान के लिए समर्पित किया गया है।


== छवियाँ में 3डी एकल-वस्तु पहचान ==
== छवियाँ में 3डी एकल-वस्तु पहचान ==


3D वस्तु को पहचानने की विधि वस्तु के गुणों पर निर्भर करती है। सादगी के लिए, कई मौजूदा एल्गोरिदम ने कठोर वस्तुओं को पहचानने पर ध्यान केंद्रित किया है, जिसमें ही भाग होता है, अर्थात ऐसी वस्तुएँ जिनका स्थानिक परिवर्तन [[यूक्लिडियन गति]] है। समस्या के लिए दो सामान्य दृष्टिकोण अपनाए गए हैं: प्रारूप पहचान दृष्टिकोण किसी वस्तु का पता लगाने के लिए निम्न-स्तरीय छवि उपस्थिति जानकारी का उपयोग करते हैं, जबकि सुविधा-आधारित ज्यामितीय दृष्टिकोण वस्तु को पहचानने के लिए मॉडल का निर्माण करते हैं, और छवि के विरुद्ध मॉडल का मिलान करते हैं।
3D वस्तु को पहचानने की विधि वस्तु के गुणों पर निर्भर करती है। सरलता के लिए, कई वर्तमान एल्गोरिदम ने कठोर वस्तुओं को पहचानने पर ध्यान केंद्रित किया है, जिसमें ही भाग होता है, अर्थात ऐसी वस्तुएँ जिनका स्थानिक परिवर्तन [[यूक्लिडियन गति]] है। समस्या के लिए दो सामान्य दृष्टिकोण अपनाए गए हैं: प्रारूप पहचान दृष्टिकोण किसी वस्तु का पता लगाने के लिए निम्न-स्तरीय छवि उपस्थिति जानकारी का उपयोग करते हैं, जबकि सुविधा-आधारित ज्यामितीय दृष्टिकोण वस्तु को पहचानने के लिए मॉडल का निर्माण करते हैं, और छवि के विरुद्ध मॉडल का मिलान करते हैं।


=== प्रारूप पहचान दृष्टिकोण ===
=== प्रारूप पहचान दृष्टिकोण ===
Line 12: Line 12:
=== फ़ीचर-आधारित ज्यामितीय दृष्टिकोण ===
=== फ़ीचर-आधारित ज्यामितीय दृष्टिकोण ===


[[Image:Feature example.png|right|thumb|322px|छवि में पाई गई विशेषता का उदाहरण। ब्लू फीचर के केंद्र को इंगित करता है, लाल दीर्घवृत्त फीचर डिटेक्टर द्वारा पहचाने जाने वाले विशेषता पैमाने को इंगित करता है, और हरे रंग के समांतर चतुर्भुज को दीर्घवृत्त के निर्देशांक से बनाया गया है [लोव 2004]।]]फ़ीचर-आधारित दृष्टिकोण उन वस्तुओं के लिए अच्छी तरह से काम करते हैं जिनमें विशिष्ट विशेषता (कंप्यूटर दृष्टि) होती है। इस प्रकार अब तक, जिन वस्तुओं में अच्छी बढ़त वाली विशेषताएं या बूँद का पता लगाने की विशेषताएं हैं, उन्हें सफलतापूर्वक पहचाना गया है; उदाहरण के [[बूँद का पता लगाना]] एल्गोरिदम, क्रमशः [[ हैरिस एफ़िन क्षेत्र डिटेक्टर ]] और [[स्केल-इनवेरिएंट फीचर ट्रांसफॉर्म]] देखें। उपयुक्त फीचर डिटेक्टरों की कमी के कारण, बिना बनावट वाली वस्तुओं, चिकनी सतहों को वर्तमान में इस दृष्टिकोण से नियंत्रित नहीं किया जा सकता है।
[[Image:Feature example.png|right|thumb|322px|छवि में पाई गई विशेषता का उदाहरण। ब्लू फीचर के केंद्र को इंगित करता है, लाल दीर्घवृत्त फीचर डिटेक्टर द्वारा पहचाने जाने वाले विशेषता पैमाने को इंगित करता है, और हरे रंग के समांतर चतुर्भुज को दीर्घवृत्त [लोव 2004] के निर्देशांक से बनाया गया है।]]फ़ीचर-आधारित दृष्टिकोण उन वस्तुओं के लिए अच्छी तरह से काम करते हैं जिनमें विशिष्ट विशेषता (कंप्यूटर दृष्टि) होती है। इस प्रकार अब तक, जिन वस्तुओं में अच्छी बढ़त वाली विशेषताएं या बूँद का पता लगाने की विशेषताएं हैं, उन्हें सफलतापूर्वक पहचाना गया है; उदाहरण के [[बूँद का पता लगाना|डिटेक्शन]] एल्गोरिदम, क्रमशः [[ हैरिस एफ़िन क्षेत्र डिटेक्टर |हैरिस एफ़िन क्षेत्र डिटेक्टर]] और [[स्केल-इनवेरिएंट फीचर ट्रांसफॉर्म]] देखें। उपयुक्त फीचर डिटेक्टरों की कमी के कारण, बिना बनावट वाली वस्तुओं, चिकनी सतहों को वर्तमान में इस दृष्टिकोण से नियंत्रित नहीं किया जा सकता है।


फ़ीचर-आधारित वस्तु पहचानकर्ता सामान्यतः पहचानी जाने वाली वस्तु के कई निश्चित दृश्यों को पूर्व-कैप्चर करके, इन दृश्यों से सुविधाओं को निकालने और फिर पहचान प्रक्रिया में, इन सुविधाओं को दृश्य से मिलान करने और ज्यामितीय बाधाओं को लागू करने के द्वारा काम करते हैं।
फ़ीचर-आधारित वस्तु पहचानकर्ता सामान्यतः पहचानी जाने वाली वस्तु के कई निश्चित दृश्यों को पूर्व-कैप्चर करके, इन दृश्यों से सुविधाओं को निकालने और फिर पहचान प्रक्रिया में, इन सुविधाओं को दृश्य से मिलान करने और ज्यामितीय बाधाओं को प्रायुक्त करने के द्वारा काम करते हैं।


इस दृष्टिकोण को अपनाने वाली प्रोटोटाइप प्रणाली के उदाहरण के रूप में, हम [रोथगैंगर एट अल द्वारा उपयोग की जाने वाली विधि की रूपरेखा प्रस्तुत करेंगे। 2004], कुछ विवरण के साथ समाप्त हो गया। विधि यह मानकर शुरू होती है कि वस्तुएँ विश्व स्तर पर कठोर परिवर्तनों से गुजरती हैं। क्योंकि चिकनी सतहें स्थानीय रूप से समतल होती हैं, परिबद्ध अपरिवर्तनीय विशेषताएं मिलान के लिए उपयुक्त होती हैं: पेपर [[फ़ीचर डिटेक्शन (कंप्यूटर विज़न)]] एज-लाइक और ब्लॉब-जैसी दोनों सुविधाओं का उपयोग करके रुचि के दीर्घवृत्त-आकार के क्षेत्र, और [लोवे 2004] के अनुसार, पाता है दीर्घवृत्त की प्रमुख ढाल दिशा, दीर्घवृत्त को समांतर चतुर्भुज में परिवर्तित करती है, और परिणामी समांतर चतुर्भुज पर स्केल-इनवेरिएंट विशेषता ट्रांसफ़ॉर्म डिस्क्रिप्टर लेती है। केवल SIFT सुविधाओं पर भेदभाव को सुधारने के लिए रंग जानकारी का भी उपयोग किया जाता है।
इस दृष्टिकोण को अपनाने वाली एक प्रोटोटाइप प्रणाली के उदाहरण के रूप में हम कुछ विवरण के साथ [रोथगैंगर एट अल 2004], कुछ विवरण के साथ समाप्त हो गया। विधि यह मानकर प्रारंभ होती है कि वस्तुएँ विश्व स्तर पर कठोर परिवर्तनों से निकलती हैं। क्योंकि चिकनी सतहें स्थानीय रूप से समतल होती हैं, परिबद्ध अपरिवर्तनीय विशेषताएं मिलान के लिए उपयुक्त होती हैं: पेपर [[फ़ीचर डिटेक्शन (कंप्यूटर विज़न)]] एज-लाइक और ब्लॉब-जैसी दोनों सुविधाओं का उपयोग करके रुचि के दीर्घवृत्त-आकार के क्षेत्र, और [लोवे 2004] के अनुसार, पाता है दीर्घवृत्त की प्रमुख ढाल दिशा, दीर्घवृत्त को समांतर चतुर्भुज में परिवर्तित करती है, और परिणामी समांतर चतुर्भुज पर स्केल-इनवेरिएंट विशेषता ट्रांसफ़ॉर्म डिस्क्रिप्टर लेती है। केवल एसआईएफटी सुविधाओं पर भेदभाव को सुधारने के लिए रंग जानकारी का भी उपयोग किया जाता है।


[[Image:Partial features 3d.png|right|thumb|322px|सुविधाओं के आंशिक मॉडल, 3डी में प्रक्षेपित, टेडी-बियर के पास के दृश्यों से निर्मित। [रोथगैंगर एट अल से लिया गया। 2004]।]]इसके बाद, वस्तु के कई कैमरा दृश्य (कागज में 24) दिए गए, विधि वस्तु के लिए 3D मॉडल का निर्माण करती है, जिसमें 3D स्थानिक स्थिति और प्रत्येक सुविधा का अभिविन्यास होता है। क्योंकि वस्तु के दृश्यों की संख्या बड़ी है, सामान्यतः प्रत्येक विशेषता कई आसन्न दृश्यों में मौजूद होती है। इस तरह की मिलान सुविधाओं के केंद्र बिंदु मेल खाते हैं, और पता चला सुविधाओं को प्रमुख ढाल दिशा के साथ संरेखित किया जाता है, इसलिए फीचर समांतर चतुर्भुज के स्थानीय समन्वय प्रणाली में बिंदु (1, 0) भी बिंदु (0, 1) के अनुरूप होते हैं। समानांतर चतुर्भुज के स्थानीय निर्देशांक में। इस प्रकार आस-पास के दृश्यों में मिलान सुविधाओं की प्रत्येक जोड़ी के लिए, तीन बिंदु जोड़ी पत्राचार ज्ञात हैं। कम से कम दो मिलान सुविधाओं को देखते हुए, गति एल्गोरिदम से बहु-दृश्य एफ़िन संरचना (देखें [टोमासी और कनाडे 1992]) का उपयोग अंक की स्थिति का अनुमान लगाने के लिए किया जा सकता है (मनमानी एफ़िन परिवर्तन तक)। रोथगैंगर एट अल का पेपर। इसलिए दो आसन्न दृश्यों का चयन करता है, सुविधाओं के दो संगत युग्मों का चयन करने के लिए [[RANSAC]] जैसी विधि का उपयोग करता है, और RANSAC द्वारा निर्मित आंशिक मॉडल में नई सुविधाएँ जोड़ता है, जब तक कि वे त्रुटि शब्द के अंतर्गत हैं। इस प्रकार आसन्न दृश्यों की किसी भी जोड़ी के लिए, एल्गोरिदम दोनों दृश्यों में दिखाई देने वाली सभी सुविधाओं का आंशिक मॉडल बनाता है।
[[Image:Partial features 3d.png|right|thumb|322px|सुविधाओं के आंशिक मॉडल, 3डी में प्रक्षेपित, टेडी-बियर के पास के दृश्यों से निर्मित। [रोथगैंगर एट अल 2004 से लिया गया।]।]]इसके बाद, वस्तु के कई कैमरा दृश्य (कागज में 24) दिए गए, विधि वस्तु के लिए 3डी मॉडल का निर्माण करती है, जिसमें 3डी स्थानिक स्थिति और प्रत्येक सुविधा का अभिविन्यास होता है। क्योंकि वस्तु के दृश्यों की संख्या बड़ी है, सामान्यतः प्रत्येक विशेषता कई आसन्न दृश्यों में उपस्थित होती है। इस प्रकार की मिलान सुविधाओं के केंद्र बिंदु मेल खाते हैं, और पता चला सुविधाओं को प्रमुख ढाल दिशा के साथ संरेखित किया जाता है, इसलिए फीचर समांतर चतुर्भुज के स्थानीय समन्वय प्रणाली में बिंदु (1, 0) भी बिंदु समानांतर चतुर्भुज के स्थानीय निर्देशांक (0, 1) के अनुरूप होते हैं। इस प्रकार आस-पास के दृश्यों में मिलान सुविधाओं की प्रत्येक जोड़ी के लिए, तीन बिंदु जोड़ी पत्राचार ज्ञात हैं। कम से कम दो मिलान सुविधाओं को देखते हुए, गति एल्गोरिदम से बहु-दृश्य एफ़िन संरचना (देखें [टोमासी और कनाडे 1992]) का उपयोग अंक की स्थिति (स्वैच्छिक एफ़िन परिवर्तन तक) का अनुमान लगाने के लिए किया जा सकता है। रोथगैंगर एट अल का पेपर। इसलिए दो आसन्न दृश्यों का चयन करता है, सुविधाओं के दो संगत युग्मों का चयन करने के लिए [[RANSAC|रैनसैक]] जैसी विधि का उपयोग करता है, और रैनसैक द्वारा निर्मित आंशिक मॉडल में नई सुविधाएँ जोड़ता है, जब तक कि वे त्रुटि शब्द के अंतर्गत हैं। इस प्रकार आसन्न दृश्यों की किसी भी जोड़ी के लिए, एल्गोरिदम दोनों दृश्यों में दिखाई देने वाली सभी सुविधाओं का आंशिक मॉडल बनाता है।


[[Image:Features full 3d.png|right|thumb|322px|यूक्लिडियन अपग्रेड के बाद, टेडी बियर के लिए सुविधाओं का अंतिम मर्ज किया गया मॉडल। मान्यता के लिए, इस मॉडल का मिलान RANSAC का उपयोग करके दृश्य के फ़ोटोग्राफ़ से किया जाता है। [रोथगैंगर एट अल से लिया गया। 2004]।]]एकीकृत मॉडल बनाने के लिए, पेपर सबसे बड़ा आंशिक मॉडल लेता है, और सभी छोटे आंशिक मॉडल को वृद्धिशील रूप से संरेखित करता है। त्रुटि को कम करने के लिए वैश्विक न्यूनीकरण का उपयोग किया जाता है, फिर [[यूक्लिडियन अपग्रेड]] का उपयोग मॉडल की फीचर पोजीशन को 3D निर्देशांक से बदलने के लिए किया जाता है, जो एफ़िन ट्रांसफ़ॉर्मेशन से लेकर 3D निर्देशांक तक अद्वितीय होते हैं जो यूक्लिडियन गति तक अद्वितीय होते हैं। इस चरण के अंत में, किसी के पास लक्ष्य वस्तु का मॉडल होता है, जिसमें सामान्य 3D स्थान में पेश की जाने वाली विशेषताएं सम्मिलित होती हैं।
[[Image:Features full 3d.png|right|thumb|322px|यूक्लिडियन अपग्रेड के बाद, टेडी बियर के लिए सुविधाओं का अंतिम मर्ज किया गया मॉडल। मान्यता के लिए, इस मॉडल का मिलान रैनसैक का उपयोग करके दृश्य के फ़ोटोग्राफ़ से किया जाता है। [रोथगैंगर एट अल 2004 से लिया गया।]।]]एकीकृत मॉडल बनाने के लिए, पेपर सबसे बड़ा आंशिक मॉडल लेता है, और सभी छोटे आंशिक मॉडल को वृद्धिशील रूप से संरेखित करता है। त्रुटि को कम करने के लिए वैश्विक न्यूनीकरण का उपयोग किया जाता है, फिर [[यूक्लिडियन अपग्रेड]] का उपयोग मॉडल की फीचर पोजीशन को 3डी निर्देशांक से बदलने के लिए किया जाता है, जो एफ़िन ट्रांसफ़ॉर्मेशन से लेकर 3डी निर्देशांक तक अद्वितीय होते हैं जो यूक्लिडियन गति तक अद्वितीय होते हैं। इस चरण के अंत में, किसी के पास लक्ष्य वस्तु का मॉडल होता है, जिसमें सामान्य 3डी स्थान में प्रस्तुत की जाने वाली विशेषताएं सम्मिलित होती हैं।


स्वैच्छिक इनपुट छवि में किसी वस्तु को पहचानने के लिए, कागज सुविधाओं का पता लगाता है, और फिर RANSAC का उपयोग करके [[ affine प्रक्षेपण ]] मैट्रिक्स को ढूंढता है जो एकीकृत वस्तु मॉडल को 2D दृश्य में सबसे अच्छा फिट करता है। यदि इस RANSAC दृष्टिकोण में पर्याप्त रूप से कम त्रुटि है, तो सफल होने पर, एल्गोरिथ्म दोनों वस्तु को पहचानता है और प्रक्षेपित प्रक्षेपण के संदर्भ में वस्तु की मुद्रा देता है। अनुमानित शर्तों के तहत, विधि सामान्यतः लगभग 95% की मान्यता दर प्राप्त करती है।
स्वैच्छिक इनपुट छवि में किसी वस्तु को पहचानने के लिए, कागज सुविधाओं का पता लगाता है, और फिर रैनसैक का उपयोग करके [[ affine प्रक्षेपण |एफ़िन प्रक्षेपण]] मैट्रिक्स को ढूंढता है जो एकीकृत वस्तु मॉडल को 2डी दृश्य में सबसे अच्छा फिट करता है। यदि इस रैनसैक दृष्टिकोण में पर्याप्त रूप से कम त्रुटि है, तो सफल होने पर, एल्गोरिथ्म दोनों वस्तु को पहचानता है और प्रक्षेपित प्रक्षेपण के संदर्भ में वस्तु की मुद्रा देता है। अनुमानित शर्तों के अनुसार, विधि सामान्यतः लगभग 95% की मान्यता दर प्राप्त करती है।


== संदर्भ ==
== संदर्भ ==


* Murase, H. and S. K. Nayar: 1995, ''Visual Learning and Recognition of 3-D Objects from Appearance''. International Journal of Computer Vision 14, 5–24. [http://www.cse.unr.edu/~bebis/MathMethods/PCA/case_study_pca2.pdf]
* Murase, H. and S. K. Nayar: 1995, ''Visual Learning and Recognition of 3-D Objects from Appearance''. International Journal of Computer Vision 14, 5–24. [http://www.cse.unr.edu/~bebis/MathMethods/PCA/case_study_pca2.pdf]
* Selinger, A. and R. Nelson: 1999, ''A Perceptual Grouping Hierarchy for Appearance-Based 3D Object Recognition.'' Computer Vision and Image Understanding 76(1), 83–92. [http://citeseer.ist.psu.edu/282716.html]
* Selinger, A. and R. Nelson: 1999, ''A Perceptual Grouping Hierarchy for Appearance-Based 3D Object Recognition.'' Computer Vision and Image Understanding 76(1), 83–92. [http://citeseer.ist.psu.edu/282716.html]
* Rothganger, F; S. Lazebnik, C. Schmid, and J. Ponce: 2004. ''3D Object Modeling and Recognition Using Local Affine-Invariant Image Descriptors and Multi-View Spatial Constraints'', ICCV. [https://web.archive.org/web/20080705190335/http://www-cvr.ai.uiuc.edu/ponce_grp/publication/paper/ijcv04d.pdf]
* Rothganger, F; S. Lazebnik, C. Schmid, and J. Ponce: 2004. ''3D Object Modeling and Recognition Using Local Affine-Invariant Image Descriptors and Multi-View Spatial Constraints'', ICCV. [https://web.archive.org/web/20080705190335/http://www-cvr.ai.uiuc.edu/ponce_grp/publication/paper/ijcv04d.pdf]
* Lowe, D.: 2004, ''Distinctive image features from scale-invariant keypoints.'' International Journal of Computer Vision. In press. [http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf]
* Lowe, D.: 2004, ''Distinctive image features from scale-invariant keypoints.'' International Journal of Computer Vision. In press. [http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf]
* Tomasi, C. and T. Kanade: 1992, ''Shape and Motion from Image Streams: a Factorization Method.'' International Journal of Computer Vision 9(2), 137–154. [http://www.cse.huji.ac.il/course/2006/compvis/lectures/tomasiTr92Text.pdf]
* Tomasi, C. and T. Kanade: 1992, ''Shape and Motion from Image Streams: a Factorization Method.'' International Journal of Computer Vision 9(2), 137–154. [http://www.cse.huji.ac.il/course/2006/compvis/lectures/tomasiTr92Text.pdf]
Line 45: Line 45:


श्रेणी:वस्तु पहचान और वर्गीकरण
श्रेणी:वस्तु पहचान और वर्गीकरण
श्रेणी:3डी इमेजिंग
श्रेणी:3डी इमेजिंग


[[Category: Machine Translated Page]]
[[Category:Created On 02/05/2023]]
[[Category:Created On 02/05/2023]]
[[Category:Machine Translated Page]]
[[Category:Pages with broken file links]]
[[Category:Templates Vigyan Ready]]

Latest revision as of 15:20, 16 May 2023

कंप्यूटर दृष्टि में, 3डी वस्तु पहचान में छवि या 3डी स्कैनिंग में उपयोगकर्ता द्वारा चुनी गई 3डी वस्तुओं की 3डी जानकारी जैसे मुद्रा (कंप्यूटर दृष्टि), मात्रा या आकार को पहचानना और निर्धारित करना सम्मिलित है। विशिष्ट रूप से, पहचानी जाने वाली वस्तु का उदाहरण नियंत्रित वातावरण में दृष्टि प्रणाली को प्रस्तुत किया जाता है, और फिर स्वैच्छिक इनपुट जैसे विडियो स्ट्रीम के लिए, प्रणाली पहले प्रस्तुत वस्तु का पता लगाता है। यह या तो ऑफ़लाइन या रीयल-टाइम कंप्यूटर ग्राफिक्स में किया जा सकता है। इस समस्या का समाधान करने के लिए एल्गोरिदम पूर्व-पहचानी गई वस्तु का पता लगाने के लिए विशिष्ट हैं, और उन एल्गोरिदम के विपरीत हो सकते हैं जो फलक की पहचान प्रणाली या 3 डी जेनेरिक वस्तु पहचान जैसी वस्तुओं के सामान्य वर्गों पर काम करते हैं। कम लागत और छवि प्राप्त करने में आसानी के कारण, अनुसंधान का महत्वपूर्ण भाग छवियों में 3डी वस्तु पहचान के लिए समर्पित किया गया है।

छवियाँ में 3डी एकल-वस्तु पहचान

3D वस्तु को पहचानने की विधि वस्तु के गुणों पर निर्भर करती है। सरलता के लिए, कई वर्तमान एल्गोरिदम ने कठोर वस्तुओं को पहचानने पर ध्यान केंद्रित किया है, जिसमें ही भाग होता है, अर्थात ऐसी वस्तुएँ जिनका स्थानिक परिवर्तन यूक्लिडियन गति है। समस्या के लिए दो सामान्य दृष्टिकोण अपनाए गए हैं: प्रारूप पहचान दृष्टिकोण किसी वस्तु का पता लगाने के लिए निम्न-स्तरीय छवि उपस्थिति जानकारी का उपयोग करते हैं, जबकि सुविधा-आधारित ज्यामितीय दृष्टिकोण वस्तु को पहचानने के लिए मॉडल का निर्माण करते हैं, और छवि के विरुद्ध मॉडल का मिलान करते हैं।

प्रारूप पहचान दृष्टिकोण

संभावित रूप से अव्यवस्थित दृश्य में वस्तु से मिलान करने के लिए ये विधियाँ किसी वस्तु के पूर्व-कब्जा या पूर्व-गणना किए गए अनुमानों से एकत्रित उपस्थिति जानकारी का उपयोग करती हैं। चूंकि, वे मिलान के समय वस्तु की 3डी ज्यामितीय बाधाओं को ध्यान में नहीं रखते हैं, और सामान्यतः अधिरोधन के साथ-साथ सुविधा-आधारित दृष्टिकोणों को भी नहीं संभालते हैं। देखें [मुरासे और नायर 1995] और [सेलिंगर और नेल्सन 1999]।

फ़ीचर-आधारित ज्यामितीय दृष्टिकोण

छवि में पाई गई विशेषता का उदाहरण। ब्लू फीचर के केंद्र को इंगित करता है, लाल दीर्घवृत्त फीचर डिटेक्टर द्वारा पहचाने जाने वाले विशेषता पैमाने को इंगित करता है, और हरे रंग के समांतर चतुर्भुज को दीर्घवृत्त [लोव 2004] के निर्देशांक से बनाया गया है।

फ़ीचर-आधारित दृष्टिकोण उन वस्तुओं के लिए अच्छी तरह से काम करते हैं जिनमें विशिष्ट विशेषता (कंप्यूटर दृष्टि) होती है। इस प्रकार अब तक, जिन वस्तुओं में अच्छी बढ़त वाली विशेषताएं या बूँद का पता लगाने की विशेषताएं हैं, उन्हें सफलतापूर्वक पहचाना गया है; उदाहरण के डिटेक्शन एल्गोरिदम, क्रमशः हैरिस एफ़िन क्षेत्र डिटेक्टर और स्केल-इनवेरिएंट फीचर ट्रांसफॉर्म देखें। उपयुक्त फीचर डिटेक्टरों की कमी के कारण, बिना बनावट वाली वस्तुओं, चिकनी सतहों को वर्तमान में इस दृष्टिकोण से नियंत्रित नहीं किया जा सकता है।

फ़ीचर-आधारित वस्तु पहचानकर्ता सामान्यतः पहचानी जाने वाली वस्तु के कई निश्चित दृश्यों को पूर्व-कैप्चर करके, इन दृश्यों से सुविधाओं को निकालने और फिर पहचान प्रक्रिया में, इन सुविधाओं को दृश्य से मिलान करने और ज्यामितीय बाधाओं को प्रायुक्त करने के द्वारा काम करते हैं।

इस दृष्टिकोण को अपनाने वाली एक प्रोटोटाइप प्रणाली के उदाहरण के रूप में हम कुछ विवरण के साथ [रोथगैंगर एट अल 2004], कुछ विवरण के साथ समाप्त हो गया। विधि यह मानकर प्रारंभ होती है कि वस्तुएँ विश्व स्तर पर कठोर परिवर्तनों से निकलती हैं। क्योंकि चिकनी सतहें स्थानीय रूप से समतल होती हैं, परिबद्ध अपरिवर्तनीय विशेषताएं मिलान के लिए उपयुक्त होती हैं: पेपर फ़ीचर डिटेक्शन (कंप्यूटर विज़न) एज-लाइक और ब्लॉब-जैसी दोनों सुविधाओं का उपयोग करके रुचि के दीर्घवृत्त-आकार के क्षेत्र, और [लोवे 2004] के अनुसार, पाता है दीर्घवृत्त की प्रमुख ढाल दिशा, दीर्घवृत्त को समांतर चतुर्भुज में परिवर्तित करती है, और परिणामी समांतर चतुर्भुज पर स्केल-इनवेरिएंट विशेषता ट्रांसफ़ॉर्म डिस्क्रिप्टर लेती है। केवल एसआईएफटी सुविधाओं पर भेदभाव को सुधारने के लिए रंग जानकारी का भी उपयोग किया जाता है।

File:Partial features 3d.png
सुविधाओं के आंशिक मॉडल, 3डी में प्रक्षेपित, टेडी-बियर के पास के दृश्यों से निर्मित। [रोथगैंगर एट अल 2004 से लिया गया।]।

इसके बाद, वस्तु के कई कैमरा दृश्य (कागज में 24) दिए गए, विधि वस्तु के लिए 3डी मॉडल का निर्माण करती है, जिसमें 3डी स्थानिक स्थिति और प्रत्येक सुविधा का अभिविन्यास होता है। क्योंकि वस्तु के दृश्यों की संख्या बड़ी है, सामान्यतः प्रत्येक विशेषता कई आसन्न दृश्यों में उपस्थित होती है। इस प्रकार की मिलान सुविधाओं के केंद्र बिंदु मेल खाते हैं, और पता चला सुविधाओं को प्रमुख ढाल दिशा के साथ संरेखित किया जाता है, इसलिए फीचर समांतर चतुर्भुज के स्थानीय समन्वय प्रणाली में बिंदु (1, 0) भी बिंदु समानांतर चतुर्भुज के स्थानीय निर्देशांक (0, 1) के अनुरूप होते हैं। इस प्रकार आस-पास के दृश्यों में मिलान सुविधाओं की प्रत्येक जोड़ी के लिए, तीन बिंदु जोड़ी पत्राचार ज्ञात हैं। कम से कम दो मिलान सुविधाओं को देखते हुए, गति एल्गोरिदम से बहु-दृश्य एफ़िन संरचना (देखें [टोमासी और कनाडे 1992]) का उपयोग अंक की स्थिति (स्वैच्छिक एफ़िन परिवर्तन तक) का अनुमान लगाने के लिए किया जा सकता है। रोथगैंगर एट अल का पेपर। इसलिए दो आसन्न दृश्यों का चयन करता है, सुविधाओं के दो संगत युग्मों का चयन करने के लिए रैनसैक जैसी विधि का उपयोग करता है, और रैनसैक द्वारा निर्मित आंशिक मॉडल में नई सुविधाएँ जोड़ता है, जब तक कि वे त्रुटि शब्द के अंतर्गत हैं। इस प्रकार आसन्न दृश्यों की किसी भी जोड़ी के लिए, एल्गोरिदम दोनों दृश्यों में दिखाई देने वाली सभी सुविधाओं का आंशिक मॉडल बनाता है।

File:Features full 3d.png
यूक्लिडियन अपग्रेड के बाद, टेडी बियर के लिए सुविधाओं का अंतिम मर्ज किया गया मॉडल। मान्यता के लिए, इस मॉडल का मिलान रैनसैक का उपयोग करके दृश्य के फ़ोटोग्राफ़ से किया जाता है। [रोथगैंगर एट अल 2004 से लिया गया।]।

एकीकृत मॉडल बनाने के लिए, पेपर सबसे बड़ा आंशिक मॉडल लेता है, और सभी छोटे आंशिक मॉडल को वृद्धिशील रूप से संरेखित करता है। त्रुटि को कम करने के लिए वैश्विक न्यूनीकरण का उपयोग किया जाता है, फिर यूक्लिडियन अपग्रेड का उपयोग मॉडल की फीचर पोजीशन को 3डी निर्देशांक से बदलने के लिए किया जाता है, जो एफ़िन ट्रांसफ़ॉर्मेशन से लेकर 3डी निर्देशांक तक अद्वितीय होते हैं जो यूक्लिडियन गति तक अद्वितीय होते हैं। इस चरण के अंत में, किसी के पास लक्ष्य वस्तु का मॉडल होता है, जिसमें सामान्य 3डी स्थान में प्रस्तुत की जाने वाली विशेषताएं सम्मिलित होती हैं।

स्वैच्छिक इनपुट छवि में किसी वस्तु को पहचानने के लिए, कागज सुविधाओं का पता लगाता है, और फिर रैनसैक का उपयोग करके एफ़िन प्रक्षेपण मैट्रिक्स को ढूंढता है जो एकीकृत वस्तु मॉडल को 2डी दृश्य में सबसे अच्छा फिट करता है। यदि इस रैनसैक दृष्टिकोण में पर्याप्त रूप से कम त्रुटि है, तो सफल होने पर, एल्गोरिथ्म दोनों वस्तु को पहचानता है और प्रक्षेपित प्रक्षेपण के संदर्भ में वस्तु की मुद्रा देता है। अनुमानित शर्तों के अनुसार, विधि सामान्यतः लगभग 95% की मान्यता दर प्राप्त करती है।

संदर्भ

  • Murase, H. and S. K. Nayar: 1995, Visual Learning and Recognition of 3-D Objects from Appearance. International Journal of Computer Vision 14, 5–24. [1]
  • Selinger, A. and R. Nelson: 1999, A Perceptual Grouping Hierarchy for Appearance-Based 3D Object Recognition. Computer Vision and Image Understanding 76(1), 83–92. [2]
  • Rothganger, F; S. Lazebnik, C. Schmid, and J. Ponce: 2004. 3D Object Modeling and Recognition Using Local Affine-Invariant Image Descriptors and Multi-View Spatial Constraints, ICCV. [3]
  • Lowe, D.: 2004, Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision. In press. [4]
  • Tomasi, C. and T. Kanade: 1992, Shape and Motion from Image Streams: a Factorization Method. International Journal of Computer Vision 9(2), 137–154. [5]


यह भी देखें

  • बूँद का पता लगाना
  • वस्तु मान्यता
  • फ़ीचर डिस्क्रिप्टर
  • फ़ीचर डिटेक्शन (कंप्यूटर विज़न)
  • हैरिस एफ़िन क्षेत्र डिटेक्टर
  • रैनसैक
  • स्केल-इनवेरिएंट फीचर ट्रांसफॉर्म
  • गति से संरचना

श्रेणी:वस्तु पहचान और वर्गीकरण

श्रेणी:3डी इमेजिंग