3डी वस्तु पहचान
Feature detection |
---|
Edge detection |
Corner detection |
Blob detection |
Ridge detection |
Hough transform |
Structure tensor |
Affine invariant feature detection |
Feature description |
Scale space |
कंप्यूटर दृष्टि में, 3डी वस्तु पहचान में 3डी जानकारी को पहचानना और निर्धारित करना शामिल है, जैसे कि तस्वीर या 3डी स्कैनिंग में उपयोगकर्ता द्वारा चुनी गई 3डी वस्तुओं की मुद्रा (कंप्यूटर दृष्टि), मात्रा या आकार। विशिष्ट रूप से, पहचानी जाने वाली वस्तु का उदाहरण नियंत्रित वातावरण में दृष्टि प्रणाली को प्रस्तुत किया जाता है, और फिर मनमाना इनपुट जैसे विडियो स्ट्रीम के लिए, सिस्टम पहले प्रस्तुत वस्तु का पता लगाता है। यह या तो ऑफ़लाइन या रीयल-टाइम कंप्यूटर ग्राफिक्स|रीयल-टाइम में किया जा सकता है। इस समस्या को हल करने के लिए एल्गोरिदम पूर्व-पहचानी गई वस्तु का पता लगाने के लिए विशिष्ट हैं, और उन एल्गोरिदम के विपरीत हो सकते हैं जो वस्तुओं के सामान्य वर्गों पर काम करते हैं, जैसे कि चेहरे की पहचान प्रणाली या 3डी सामान्य वस्तु पहचान। कम लागत और फोटोग्राफ प्राप्त करने में आसानी के कारण, अनुसंधान का महत्वपूर्ण हिस्सा तस्वीरों में 3डी वस्तु पहचान के लिए समर्पित किया गया है।
तस्वीरों में 3डी सिंगल-ऑब्जेक्ट पहचान
3D वस्तु को पहचानने की विधि वस्तु के गुणों पर निर्भर करती है। सादगी के लिए, कई मौजूदा एल्गोरिदम ने कठोर वस्तुओं को पहचानने पर ध्यान केंद्रित किया है, जिसमें ही भाग होता है, अर्थात ऐसी वस्तुएँ जिनका स्थानिक परिवर्तन यूक्लिडियन गति है। समस्या के लिए दो सामान्य दृष्टिकोण अपनाए गए हैं: पैटर्न पहचान दृष्टिकोण किसी वस्तु का पता लगाने के लिए निम्न-स्तरीय छवि उपस्थिति जानकारी का उपयोग करते हैं, जबकि सुविधा-आधारित ज्यामितीय दृष्टिकोण वस्तु को पहचानने के लिए मॉडल का निर्माण करते हैं, और तस्वीर के विरुद्ध मॉडल का मिलान करते हैं।
पैटर्न पहचान दृष्टिकोण
संभावित रूप से अव्यवस्थित दृश्य में वस्तु से मिलान करने के लिए ये विधियाँ किसी वस्तु के पूर्व-कब्जा या पूर्व-गणना किए गए अनुमानों से एकत्रित उपस्थिति जानकारी का उपयोग करती हैं। हालांकि, वे मिलान के दौरान वस्तु की 3डी ज्यामितीय बाधाओं को ध्यान में नहीं रखते हैं, और आम तौर पर रोड़ा के साथ-साथ सुविधा-आधारित दृष्टिकोणों को भी नहीं संभालते हैं। देखें [मुरासे और नायर 1995] और [सेलिंगर और नेल्सन 1999]।
फ़ीचर-आधारित ज्यामितीय दृष्टिकोण
फ़ीचर-आधारित दृष्टिकोण उन वस्तुओं के लिए अच्छी तरह से काम करते हैं जिनमें विशिष्ट विशेषता (कंप्यूटर दृष्टि) होती है। इस प्रकार अब तक, जिन वस्तुओं में अच्छी बढ़त वाली विशेषताएं या बूँद का पता लगाने की विशेषताएं हैं, उन्हें सफलतापूर्वक पहचाना गया है; उदाहरण के बूँद का पता लगाना एल्गोरिदम, क्रमशः हैरिस एफ़िन क्षेत्र डिटेक्टर और स्केल-इनवेरिएंट फीचर ट्रांसफॉर्म देखें। उपयुक्त फीचर डिटेक्टरों की कमी के कारण, बिना बनावट वाली वस्तुओं, चिकनी सतहों को वर्तमान में इस दृष्टिकोण से नियंत्रित नहीं किया जा सकता है।
फ़ीचर-आधारित ऑब्जेक्ट पहचानकर्ता आम तौर पर पहचानी जाने वाली वस्तु के कई निश्चित दृश्यों को पूर्व-कैप्चर करके, इन दृश्यों से सुविधाओं को निकालने और फिर पहचान प्रक्रिया में, इन सुविधाओं को दृश्य से मिलान करने और ज्यामितीय बाधाओं को लागू करने के द्वारा काम करते हैं।
इस दृष्टिकोण को अपनाने वाली प्रोटोटाइप प्रणाली के उदाहरण के रूप में, हम [रोथगैंगर एट अल द्वारा उपयोग की जाने वाली विधि की रूपरेखा प्रस्तुत करेंगे। 2004], कुछ विवरण के साथ समाप्त हो गया। विधि यह मानकर शुरू होती है कि वस्तुएँ विश्व स्तर पर कठोर परिवर्तनों से गुजरती हैं। क्योंकि चिकनी सतहें स्थानीय रूप से समतल होती हैं, परिबद्ध अपरिवर्तनीय विशेषताएं मिलान के लिए उपयुक्त होती हैं: पेपर फ़ीचर डिटेक्शन (कंप्यूटर विज़न) एज-लाइक और ब्लॉब-जैसी दोनों सुविधाओं का उपयोग करके रुचि के दीर्घवृत्त-आकार के क्षेत्र, और [लोवे 2004] के अनुसार, पाता है दीर्घवृत्त की प्रमुख ढाल दिशा, दीर्घवृत्त को समांतर चतुर्भुज में परिवर्तित करती है, और परिणामी समांतर चतुर्भुज पर स्केल-इनवेरिएंट विशेषता ट्रांसफ़ॉर्म डिस्क्रिप्टर लेती है। केवल SIFT सुविधाओं पर भेदभाव को सुधारने के लिए रंग जानकारी का भी उपयोग किया जाता है।
इसके बाद, ऑब्जेक्ट के कई कैमरा दृश्य (कागज में 24) दिए गए, विधि ऑब्जेक्ट के लिए 3D मॉडल का निर्माण करती है, जिसमें 3D स्थानिक स्थिति और प्रत्येक सुविधा का अभिविन्यास होता है। क्योंकि वस्तु के दृश्यों की संख्या बड़ी है, आमतौर पर प्रत्येक विशेषता कई आसन्न दृश्यों में मौजूद होती है। इस तरह की मिलान सुविधाओं के केंद्र बिंदु मेल खाते हैं, और पता चला सुविधाओं को प्रमुख ढाल दिशा के साथ संरेखित किया जाता है, इसलिए फीचर समांतर चतुर्भुज के स्थानीय समन्वय प्रणाली में बिंदु (1, 0) भी बिंदु (0, 1) के अनुरूप होते हैं। समानांतर चतुर्भुज के स्थानीय निर्देशांक में। इस प्रकार आस-पास के दृश्यों में मिलान सुविधाओं की प्रत्येक जोड़ी के लिए, तीन बिंदु जोड़ी पत्राचार ज्ञात हैं। कम से कम दो मिलान सुविधाओं को देखते हुए, गति एल्गोरिदम से बहु-दृश्य एफ़िन संरचना (देखें [टोमासी और कनाडे 1992]) का उपयोग अंक की स्थिति का अनुमान लगाने के लिए किया जा सकता है (मनमानी एफ़िन परिवर्तन तक)। रोथगैंगर एट अल का पेपर। इसलिए दो आसन्न दृश्यों का चयन करता है, सुविधाओं के दो संगत युग्मों का चयन करने के लिए RANSAC जैसी विधि का उपयोग करता है, और RANSAC द्वारा निर्मित आंशिक मॉडल में नई सुविधाएँ जोड़ता है, जब तक कि वे त्रुटि शब्द के अंतर्गत हैं। इस प्रकार आसन्न दृश्यों की किसी भी जोड़ी के लिए, एल्गोरिदम दोनों दृश्यों में दिखाई देने वाली सभी सुविधाओं का आंशिक मॉडल बनाता है।
एकीकृत मॉडल बनाने के लिए, पेपर सबसे बड़ा आंशिक मॉडल लेता है, और सभी छोटे आंशिक मॉडल को वृद्धिशील रूप से संरेखित करता है। त्रुटि को कम करने के लिए वैश्विक न्यूनीकरण का उपयोग किया जाता है, फिर यूक्लिडियन अपग्रेड का उपयोग मॉडल की फीचर पोजीशन को 3D निर्देशांक से बदलने के लिए किया जाता है, जो एफ़िन ट्रांसफ़ॉर्मेशन से लेकर 3D निर्देशांक तक अद्वितीय होते हैं जो यूक्लिडियन गति तक अद्वितीय होते हैं। इस चरण के अंत में, किसी के पास लक्ष्य वस्तु का मॉडल होता है, जिसमें सामान्य 3D स्थान में पेश की जाने वाली विशेषताएं शामिल होती हैं।
मनमाना इनपुट छवि में किसी वस्तु को पहचानने के लिए, कागज सुविधाओं का पता लगाता है, और फिर RANSAC का उपयोग करके affine प्रक्षेपण मैट्रिक्स को ढूंढता है जो एकीकृत ऑब्जेक्ट मॉडल को 2D दृश्य में सबसे अच्छा फिट करता है। यदि इस RANSAC दृष्टिकोण में पर्याप्त रूप से कम त्रुटि है, तो सफल होने पर, एल्गोरिथ्म दोनों वस्तु को पहचानता है और प्रक्षेपित प्रक्षेपण के संदर्भ में वस्तु की मुद्रा देता है। अनुमानित शर्तों के तहत, विधि आम तौर पर लगभग 95% की मान्यता दर प्राप्त करती है।
संदर्भ
- Murase, H. and S. K. Nayar: 1995, Visual Learning and Recognition of 3-D Objects from Appearance. International Journal of Computer Vision 14, 5–24. [1]
- Selinger, A. and R. Nelson: 1999, A Perceptual Grouping Hierarchy for Appearance-Based 3D Object Recognition. Computer Vision and Image Understanding 76(1), 83–92. [2]
- Rothganger, F; S. Lazebnik, C. Schmid, and J. Ponce: 2004. 3D Object Modeling and Recognition Using Local Affine-Invariant Image Descriptors and Multi-View Spatial Constraints, ICCV. [3]
- Lowe, D.: 2004, Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision. In press. [4]
- Tomasi, C. and T. Kanade: 1992, Shape and Motion from Image Streams: a Factorization Method. International Journal of Computer Vision 9(2), 137–154. [5]
यह भी देखें
- बूँद का पता लगाना
- वस्तु मान्यता
- फ़ीचर डिस्क्रिप्टर
- फ़ीचर डिटेक्शन (कंप्यूटर विज़न)
- हैरिस एफ़िन क्षेत्र डिटेक्टर
- रैनसैक
- स्केल-इनवेरिएंट फीचर ट्रांसफॉर्म
- गति से संरचना
श्रेणी:वस्तु पहचान और वर्गीकरण श्रेणी:3डी इमेजिंग