फ़ीचर इंजीनियरिंग: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(5 intermediate revisions by 3 users not shown)
Line 5: Line 5:
== प्रक्रिया ==
== प्रक्रिया ==
फ़ीचर इंजीनियरिंग प्रक्रिया है:<ref>{{cite web|title=Big Data: Week 3 Video 3 - Feature Engineering|url=https://www.youtube.com/watch?v=drUToKxEAUA|website=youtube.com}}</ref>
फ़ीचर इंजीनियरिंग प्रक्रिया है:<ref>{{cite web|title=Big Data: Week 3 Video 3 - Feature Engineering|url=https://www.youtube.com/watch?v=drUToKxEAUA|website=youtube.com}}</ref>
*विचार-मंथन या सॉफ्टवेयर परीक्षण सुविधाएँ<ref>{{Cite journal|url=https://content.iospress.com/articles/international-journal-of-knowledge-based-and-intelligent-engineering-systems/kes180383|title=बड़ा डेटा और बुद्धिमान सॉफ्टवेयर सिस्टम| vauthors = Jalal AA |date=January 1, 2018|journal=International Journal of Knowledge-based and Intelligent Engineering Systems|volume=22|issue=3|pages=177–193|via=content.iospress.com|doi=10.3233/KES-180383|s2cid=56487811 }}</ref>
*बुद्धिशीलता या सॉफ्टवेयर परीक्षण सुविधाएँ<ref>{{Cite journal|url=https://content.iospress.com/articles/international-journal-of-knowledge-based-and-intelligent-engineering-systems/kes180383|title=बड़ा डेटा और बुद्धिमान सॉफ्टवेयर सिस्टम| vauthors = Jalal AA |date=January 1, 2018|journal=International Journal of Knowledge-based and Intelligent Engineering Systems|volume=22|issue=3|pages=177–193|via=content.iospress.com|doi=10.3233/KES-180383|s2cid=56487811 }}</ref>
* निर्णय लेना कि कौन सी सुविधाएँ बनानी हैं
* निर्णय लेना कि कौन सी सुविधाएँ बनानी हैं
* सुविधाएँ बनाना
* सुविधाएँ बनाना
* कार्य पर पहचानी गई सुविधाओं के प्रभाव का परीक्षण करना
* कार्य पर पहचानी गई सुविधाओं के प्रभाव का परीक्षण करना
* यदि आवश्यक हो तो अपनी सुविधाओं में सुधार करें
* यदि आवश्यक हो तो अपनी सुविधाओं में सुधार करें
* दोहराना
* पुनरावृत्ति


=== विशिष्ट इंजीनियर्ड विशेषताएं ===
=== विशिष्ट इंजीनियर्ड विशेषताएं ===
निम्नलिखित सूची<ref>{{Cite web|title=सुविधाएँ बनाना|url=https://kaggle.com/ryanholbrook/creating-features|access-date=2021-09-30|website=kaggle.com |language=en}}</ref> उपयोगी सुविधाओं को इंजीनियर करने के लिए कुछ विशिष्ट तरीके प्रदान करता है:
निम्नलिखित सूची<ref>{{Cite web|title=सुविधाएँ बनाना|url=https://kaggle.com/ryanholbrook/creating-features|access-date=2021-09-30|website=kaggle.com |language=en}}</ref> उपयोगी सुविधाओं को इंजीनियर करने के लिए कुछ विशिष्ट विधि प्रदान करता है:
* संख्यात्मक परिवर्तन (जैसे भिन्न लेना या स्केलिंग)
* संख्यात्मक परिवर्तन (जैसे भिन्न लेना या स्केलिंग)
* श्रेणी एनकोडर जैसे वन-हॉट या लक्ष्य एनकोडर (श्रेणीबद्ध चर के लिए)<ref>{{Cite web|title=Category Encoders — Category Encoders 2.2.2 documentation|url=https://contrib.scikit-learn.org/category_encoders/index.html|access-date=2021-10-01|website=contrib.scikit-learn.org}}</ref>
* श्रेणी एनकोडर जैसे वन-हॉट या लक्ष्य एनकोडर (श्रेणीबद्ध चर के लिए)<ref>{{Cite web|title=Category Encoders — Category Encoders 2.2.2 documentation|url=https://contrib.scikit-learn.org/category_encoders/index.html|access-date=2021-10-01|website=contrib.scikit-learn.org}}</ref>
Line 19: Line 19:
* समूहित मान
* समूहित मान
* प्रमुख घटक विश्लेषण (संख्यात्मक डेटा के लिए)
* प्रमुख घटक विश्लेषण (संख्यात्मक डेटा के लिए)
* फ़ीचर निर्माण: समस्या के लिए प्रासंगिक नए भौतिक, ज्ञान-आधारित मापदंडों का निर्माण।<ref>{{cite journal | vauthors = Dash T, Chitlangia S, Ahuja A, Srinivasan A | title = गहरे तंत्रिका नेटवर्क में डोमेन-ज्ञान को शामिल करने के लिए कुछ तकनीकों की समीक्षा| journal = Scientific Reports | volume = 12 | issue = 1 | pages = 1040 | date = January 2022 | pmid = 35058487 | pmc = 8776800 | doi = 10.1038/s41598-021-04590-0 | arxiv = 2107.10295 | bibcode = 2022NatSR..12.1040D }}</ref> उदाहरण के लिए, भौतिकी में, [[आयामहीन मात्रा]] का निर्माण जैसे द्रव गतिकी में [[रेनॉल्ड्स संख्या]], गर्मी हस्तांतरण में [[नुसेल्ट संख्या]], [[अवसादन]] में आर्किमिडीज संख्या, समाधान के पहले अनुमान का निर्माण जैसे यांत्रिकी में सामग्री समाधान की विश्लेषणात्मक ताकत आदि।<ref>{{Cite report | vauthors = MacQueron C | doi = 10.13140/RG.2.2.11074.84164/1 | url = https://www.researchgate.net/publication/353947052|title = SOLID-LIQUID MIXING IN STIRRED TANKS : Modeling, Validation, Design Optimization and Suspension Quality Prediction|date = 2021}}</ref>
* '''फ़ीचर निर्माण''': समस्या के लिए प्रासंगिक नए भौतिक, ज्ञान-आधारित मापदंडों का निर्माण।<ref>{{cite journal | vauthors = Dash T, Chitlangia S, Ahuja A, Srinivasan A | title = गहरे तंत्रिका नेटवर्क में डोमेन-ज्ञान को शामिल करने के लिए कुछ तकनीकों की समीक्षा| journal = Scientific Reports | volume = 12 | issue = 1 | pages = 1040 | date = January 2022 | pmid = 35058487 | pmc = 8776800 | doi = 10.1038/s41598-021-04590-0 | arxiv = 2107.10295 | bibcode = 2022NatSR..12.1040D }}</ref> उदाहरण के लिए, भौतिकी में, [[आयामहीन मात्रा]] का निर्माण जैसे द्रव गतिकी में [[रेनॉल्ड्स संख्या]], गर्मी हस्तांतरण में [[नुसेल्ट संख्या]], [[अवसादन]] में आर्किमिडीज संख्या, समाधान के पहले अनुमान का निर्माण जैसे यांत्रिकी में सामग्री समाधान की विश्लेषणात्मक शक्ति आदि।<ref>{{Cite report | vauthors = MacQueron C | doi = 10.13140/RG.2.2.11074.84164/1 | url = https://www.researchgate.net/publication/353947052|title = SOLID-LIQUID MIXING IN STIRRED TANKS : Modeling, Validation, Design Optimization and Suspension Quality Prediction|date = 2021}}</ref>




== प्रासंगिकता ==
== प्रासंगिकता ==
विशेषताएँ महत्व में भिन्न होती हैं।<ref>{{Cite web|url = http://www.cs.princeton.edu/courses/archive/spring10/cos424/slides/18-feat.pdf|title = फ़ीचर इंजीनियरिंग|date = 2010-04-22|access-date = 12 November 2015}}</ref> यहां तक ​​कि अपेक्षाकृत महत्वहीन विशेषताएं भी किसी मॉडल में योगदान दे सकती हैं। फ़ीचर चयन किसी मॉडल को प्रशिक्षण डेटा सेट (ओवरफिटिंग) के लिए बहुत विशिष्ट बनने से रोकने के लिए सुविधाओं की संख्या को कम कर सकता है।<ref>{{Cite web|url=http://www.cs.berkeley.edu/~jordan/courses/294-fall09/lectures/feature/slides.pdf|title=फ़ीचर इंजीनियरिंग और चयन|date=October 1, 2009|publisher=Alexandre Bouchard-Côté|access-date=12 November 2015}}</ref>
विशेषताओं का महत्व भिन्न-भिन्न होता है।<ref>{{Cite web|url = http://www.cs.princeton.edu/courses/archive/spring10/cos424/slides/18-feat.pdf|title = फ़ीचर इंजीनियरिंग|date = 2010-04-22|access-date = 12 November 2015}}</ref> यहां तक कि अपेक्षाकृत महत्वहीन विशेषताएं भी किसी मॉडल में योगदान दे सकती हैं। फ़ीचर चयन किसी मॉडल को प्रशिक्षण डेटा सेट (ओवरफ़िटिंग) के लिए बहुत विशिष्ट बनने से रोकने के लिए सुविधाओं की संख्या को कम कर सकता है।<ref>{{Cite web|url=http://www.cs.berkeley.edu/~jordan/courses/294-fall09/lectures/feature/slides.pdf|title=फ़ीचर इंजीनियरिंग और चयन|date=October 1, 2009|publisher=Alexandre Bouchard-Côté|access-date=12 November 2015}}</ref>




== विस्फोट ==
== विस्फोट ==
फ़ीचर विस्फोट तब होता है जब पहचाने गए फ़ीचर की संख्या अनुचित रूप से बढ़ती है। सामान्य कारणों में शामिल हैं:
फ़ीचर विस्फोट तब होता है जब पहचाने गए फ़ीचर की संख्या अनुचित रूप से बढ़ती है। सामान्य कारणों में सम्मिलित हैं:


* फ़ीचर टेम्प्लेट - नई सुविधाओं को कोड करने के बजाय फ़ीचर टेम्प्लेट लागू करना
* '''फ़ीचर टेम्प्लेट''' - नई सुविधाओं को कोड करने के अतिरिक्त फ़ीचर टेम्प्लेट लागू करना होता हैं
* फ़ीचर संयोजन - ऐसे संयोजन जिन्हें रैखिक प्रणाली द्वारा प्रस्तुत नहीं किया जा सकता है
* '''फ़ीचर संयोजन''' - ऐसे संयोजन जिन्हें रैखिक प्रणाली द्वारा प्रस्तुत नहीं किया जा सकता है


फ़ीचर विस्फोट को तकनीकों के माध्यम से सीमित किया जा सकता है जैसे: [[नियमितीकरण (गणित)]], [[कर्नेल विधि]]याँ, और फ़ीचर चयन।<ref>{{Cite web|url = https://ufal.mff.cuni.cz/~zabokrtsky/courses/npfl104/html/feature_engineering.pdf|title = मशीन लर्निंग में फ़ीचर इंजीनियरिंग|access-date = 12 November 2015|publisher = Zdenek Zabokrtsky|archive-url = https://web.archive.org/web/20160304112056/https://ufal.mff.cuni.cz/~zabokrtsky/courses/npfl104/html/feature_engineering.pdf|archive-date = 4 March 2016|url-status = dead}}</ref>
फ़ीचर विस्फोट को विधियों के माध्यम से सीमित किया जा सकता है जैसे: [[नियमितीकरण (गणित)]], [[कर्नेल विधि]]याँ, और फ़ीचर चयन।<ref>{{Cite web|url = https://ufal.mff.cuni.cz/~zabokrtsky/courses/npfl104/html/feature_engineering.pdf|title = मशीन लर्निंग में फ़ीचर इंजीनियरिंग|access-date = 12 November 2015|publisher = Zdenek Zabokrtsky|archive-url = https://web.archive.org/web/20160304112056/https://ufal.mff.cuni.cz/~zabokrtsky/courses/npfl104/html/feature_engineering.pdf|archive-date = 4 March 2016|url-status = dead}}</ref>




== स्वचालन ==
== स्वचालन ==
फीचर इंजीनियरिंग का स्वचालन शोध विषय है जो 1990 के दशक का है।<ref>{{Cite book| chapter-url = https://link.springer.com/content/pdf/10.1007/978-3-540-48247-5_46.pdf | chapter = Multi-relational Decision Tree Induction| doi = 10.1007/978-3-540-48247-5_46| title = डेटा खनन और ज्ञान खोज के सिद्धांत| volume = 1704| pages = 378–383| series = Lecture Notes in Computer Science| year = 1999| vauthors = Knobbe AJ, Siebes A, Van Der Wallen D | isbn = 978-3-540-66490-1}}</ref> स्वचालित फीचर इंजीनियरिंग को शामिल करने वाला मशीन लर्निंग सॉफ्टवेयर 2016 से व्यावसायिक रूप से उपलब्ध है।<ref>{{Cite web|website=Reality AI Blog|title=यह सब सुविधाओं के बारे में है|date=September 2017|url=https://reality.ai/it-is-all-about-the-features/}}</ref> संबंधित अकादमिक साहित्य को मोटे तौर पर दो प्रकारों में विभाजित किया जा सकता है:
फीचर इंजीनियरिंग का स्वचालन शोध विषय है जो 1990 के दशक का है।<ref>{{Cite book| chapter-url = https://link.springer.com/content/pdf/10.1007/978-3-540-48247-5_46.pdf | chapter = Multi-relational Decision Tree Induction| doi = 10.1007/978-3-540-48247-5_46| title = डेटा खनन और ज्ञान खोज के सिद्धांत| volume = 1704| pages = 378–383| series = Lecture Notes in Computer Science| year = 1999| vauthors = Knobbe AJ, Siebes A, Van Der Wallen D | isbn = 978-3-540-66490-1}}</ref> स्वचालित फीचर इंजीनियरिंग को सम्मिलित करने वाला मशीन लर्निंग सॉफ्टवेयर 2016 से व्यावसायिक रूप से उपलब्ध है।<ref>{{Cite web|website=Reality AI Blog|title=यह सब सुविधाओं के बारे में है|date=September 2017|url=https://reality.ai/it-is-all-about-the-features/}}</ref> संबंधित अकादमिक साहित्य को सामान्यतः दो प्रकारों में विभाजित किया जा सकता है:


* मल्टी-रिलेशनल [[ निर्णय वृक्ष ]] लर्निंग (एमआरडीटीएल) पर्यवेक्षित एल्गोरिदम का उपयोग करता है जो डिसीजन ट्री के समान है।
* मल्टी-रिलेशनल [[ निर्णय वृक्ष | डिसीजन ट्री]] लर्निंग (एमआरडीटीएल) पर्यवेक्षित एल्गोरिदम का उपयोग करता है जो डिसीजन ट्री के समान है।
* डीप फ़ीचर सिंथेसिस सरल तरीकों का उपयोग करता है।{{citation needed|date=January 2020}}
* डीप फ़ीचर सिंथेसिस सरल विधियों का उपयोग करता है।{{citation needed|date=January 2020}}


=== मल्टी-रिलेशनल डिसीजन ट्री लर्निंग (एमआरडीटीएल) ===
=== मल्टी-रिलेशनल डिसीजन ट्री लर्निंग (एमआरडीटीएल) ===
एमआरडीटीएल प्रश्नों में क्रमिक रूप से क्लॉज जोड़कर एसक्यूएल प्रश्नों के रूप में सुविधाएँ उत्पन्न करता है।{{cn|date=April 2023}} उदाहरण के लिए, एल्गोरिथम की शुरुआत हो सकती है
एमआरडीटीएल प्रश्नों में क्रमिक रूप से क्लॉज जोड़कर एसक्यूएल प्रश्नों के रूप में सुविधाएँ उत्पन्न करता है।{{cn|date=April 2023}} उदाहरण के लिए, एल्गोरिथम की प्रारंभ हो सकती है


<syntaxhighlight lang="sql">
<syntaxhighlight lang="sql">
SELECT COUNT(*) FROM ATOM t1 LEFT JOIN MOLECULE t2 ON t1.mol_id = t2.mol_id GROUP BY t1.mol_id
SELECT COUNT(*) FROM ATOM t1 LEFT JOIN MOLECULE t2 ON t1.mol_id = t2.mol_id GROUP BY t1.mol_id
</syntaxhighlight>
</syntaxhighlight>
फिर क्वेरी को WHERE t1.charge <= -0.392 जैसी शर्तें जोड़कर क्रमिक रूप से परिष्कृत किया जा सकता है।{{cn|date=April 2023}}
फिर क्वेरी को शर्तों को जोड़कर क्रमिक रूप से परिष्कृत किया जा सकता है, जैसे "WHERE t1.charge <= -0.392"।{{cn|date=April 2023}}


हालाँकि, अधिकांश एमआरडीटीएल संबंधपरक डेटाबेस पर आधार कार्यान्वयन का अध्ययन करता है, जिसके परिणामस्वरूप कई अनावश्यक संचालन होते हैं। टपल आईडी प्रसार जैसी तकनीकों का उपयोग करके इन अतिरेक को कम किया जा सकता है।<ref>{{Cite book | vauthors = Yin X, Han J, Yang J, Yu PS |title=Proceedings. 20th International Conference on Data Engineering |chapter = CrossMine: Efficient Classification Across Multiple Database Relations |journal=Proceedings of the 20th International Conference on Data Engineering |year=2004 |pages=399–410 |doi=10.1109/ICDE.2004.1320014 |isbn=0-7695-2065-0 |s2cid=1183403 }}</ref><ref>{{Cite book| chapter = A Method for Multi-relational Classification Using Single and Multi-feature Aggregation Functions | doi = 10.1007/978-3-540-74976-9_43 | title = Knowledge Discovery in Databases: PKDD 2007 | volume = 4702 | pages = 430–437 | series = Lecture Notes in Computer Science | year = 2007 | vauthors = Frank R, Moser F, Ester M  | isbn = 978-3-540-74975-2 }}</ref> वृद्धिशील अद्यतनों का उपयोग करके दक्षता बढ़ाई जा सकती है, जो अतिरेक को समाप्त करती है।<ref>{{Cite web| url = https://get.ml/resources/how-getml-works | title = स्वचालित फ़ीचर इंजीनियरिंग कैसे काम करती है - संबंधपरक डेटा और समय श्रृंखला के लिए सबसे कुशल फ़ीचर इंजीनियरिंग समाधान| access-date=2019-11-21 }}</ref>{{Promotional source|date=January 2020}}
चूँकि, अधिकांश एमआरडीटीएल संबंधपरक डेटाबेस पर आधार कार्यान्वयन का अध्ययन करता है, जिसके परिणामस्वरूप कई अनावश्यक संचालन होते हैं। टपल आईडी प्रसार जैसी विधियों का उपयोग करके इन अतिरेक को कम किया जा सकता है।<ref>{{Cite book | vauthors = Yin X, Han J, Yang J, Yu PS |title=Proceedings. 20th International Conference on Data Engineering |chapter = CrossMine: Efficient Classification Across Multiple Database Relations |journal=Proceedings of the 20th International Conference on Data Engineering |year=2004 |pages=399–410 |doi=10.1109/ICDE.2004.1320014 |isbn=0-7695-2065-0 |s2cid=1183403 }}</ref><ref>{{Cite book| chapter = A Method for Multi-relational Classification Using Single and Multi-feature Aggregation Functions | doi = 10.1007/978-3-540-74976-9_43 | title = Knowledge Discovery in Databases: PKDD 2007 | volume = 4702 | pages = 430–437 | series = Lecture Notes in Computer Science | year = 2007 | vauthors = Frank R, Moser F, Ester M  | isbn = 978-3-540-74975-2 }}</ref> वृद्धिशील अद्यतनों का उपयोग करके दक्षता बढ़ाई जा सकती है, जो अतिरेक को समाप्त करती है।<ref>{{Cite web| url = https://get.ml/resources/how-getml-works | title = स्वचालित फ़ीचर इंजीनियरिंग कैसे काम करती है - संबंधपरक डेटा और समय श्रृंखला के लिए सबसे कुशल फ़ीचर इंजीनियरिंग समाधान| access-date=2019-11-21 }}</ref>{{Promotional source|date=January 2020}}


=== ओपन-सोर्स कार्यान्वयन ===
=== ओपन-सोर्स कार्यान्वयन ===
Line 55: Line 55:
ऐसे कई ओपन-सोर्स लाइब्रेरी और उपकरण हैं जो संबंधपरक डेटा और समय श्रृंखला पर फीचर इंजीनियरिंग को स्वचालित करते हैं:
ऐसे कई ओपन-सोर्स लाइब्रेरी और उपकरण हैं जो संबंधपरक डेटा और समय श्रृंखला पर फीचर इंजीनियरिंग को स्वचालित करते हैं:


* फीचरटूल्स मशीन लर्निंग के लिए समय श्रृंखला और संबंधपरक डेटा को फीचर मैट्रिक्स में बदलने के लिए [[पायथन (प्रोग्रामिंग भाषा)]] लाइब्रेरी है।<ref>{{Cite web| url=https://featuretools.alteryx.com/en/stable/ | title=What is Featuretools?|access-date=September 7, 2022}}</ref><ref>{{Cite web| url = https://www.featuretools.com | title=फ़ीचरटूल्स - स्वचालित फ़ीचर इंजीनियरिंग के लिए एक खुला स्रोत पायथन ढांचा|access-date=September 7, 2022}}</ref><ref>{{Cite web| url = https://github.com/alteryx/featuretools | title=github: alteryx/featuretools| website=[[GitHub]]|access-date=September 7, 2022}}</ref>
* '''फीचरटूल्स''' मशीन लर्निंग के लिए समय श्रृंखला और संबंधपरक डेटा को फीचर मैट्रिक्स में बदलने के लिए [[पायथन (प्रोग्रामिंग भाषा)]] लाइब्रेरी है।<ref>{{Cite web| url=https://featuretools.alteryx.com/en/stable/ | title=What is Featuretools?|access-date=September 7, 2022}}</ref><ref>{{Cite web| url = https://www.featuretools.com | title=फ़ीचरटूल्स - स्वचालित फ़ीचर इंजीनियरिंग के लिए एक खुला स्रोत पायथन ढांचा|access-date=September 7, 2022}}</ref><ref>{{Cite web| url = https://github.com/alteryx/featuretools | title=github: alteryx/featuretools| website=[[GitHub]]|access-date=September 7, 2022}}</ref>
* वनबीएम या वन-बटन मशीन फीचर चयन तकनीकों के साथ रिलेशनल डेटा पर फीचर ट्रांसफॉर्मेशन और फीचर चयन को जोड़ती है।<ref>{{Cite arXiv|last1=Thanh Lam|first1=Hoang|last2=Thiebaut|first2=Johann-Michael|last3=Sinn|first3=Mathieu|last4=Chen|first4=Bei|last5=Mai|first5=Tiep|last6=Alkan|first6=Oznur|date=2017-06-01|title=रिलेशनल डेटाबेस में फीचर इंजीनियरिंग को स्वचालित करने के लिए एक बटन मशीन|class=cs.DB|eprint=1706.00327}}</ref> {{Cquote
* '''वनबीएम''' या '''वन-बटन''' मशीन फीचर चयन विधियों के साथ रिलेशनल डेटा पर फीचर ट्रांसफॉर्मेशन और फीचर चयन को जोड़ती है।<ref>{{Cite arXiv|last1=Thanh Lam|first1=Hoang|last2=Thiebaut|first2=Johann-Michael|last3=Sinn|first3=Mathieu|last4=Chen|first4=Bei|last5=Mai|first5=Tiep|last6=Alkan|first6=Oznur|date=2017-06-01|title=रिलेशनल डेटाबेस में फीचर इंजीनियरिंग को स्वचालित करने के लिए एक बटन मशीन|class=cs.DB|eprint=1706.00327}}</ref> {{Cquote
| quote = [OneBM] helps data scientists reduce data exploration time allowing them to try and error many ideas in short time. On the other hand, it enables non-experts, who are not familiar with data science, to quickly extract value from their data with a little effort, time, and cost.<ref>{{Cite arXiv|last1=Thanh Lam|first1=Hoang|last2=Thiebaut|first2=Johann-Michael|last3=Sinn|first3=Mathieu|last4=Chen|first4=Bei|last5=Mai|first5=Tiep|last6=Alkan|first6=Oznur|date=2017-06-01|title=One button machine for automating feature engineering in relational databases|class=cs.DB|eprint=1706.00327}}</ref>
| quote = [OneBM] डेटा वैज्ञानिकों को डेटा अन्वेषण के समय को कम करने में सहायता करता है, जिससे उन्हें कम समय में कई विचारों को जांचने और त्रुटि करने की अनुमति मिलती है। दूसरी ओर, यह गैर-विशेषज्ञों को, जो डेटा विज्ञान से परिचित नहीं हैं, थोड़े से प्रयास, समय और लागत के साथ अपने डेटा से तुरंत मान निकालने में सक्षम बनाता है।<ref>{{उद्धरण arXiv|last1=Thanh Lam|first1 =होआंग|अंतिम2=थीबॉट|प्रथम2=जोहान-माइकल|अंतिम3=सिन|प्रथम3=मैथ्यू|अंतिम4=चेन|प्रथम4=बीई|अंतिम5=माई|प्रथम5=टीप|अंतिम6=अलकन|प्रथम6=ओज़्नूर|दिनांक=2017-06 -01|शीर्षक=रिलेशनल डेटाबेस में फीचर इंजीनियरिंग को स्वचालित करने के लिए एक बटन मशीन|वर्ग=सीएस.डीबी|ईप्रिंट=1706.00327}}</ref>
}}
}}
* गेटएमएल समुदाय समय श्रृंखला और संबंधपरक डेटा पर स्वचालित फीचर इंजीनियरिंग के लिए खुला स्रोत उपकरण है।<ref>{{Cite web| url=https://docs.getml.com/latest/ | title=getML दस्तावेज़ीकरण|access-date=September 7, 2022}}</ref><ref>{{Cite web|url=https://github.com/getml/getml-community|title=github: getml/getml-community|website=[[GitHub]] |access-date=September 7, 2022}}</ref> इसे Python इंटरफ़ेस के साथ C (प्रोग्रामिंग भाषा)/[[C++]] में कार्यान्वित किया गया है।<ref>{{Cite web|url=https://github.com/getml/getml-community|title=github: getml/getml-community|website=[[GitHub]] |access-date=September 7, 2022}}</ref> इसे tsflex, tsfresh, tsfel, फीचरटूल्स या kats से कम से कम 60 गुना तेज़ दिखाया गया है।<ref>{{Cite web|url=https://github.com/getml/getml-community|title=github: getml/getml-community|website=[[GitHub]] |access-date=September 7, 2022}}</ref>
* '''गेटएमएल समुदाय''' समय श्रृंखला और संबंधपरक डेटा पर स्वचालित फीचर इंजीनियरिंग के लिए खुला स्रोत उपकरण है।<ref>{{Cite web| url=https://docs.getml.com/latest/ | title=getML दस्तावेज़ीकरण|access-date=September 7, 2022}}</ref><ref>{{Cite web|url=https://github.com/getml/getml-community|title=github: getml/getml-community|website=[[GitHub]] |access-date=September 7, 2022}}</ref> इसे पायथन इंटरफ़ेस के साथ C (प्रोग्रामिंग भाषा)/[[C++]] में कार्यान्वित किया गया है।<ref>{{Cite web|url=https://github.com/getml/getml-community|title=github: getml/getml-community|website=[[GitHub]] |access-date=September 7, 2022}}</ref> इसे टीएसफ्लेक्स, टीएसफ्रेश, टीएसफेल, फीचरटूल्स या कैट्स से कम से कम 60 गुना तेज़ दिखाया गया है।<ref>{{Cite web|url=https://github.com/getml/getml-community|title=github: getml/getml-community|website=[[GitHub]] |access-date=September 7, 2022}}</ref>
* tsfresh समय श्रृंखला डेटा पर सुविधा निष्कर्षण के लिए पायथन लाइब्रेरी है।<ref>{{Cite web| url=https://tsfresh.readthedocs.io/en/latest| title=tsfresh दस्तावेज़ीकरण|access-date=September 7, 2022}}</ref> यह परिकल्पना परीक्षण का उपयोग करके सुविधाओं की गुणवत्ता का मूल्यांकन करता है।<ref>{{Cite web| url=https://www.researchgate.net/publication/324948288 | title=Time Series FeatuRe Extraction on basis of Scalable Hypothesis tests (tsfresh – A Python package)|access-date=September 7, 2022 }}</ref>
* '''टीएसफ्रेश''' समय श्रृंखला डेटा पर सुविधा निष्कर्षण के लिए पायथन लाइब्रेरी है।<ref>{{Cite web| url=https://tsfresh.readthedocs.io/en/latest| title=tsfresh दस्तावेज़ीकरण|access-date=September 7, 2022}}</ref> यह परिकल्पना परीक्षण का उपयोग करके सुविधाओं की गुणवत्ता का मूल्यांकन करता है।<ref>{{Cite web| url=https://www.researchgate.net/publication/324948288 | title=Time Series FeatuRe Extraction on basis of Scalable Hypothesis tests (tsfresh – A Python package)|access-date=September 7, 2022 }}</ref>
* tsflex समय श्रृंखला डेटा से सुविधाएँ निकालने के लिए खुला स्रोत पायथन लाइब्रेरी है।<ref>{{Cite web| url=https://github.com/predict-idlab/tsflex | title=predict-idlab/tsflex| website=[[GitHub]]|access-date=September 7, 2022}}</ref> 100% पायथन में लिखे जाने के बावजूद, इसे tsfresh, seglearn या tsfel की तुलना में तेज़ और अधिक मेमोरी कुशल दिखाया गया है।<ref>{{Cite web| url=https://www.sciencedirect.com/science/article/pii/S2352711021001904 | title=tsflex: Flexible time series processing & feature extraction|access-date=September 7, 2022}}</ref>
* '''टीएसफ्लेक्स''' समय श्रृंखला डेटा से सुविधाएँ निकालने के लिए खुला स्रोत पायथन लाइब्रेरी है।<ref>{{Cite web| url=https://github.com/predict-idlab/tsflex | title=predict-idlab/tsflex| website=[[GitHub]]|access-date=September 7, 2022}}</ref> 100% पायथन में लिखे जाने के बावजूद, इसे टीएसफ्रेश, सेग्लर्न या टीएसफेल की तुलना में तेज़ और अधिक मेमोरी कुशल दिखाया गया है।<ref>{{Cite web| url=https://www.sciencedirect.com/science/article/pii/S2352711021001904 | title=tsflex: Flexible time series processing & feature extraction|access-date=September 7, 2022}}</ref>
* सेग्लर्न, [[स्किकिट-लर्न]] पायथन लाइब्रेरी के लिए बहुभिन्नरूपी, अनुक्रमिक समय श्रृंखला डेटा का विस्तार है।<ref>{{Cite web| url=https://dmbee.github.io/seglearn/user_guide.html | title=सेग्लर्न उपयोगकर्ता मार्गदर्शिका|access-date=September 7, 2022}}</ref>
* '''सेग्लर्न''', [[स्किकिट-लर्न]] पायथन लाइब्रेरी के लिए बहुभिन्नरूपी, अनुक्रमिक समय श्रृंखला डेटा का विस्तार है।<ref>{{Cite web| url=https://dmbee.github.io/seglearn/user_guide.html | title=सेग्लर्न उपयोगकर्ता मार्गदर्शिका|access-date=September 7, 2022}}</ref>
* tsfel समय श्रृंखला डेटा पर सुविधा निष्कर्षण के लिए पायथन पैकेज है।<ref>{{Cite web| url=https://tsfel.readthedocs.io/en/latest/ | title=टीएसएफईएल दस्तावेज़ीकरण में आपका स्वागत है!|access-date=September 7, 2022 }}</ref>
* '''टीएसफेल''' समय श्रृंखला डेटा पर सुविधा निष्कर्षण के लिए पायथन पैकेज है।<ref>{{Cite web| url=https://tsfel.readthedocs.io/en/latest/ | title=टीएसएफईएल दस्तावेज़ीकरण में आपका स्वागत है!|access-date=September 7, 2022 }}</ref>
* कैट्स समय श्रृंखला डेटा का विश्लेषण करने के लिए पायथन टूलकिट है।<ref>{{Cite web| url=https://github.com/facebookresearch/Kats | title=github: facebookresearch/Kats| website=[[GitHub]]|access-date=September 7, 2022}}</ref>
* '''कैट्स''' समय श्रृंखला डेटा का विश्लेषण करने के लिए पायथन टूलकिट है।<ref>{{Cite web| url=https://github.com/facebookresearch/Kats | title=github: facebookresearch/Kats| website=[[GitHub]]|access-date=September 7, 2022}}</ref>




=== गहन सुविधा संश्लेषण ===
=== गहन सुविधा संश्लेषण ===
डीप फ़ीचर सिंथेसिस (डीएफएस) एल्गोरिदम ने प्रतियोगिता में 906 मानव टीमों में से 615 को हराया।<ref>{{Cite web| url = https://news.mit.edu/2015/automating-big-data-analysis-1016| title = Automating big-data analysis}}</ref><ref>{{Cite book |first1=James Max |last1=Kanter |first2=Kalyan |last2=Veeramachaneni |title=2015 IEEE International Conference on Data Science and Advanced Analytics (DSAA) |chapter=Deep Feature Synthesis: Towards Automating Data Science Endeavors |date=2015 |journal=IEEE International Conference on Data Science and Advanced Analytics |pages=1–10 |doi=10.1109/DSAA.2015.7344858 |isbn=978-1-4673-8272-4 |s2cid=206610380 }}</ref>
डीप फ़ीचर सिंथेसिस (डीएफएस) एल्गोरिदम ने प्रतियोगिता में 906 मानव टीमों में से 615 को हराया था।<ref>{{Cite web| url = https://news.mit.edu/2015/automating-big-data-analysis-1016| title = Automating big-data analysis}}</ref><ref>{{Cite book |first1=James Max |last1=Kanter |first2=Kalyan |last2=Veeramachaneni |title=2015 IEEE International Conference on Data Science and Advanced Analytics (DSAA) |chapter=Deep Feature Synthesis: Towards Automating Data Science Endeavors |date=2015 |journal=IEEE International Conference on Data Science and Advanced Analytics |pages=1–10 |doi=10.1109/DSAA.2015.7344858 |isbn=978-1-4673-8272-4 |s2cid=206610380 }}</ref>




== फ़ीचर स्टोर ==
== फ़ीचर स्टोर ==
फ़ीचर स्टोर वह जगह है जहां सुविधाओं को मॉडल को प्रशिक्षित करने (डेटा वैज्ञानिकों द्वारा) या पूर्वानुमान बनाने (प्रशिक्षित मॉडल वाले अनुप्रयोगों द्वारा) के स्पष्ट उद्देश्य के लिए संग्रहीत और व्यवस्थित किया जाता है। यह केंद्रीय स्थान है जहां आप या तो कई अलग-अलग डेटा स्रोतों से बनाई गई सुविधाओं के समूह बना या अपडेट कर सकते हैं, या प्रशिक्षण मॉडल के लिए या उन अनुप्रयोगों में उपयोग के लिए उन फीचर समूहों से नए डेटासेट बना और अपडेट कर सकते हैं जो सुविधाओं की गणना नहीं करना चाहते हैं लेकिन बस जब उन्हें पूर्वानुमान लगाने की आवश्यकता हो तो उन्हें पुनः प्राप्त करें।<ref>{{Cite web|url=https://www.featurestore.org/what-is-a-feature-store|title=फीचर स्टोर क्या है|access-date=2022-04-19}}</ref>
फ़ीचर स्टोर वह स्थान है जहां सुविधाओं को मॉडल को प्रशिक्षित करने (डेटा वैज्ञानिकों द्वारा) या पूर्वानुमान बनाने (प्रशिक्षित मॉडल वाले अनुप्रयोगों द्वारा) के स्पष्ट उद्देश्य के लिए संग्रहीत और व्यवस्थित किया जाता है। यह केंद्रीय स्थान है जहां आप या तो कई अलग-अलग डेटा स्रोतों से बनाई गई सुविधाओं के समूह बना या अपडेट कर सकते हैं, या प्रशिक्षण मॉडल के लिए या उन अनुप्रयोगों में उपयोग के लिए उन फीचर समूहों से नए डेटासेट बना और अपडेट कर सकते हैं जो सुविधाओं की गणना नहीं करना चाहते हैं किन्तु बस जब उन्हें पूर्वानुमान लगाने की आवश्यकता हो तो उन्हें पुनः प्राप्त करें।<ref>{{Cite web|url=https://www.featurestore.org/what-is-a-feature-store|title=फीचर स्टोर क्या है|access-date=2022-04-19}}</ref>
फ़ीचर स्टोर में फ़ीचर उत्पन्न करने के लिए उपयोग किए जाने वाले कोड को संग्रहीत करने, अनिर्मित डेटा पर कोड लागू करने और अनुरोध पर उन सुविधाओं को मॉडलों को प्रदान करने की क्षमता शामिल होती है। उपयोगी क्षमताओं में फीचर संस्करण और उन परिस्थितियों को नियंत्रित करने वाली नीतियां शामिल हैं जिनके तहत सुविधाओं का उपयोग किया जा सकता है।<ref>{{Cite web|url=https://phaseai.com/resources/intro-to-feature-stores|title=फ़ीचर स्टोर का परिचय|access-date=2021-04-15}}</ref>
 
फ़ीचर स्टोर में फ़ीचर उत्पन्न करने के लिए उपयोग किए जाने वाले कोड को संग्रहीत करने, अनिर्मित डेटा पर कोड लागू करने और अनुरोध पर उन सुविधाओं को मॉडलों को प्रदान करने की क्षमता सम्मिलित होती है। उपयोगी क्षमताओं में फीचर संस्करण और उन परिस्थितियों को नियंत्रित करने वाली नीतियां सम्मिलित हैं जिनके अनुसार सुविधाओं का उपयोग किया जा सकता है।<ref>{{Cite web|url=https://phaseai.com/resources/intro-to-feature-stores|title=फ़ीचर स्टोर का परिचय|access-date=2021-04-15}}</ref>
 
फ़ीचर स्टोर स्टैंडअलोन सॉफ़्टवेयर टूल या मशीन लर्निंग प्लेटफ़ॉर्म में निर्मित हो सकते हैं।
फ़ीचर स्टोर स्टैंडअलोन सॉफ़्टवेयर टूल या मशीन लर्निंग प्लेटफ़ॉर्म में निर्मित हो सकते हैं।


== विकल्प ==
== विकल्प ==
फ़ीचर इंजीनियरिंग समय लेने वाली और त्रुटि-प्रवण प्रक्रिया हो सकती है, क्योंकि इसमें डोमेन विशेषज्ञता की आवश्यकता होती है और इसमें अक्सर परीक्षण और त्रुटि शामिल होती है।<ref>{{Cite web |title=मशीन लर्निंग में फ़ीचर इंजीनियरिंग|url=https://www.section.io/engineering-education/feature-engineering-in-machine-learning/ |access-date=2023-03-21 |website=Engineering Education (EngEd) Program {{!}} Section |language=en-us}}</ref><ref>{{Cite web |last=explorium_admin |date=2021-10-25 |title=5 Reasons Why Feature Engineering is Challenging |url=https://www.explorium.ai/blog/5-reasons-why-feature-engineering-is-challenging/ |access-date=2023-03-21 |website=Explorium |language=en}}</ref> फीचर इंजीनियरिंग का सहारा लिए बिना बड़े अनिर्मित डेटासेट को संसाधित करने के लिए [[ध्यान लगा के पढ़ना या सीखना]] का उपयोग किया जा सकता है।<ref>{{Cite book |last=Spiegelhalter |first=D. J. |url=https://www.worldcat.org/oclc/1064776283 |title=The art of statistics : learning from data |date=2019 |isbn=0-241-39863-0 |location=[London] UK |oclc=1064776283}}</ref> हालाँकि, यह ध्यान रखना महत्वपूर्ण है कि गहन शिक्षण एल्गोरिदम को अभी भी इनपुट डेटा की सावधानीपूर्वक प्रीप्रोसेसिंग और सफाई की आवश्यकता होती है।<ref>{{cite journal | vauthors = Sarker IH | title = Deep Learning: A Comprehensive Overview on Techniques, Taxonomy, Applications and Research Directions | journal = SN Computer Science | volume = 2 | issue = 6 | pages = 420 | date = November 2021 | pmid = 34426802 | pmc = 8372231 | doi = 10.1007/s42979-021-00815-1 }}</ref> इसके अलावा, गहरे तंत्रिका नेटवर्क के लिए सही आर्किटेक्चर, हाइपरपैरामीटर और अनुकूलन एल्गोरिदम चुनना चुनौतीपूर्ण और पुनरावृत्त प्रक्रिया हो सकती है।<ref>{{Citation |last=Bengio |first=Yoshua |title=Practical Recommendations for Gradient-Based Training of Deep Architectures |date=2012 |url=http://dx.doi.org/10.1007/978-3-642-35289-8_26 |work=Lecture Notes in Computer Science |pages=437–478 |access-date=2023-03-21 |place=Berlin, Heidelberg |publisher=Springer Berlin Heidelberg |isbn=978-3-642-35288-1}}</ref>
फ़ीचर इंजीनियरिंग समय लेने वाली और त्रुटि-प्रवण प्रक्रिया हो सकती है, क्योंकि इसमें डोमेन विशेषज्ञता की आवश्यकता होती है और इसमें अधिकांश परीक्षण और त्रुटि सम्मिलित होती है।<ref>{{Cite web |title=मशीन लर्निंग में फ़ीचर इंजीनियरिंग|url=https://www.section.io/engineering-education/feature-engineering-in-machine-learning/ |access-date=2023-03-21 |website=Engineering Education (EngEd) Program {{!}} Section |language=en-us}}</ref><ref>{{Cite web |last=explorium_admin |date=2021-10-25 |title=5 Reasons Why Feature Engineering is Challenging |url=https://www.explorium.ai/blog/5-reasons-why-feature-engineering-is-challenging/ |access-date=2023-03-21 |website=Explorium |language=en}}</ref> फीचर इंजीनियरिंग का सहारा लिए बिना बड़े अनिर्मित डेटासेट को संसाधित करने के लिए [[ध्यान लगा के पढ़ना या सीखना]] का उपयोग किया जा सकता है।<ref>{{Cite book |last=Spiegelhalter |first=D. J. |url=https://www.worldcat.org/oclc/1064776283 |title=The art of statistics : learning from data |date=2019 |isbn=0-241-39863-0 |location=[London] UK |oclc=1064776283}}</ref> चूँकि, यह ध्यान रखना महत्वपूर्ण है कि गहन शिक्षण एल्गोरिदम को अभी भी इनपुट डेटा की सावधानीपूर्वक प्रीप्रोसेसिंग और सफाई की आवश्यकता होती है।<ref>{{cite journal | vauthors = Sarker IH | title = Deep Learning: A Comprehensive Overview on Techniques, Taxonomy, Applications and Research Directions | journal = SN Computer Science | volume = 2 | issue = 6 | pages = 420 | date = November 2021 | pmid = 34426802 | pmc = 8372231 | doi = 10.1007/s42979-021-00815-1 }}</ref> इसके अतिरिक्त, गहरे तंत्रिका नेटवर्क के लिए सही आर्किटेक्चर, हाइपरपैरामीटर और अनुकूलन एल्गोरिदम चुनना चुनौतीपूर्ण और पुनरावृत्त प्रक्रिया हो सकती है।<ref>{{Citation |last=Bengio |first=Yoshua |title=Practical Recommendations for Gradient-Based Training of Deep Architectures |date=2012 |url=http://dx.doi.org/10.1007/978-3-642-35289-8_26 |work=Lecture Notes in Computer Science |pages=437–478 |access-date=2023-03-21 |place=Berlin, Heidelberg |publisher=Springer Berlin Heidelberg |isbn=978-3-642-35288-1}}</ref>




Line 101: Line 103:
* {{cite book | vauthors = Zumel N, Mount  |chapter=Data Engineering and Data Shaping |title=Practical Data Science with R |publisher=Manning |edition=2nd |year=2020 |isbn=978-1-61729-587-4 |pages=113–160 }}
* {{cite book | vauthors = Zumel N, Mount  |chapter=Data Engineering and Data Shaping |title=Practical Data Science with R |publisher=Manning |edition=2nd |year=2020 |isbn=978-1-61729-587-4 |pages=113–160 }}
{{refend}}
{{refend}}
[[Category: यंत्र अधिगम]] [[Category: डेटा विश्लेषण]]


[[Category: Machine Translated Page]]
[[Category:All articles lacking reliable references]]
[[Category:All articles with unsourced statements]]
[[Category:Articles lacking reliable references from January 2020]]
[[Category:Articles with unsourced statements from April 2023]]
[[Category:Articles with unsourced statements from January 2020]]
[[Category:CS1 English-language sources (en)]]
[[Category:Created On 07/07/2023]]
[[Category:Created On 07/07/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Templates Translated in Hindi]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:डेटा विश्लेषण]]
[[Category:यंत्र अधिगम]]

Latest revision as of 13:47, 28 July 2023

फ़ीचर इंजीनियरिंग या फ़ीचर निष्कर्षण या फ़ीचर खोज अनिर्मित डेटा से फ़ीचर (मशीन लर्निंग) (विशेषताएँ, गुण, विशेषताएँ) निकालने के लिए डोमेन ज्ञान का उपयोग करने की प्रक्रिया है।[1] मशीन सीखने की प्रक्रिया में केवल अनिर्मित डेटा की आपूर्ति की तुलना में, मशीन सीखने की प्रक्रिया से परिणामों की गुणवत्ता में सुधार करने के लिए इन अतिरिक्त सुविधाओं का उपयोग करना प्रेरणा है।

प्रक्रिया

फ़ीचर इंजीनियरिंग प्रक्रिया है:[2]

  • बुद्धिशीलता या सॉफ्टवेयर परीक्षण सुविधाएँ[3]
  • निर्णय लेना कि कौन सी सुविधाएँ बनानी हैं
  • सुविधाएँ बनाना
  • कार्य पर पहचानी गई सुविधाओं के प्रभाव का परीक्षण करना
  • यदि आवश्यक हो तो अपनी सुविधाओं में सुधार करें
  • पुनरावृत्ति

विशिष्ट इंजीनियर्ड विशेषताएं

निम्नलिखित सूची[4] उपयोगी सुविधाओं को इंजीनियर करने के लिए कुछ विशिष्ट विधि प्रदान करता है:

  • संख्यात्मक परिवर्तन (जैसे भिन्न लेना या स्केलिंग)
  • श्रेणी एनकोडर जैसे वन-हॉट या लक्ष्य एनकोडर (श्रेणीबद्ध चर के लिए)[5]
  • क्लस्टरिंग
  • समूहित मान
  • प्रमुख घटक विश्लेषण (संख्यात्मक डेटा के लिए)
  • फ़ीचर निर्माण: समस्या के लिए प्रासंगिक नए भौतिक, ज्ञान-आधारित मापदंडों का निर्माण।[6] उदाहरण के लिए, भौतिकी में, आयामहीन मात्रा का निर्माण जैसे द्रव गतिकी में रेनॉल्ड्स संख्या, गर्मी हस्तांतरण में नुसेल्ट संख्या, अवसादन में आर्किमिडीज संख्या, समाधान के पहले अनुमान का निर्माण जैसे यांत्रिकी में सामग्री समाधान की विश्लेषणात्मक शक्ति आदि।[7]


प्रासंगिकता

विशेषताओं का महत्व भिन्न-भिन्न होता है।[8] यहां तक कि अपेक्षाकृत महत्वहीन विशेषताएं भी किसी मॉडल में योगदान दे सकती हैं। फ़ीचर चयन किसी मॉडल को प्रशिक्षण डेटा सेट (ओवरफ़िटिंग) के लिए बहुत विशिष्ट बनने से रोकने के लिए सुविधाओं की संख्या को कम कर सकता है।[9]


विस्फोट

फ़ीचर विस्फोट तब होता है जब पहचाने गए फ़ीचर की संख्या अनुचित रूप से बढ़ती है। सामान्य कारणों में सम्मिलित हैं:

  • फ़ीचर टेम्प्लेट - नई सुविधाओं को कोड करने के अतिरिक्त फ़ीचर टेम्प्लेट लागू करना होता हैं
  • फ़ीचर संयोजन - ऐसे संयोजन जिन्हें रैखिक प्रणाली द्वारा प्रस्तुत नहीं किया जा सकता है

फ़ीचर विस्फोट को विधियों के माध्यम से सीमित किया जा सकता है जैसे: नियमितीकरण (गणित), कर्नेल विधियाँ, और फ़ीचर चयन।[10]


स्वचालन

फीचर इंजीनियरिंग का स्वचालन शोध विषय है जो 1990 के दशक का है।[11] स्वचालित फीचर इंजीनियरिंग को सम्मिलित करने वाला मशीन लर्निंग सॉफ्टवेयर 2016 से व्यावसायिक रूप से उपलब्ध है।[12] संबंधित अकादमिक साहित्य को सामान्यतः दो प्रकारों में विभाजित किया जा सकता है:

  • मल्टी-रिलेशनल डिसीजन ट्री लर्निंग (एमआरडीटीएल) पर्यवेक्षित एल्गोरिदम का उपयोग करता है जो डिसीजन ट्री के समान है।
  • डीप फ़ीचर सिंथेसिस सरल विधियों का उपयोग करता है।[citation needed]

मल्टी-रिलेशनल डिसीजन ट्री लर्निंग (एमआरडीटीएल)

एमआरडीटीएल प्रश्नों में क्रमिक रूप से क्लॉज जोड़कर एसक्यूएल प्रश्नों के रूप में सुविधाएँ उत्पन्न करता है।[citation needed] उदाहरण के लिए, एल्गोरिथम की प्रारंभ हो सकती है

SELECT COUNT(*) FROM ATOM t1 LEFT JOIN MOLECULE t2 ON t1.mol_id = t2.mol_id GROUP BY t1.mol_id

फिर क्वेरी को शर्तों को जोड़कर क्रमिक रूप से परिष्कृत किया जा सकता है, जैसे "WHERE t1.charge <= -0.392"।[citation needed]

चूँकि, अधिकांश एमआरडीटीएल संबंधपरक डेटाबेस पर आधार कार्यान्वयन का अध्ययन करता है, जिसके परिणामस्वरूप कई अनावश्यक संचालन होते हैं। टपल आईडी प्रसार जैसी विधियों का उपयोग करके इन अतिरेक को कम किया जा सकता है।[13][14] वृद्धिशील अद्यतनों का उपयोग करके दक्षता बढ़ाई जा सकती है, जो अतिरेक को समाप्त करती है।[15][promotional source?]

ओपन-सोर्स कार्यान्वयन

ऐसे कई ओपन-सोर्स लाइब्रेरी और उपकरण हैं जो संबंधपरक डेटा और समय श्रृंखला पर फीचर इंजीनियरिंग को स्वचालित करते हैं:

  • फीचरटूल्स मशीन लर्निंग के लिए समय श्रृंखला और संबंधपरक डेटा को फीचर मैट्रिक्स में बदलने के लिए पायथन (प्रोग्रामिंग भाषा) लाइब्रेरी है।[16][17][18]
  • वनबीएम या वन-बटन मशीन फीचर चयन विधियों के साथ रिलेशनल डेटा पर फीचर ट्रांसफॉर्मेशन और फीचर चयन को जोड़ती है।[19]

    [OneBM] डेटा वैज्ञानिकों को डेटा अन्वेषण के समय को कम करने में सहायता करता है, जिससे उन्हें कम समय में कई विचारों को जांचने और त्रुटि करने की अनुमति मिलती है। दूसरी ओर, यह गैर-विशेषज्ञों को, जो डेटा विज्ञान से परिचित नहीं हैं, थोड़े से प्रयास, समय और लागत के साथ अपने डेटा से तुरंत मान निकालने में सक्षम बनाता है।[20]

  • गेटएमएल समुदाय समय श्रृंखला और संबंधपरक डेटा पर स्वचालित फीचर इंजीनियरिंग के लिए खुला स्रोत उपकरण है।[21][22] इसे पायथन इंटरफ़ेस के साथ C (प्रोग्रामिंग भाषा)/C++ में कार्यान्वित किया गया है।[23] इसे टीएसफ्लेक्स, टीएसफ्रेश, टीएसफेल, फीचरटूल्स या कैट्स से कम से कम 60 गुना तेज़ दिखाया गया है।[24]
  • टीएसफ्रेश समय श्रृंखला डेटा पर सुविधा निष्कर्षण के लिए पायथन लाइब्रेरी है।[25] यह परिकल्पना परीक्षण का उपयोग करके सुविधाओं की गुणवत्ता का मूल्यांकन करता है।[26]
  • टीएसफ्लेक्स समय श्रृंखला डेटा से सुविधाएँ निकालने के लिए खुला स्रोत पायथन लाइब्रेरी है।[27] 100% पायथन में लिखे जाने के बावजूद, इसे टीएसफ्रेश, सेग्लर्न या टीएसफेल की तुलना में तेज़ और अधिक मेमोरी कुशल दिखाया गया है।[28]
  • सेग्लर्न, स्किकिट-लर्न पायथन लाइब्रेरी के लिए बहुभिन्नरूपी, अनुक्रमिक समय श्रृंखला डेटा का विस्तार है।[29]
  • टीएसफेल समय श्रृंखला डेटा पर सुविधा निष्कर्षण के लिए पायथन पैकेज है।[30]
  • कैट्स समय श्रृंखला डेटा का विश्लेषण करने के लिए पायथन टूलकिट है।[31]


गहन सुविधा संश्लेषण

डीप फ़ीचर सिंथेसिस (डीएफएस) एल्गोरिदम ने प्रतियोगिता में 906 मानव टीमों में से 615 को हराया था।[32][33]


फ़ीचर स्टोर

फ़ीचर स्टोर वह स्थान है जहां सुविधाओं को मॉडल को प्रशिक्षित करने (डेटा वैज्ञानिकों द्वारा) या पूर्वानुमान बनाने (प्रशिक्षित मॉडल वाले अनुप्रयोगों द्वारा) के स्पष्ट उद्देश्य के लिए संग्रहीत और व्यवस्थित किया जाता है। यह केंद्रीय स्थान है जहां आप या तो कई अलग-अलग डेटा स्रोतों से बनाई गई सुविधाओं के समूह बना या अपडेट कर सकते हैं, या प्रशिक्षण मॉडल के लिए या उन अनुप्रयोगों में उपयोग के लिए उन फीचर समूहों से नए डेटासेट बना और अपडेट कर सकते हैं जो सुविधाओं की गणना नहीं करना चाहते हैं किन्तु बस जब उन्हें पूर्वानुमान लगाने की आवश्यकता हो तो उन्हें पुनः प्राप्त करें।[34]

फ़ीचर स्टोर में फ़ीचर उत्पन्न करने के लिए उपयोग किए जाने वाले कोड को संग्रहीत करने, अनिर्मित डेटा पर कोड लागू करने और अनुरोध पर उन सुविधाओं को मॉडलों को प्रदान करने की क्षमता सम्मिलित होती है। उपयोगी क्षमताओं में फीचर संस्करण और उन परिस्थितियों को नियंत्रित करने वाली नीतियां सम्मिलित हैं जिनके अनुसार सुविधाओं का उपयोग किया जा सकता है।[35]

फ़ीचर स्टोर स्टैंडअलोन सॉफ़्टवेयर टूल या मशीन लर्निंग प्लेटफ़ॉर्म में निर्मित हो सकते हैं।

विकल्प

फ़ीचर इंजीनियरिंग समय लेने वाली और त्रुटि-प्रवण प्रक्रिया हो सकती है, क्योंकि इसमें डोमेन विशेषज्ञता की आवश्यकता होती है और इसमें अधिकांश परीक्षण और त्रुटि सम्मिलित होती है।[36][37] फीचर इंजीनियरिंग का सहारा लिए बिना बड़े अनिर्मित डेटासेट को संसाधित करने के लिए ध्यान लगा के पढ़ना या सीखना का उपयोग किया जा सकता है।[38] चूँकि, यह ध्यान रखना महत्वपूर्ण है कि गहन शिक्षण एल्गोरिदम को अभी भी इनपुट डेटा की सावधानीपूर्वक प्रीप्रोसेसिंग और सफाई की आवश्यकता होती है।[39] इसके अतिरिक्त, गहरे तंत्रिका नेटवर्क के लिए सही आर्किटेक्चर, हाइपरपैरामीटर और अनुकूलन एल्गोरिदम चुनना चुनौतीपूर्ण और पुनरावृत्त प्रक्रिया हो सकती है।[40]


यह भी देखें

संदर्भ

  1. "ब्रेन सिमुलेशन के माध्यम से मशीन लर्निंग और एआई". Stanford University. Retrieved 2019-08-01.
  2. "Big Data: Week 3 Video 3 - Feature Engineering". youtube.com.
  3. Jalal AA (January 1, 2018). "बड़ा डेटा और बुद्धिमान सॉफ्टवेयर सिस्टम". International Journal of Knowledge-based and Intelligent Engineering Systems. 22 (3): 177–193. doi:10.3233/KES-180383. S2CID 56487811 – via content.iospress.com.
  4. "सुविधाएँ बनाना". kaggle.com (in English). Retrieved 2021-09-30.
  5. "Category Encoders — Category Encoders 2.2.2 documentation". contrib.scikit-learn.org. Retrieved 2021-10-01.
  6. Dash T, Chitlangia S, Ahuja A, Srinivasan A (January 2022). "गहरे तंत्रिका नेटवर्क में डोमेन-ज्ञान को शामिल करने के लिए कुछ तकनीकों की समीक्षा". Scientific Reports. 12 (1): 1040. arXiv:2107.10295. Bibcode:2022NatSR..12.1040D. doi:10.1038/s41598-021-04590-0. PMC 8776800. PMID 35058487.
  7. MacQueron C (2021). SOLID-LIQUID MIXING IN STIRRED TANKS : Modeling, Validation, Design Optimization and Suspension Quality Prediction (Report). doi:10.13140/RG.2.2.11074.84164/1.
  8. "फ़ीचर इंजीनियरिंग" (PDF). 2010-04-22. Retrieved 12 November 2015.
  9. "फ़ीचर इंजीनियरिंग और चयन" (PDF). Alexandre Bouchard-Côté. October 1, 2009. Retrieved 12 November 2015.
  10. "मशीन लर्निंग में फ़ीचर इंजीनियरिंग" (PDF). Zdenek Zabokrtsky. Archived from the original (PDF) on 4 March 2016. Retrieved 12 November 2015.
  11. Knobbe AJ, Siebes A, Van Der Wallen D (1999). "Multi-relational Decision Tree Induction" (PDF). डेटा खनन और ज्ञान खोज के सिद्धांत. Lecture Notes in Computer Science. Vol. 1704. pp. 378–383. doi:10.1007/978-3-540-48247-5_46. ISBN 978-3-540-66490-1.
  12. "यह सब सुविधाओं के बारे में है". Reality AI Blog. September 2017.
  13. Yin X, Han J, Yang J, Yu PS (2004). "CrossMine: Efficient Classification Across Multiple Database Relations". Proceedings. 20th International Conference on Data Engineering. pp. 399–410. doi:10.1109/ICDE.2004.1320014. ISBN 0-7695-2065-0. S2CID 1183403. {{cite book}}: |journal= ignored (help)
  14. Frank R, Moser F, Ester M (2007). "A Method for Multi-relational Classification Using Single and Multi-feature Aggregation Functions". Knowledge Discovery in Databases: PKDD 2007. Lecture Notes in Computer Science. Vol. 4702. pp. 430–437. doi:10.1007/978-3-540-74976-9_43. ISBN 978-3-540-74975-2.
  15. "स्वचालित फ़ीचर इंजीनियरिंग कैसे काम करती है - संबंधपरक डेटा और समय श्रृंखला के लिए सबसे कुशल फ़ीचर इंजीनियरिंग समाधान". Retrieved 2019-11-21.
  16. "What is Featuretools?". Retrieved September 7, 2022.
  17. "फ़ीचरटूल्स - स्वचालित फ़ीचर इंजीनियरिंग के लिए एक खुला स्रोत पायथन ढांचा". Retrieved September 7, 2022.
  18. "github: alteryx/featuretools". GitHub. Retrieved September 7, 2022.
  19. Thanh Lam, Hoang; Thiebaut, Johann-Michael; Sinn, Mathieu; Chen, Bei; Mai, Tiep; Alkan, Oznur (2017-06-01). "रिलेशनल डेटाबेस में फीचर इंजीनियरिंग को स्वचालित करने के लिए एक बटन मशीन". arXiv:1706.00327 [cs.DB].
  20. Template:उद्धरण arXiv
  21. "getML दस्तावेज़ीकरण". Retrieved September 7, 2022.
  22. "github: getml/getml-community". GitHub. Retrieved September 7, 2022.
  23. "github: getml/getml-community". GitHub. Retrieved September 7, 2022.
  24. "github: getml/getml-community". GitHub. Retrieved September 7, 2022.
  25. "tsfresh दस्तावेज़ीकरण". Retrieved September 7, 2022.
  26. "Time Series FeatuRe Extraction on basis of Scalable Hypothesis tests (tsfresh – A Python package)". Retrieved September 7, 2022.
  27. "predict-idlab/tsflex". GitHub. Retrieved September 7, 2022.
  28. "tsflex: Flexible time series processing & feature extraction". Retrieved September 7, 2022.
  29. "सेग्लर्न उपयोगकर्ता मार्गदर्शिका". Retrieved September 7, 2022.
  30. "टीएसएफईएल दस्तावेज़ीकरण में आपका स्वागत है!". Retrieved September 7, 2022.
  31. "github: facebookresearch/Kats". GitHub. Retrieved September 7, 2022.
  32. "Automating big-data analysis".
  33. Kanter, James Max; Veeramachaneni, Kalyan (2015). "Deep Feature Synthesis: Towards Automating Data Science Endeavors". 2015 IEEE International Conference on Data Science and Advanced Analytics (DSAA). pp. 1–10. doi:10.1109/DSAA.2015.7344858. ISBN 978-1-4673-8272-4. S2CID 206610380. {{cite book}}: |journal= ignored (help)
  34. "फीचर स्टोर क्या है". Retrieved 2022-04-19.
  35. "फ़ीचर स्टोर का परिचय". Retrieved 2021-04-15.
  36. "मशीन लर्निंग में फ़ीचर इंजीनियरिंग". Engineering Education (EngEd) Program | Section (in English). Retrieved 2023-03-21.
  37. explorium_admin (2021-10-25). "5 Reasons Why Feature Engineering is Challenging". Explorium (in English). Retrieved 2023-03-21.
  38. Spiegelhalter, D. J. (2019). The art of statistics : learning from data. [London] UK. ISBN 0-241-39863-0. OCLC 1064776283.{{cite book}}: CS1 maint: location missing publisher (link)
  39. Sarker IH (November 2021). "Deep Learning: A Comprehensive Overview on Techniques, Taxonomy, Applications and Research Directions". SN Computer Science. 2 (6): 420. doi:10.1007/s42979-021-00815-1. PMC 8372231. PMID 34426802.
  40. Bengio, Yoshua (2012), "Practical Recommendations for Gradient-Based Training of Deep Architectures", Lecture Notes in Computer Science, Berlin, Heidelberg: Springer Berlin Heidelberg, pp. 437–478, ISBN 978-3-642-35288-1, retrieved 2023-03-21


अग्रिम पठन

  • Boehmke B, Greenwell B (2019). "Feature & Target Engineering". Hands-On Machine Learning with R. Chapman & Hall. pp. 41–75. ISBN 978-1-138-49568-5.
  • Zheng A, Casari A (2018). Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists. O'Reilly. ISBN 978-1-4919-5324-2.
  • Zumel N, Mount (2020). "Data Engineering and Data Shaping". Practical Data Science with R (2nd ed.). Manning. pp. 113–160. ISBN 978-1-61729-587-4.