CART की व्याख्या और गति के साथ XGBoost-स्तर के प्रदर्शन को प्राप्त करना – बर्कले आर्टिफिशियल इंटेलिजेंस रिसर्च ब्लॉग cgitaik synthetic intelligence information AI
FIGS (फास्ट इंटरप्रेटेबल ग्रीडी-ट्री सम्स): एक दूसरे के साथ प्रतिस्पर्धा में एक साथ निर्णय वृक्षों के एक समूह को विकसित करके व्याख्यात्मक मॉडल बनाने की एक विधि।
हाल ही में मशीन-सीखने की प्रगति ने तेजी से जटिल पूर्वानुमान मॉडल का नेतृत्व किया है, जो अक्सर व्याख्यात्मकता की कीमत पर होता है। हमें अक्सर व्याख्यात्मकता की आवश्यकता होती है, विशेष रूप से उच्च-दांव वाले अनुप्रयोगों जैसे नैदानिक निर्णय लेने में; व्याख्या करने योग्य मॉडल सभी प्रकार की चीजों में मदद करते हैं, जैसे त्रुटियों की पहचान करना, डोमेन ज्ञान का लाभ उठाना और शीघ्र भविष्यवाणी करना।
इस ब्लॉग पोस्ट में हम कवर करेंगे अंजीरफिट करने के लिए एक नई विधि व्याख्या करने योग्य मॉडल जो वृक्षों के योग का रूप ले लेता है। वास्तविक दुनिया के प्रयोगों और सैद्धांतिक परिणामों से पता चलता है कि FIGS डेटा में संरचना की एक विस्तृत श्रृंखला को प्रभावी ढंग से अनुकूलित कर सकता है, कई सेटिंग्स में अत्याधुनिक प्रदर्शन प्राप्त कर सकता है, सभी व्याख्यात्मकता का त्याग किए बिना।
एफआईजीएस कैसे काम करता है?
सहज रूप से, एफआईजीएस एक निर्णय वृक्ष को विकसित करने के लिए एक विशिष्ट लालची एल्गोरिद्म कार्ट का विस्तार करके काम करता है, ताकि एक विकास पर विचार किया जा सके। जोड़ पेड़ों की इसके साथ ही (चित्र 1 देखें)। प्रत्येक पुनरावृत्ति पर, FIGS किसी भी मौजूदा पेड़ को विकसित कर सकता है जिसे उसने पहले ही शुरू कर दिया है या एक नया पेड़ शुरू कर दिया है; यह लालच से ऐसे किसी भी नियम का चयन करता है जो कुल अस्पष्टीकृत भिन्नता (या एक वैकल्पिक विभाजन मानदंड) को सबसे अधिक कम करता है। पेड़ों को एक दूसरे के साथ तालमेल रखने के लिए, प्रत्येक पेड़ को भविष्यवाणी करने के लिए बनाया जाता है बच गया अन्य सभी पेड़ों की भविष्यवाणियों के योग के बाद शेष (देखें कागज़ अधिक जानकारी के लिए)।
FIGS सहज रूप से पहनावा दृष्टिकोण जैसे ग्रेडिएंट बूस्टिंग / रैंडम फ़ॉरेस्ट के समान है, लेकिन महत्वपूर्ण रूप से चूंकि सभी पेड़ एक दूसरे के साथ प्रतिस्पर्धा करने के लिए उगाए जाते हैं, इसलिए मॉडल डेटा में अंतर्निहित संरचना के लिए अधिक अनुकूल हो सकता है। मैन्युअल रूप से निर्दिष्ट किए जाने के बजाय पेड़ों की संख्या और प्रत्येक पेड़ का आकार / आकार डेटा से स्वचालित रूप से उभरता है।
चित्र .1। एफआईजीएस एक मॉडल को कैसे फिट करता है, इसके लिए उच्च-स्तरीय अंतर्ज्ञान।
एक उदाहरण का उपयोग करना FIGS
FIGS का उपयोग करना अत्यंत सरल है। के माध्यम से आसानी से स्थापित किया जा सकता है आइमॉडल पैकेज (pip set up imodels
) और फिर उसी तरह से उपयोग किया जा सकता है जैसे कि मानक स्किकिट-लर्न मॉडल: बस एक क्लासिफायरियर या रेग्रेसर आयात करें और उपयोग करें match
और predict
तरीके। यहाँ एक नमूना क्लिनिकल डेटासेट पर इसका उपयोग करने का एक पूरा उदाहरण दिया गया है जिसमें लक्ष्य सर्वाइकल स्पाइन इंजरी (CSI) का जोखिम है।
from imodels import FIGSClassifier, get_clean_dataset
from sklearn.model_selection import train_test_split
# put together information (on this a pattern scientific dataset)
X, y, feat_names = get_clean_dataset('csi_pecarn_pred')
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.33, random_state=42)
# match the mannequin
mannequin = FIGSClassifier(max_rules=4) # initialize a mannequin
mannequin.match(X_train, y_train) # match mannequin
preds = mannequin.predict(X_test) # discrete predictions: form is (n_test, 1)
preds_proba = mannequin.predict_proba(X_test) # predicted chances: form is (n_test, n_classes)
# visualize the mannequin
mannequin.plot(feature_names=feat_names, filename='out.svg', dpi=300)
इसका परिणाम एक साधारण मॉडल में होता है – इसमें केवल 4 विभाजन होते हैं (चूंकि हमने निर्दिष्ट किया है कि मॉडल में 4 से अधिक विभाजन नहीं होने चाहिए (max_rules=4
). हर पेड़ के नीचे एक नमूना गिराकर भविष्यवाणियां की जाती हैं, और जोड़ने पर प्रत्येक पेड़ की परिणामी पत्तियों से प्राप्त जोखिम समायोजन मूल्य। यह मॉडल अत्यंत व्याख्या योग्य है, क्योंकि एक चिकित्सक अब (i) आसानी से 4 प्रासंगिक विशेषताओं का उपयोग करके भविष्यवाणियां कर सकता है और (ii) यह सुनिश्चित करने के लिए मॉडल को जांच सकता है कि यह उनकी डोमेन विशेषज्ञता से मेल खाता है। ध्यान दें कि यह मॉडल केवल चित्रण उद्देश्यों के लिए है, और ~84% सटीकता प्राप्त करता है।
अंक 2। सर्वाइकल स्पाइनल इंजरी के जोखिम की भविष्यवाणी के लिए एफआईजीएस द्वारा सीखा गया सरल मॉडल।
यदि हम अधिक लचीला मॉडल चाहते हैं, तो हम नियमों की संख्या (कोड को mannequin = FIGSClassifier()
), जिसके परिणामस्वरूप एक बड़ा मॉडल (चित्र 3 देखें)। ध्यान दें कि डेटा की संरचना से पेड़ों की संख्या और वे कितने संतुलित हैं – केवल नियमों की कुल संख्या निर्दिष्ट की जा सकती है।
चित्र 3। सर्वाइकल स्पाइनल इंजरी के जोखिम की भविष्यवाणी के लिए FIGS द्वारा सीखा गया थोड़ा बड़ा मॉडल।
FIGS कितना अच्छा प्रदर्शन करता है?
कई मामलों में जब व्याख्यात्मकता वांछित होती है, जैसे कि नैदानिक-निर्णय-नियम मॉडलिंग, FIGS अत्याधुनिक प्रदर्शन हासिल करने में सक्षम है। उदाहरण के लिए, चित्र 4 विभिन्न डेटासेट दिखाता है जहाँ FIGS उत्कृष्ट प्रदर्शन प्राप्त करता है, विशेष रूप से जब बहुत कम कुल विभाजनों का उपयोग करने तक सीमित होता है।
चित्र 4। FIGS बहुत कम विभाजनों के साथ अच्छी भविष्यवाणी करता है।
FIGS अच्छा प्रदर्शन क्यों करता है?
FIGS इस अवलोकन से प्रेरित है कि एकल निर्णय वृक्षों में अक्सर विभाजन होते हैं जो विभिन्न शाखाओं में दोहराए जाते हैं, जो तब हो सकते हैं जब योजक संरचना डेटा में। कई पेड़ होने से एडिटिव घटकों को अलग-अलग पेड़ों में अलग करके इससे बचने में मदद मिलती है।
निष्कर्ष
कुल मिलाकर, व्याख्यात्मक मॉडलिंग सामान्य ब्लैक-बॉक्स मॉडलिंग के लिए एक विकल्प प्रदान करता है, और कई मामलों में प्रदर्शन में हानि के बिना दक्षता और पारदर्शिता के मामले में बड़े पैमाने पर सुधार की पेशकश कर सकता है।
यह पोस्ट दो पेपर्स पर आधारित है: अंजीर और जी-अंजीर – सभी कोड के माध्यम से उपलब्ध है आइमॉडल पैकेज. के साथ संयुक्त कार्य है केयन नासेरी, अभिनीत अग्रवाल, जेम्स डंकन, ओमर रोनेनऔर आरोन कोर्नब्लिथ.
Source link