CART की व्याख्या और गति के साथ XGBoost-स्तर के प्रदर्शन को प्राप्त करना – बर्कले आर्टिफिशियल इंटेलिजेंस रिसर्च ब्लॉग cgitaik synthetic intelligence information AI




FIGS (फास्ट इंटरप्रेटेबल ग्रीडी-ट्री सम्स): एक दूसरे के साथ प्रतिस्पर्धा में एक साथ निर्णय वृक्षों के एक समूह को विकसित करके व्याख्यात्मक मॉडल बनाने की एक विधि।

हाल ही में मशीन-सीखने की प्रगति ने तेजी से जटिल पूर्वानुमान मॉडल का नेतृत्व किया है, जो अक्सर व्याख्यात्मकता की कीमत पर होता है। हमें अक्सर व्याख्यात्मकता की आवश्यकता होती है, विशेष रूप से उच्च-दांव वाले अनुप्रयोगों जैसे नैदानिक ​​निर्णय लेने में; व्याख्या करने योग्य मॉडल सभी प्रकार की चीजों में मदद करते हैं, जैसे त्रुटियों की पहचान करना, डोमेन ज्ञान का लाभ उठाना और शीघ्र भविष्यवाणी करना।

इस ब्लॉग पोस्ट में हम कवर करेंगे अंजीरफिट करने के लिए एक नई विधि व्याख्या करने योग्य मॉडल जो वृक्षों के योग का रूप ले लेता है। वास्तविक दुनिया के प्रयोगों और सैद्धांतिक परिणामों से पता चलता है कि FIGS डेटा में संरचना की एक विस्तृत श्रृंखला को प्रभावी ढंग से अनुकूलित कर सकता है, कई सेटिंग्स में अत्याधुनिक प्रदर्शन प्राप्त कर सकता है, सभी व्याख्यात्मकता का त्याग किए बिना।

एफआईजीएस कैसे काम करता है?

सहज रूप से, एफआईजीएस एक निर्णय वृक्ष को विकसित करने के लिए एक विशिष्ट लालची एल्गोरिद्म कार्ट का विस्तार करके काम करता है, ताकि एक विकास पर विचार किया जा सके। जोड़ पेड़ों की इसके साथ ही (चित्र 1 देखें)। प्रत्येक पुनरावृत्ति पर, FIGS किसी भी मौजूदा पेड़ को विकसित कर सकता है जिसे उसने पहले ही शुरू कर दिया है या एक नया पेड़ शुरू कर दिया है; यह लालच से ऐसे किसी भी नियम का चयन करता है जो कुल अस्पष्टीकृत भिन्नता (या एक वैकल्पिक विभाजन मानदंड) को सबसे अधिक कम करता है। पेड़ों को एक दूसरे के साथ तालमेल रखने के लिए, प्रत्येक पेड़ को भविष्यवाणी करने के लिए बनाया जाता है बच गया अन्य सभी पेड़ों की भविष्यवाणियों के योग के बाद शेष (देखें कागज़ अधिक जानकारी के लिए)।

FIGS सहज रूप से पहनावा दृष्टिकोण जैसे ग्रेडिएंट बूस्टिंग / रैंडम फ़ॉरेस्ट के समान है, लेकिन महत्वपूर्ण रूप से चूंकि सभी पेड़ एक दूसरे के साथ प्रतिस्पर्धा करने के लिए उगाए जाते हैं, इसलिए मॉडल डेटा में अंतर्निहित संरचना के लिए अधिक अनुकूल हो सकता है। मैन्युअल रूप से निर्दिष्ट किए जाने के बजाय पेड़ों की संख्या और प्रत्येक पेड़ का आकार / आकार डेटा से स्वचालित रूप से उभरता है।

CART की व्याख्या और गति के साथ XGBoost-स्तर के प्रदर्शन को प्राप्त करना - बर्कले आर्टिफिशियल इंटेलिजेंस रिसर्च ब्लॉग cgitaik synthetic intelligence information AI

चित्र .1। एफआईजीएस एक मॉडल को कैसे फिट करता है, इसके लिए उच्च-स्तरीय अंतर्ज्ञान।

एक उदाहरण का उपयोग करना FIGS

FIGS का उपयोग करना अत्यंत सरल है। के माध्यम से आसानी से स्थापित किया जा सकता है आइमॉडल पैकेज (pip set up imodels) और फिर उसी तरह से उपयोग किया जा सकता है जैसे कि मानक स्किकिट-लर्न मॉडल: बस एक क्लासिफायरियर या रेग्रेसर आयात करें और उपयोग करें match और predict तरीके। यहाँ एक नमूना क्लिनिकल डेटासेट पर इसका उपयोग करने का एक पूरा उदाहरण दिया गया है जिसमें लक्ष्य सर्वाइकल स्पाइन इंजरी (CSI) का जोखिम है।

from imodels import FIGSClassifier, get_clean_dataset
from sklearn.model_selection import train_test_split

# put together information (on this a pattern scientific dataset)
X, y, feat_names = get_clean_dataset('csi_pecarn_pred')
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.33, random_state=42)

# match the mannequin
mannequin = FIGSClassifier(max_rules=4)  # initialize a mannequin
mannequin.match(X_train, y_train)   # match mannequin
preds = mannequin.predict(X_test) # discrete predictions: form is (n_test, 1)
preds_proba = mannequin.predict_proba(X_test) # predicted chances: form is (n_test, n_classes)

# visualize the mannequin
mannequin.plot(feature_names=feat_names, filename='out.svg', dpi=300)

इसका परिणाम एक साधारण मॉडल में होता है – इसमें केवल 4 विभाजन होते हैं (चूंकि हमने निर्दिष्ट किया है कि मॉडल में 4 से अधिक विभाजन नहीं होने चाहिए (max_rules=4). हर पेड़ के नीचे एक नमूना गिराकर भविष्यवाणियां की जाती हैं, और जोड़ने पर प्रत्येक पेड़ की परिणामी पत्तियों से प्राप्त जोखिम समायोजन मूल्य। यह मॉडल अत्यंत व्याख्या योग्य है, क्योंकि एक चिकित्सक अब (i) आसानी से 4 प्रासंगिक विशेषताओं का उपयोग करके भविष्यवाणियां कर सकता है और (ii) यह सुनिश्चित करने के लिए मॉडल को जांच सकता है कि यह उनकी डोमेन विशेषज्ञता से मेल खाता है। ध्यान दें कि यह मॉडल केवल चित्रण उद्देश्यों के लिए है, और ~84% सटीकता प्राप्त करता है।

CART की व्याख्या और गति के साथ XGBoost-स्तर के प्रदर्शन को प्राप्त करना - बर्कले आर्टिफिशियल इंटेलिजेंस रिसर्च ब्लॉग cgitaik synthetic intelligence information AI

अंक 2। सर्वाइकल स्पाइनल इंजरी के जोखिम की भविष्यवाणी के लिए एफआईजीएस द्वारा सीखा गया सरल मॉडल।

यदि हम अधिक लचीला मॉडल चाहते हैं, तो हम नियमों की संख्या (कोड को mannequin = FIGSClassifier()), जिसके परिणामस्वरूप एक बड़ा मॉडल (चित्र 3 देखें)। ध्यान दें कि डेटा की संरचना से पेड़ों की संख्या और वे कितने संतुलित हैं – केवल नियमों की कुल संख्या निर्दिष्ट की जा सकती है।

CART की व्याख्या और गति के साथ XGBoost-स्तर के प्रदर्शन को प्राप्त करना - बर्कले आर्टिफिशियल इंटेलिजेंस रिसर्च ब्लॉग cgitaik synthetic intelligence information AI

चित्र 3। सर्वाइकल स्पाइनल इंजरी के जोखिम की भविष्यवाणी के लिए FIGS द्वारा सीखा गया थोड़ा बड़ा मॉडल।

FIGS कितना अच्छा प्रदर्शन करता है?

कई मामलों में जब व्याख्यात्मकता वांछित होती है, जैसे कि नैदानिक-निर्णय-नियम मॉडलिंग, FIGS अत्याधुनिक प्रदर्शन हासिल करने में सक्षम है। उदाहरण के लिए, चित्र 4 विभिन्न डेटासेट दिखाता है जहाँ FIGS उत्कृष्ट प्रदर्शन प्राप्त करता है, विशेष रूप से जब बहुत कम कुल विभाजनों का उपयोग करने तक सीमित होता है।

CART की व्याख्या और गति के साथ XGBoost-स्तर के प्रदर्शन को प्राप्त करना - बर्कले आर्टिफिशियल इंटेलिजेंस रिसर्च ब्लॉग cgitaik synthetic intelligence information AI

चित्र 4। FIGS बहुत कम विभाजनों के साथ अच्छी भविष्यवाणी करता है।

FIGS अच्छा प्रदर्शन क्यों करता है?

FIGS इस अवलोकन से प्रेरित है कि एकल निर्णय वृक्षों में अक्सर विभाजन होते हैं जो विभिन्न शाखाओं में दोहराए जाते हैं, जो तब हो सकते हैं जब योजक संरचना डेटा में। कई पेड़ होने से एडिटिव घटकों को अलग-अलग पेड़ों में अलग करके इससे बचने में मदद मिलती है।

निष्कर्ष

कुल मिलाकर, व्याख्यात्मक मॉडलिंग सामान्य ब्लैक-बॉक्स मॉडलिंग के लिए एक विकल्प प्रदान करता है, और कई मामलों में प्रदर्शन में हानि के बिना दक्षता और पारदर्शिता के मामले में बड़े पैमाने पर सुधार की पेशकश कर सकता है।


यह पोस्ट दो पेपर्स पर आधारित है: अंजीर और जी-अंजीर – सभी कोड के माध्यम से उपलब्ध है आइमॉडल पैकेज. के साथ संयुक्त कार्य है केयन नासेरी, अभिनीत अग्रवाल, जेम्स डंकन, ओमर रोनेनऔर आरोन कोर्नब्लिथ.


Source link

Related Articles

Back to top button