प्रथम-सिद्धांत आर्किटेक्चर डिजाइन की ओर – बर्कले आर्टिफिशियल इंटेलिजेंस रिसर्च ब्लॉग cgitaik synthetic intelligence information AI


डीप न्यूरल नेटवर्क ने आवाज की पहचान से लेकर मशीन ट्रांजिशन से लेकर प्रोटीन इंजीनियरिंग तक के तकनीकी चमत्कारों को सक्षम किया है, लेकिन फिर भी उनका डिजाइन और अनुप्रयोग कुख्यात है। इस प्रक्रिया को निर्देशित करने के लिए उपकरणों और विधियों का विकास गहन शिक्षण सिद्धांत की भव्य चुनौतियों में से एक है। में रिवर्स इंजीनियरिंग तंत्रिका स्पर्शरेखा कर्नेल, हम हालिया सैद्धांतिक सफलताओं का उपयोग करके वास्तुकला डिजाइन की कला के लिए कुछ सिद्धांत लाने के लिए एक प्रतिमान प्रस्तावित करते हैं: पहले एक अच्छा कर्नेल फ़ंक्शन डिज़ाइन करें – अक्सर एक बहुत आसान कार्य – और फिर “रिवर्स-इंजीनियर” एक नेट-कर्नेल समकक्ष चुने गए कर्नेल का अनुवाद करने के लिए एक तंत्रिका नेटवर्क में। हमारा मुख्य सैद्धांतिक परिणाम पहले सिद्धांतों से सक्रियण कार्यों के डिजाइन को सक्षम करता है, और हम इसका उपयोग एक सक्रियण फ़ंक्शन बनाने के लिए करते हैं जो केवल एक छिपी हुई परत के साथ गहरे (textrm{ReLU}) नेटवर्क प्रदर्शन की नकल करता है और दूसरा जो ध्वनि से गहरा बेहतर प्रदर्शन करता है ( textrm{ReLU}) सिंथेटिक कार्य पर नेटवर्क।

नेटवर्क से कर्नेल तक और फिर से वापस

इस नेट-कर्नेल पत्राचार की खोज करने वाले मूल कार्यों ने जाने के सूत्र दिए वास्तुकला को कर्नेल: एक आर्किटेक्चर (जैसे गहराई और सक्रियण फ़ंक्शन) का विवरण दिया गया है, वे आपको नेटवर्क के दो गुठली देते हैं। इसने रुचि के विभिन्न आर्किटेक्चर के अनुकूलन और सामान्यीकरण में महान अंतर्दृष्टि की अनुमति दी है। हालाँकि, यदि हमारा लक्ष्य केवल मौजूदा आर्किटेक्चर को समझना नहीं है, बल्कि डिजाइन करना है नया वाले, तो हम विपरीत दिशा में मैपिंग कर सकते हैं: a दिया गया है कर्नेल हम चाहते हैं, क्या हम एक खोज सकते हैं वास्तुकला यह हमें देता है? इस काम में, हम पूरी तरह से जुड़े नेटवर्क (एफसीएन) के लिए इस उलटा मैपिंग को प्राप्त करते हैं, जिससे हमें (ए) एक वांछित कर्नेल को प्रस्तुत करके और (बी) एक सक्रियण फ़ंक्शन को डिजाइन करके एक सैद्धांतिक तरीके से सरल नेटवर्क डिजाइन करने की अनुमति मिलती है।

यह देखने के लिए कि यह क्यों समझ में आता है, आइए पहले एक NTK की कल्पना करें। दो इनपुट सदिशों (x_1) और (x_2) पर विस्तृत FCN के NTK (Okay(x_1,x_2)) पर विचार करें (जिसे हम सरलता के लिए समान लंबाई के लिए सामान्यीकृत मानते हैं)। FCN के लिए, यह कर्नेल है रोटेशन-इनवेरिएंट इस अर्थ में कि (Okay(x_1,x_2) = Okay(c)), जहां (c) इनपुट के बीच के कोण का कोसाइन है। चूँकि (Okay(c)) एक अदिश तर्क का एक अदिश फलन है, हम बस इसे प्लॉट कर सकते हैं। चित्र 2 चार-छिपी परत (4HL) (textrm{ReLU}) FCN का NTK दिखाता है।

प्रथम-सिद्धांत आर्किटेक्चर डिजाइन की ओर - बर्कले आर्टिफिशियल इंटेलिजेंस रिसर्च ब्लॉग cgitaik synthetic intelligence information AI


अंक 2। दो इनपुट वैक्टर $x_1$ और $x_2$ के बीच कोज्या के एक समारोह के रूप में एक 4HL $textrm{ReLU}$ FCN का NTK।

इस प्लॉट में वास्तव में संबंधित विस्तृत नेटवर्क के सीखने के व्यवहार के बारे में बहुत सारी जानकारी है! मोनोटोनिक वृद्धि का मतलब है कि यह कर्नेल निकट बिंदुओं से अधिक सहसंबद्ध फ़ंक्शन मानों की अपेक्षा करता है। अंत में तेज वृद्धि हमें बताती है कि सहसंबंध की लंबाई बहुत बड़ी नहीं है, और यह जटिल कार्यों में फिट हो सकती है। (c=1) पर डायवर्जिंग डेरिवेटिव हमें उस फंक्शन की चिकनाई के बारे में बताता है जिसकी हम उम्मीद करते हैं। महत्वपूर्ण रूप से, इनमें से कोई भी तथ्य (textrm{ReLU}(z)) के प्लॉट को देखने से स्पष्ट नहीं है! हम दावा करते हैं कि, यदि हम सक्रियण फ़ंक्शन (phi) को चुनने के प्रभाव को समझना चाहते हैं, तो परिणामी NTK वास्तव में (phi) से अधिक जानकारीपूर्ण है। इस प्रकार यह शायद “कर्नेल स्पेस” में आर्किटेक्चर को डिजाइन करने की कोशिश करने के लिए समझ में आता है, फिर उन्हें विशिष्ट हाइपरपरमेटर्स में अनुवाद करें।

हर कर्नेल के लिए एक सक्रियण कार्य

हमारा मुख्य परिणाम एक “रिवर्स इंजीनियरिंग प्रमेय” है जो निम्नलिखित बताता है:

थ्म 1: किसी भी कर्नेल $Okay(c)$ के लिए, हम एक सक्रियण फ़ंक्शन $tilde{phi}$ का निर्माण कर सकते हैं, जैसे कि, जब एक में डाला जाता है एकल-छिपी-परत FCN, इसका अनंत-चौड़ाई वाला NTK या NNGP कर्नेल $Okay(c)$ है।

हम हर्मिट बहुपदों के संदर्भ में ( tilde { phi} ) के लिए एक स्पष्ट सूत्र देते हैं (हालांकि हम प्रशिक्षण के कारणों के लिए अभ्यास में एक अलग कार्यात्मक रूप का उपयोग करते हैं)। इस परिणाम का हमारा प्रस्तावित उपयोग यह है कि, कुछ ज्ञात संरचना के साथ समस्याओं में, कभी-कभी एक अच्छे कर्नेल को लिखना और इसे एक प्रशिक्षित नेटवर्क में रिवर्स-इंजीनियर करना संभव होगा, शुद्ध कर्नेल प्रतिगमन पर विभिन्न लाभों के साथ, जैसे कम्प्यूटेशनल दक्षता और सुविधाओं को सीखने की क्षमता। अवधारणा के प्रमाण के रूप में, हम इस विचार का सिंथेटिक पर परीक्षण करते हैं समानता की समस्या (यानी, एक बिटस्ट्रिंग दिया गया है, योग विषम या सम है?), तुरंत एक सक्रियण फ़ंक्शन उत्पन्न करता है जो नाटकीय रूप से कार्य पर (textual content{ReLU}) से बेहतर प्रदर्शन करता है।

आपको केवल एक छिपी हुई परत की आवश्यकता है?

यहाँ हमारे परिणाम का एक और आश्चर्यजनक उपयोग है। उपरोक्त कर्नेल वक्र 4HL (textrm{ReLU}) FCN के लिए है, लेकिन मैंने दावा किया कि हम किसी भी कर्नेल को प्राप्त कर सकते हैं, जिसमें वह भी शामिल है, केवल एक छिपी हुई परत के साथ। इसका तात्पर्य है कि हम कुछ नए सक्रियण फ़ंक्शन (tilde{phi}) के साथ आ सकते हैं जो इस “डीप” NTK को एक में देता है उथला नेटवर्क! चित्र 3 इस प्रयोग को दिखाता है।

प्रथम-सिद्धांत आर्किटेक्चर डिजाइन की ओर - बर्कले आर्टिफिशियल इंटेलिजेंस रिसर्च ब्लॉग cgitaik synthetic intelligence information AI


चित्र 3। इंजीनियर्ड एक्टिवेशन फंक्शन $tilde{phi}$ के साथ एक गहरे $textrm{ReLU}$ FCN का 1HL FCN में उथलाकरण।

आश्चर्यजनक रूप से, यह “उथलापन” वास्तव में काम करता है। नीचे दिए गए चित्र 4 का बायां सबप्लॉट एक “मिमिक” एक्टिवेशन फंक्शन (tilde{phi}) दिखाता है जो डीप (textrm{ReLU}) FCN के समान एनटीके देता है। फिर सही प्लॉट यूसीआई डेटासेट से एक मानक सारणीबद्ध समस्या पर तीन एफसीएन के लिए ट्रेन + टेस्ट लॉस + सटीकता के निशान दिखाते हैं। ध्यान दें कि, जबकि उथले और गहरे ReLU नेटवर्क में बहुत भिन्न व्यवहार होते हैं, हमारे इंजीनियर्ड शैलो मिमिक नेटवर्क गहरे नेटवर्क को लगभग सटीक रूप से ट्रैक करते हैं!

प्रथम-सिद्धांत आर्किटेक्चर डिजाइन की ओर - बर्कले आर्टिफिशियल इंटेलिजेंस रिसर्च ब्लॉग cgitaik synthetic intelligence information AI


चित्र 4। बायां पैनल: हमारा इंजीनियर्ड “मिमिक” एक्टिवेशन फंक्शन, तुलना के लिए ReLU के साथ प्लॉट किया गया। दायां पैनल: 1HL ReLU, 4HL ReLU, और 1HL मिमिक FCNs के लिए UCI डेटासेट पर प्रशिक्षित प्रदर्शन ट्रेस। 4HL ReLU और 1HL मिमिक नेटवर्क के बीच करीबी मैच पर ध्यान दें।

यह इंजीनियरिंग के दृष्टिकोण से दिलचस्प है क्योंकि समान प्रदर्शन प्राप्त करने के लिए उथला नेटवर्क गहरे नेटवर्क की तुलना में कम मापदंडों का उपयोग करता है। यह सैद्धांतिक दृष्टिकोण से भी दिलचस्प है क्योंकि यह गहराई के मूल्य के बारे में मूलभूत प्रश्न उठाता है। एक आम धारणा गहरी शिक्षा की मान्यता है कि गहरा न केवल बेहतर है बल्कि गुणात्मक रूप से भिन्न: वह गहरा नेटवर्क कुशलता से उन कार्यों को सीखेगा जो उथले नेटवर्क नहीं कर सकते। हमारे उथल-पुथल के नतीजे बताते हैं कि, कम से कम एफसीएन के लिए, यह सच नहीं है: अगर हम जानते हैं कि हम क्या कर रहे हैं, तो गहराई हमें कुछ नहीं खरीदती है।

निष्कर्ष

यह काम बहुत सी चेतावनियों के साथ आता है। सबसे बड़ी बात यह है कि हमारा परिणाम केवल एफसीएन पर लागू होता है, जो शायद ही कभी अत्याधुनिक होते हैं। हालाँकि, कन्वेन्शनल NTKs पर काम है तेजी से प्रगति कर रहा हैऔर हम मानते हैं कि कर्नेल डिजाइन करके नेटवर्क डिजाइन करने का यह प्रतिमान किसी न किसी रूप में इन संरचित आर्किटेक्चर के विस्तार के लिए परिपक्व है।

सैद्धांतिक कार्य ने अब तक व्यावहारिक गहन शिक्षण सिद्धांतकारों के लिए अपेक्षाकृत कुछ उपकरण प्रस्तुत किए हैं। हम चाहते हैं कि यह उस दिशा में एक मामूली कदम हो। यहां तक ​​​​कि उनके डिजाइन को निर्देशित करने के लिए विज्ञान के बिना, तंत्रिका नेटवर्क पहले ही चमत्कार कर चुके हैं। जरा सोचिए हम क्या कर पाएंगे…


Source link

Related Articles

Back to top button