डिस्ट्रीब्यूशन शिफ्ट को रेगुलेट करके लर्निंग-बेस्ड कंट्रोल को सुरक्षित रखना – बर्कले आर्टिफिशियल इंटेलिजेंस रिसर्च ब्लॉग cgitaik synthetic intelligence information AI
सीखने-आधारित नियंत्रकों द्वारा वितरण बदलाव के अनुभव को विनियमित करने के लिए, हम एजेंट को उसके प्रक्षेपवक्र (बाएं) में उच्च डेटा घनत्व वाले क्षेत्रों में विवश करने के लिए एक तंत्र की तलाश करते हैं। यहां, हम एक दृष्टिकोण प्रस्तुत करते हैं जो घनत्व मॉडल (मध्य) और लायपुनोव कार्यों (दाएं) की विशेषताओं को जोड़कर इस लक्ष्य को प्राप्त करता है।
वास्तविक विश्व प्रणालियों को नियंत्रित करने में मशीन लर्निंग और रीइन्फोर्समेंट लर्निंग का उपयोग करने के लिए, हमें ऐसे एल्गोरिदम डिजाइन करने चाहिए जो न केवल अच्छा प्रदर्शन प्राप्त करें, बल्कि सुरक्षित और विश्वसनीय तरीके से सिस्टम के साथ इंटरैक्ट भी करें। सुरक्षा-महत्वपूर्ण नियंत्रण पर अधिकांश पूर्व कार्य सुरक्षा को बनाए रखने पर केंद्रित है भौतिक प्रणाली, उदाहरण के लिए टांगों वाले रोबोट के झांसे में आने से बचना, या स्वायत्त वाहनों के लिए बाधाओं से टकराना। हालांकि, सीखने-आधारित नियंत्रकों के लिए, सुरक्षा चिंता का एक अन्य स्रोत है: क्योंकि मशीन सीखने के मॉडल केवल प्रशिक्षण डेटा पर आउटपुट सही भविष्यवाणियों के लिए अनुकूलित होते हैं, वे आउट-ऑफ-डिस्ट्रीब्यूशन इनपुट पर मूल्यांकन करते समय गलत भविष्यवाणियों को आउटपुट करने के लिए प्रवण होते हैं। इस प्रकार, यदि कोई एजेंट किसी राज्य का दौरा करता है या कोई कार्रवाई करता है जो प्रशिक्षण डेटा में उन लोगों से बहुत अलग है, तो एक सीखने-सक्षम नियंत्रक अपने सीखे हुए घटक और आउटपुट क्रियाओं में अशुद्धियों का “शोषण” कर सकता है जो उप-इष्टतम या खतरनाक भी हैं।
मॉडल अशुद्धियों के इन संभावित “शोषणों” को रोकने के लिए, हम इसके संबंध में एक सीखने-आधारित नियंत्रक की सुरक्षा के बारे में तर्क देने के लिए एक नया ढांचा प्रस्तावित करते हैं। प्रशिक्षण वितरण. हमारे काम के पीछे केंद्रीय विचार प्रशिक्षण डेटा वितरण को एक सुरक्षा बाधा के रूप में देखना है, और बंद-लूप नियंत्रण के दौरान एजेंट द्वारा अनुभव किए गए वितरण बदलाव को नियंत्रित करने के लिए नियंत्रण सिद्धांत से उपकरणों को आकर्षित करना है। अधिक विशेष रूप से, हम चर्चा करेंगे कि कैसे Lyapunov स्थिरता को Lyapunov घनत्व मॉडल का उत्पादन करने के लिए घनत्व अनुमान के साथ एकीकृत किया जा सकता है, एक नए प्रकार की सुरक्षा “बाधा” फ़ंक्शन जिसका उपयोग उच्च डेटा घनत्व वाले क्षेत्रों में एजेंट को रखने की गारंटी के साथ नियंत्रकों को संश्लेषित करने के लिए किया जा सकता है। . अपने नए ढांचे को पेश करने से पहले, हम पहले बैरियर फ़ंक्शन के माध्यम से भौतिक सुरक्षा की गारंटी के लिए मौजूदा तकनीकों का अवलोकन करेंगे।
नियंत्रण सिद्धांत में, अध्ययन का एक केंद्रीय विषय है: दिया गया ज्ञात सिस्टम डायनामिक्स, $s_{t+1}=f(s_t, a_t)$, और ज्ञात सिस्टम की कमी, $ s in C $, हम एक नियंत्रक कैसे डिज़ाइन कर सकते हैं जो सिस्टम को निर्दिष्ट बाधाओं के भीतर रखने की गारंटी देता है? यहां, $C$ उन राज्यों के सेट को दर्शाता है जो एजेंट के आने-जाने के लिए सुरक्षित माने जाते हैं। यह समस्या चुनौतीपूर्ण है क्योंकि निर्दिष्ट बाधाओं को एजेंट के संपूर्ण प्रक्षेपवक्र क्षितिज ($s_t in C$ $forall 0leq t leq T$) पर संतुष्ट होने की आवश्यकता है। यदि नियंत्रक अगली बार चरण में बाधा उल्लंघन से बचने के लिए एक सरल “लालची” रणनीति का उपयोग करता है ($a_t$ नहीं लेना जिसके लिए $f(s_t, a_t) not C$), तो सिस्टम अभी भी “अपरिवर्तनीय” में समाप्त हो सकता है ” राज्य, जो स्वयं सुरक्षित माना जाता है, लेकिन एजेंट के भविष्य के कार्यों की परवाह किए बिना अनिवार्य रूप से भविष्य में एक असुरक्षित स्थिति की ओर ले जाएगा। इन “पुनर्प्राप्ति योग्य” राज्यों का दौरा करने से बचने के लिए, नियंत्रक को एक अधिक “दीर्घ-क्षितिज” रणनीति को नियोजित करना चाहिए जिसमें भविष्य में किसी भी बिंदु पर सुरक्षा उल्लंघनों से बचने के लिए एजेंट के पूरे भविष्य के प्रक्षेपवक्र की भविष्यवाणी करना शामिल है ($a_t$ से बचें जिसके लिए सभी संभव हैं) ${ a_{hat{t}} }_{hat{t}=t+1}^H$ कुछ $bar{t}$ की ओर ले जाता है जहाँ $s_{bar{t}} notin सी$ और $t
नियंत्रण सिद्धांतकारों ने प्रत्येक चरण पर नियंत्रक को विवश करने के लिए “बाधा” कार्यों, $v(s)$ को डिज़ाइन करके इस चुनौती से निपटते हैं (केवल $a_t$ की अनुमति दें जो $v(f(s_t, a_t)) leq 0$ को संतुष्ट करता है)। यह सुनिश्चित करने के लिए कि एजेंट अपने पूरे प्रक्षेपवक्र में सुरक्षित रहता है, बाधा कार्यों ($v(f(s_t, a_t))leq 0$) से प्रेरित बाधा एजेंट को असुरक्षित राज्यों और अपरिवर्तनीय राज्यों दोनों का दौरा करने से रोकती है जो अनिवार्य रूप से भविष्य में असुरक्षित राज्य यह रणनीति अनिवार्य रूप से सुरक्षा बाधा कार्य को डिजाइन करते समय अपरिहार्य विफलताओं के लिए भविष्य को देखने की गणना को परिशोधित करती है, जिसे केवल एक बार करने की आवश्यकता होती है और इसे ऑफ़लाइन गणना की जा सकती है। इस तरह, रनटाइम पर, भविष्य के सभी टाइमस्टेप्स के लिए सुरक्षा सुनिश्चित करने के लिए पॉलिसी को केवल बैरियर फ़ंक्शन $v(s)$ पर लालची बाधा संतुष्टि रणनीति को नियोजित करने की आवश्यकता होती है।
यहां, हमने विभिन्न प्रकार के कार्यों का वर्णन करने के लिए एक छत्र शब्द के रूप में “बाधा” फ़ंक्शन की धारणा का उपयोग किया है, जिनकी कार्यक्षमता लंबी-क्षितिज गारंटी बनाने के लिए नियंत्रक को बाधित करना है। कुछ विशिष्ट उदाहरणों में शामिल हैं लायपुनोव कार्यों को नियंत्रित करें स्थिरता की गारंटी के लिए, नियंत्रण बाधा कार्यों सामान्य सुरक्षा बाधाओं की गारंटी के लिए, और मूल्य समारोह में हैमिल्टन-जैकोबी रीचैबिलिटी बाहरी गड़बड़ी के तहत सामान्य सुरक्षा बाधाओं की गारंटी के लिए। हाल ही में भी हुआ है कुछ काम लर्निंग बैरियर फ़ंक्शंस पर, उन सेटिंग्स के लिए जहाँ सिस्टम अज्ञात है या जहाँ बैरियर फ़ंक्शंस को डिज़ाइन करना मुश्किल है। हालाँकि, पारंपरिक और सीखने-आधारित बाधा कार्यों दोनों में पूर्व कार्य मुख्य रूप से भौतिक सुरक्षा की गारंटी देने पर केंद्रित हैं। अगले खंड में, हम चर्चा करेंगे कि सीखने-आधारित नियंत्रक का उपयोग करते समय एजेंट द्वारा अनुभव किए गए वितरण बदलाव को विनियमित करने के लिए हम इन विचारों का विस्तार कैसे कर सकते हैं। डिस्ट्रीब्यूशन शिफ्ट के कारण मॉडल के शोषण को रोकने के लिए, कई सीखने-आधारित नियंत्रण एल्गोरिदम एजेंट को कम-संभावना वाले कार्यों को करने या कम संभावना वाले राज्यों में जाने से रोकने के लिए नियंत्रक को विवश या नियमित करते हैं, उदाहरण के लिए ऑफ़लाइन आरएल, मॉडल आधारित आरएलऔर नकल सीखना. हालाँकि, इनमें से अधिकांश विधियाँ केवल डेटा वितरण के एकल-चरण अनुमान के साथ नियंत्रक को विवश करती हैं, एक स्वायत्त ड्रोन को सुरक्षित रखने की “लालची” रणनीति के समान, जो क्रियाओं को रोककर इसे अगले समय में दुर्घटनाग्रस्त होने का कारण बनाती है। जैसा कि हमने ऊपर दिए गए उदाहरणों में देखा, यह रणनीति इस बात की गारंटी देने के लिए पर्याप्त नहीं है कि भविष्य के किसी अन्य समय में ड्रोन दुर्घटनाग्रस्त नहीं होगा (या वितरण से बाहर हो जाएगा)। हम एक नियंत्रक कैसे डिजाइन कर सकते हैं जिसके लिए एजेंट को अपने पूरे प्रक्षेपवक्र के लिए वितरण में रहने की गारंटी है? याद रखें कि भविष्य के सभी टाइमस्टेप्स के लिए बाधा संतुष्टि की गारंटी के लिए बैरियर फ़ंक्शंस का उपयोग किया जा सकता है, जो डेटा वितरण के संबंध में हम उम्मीद करते हैं कि ठीक उसी तरह की गारंटी है। इस अवलोकन के आधार पर, हम एक नए प्रकार के बैरियर फ़ंक्शन का प्रस्ताव करते हैं: लायपुनोव घनत्व मॉडल (एलडीएम), जो एक घनत्व मॉडल के डेटा-जागरूक पहलू के साथ लायपुनोव फ़ंक्शन के गतिशीलता-जागरूक पहलू को मिलाता है (यह वास्तव में एक सामान्यीकरण है) दोनों प्रकार के कार्य)। Lyapunov कैसे कार्य करता है, इसके अनुरूप सिस्टम को शारीरिक रूप से असुरक्षित होने से बचाता है, हमारा Lyapunov घनत्व मॉडल सिस्टम को वितरण से बाहर जाने से रोकता है। एक LDM ($G(s, a)$) नकारात्मक लॉग घनत्वों के लिए स्थिति और क्रिया जोड़े को मैप करता है, जहां $G(s, a)$ के मान सर्वोत्तम डेटा घनत्व का प्रतिनिधित्व करते हैं, एजेंट अपने प्रक्षेपवक्र के दौरान ऊपर रहने में सक्षम है। यह हो सकता है…
एक ड्रोन का उदाहरण उदाहरण जिसका लक्ष्य बाधाओं से बचते हुए यथासंभव सीधी उड़ान भरना है। सुरक्षा उल्लंघनों (बाएं) से बचने की “लालची” रणनीति का उपयोग करते हुए, ड्रोन सीधे उड़ता है क्योंकि अगले समय के चरण में कोई बाधा नहीं है, लेकिन भविष्य में अनिवार्य रूप से दुर्घटनाग्रस्त हो जाता है क्योंकि यह समय पर मुड़ नहीं सकता। इसके विपरीत, “दीर्घ-क्षितिज” रणनीति (दाएं) का उपयोग करते हुए, ड्रोन अपने प्रक्षेपवक्र के पूरे भविष्य के क्षितिज भविष्य पर विचार करके, जल्दी और सफलतापूर्वक पेड़ से बचता है।
नीला क्षेत्र बैरियर फ़ंक्शन बाधा, $ द्वारा अनुमत राज्यों को दर्शाता है v(s) leq 0$. “लॉन्ग-होराइजन” बैरियर फंक्शन का उपयोग करते हुए, ड्रोन को केवल यह सुनिश्चित करने की आवश्यकता है कि बैरियर फंक्शन बाधा $v(s) leq 0$ अगले राज्य के लिए संतुष्ट है, ताकि भविष्य के सभी टाइमस्टेप्स के लिए सुरक्षा उल्लंघनों से बचा जा सके।
Source link