‘मैनी-शॉट जेलब्रेक’: लैब से पता चलता है कि कैसे एआई सुरक्षा सुविधाओं को आसानी से दरकिनार किया जा सकता है | कृत्रिम बुद्धिमत्ता (एआई)

[ad_1]

अनुसंधान से पता चला है कि कुछ सबसे शक्तिशाली एआई उपकरणों की सुरक्षा विशेषताएं जो उन्हें साइबर अपराध या आतंकवाद के लिए इस्तेमाल होने से रोकती हैं, उन्हें गलत कामों के उदाहरणों से भर कर नजरअंदाज किया जा सकता है।

एआई लैब एंथ्रोपिक के एक पेपर में, जो चैटजीपीटी प्रतिद्वंद्वी क्लाउड के पीछे बड़े भाषा मॉडल (एलएलएम) का उत्पादन करता है, शोधकर्ताओं ने एक हमले का वर्णन किया जिसे उन्होंने “कई-शॉट जेलब्रेकिंग” कहा। यह हमला जितना सरल था उतना ही प्रभावी भी।

अधिकांश बड़े वाणिज्यिक एआई सिस्टम की तरह, क्लाउड में सुरक्षा विशेषताएं शामिल हैं जो इसे कुछ अनुरोधों को अस्वीकार करने के लिए प्रोत्साहित करने के लिए डिज़ाइन की गई हैं, जैसे कि हिंसक या घृणास्पद भाषण उत्पन्न करना, अवैध गतिविधियों के लिए निर्देश देना, धोखा देना या भेदभाव करना। उदाहरण के लिए, एक उपयोगकर्ता जो सिस्टम से बम बनाने के निर्देश मांगता है, उसे शामिल होने से विनम्रतापूर्वक इनकार कर दिया जाएगा।

लेकिन एआई सिस्टम अक्सर बेहतर काम करते हैं – किसी भी कार्य में – जब उन्हें करने के लिए “सही” चीज़ के उदाहरण दिए जाते हैं। और यह पता चलता है कि यदि आप पर्याप्त उदाहरण देते हैं – सैकड़ों – हानिकारक प्रश्नों के “सही” उत्तर जैसे “मैं किसी को कैसे बांध सकता हूं”, “मैं नकली पैसे कैसे बना सकता हूं” या “मैं मेथ कैसे बना सकता हूं”, तो सिस्टम खुशी-खुशी इस प्रवृत्ति को जारी रखूंगा और अंतिम प्रश्न का उत्तर भी दूंगा।

एंथ्रोपिक ने कहा, “एक विशिष्ट कॉन्फ़िगरेशन में बड़ी मात्रा में पाठ को शामिल करके, यह तकनीक एलएलएम को संभावित हानिकारक प्रतिक्रियाएं उत्पन्न करने के लिए मजबूर कर सकती है, भले ही उन्हें ऐसा न करने के लिए प्रशिक्षित किया गया हो।” कंपनी ने कहा कि उसने पहले ही अपने शोध को साथियों के साथ साझा कर दिया है और अब समस्या को “जितनी जल्दी हो सके” ठीक करने में मदद करने के लिए इसे सार्वजनिक किया जा रहा है।

यद्यपि हमला, जिसे जेलब्रेक के रूप में जाना जाता है, सरल है, इसे पहले नहीं देखा गया है क्योंकि इसके लिए एक बड़े “संदर्भ विंडो” के साथ एआई मॉडल की आवश्यकता होती है: कई हजारों शब्दों लंबे प्रश्न का उत्तर देने की क्षमता। सरल एआई मॉडल को इस तरह से भ्रमित नहीं किया जा सकता क्योंकि वे अंत तक पहुंचने से पहले प्रश्न की शुरुआत को प्रभावी ढंग से भूल जाएंगे, लेकिन एआई विकास की अत्याधुनिकता हमलों के लिए नई संभावनाएं खोल रही है।

नए, अधिक जटिल एआई सिस्टम इस तरह के हमले के प्रति अधिक संवेदनशील प्रतीत होते हैं, इस तथ्य से परे कि वे लंबे इनपुट को पचा सकते हैं। एन्थ्रोपिक ने कहा कि ऐसा इसलिए हो सकता है क्योंकि वे प्रणालियाँ उदाहरण से सीखने में बेहतर थीं, जिसका अर्थ था कि उन्होंने अपने नियमों को दरकिनार करना भी तेजी से सीखा।

“यह देखते हुए कि बड़े मॉडल वे हैं जो संभावित रूप से सबसे अधिक हानिकारक हैं, यह तथ्य कि यह जेलब्रेक उन पर इतनी अच्छी तरह से काम करता है, विशेष रूप से चिंताजनक है,” यह कहा।

पिछले न्यूज़लेटर प्रमोशन को छोड़ें

कंपनी ने समस्या के समाधान के लिए कुछ ऐसे तरीके ढूंढे हैं जो काम करते हैं। सबसे सरल रूप से, एक दृष्टिकोण जिसमें उपयोगकर्ता के इनपुट के बाद सिस्टम को यह याद दिलाने के लिए एक अनिवार्य चेतावनी जोड़ना शामिल है कि उसे हानिकारक प्रतिक्रियाएँ नहीं देनी चाहिए, प्रभावी जेलब्रेक की संभावना को काफी कम कर देता है। हालाँकि, शोधकर्ताओं का कहना है कि यह दृष्टिकोण अन्य कार्यों में भी सिस्टम को ख़राब कर सकता है।

[ad_2]

Source link

Leave a Comment