एआई डेटा-विषाक्तता बिल्ली और चूहे का खेल – इस बार, आईटी जीतेगा

[ad_1]

हाल ही में आईटी समुदाय एआई डेटा विषाक्तता के बारे में चिंतित रहा है। कुछ लोगों के लिए, यह एक गुप्त तंत्र है जो डेटा बड़े भाषा मॉडल (एलएलएम) को गुप्त रूप से संक्रमित करके और फिर एंटरप्राइज़ सिस्टम में खींचकर एंटरप्राइज़ सिस्टम में पिछले दरवाजे के रूप में कार्य कर सकता है। दूसरों के लिए, यह एलएलएम से निपटने का एक तरीका है जो ट्रेडमार्क और कॉपीराइट सुरक्षा के इर्द-गिर्द घूमने की कोशिश करते हैं।

सीधे शब्दों में कहें तो, ये दोनों आशंकाएँ डेटा विषाक्तता के समान हैं, या तो 1) साइबर चोरों और साइबर आतंकवादियों के लिए एक हमला उपकरण है या 2) अपनी बौद्धिक संपदा की रक्षा करने की कोशिश कर रहे कलाकारों और उद्यमों द्वारा एक रक्षा उपकरण।

वास्तव में, एआई डेटा विषाक्तता किसी भी परिदृश्य में ज्यादा खतरा नहीं है – लेकिन आईटी लोग घबराना बहुत पसंद करते हैं।

यही रक्षा रणनीति है इन दिनों खूब ध्यान खींचा जा रहा हैशिकागो विश्वविद्यालय से फ्रीवेयर ऐप्स की एक जोड़ी डाउनलोड करने वाले लोगों को बुलाया गया नैटशाइड और शीशे का आवरण.

इस प्रकार के रक्षात्मक डेटा पॉइज़निंग ऐप्स एलएलएम प्रशिक्षण फ़ंक्शन को चकमा देने के लिए लक्षित फ़ाइल में हेरफेर करके काम करते हैं। नाइटशेड के साथ, यह आम तौर पर एक छवि के आसपास कोड में हेरफेर करता है। छवि कैक्टस (या कैक्टि, यदि आप मुझ पर सभी लैटिन प्राप्त करना चाहते हैं) के साथ एक रेगिस्तानी दृश्य हो सकती है, लेकिन लेबलिंग को यह कहने के लिए बदल दिया गया है कि यह लहरों वाला एक महासागर है। विचार यह है कि कोई एलएलएम से समुद्र की तस्वीरें मांगता है, तो संशोधित छवि दिखाई देगी। लेकिन क्योंकि यह स्पष्ट रूप से एक रेगिस्तानी दृश्य है, इसलिए इसे अस्वीकार कर दिया जाएगा।

ग्लेज़ छवि पर अधिक सीधे काम करता है, संक्षेप में इसे कम वांछनीय बनाने के लिए इसे धुंधला कर देता है। किसी भी तरह से, लक्ष्य यह कम संभावना बनाना है कि संरक्षित छवि का उपयोग एलएलएम के माध्यम से किया जाए।

यह तकनीक, हालांकि कल्पनाशील है, लंबे समय तक काम करने की संभावना नहीं है। ज्यादा समय नहीं लगेगा जब एलएलएम को सिखाया जाएगा कि इन रक्षात्मक तकनीकों को कैसे समझा जाए।

डेटा फर्म बिगआईडी के साइबर सुरक्षा रणनीतिकार जॉर्ज चेडज़ेमोव ने कहा, “अपने कार्यों की सुरक्षा के लिए, आपको अपने काम को नीचा दिखाना होगा।” “मैं शर्त लगाने जा रहा हूं कि अरबों डॉलर के सिस्टम और वर्कलोड वाली कंपनियों के इस बिल्ली-और-चूहे के खेल में प्रबल होने की अधिक संभावना है। लंबे समय में, मुझे नहीं लगता कि यह प्रभावी होने वाला है।”

आक्रामक तकनीक संभावित रूप से अधिक चिंताजनक है, लेकिन अल्पावधि में भी इसके प्रभावी होने की संभावना बहुत कम है।

आक्रामक तकनीक दो तरीकों में से एक में काम करती है। एक, यह उन साइटों और सामग्रियों के बारे में शिक्षित अनुमान लगाकर एक विशिष्ट कंपनी को लक्षित करने का प्रयास करता है जिनके साथ वे अपने एलएलएम को प्रशिक्षित करना चाहेंगे। इसके बाद हमलावर उस विशिष्ट कंपनी को नहीं, बल्कि उन कई स्थानों को निशाना बनाते हैं, जहां उसके प्रशिक्षण के लिए जाने की संभावना होती है। यदि लक्ष्य है, मान लीजिए कि नाइकी या एडिडास, तो हमलावर हाई-प्रोफाइल खेल टीमों के साथ विभिन्न विश्वविद्यालय के खेल विभागों में डेटाबेस को जहर देने की कोशिश कर सकते हैं। यदि लक्ष्य सिटी या चेज़ होता, तो बुरे लोग प्रमुख फेडरल रिजर्व साइटों पर डेटाबेस को लक्षित कर सकते थे।

समस्या यह है कि उस हमले की योजना के दोनों सिरों को आसानी से विफल किया जा सकता है। विश्वविद्यालय साइटें हेरफेर के प्रयासों का पता लगा सकती हैं और उन्हें अवरुद्ध कर सकती हैं। हमले को कार्यान्वित करने के लिए, सम्मिलित डेटा में संभवतः मैलवेयर निष्पादन योग्य शामिल होंगे, जिनका पता लगाना अपेक्षाकृत आसान है।

भले ही बुरे अभिनेताओं का लक्ष्य केवल लक्ष्य प्रणालियों में गलत डेटा डालना था – जो सिद्धांत रूप में, उनके विश्लेषण को त्रुटिपूर्ण बना देगा – अधिकांश एलएलएम प्रशिक्षण इतनी बड़ी संख्या में डेटासेट को अवशोषित करता है कि हमले के अच्छी तरह से काम करने की संभावना नहीं है।

“प्लांट किया गया कोड अंततः अत्यधिक पतला हो जाएगा। चेडज़ेमोव ने कहा, “दुर्भावनापूर्ण कोड की केवल थोड़ी मात्रा ही जीवित रहेगी।”

अन्य दुर्भावनापूर्ण एआई डेटा विषाक्तता रणनीति एक स्प्रे-और-प्रार्थना तंत्र के बराबर है। किसी विशिष्ट कंपनी को लक्षित करने के बजाय, बुरे कलाकार बड़ी संख्या में साइटों को दूषित करने का प्रयास करेंगे और उम्मीद करेंगे कि मैलवेयर किसी तरह चोरी करने के लिए आकर्षक डेटा वाली कंपनी तक पहुंच जाए।

चेडज़ेमोव ने कहा, “उन्हें हर जगह हजारों साइटों को दूषित करने की आवश्यकता होगी।” “और फिर उन्हें यह आशा करनी होगी कि एलएलएम मॉडल किसी तरह उनमें से किसी एक पर खरा उतरे।”

चेडज़ेमोव ने तर्क दिया कि एकमात्र व्यवहार्य दृष्टिकोण “एक अत्यंत गूढ़ क्षेत्र चुनना होगा जिसके लिए वहां बहुत अधिक सामान नहीं है, कुछ बहुत विशिष्ट है।”

टेक उद्योग इन प्रति-उपायों से काफी परिचित है और वे शायद ही कभी लंबे समय तक काम करते हैं। उन एंटीवायरस प्रोग्रामों पर विचार करें जिन्होंने परिभाषाएँ प्रकाशित कीं और फिर बुरे लोगों ने तकनीक बदल दी। फिर एवी खिलाड़ियों ने विशिष्ट परिभाषाओं के बजाय पैटर्न की तलाश की, इत्यादि। या खोज इंजन स्पाइडर और robot.txt स्क्रिप्ट के साथ उनकी लड़ाई के बारे में सोचें जिन्होंने उन्हें दूर जाने के लिए कहा था। या यूट्यूब बनाम विज्ञापन अवरोधक।

एलएलएम डेटा पॉइज़निंग एक ऐसी चीज़ है जिसके बारे में आईटी को जागरूक होने और इससे बचाव करने की आवश्यकता है। लेकिन इस प्रतियोगिता में, मुझे लगता है कि आईटी के लगभग सभी फायदे हैं। कितना ताज़गी भरा दुर्लभ.

कॉपीराइट © 2024 आईडीजी कम्युनिकेशंस, इंक.

[ad_2]

Source link

Leave a Comment