एलएलएम, विश्व मॉडलों के लिए जगह बनाएं

[ad_1]

एआई इलुमिनाटी के बीच एक बड़ा सवाल घूम रहा है: क्या एलएलएम सामान्य बुद्धिमत्ता के लिए आगे का रास्ता है जैसा कि ओपनएआई, एंथ्रोपिक और अन्य आशा करते हैं? एक साल पहले, उत्तर उत्साहपूर्ण “हाँ!” था। लेकिन स्थिति बदल सकती है क्योंकि हम बड़े भाषा मॉडल (एलएलएम) सीमाओं का परीक्षण करते हैं और पाते हैं कि कुछ बड़ी समस्याओं का कोई समाधान नहीं हो सकता है। उदाहरण के लिए, यह शोध पत्र एलएलएम की संज्ञानात्मक सीमाओं का परीक्षण करता है। यह पाया गया कि उनकी पहेली-सुलझाने की क्षमता शब्द क्रम में छोटे बदलावों के साथ नाटकीय रूप से भिन्न होती है। यह मुझे बताता है कि भले ही रोशनी दिखाई देती है, लेकिन आज के मॉडल बनाने वाले न्यूरॉन्स की घनी परतों में वास्तव में कोई भी नहीं रहता है। इस में OpenAI को पत्र, स्टार्टअप VERSES सैम अल्टमैन से पूछता है कि क्या सामान्य बुद्धि प्राप्त करने के लिए एलएलएम सही दृष्टिकोण है। सैम ने स्वीकार किया, “हमें एक और सफलता की जरूरत है।”

एलएलएम की सीमाएँ स्पष्ट होती जा रही हैं

एलएलएम जानकारी को संश्लेषित कर सकते हैं और ज्ञान को लगभग जादू की तरह पुनर्जीवित कर सकते हैं, लेकिन सवाल यह है: क्या वे उचित हैं चतुर हंस, गणना करने वाला घोड़ा? या क्या उनमें कोई वास्तविक समझ है? क्या वे शुद्धता में अंतर कर सकते हैं या समय, योजना और कारण को समझ सकते हैं? निश्चित रूप से, कोई भी उपयोगी AI इनमें से कुछ चीजें करने में सक्षम होना चाहिए। हम कभी भी उन पर पूरा भरोसा नहीं करेंगे कि वे हमारे लिए अन्यथा कार्य करेंगे।

मैं देखता हूं कि कंपनियां इन सीमाओं को पार करने के लिए संघर्ष कर रही हैं, जटिल पुनर्प्राप्ति-संवर्धित पीढ़ी प्रणालियों और शासन नियंत्रणों का निर्माण कर रही हैं या चेन-ऑफ-थॉट प्रॉम्प्ट ट्रिक्स के साथ प्रयोग कर रही हैं। लेकिन यह एक अजीब खेल है। मुझे पूछना चाहिए, क्या हम बस बहुत अधिक उम्मीद कर रहे हैं, खासकर उन उपयोग के मामलों के लिए जहां सटीकता, परिशुद्धता और रिकॉल सर्वोपरि हैं? उदाहरण के लिए:

  • एलएलएम को धोखा दिया जा सकता है और तोड़ा जा सकता है, और इसके समाधान की कोई गारंटी नहीं है। जेल तोड़ने वाले हमले एलएलएम के लिए एक बड़ा मुद्दा है, और यह एंथ्रोपिक के शोध अध्ययन से पता चलता है कि एलएलएम को भ्रामक होने के लिए प्रशिक्षित किया जा सकता है. एक बार प्रशिक्षित होने के बाद, धोखे का पता लगाना और मॉडलों से उसे हटाना बेहद कठिन हो सकता है। विशेषज्ञ आपको बताएंगे कि एलएलएम को इस प्रकार के मुद्दों से पूरी तरह से बचाने के लिए कोई ज्ञात समाधान नहीं हैं। जितने अधिक नियंत्रण स्थापित किए जाएंगे, हैकर उतने ही अधिक होशियार होंगे – और हैकर मदद के लिए अपने स्वयं के एलएलएम का उपयोग कर रहे हैं!
  • एलएलएम पुनः प्रशिक्षित होने पर भयावह रूप से चीजें भूल जाते हैं। हम सभी समझते हैं कि एलएलएम का ज्ञान समय में तय होता है। लेकिन क्या आप जानते हैं कि पुनः प्रशिक्षण से वे वह भूल सकते हैं जो वे पहले जानते थे? उनमें तुलना करने की क्षमता नहीं है कि वे अतीत में क्या जानते थे और आज क्या सच है। मनुष्य स्वाभाविक रूप से ऐसा करते हैं, लेकिन एलएलएम ऐसा नहीं कर सकते।
  • एलएलएम में समय की किसी वास्तविक अवधारणा का अभाव है। जब मैंने जीपीटी-4 से पूछा कि क्या वह समय को समझता है, तो उसने कहा, “एक एआई के रूप में, इसकी अवधारणा के बारे में मेरी समझ समय यह मानव की तरह अनुभवात्मक या सहज ज्ञान युक्त नहीं है, बल्कि तकनीकी है और उस जानकारी पर आधारित है जिस पर मुझे प्रशिक्षित किया गया है।” व्यावहारिक रूप से, यदि कोई एलएलएम 2000 के दस्तावेज़ से एक तथ्य और 2023 के दस्तावेज़ में एक विरोधी तथ्य सीखता है, तो एलएलएम अंतर करने या कोई निष्कर्ष निकालने में सक्षम नहीं होगा।

इन और अधिक मुद्दों को हल किए बिना, एलएलएम अधिक सामान्य एजेंटों के वादे को पूरा नहीं कर सकते हैं। उद्योग को उम्मीद है कि कई सीमाएं पार की जा सकती हैं, लेकिन सवाल बरकरार है – क्या यह पर्याप्त होगा? या फिर कोई नया दृष्टिकोण चुनौती का सामना करेगा?

विश्व मॉडल उभरते और महत्वपूर्ण हैं

एआई अनुसंधान की सीमा पर एक संभावित विशाल विकास मौजूद है: विश्व मॉडल। तकनीकी रूप से, एक विश्व मॉडल अवलोकन और भविष्यवाणी के माध्यम से सीखने के लिए एक तंत्रिका नेटवर्क वास्तुकला है। लेकिन इसे पूर्वानुमानित विश्लेषण के साथ भ्रमित न करें। विश्व मॉडलों की महत्वाकांक्षा मानव अवलोकन, सीखने, तर्क, योजना और अभिनय … दूसरे शब्दों में, सोच से कम नहीं है। जो लोग साहित्य पढ़ना पसंद करते हैं, उनके लिए सबसे पहले विश्व मॉडलों का नाम लिया गया 2018 में डेविड हा का यह शोध पत्र. मेटा से यान लेकुन विश्व मॉडलों पर आधारित संपूर्ण संज्ञानात्मक वास्तुकला पर काम करने वाले सबसे प्रमुख एआई शोधकर्ता हैं। यदि इससे आपकी रुचि बढ़ती है, तो मैं पेपर पढ़ने का सुझाव देता हूं, “स्वायत्त मशीन इंटेलिजेंस की ओर एक पथ।” यहां कुछ हाईलाइट्स हैं:

  • विश्व मॉडल भविष्यवाणी और अवलोकन से सीखेंगे। “दुनिया पर चेतन वस्तुओं के प्रभाव (…) का उपयोग कारण-और-प्रभाव संबंधों को निकालने के लिए किया जा सकता है, जिसके शीर्ष पर भाषाई और सामाजिक ज्ञान प्राप्त किया जा सकता है।” यान एक ऐसा मॉडल बनाने की इच्छा रखता है जो यह देख और सीख सके कि दुनिया जेनरेटिव नहीं, बल्कि पूर्वानुमानित एल्गोरिदम का उपयोग करके कैसे काम करती है। उनका यह भी मानना ​​है कि ऐसे मॉडल भाषा और सामाजिक ज्ञान का आधार सीख सकते हैं। उन्हें वैज्ञानिक ज्ञान का अनुमान लगाने में भी सक्षम होना चाहिए जिसमें अंतरिक्ष और समय के बारे में अवधारणाएं शामिल हैं। यदि आप उस तर्क का पालन करते हैं, तो विश्व मॉडल किसी दिन एलएलएम की जगह ले सकते हैं, लेकिन वे अपनी समान सीमाओं से ग्रस्त नहीं होंगे। हालाँकि, उनकी अपनी सीमाएँ भी होने की संभावना है – हम अभी तक नहीं जानते हैं कि वे क्या हैं।
  • विश्व मॉडल प्रतिक्रिया और तर्कसंगत योजना दोनों में सक्षम होंगे। यान दोनों का प्रस्ताव करता है 1) सीखी हुई प्रतिक्रियाएँ, जैसे गेंद को सजगता से पकड़ना या 2) किसी समस्या पर तर्क करना, जैसे गेंद को बाड़ के पार कैसे ले जाना है। उनका मानना ​​है कि ऐसे एजेंट अलग-अलग नियोजन क्षितिजों में सीख सकते हैं और अमूर्त रूप से सोच सकते हैं – उदाहरण के लिए, न केवल यह सीखना कि आप बाड़ पर गेंद कैसे फेंकते हैं बल्कि यह भी सीखते हैं कि अधिक कुशल ऊर्जा उत्पादन संयंत्र कैसे डिजाइन किया जाए या अपने बच्चों को कॉलेज कैसे भेजा जाए।
  • विश्व मॉडल अनिश्चितता से निपट सकते हैं। एआई सुरक्षा अनुसंधान में अनिश्चितता एक बड़ी बात है। बड़ा मुद्दा यह है कि एक एआई सिस्टम को कैसे नियंत्रित किया जाए जो 100% निश्चित है कि वह जानता है कि आप क्या चाहते हैं और वह सब कुछ जिसकी आपको परवाह है। उसमें कितनी भी चीजें गलत हो सकती हैं। यान विश्व मॉडल के लिए एक वास्तुकला का प्रस्ताव करता है जो संभावित परिणामों की भविष्यवाणी करता है लेकिन अनिश्चितता के साथ कार्य करता है। वह व्यवहार को निर्देशित करने के लिए ऊर्जा स्कोर और आंतरिक सिद्धांतों के एक सेट का उपयोग करके विभिन्न संभावित कार्यों की लागत की गणना करने का प्रस्ताव करता है। यह स्टुअर्ट रसेल की पुस्तक से भिन्न नहीं है, “मानव संगत।”

विश्व मॉडलों में प्रतिस्पर्धा होगी, लेकिन वे समझने लायक हैं

विश्व मॉडल जैसे-जैसे आगे बढ़ते हैं, उनके प्रतिस्पर्धी होते हैं। मुझे लगता है कि मैंने शुरुआत में भौतिक स्वचालन के लिए जो देखा उनमें वे सबसे अधिक आशाजनक हैं। अंततः, वे विज्ञान पर आधारित दुनिया की भौतिक समझ की आवश्यकता वाले लगभग किसी भी कार्य के लिए सामान्य एजेंट के रूप में काम कर सकते हैं। यान ने अपने पेपर में कहा है, “तर्कसंगत रूप से, विश्व मॉडल के लिए आर्किटेक्चर और प्रशिक्षण प्रतिमान डिजाइन करना अगले दशकों में एआई में वास्तविक प्रगति की दिशा में मुख्य बाधाएं हैं।” आज, विश्व मॉडलों में कई अज्ञात हैं, लेकिन प्रस्ताव आशाजनक है।

जब आप उनके सिद्धांत और वास्तुकला का अध्ययन करते हैं, तो विश्व मॉडल समझ में आते हैं। और ऐसा अध्ययन दर्शाता है कि एलएलएम वास्तव में कितने सीमित हैं। आज, एलएलएम का उपयोग उस चीज़ के लिए करें जिसमें वे अच्छे हैं। हालाँकि, यह मानते हुए कि वे हमेशा के लिए उत्तर हैं, उनके चारों ओर महंगे ढेर बनाते समय सावधान रहें। किसी भी उभरते प्रौद्योगिकी बाजार की तरह, व्यवधान जल्दी होता है। भारी निवेश वाले शुरुआती इनोवेटर्स को कैच-अप खेलने के लिए छोड़ा जा सकता है क्योंकि बाजार किसी अन्य दिशा या मानक में आगे बढ़ता है। एलएलएम आज पहेली का एक हिस्सा है लेकिन कल मॉडलों की नई पीढ़ी के साथ रहने की संभावना है। भाषा एक भूमिका निभाएगी, लेकिन यह संपूर्ण सामान्य बुद्धि नहीं है।

[ad_2]

Source link

Leave a Comment