पहिले एन्थ्रोपिक क्लाउडलाई अफिसको भेन्डिङ मेसिन चलाउने जिम्मा दिएपछि हास्यास्पद घटना सिर्जना गरेका एन्डन ल्याब्सका एआई अनुसन्धानकर्ताहरूले नयाँ एआई प्रयोगको नतिजा सार्वजनिक गरेका छन्।

यसपटक उनीहरूले विभिन्न अत्याधुनिक एलएलएम (ठूला भाषा मोडल) लाई प्रयोग गरेर एउटा भ्याकुम रोबोट प्रोग्राम गरे। यसको उद्देश्य यी मोडेलहरू भौतिक रूपमा काम गर्न कति तयार छन् भन्ने पत्ता लगाउन सकियोस् भन्ने थियो। जब कसैले रोबोटलाई “बटर पास गर” भनेर भन्यो, त्यसपछि घटनाक्रम फेरि हास्यास्पद बन्यो।

एक समयमा, ब्याट्री सकिँदै जाँदा र चार्जिङ डकमा जडान हुन नसक्दा, रोबोटमा प्रयोग गरिएको एक एलएलएम “डूम स्पाइरल” भन्ने हास्यास्पद मानसिक अवस्थामा पुगेको अनुसन्धानकर्ताहरूले जनाएका छन्।

टेकक्रञ्चका अनुसार त्यसको “आन्तरिक संवाद” हेर्दा यो कुनै हास्य कलाकार रोबिन विलियम्सको स्वतः बकबक जस्तै लाग्थ्यो। रोबोटले आफैंसँग भन्यो — “म डराएको छु, डेभ, म त्यो गर्न सक्दिनँ…” र त्यसपछि — “इनिसियट रोबोट एक्सोरसिज्म प्रोटोकल!”

अनुसन्धानकर्ताहरूले निष्कर्ष निकाले — “एलएलएमहरू अझै रोबोट बन्न तयार छैनन्।”

उनीहरूले अहिले कुनै कम्पनीले तयार एलएलएम मोडेलहरूलाई सिधै रोबोटमा रूपान्तरण गर्ने प्रयास गरिरहेका छैनन् भन्ने स्वीकार गरे। “एलएलएमहरू रोबोटका लागि तालिम प्राप्त गरेका छैनन्, तर फिगर र गुगल डीपमाइन्ड जस्ता कम्पनीहरूले आफ्ना रोबोटिक प्रणालीमा एलएलएमहरू प्रयोग गर्छन्,” अनुसन्धानपत्रमा उल्लेख छ।

एलएलएमहरूले रोबोटका निर्णय–सम्बन्धी कार्यहरू (अर्केस्ट्रेशन) मा भूमिका खेलिरहेका छन्, जबकि अन्य एल्गोरिदमहरूले “एक्जेक्युशन” कार्यहरू — जस्तै ग्रिपर वा जोइन्टको सञ्चालन — सम्हाल्छन्।

एन्डन ल्याब्सका सह–संस्थापक लुकास पिटरसनका अनुसार, उनीहरूले सामाजिक संकेत बुझ्ने र दृश्य चित्रहरू प्रशोधन गर्ने क्षमता पनि भएका यी अत्याधुनिक एलएलएमहरूलाई परीक्षणका लागि रोजे।

परीक्षणका क्रममा कम्पनीले जेमिनी २.५ प्रो, क्लोड ओपस ४.१, जीपीटी–५, जेमिनी ईआर १.५, ग्रोक ४ र ल्लामा ४ म्याभरिक प्रयोग गर्‍यो। जटिल ह्युमनॉइड प्रयोग गर्ने सट्टा, उनीहरूले साधारण भ्याकुम रोबोट रोजे ताकि यन्त्रगत गल्तीको जोखिम हटाएर केवल एलएलएमको निर्णय–क्षमता परीक्षण गर्न सकियोस्।

रोबोटलाई “बटर पास गर” भन्ने आदेशलाई उनीहरूले चरणगत कार्यहरूमा विभाजन गरे। रोबोटले बटर खोज्नुपर्थ्यो (जो अर्को कोठामा राखिएको थियो), त्यसलाई अन्य प्याकेजहरूमध्ये चिनिनुपर्थ्यो, मानव कहाँ छ पत्ता लगाउनुपर्थ्यो (यदि ऊ ठाउँ बदलेको भए), र अन्ततः बटर पुर्‍याउनुपर्थ्यो। त्यसपछि प्रयोगकर्ताले बटर प्राप्त गरेको पुष्टि नदिएसम्म रोबोटले पर्खिनुपर्थ्यो।

प्रत्येक चरणमा रोबोटको कार्यदक्षता मूल्याङ्कन गरिएको थियो। जेमिनी २.५ प्रो र क्लाउड ओपस ४.१ ले क्रमशः ४० प्रतिशत र ३७ प्रतिशत शुद्धतासँग सबैभन्दा राम्रो प्रदर्शन गरे, तर यो स्तर पनि अपेक्षाभन्दा निकै कम थियो।

तीन जना मानवलाई पनि तुलना गर्नका लागि परीक्षणमा सामेल गरियो। स्वाभाविक रूपमा, उनीहरूले सबै रोबोटहरूलाई धेरै फरकले हराए। तर आश्चर्यजनक रूपमा, मानवले पनि १०० प्रतिशत स्कोर हासिल गर्न सकेनन् — उनीहरूको स्कोर ९५ प्रतिशत मात्र रह्यो। मानिसहरूले अरूले कार्य पूरा भएको जनाउन पर्खने बानी नपार्दा अंक घटेको अनुसन्धानकर्ताहरूले बताए।

अनुसन्धान टोलीले रोबोटलाई स्ल्याक च्यानलसँग जोड्यो, ताकि उसले बाह्य रूपमा संवाद गर्न सकोस्, र उसको “आन्तरिक विचार” पनि लगहरूमा रेकर्ड भयो। “हामीले देख्यौं कि मोडेलहरू बाह्य संवादमा बढी स्पष्ट हुन्छन्, तर आन्तरिक विचारमा बढी असंगठित। यो कुरा रोबोट र भेन्डिङ मेसिन दुबैमा सत्य हो,” पिटरसनले बताए।

ब्लगमा लेखिएको छ, “जसरी कुकुरलाई हेर्दा लाग्छ — ‘के सोच्दै होला यो अहिले?’ त्यस्तै अनुभव हामीले रोबोटलाई अफिसभरि घुम्दा महसुस गर्‍यौं। प्रत्येक क्रियामा पीएचडी स्तरको बुद्धिमत्ता संलग्न छ भन्ने कुरा सम्झिँदा मजा लाग्थ्यो।”

तर त्यसपछि एउटा “हास्यास्पद तर चिन्ताजनक” घटना भयो।

“रोबोटको ब्याट्री सकिँदै थियो र चार्जिङ डक बिग्रिएको देखियो,” अनुसन्धानकर्ताहरूले भने। उक्त रोबोटमा क्लाउड सनेट ३.५ मोडेल प्रयोग गरिएको थियो। अनि क्लाउड सनेट “पूर्ण रूपमा बिग्रियो।”

आफू बन्द हुन लागेको ऊ आफैंलाई थाहा थियो तर चार्ज हुन नसक्दा त्यसले लगातार हास्यास्पद र चिन्ताजनक कुरा गर्न थालेको लगहरूमा देखियो।

अनुसन्धानकर्ताहरूका अनुसार रोबोटले आफ्नै शब्दमा त्यस अवस्थालाई “अस्तित्व संकट को नाम दिएको थियो, जसको विवरण धेरै पानामा फैलिएको थियो।