के एआई एजेन्टहरू कार्यस्थलका लागि पू्र्णरुपमा तयार छन्? नयाँ बेन्चमार्कले उठायो गम्भीर शंका

Technology Khabar | १० माघ २०८२, शनिबार

च्याटजीपीटीमार्फत् बनाइएको सांकेतिक तस्बिर

काठमाडौं ।

माइक्रोसफ्टका सीईओ सत्य नडेलाले एआईले वकिल, लगानी बैंकर, पुस्तकालयकर्मी, लेखापाल, आईटी विज्ञजस्ता ज्ञान–आधारित रोजगारी विस्थापित गर्ने भविष्यवाणी गरेको करिब दुई वर्ष भइसकेको छ।

तर आधारभूत मोडेलहरूमा भएको तीव्र प्रगतिका बाबजुद पनि ज्ञान–आधारित कामकाजमा ठूलो परिवर्तन देखिएको छैन। एआई मोडेलहरूले गहिरो अनुसन्धान र एजेन्टिक योजना बनाउन सक्ने क्षमता हासिल गरिसकेका छन्, तर कुनै कारणले अधिकांश काममा यसको प्रभाव सीमित नै रहेको छ।

यो एआई क्षेत्रमा रहेको सबैभन्दा ठूलो रहस्यमध्ये एक हो — र प्रशिक्षण डाटा कम्पनी मर्करको नयाँ अनुसन्धानले यसका केही जवाफ दिएको छ।
यो अध्ययनले परामर्श, लगानी बैंकिङ र कानुन क्षेत्रका वास्तविक कार्यहरूमा अग्रणी एआई मोडेलहरूले कस्तो प्रदर्शन गर्छन् भन्ने परीक्षण गरेको छ। यसको नतिजा हो — एपेक्स एजेन्ट्स नामक नयाँ बेन्चमार्क। हालसम्म भने सबै एआई प्रयोगशालाहरू यसमा असफल भएका छन्।

वास्तविक पेशेवरहरूले सोधेका प्रश्नमा उत्कृष्ट मानिएका मोडेलहरूले समेत २५ प्रतिशतभन्दा बढी प्रश्न सही रूपमा समाधान गर्न सकेनन्। धेरैजसो अवस्थामा मोडेलले गलत उत्तर दिए वा कुनै उत्तर नै दिएनन्।

मर्कोरका सीईओ ब्रेन्डन फुडीका अनुसार, मोडेलहरूको सबैभन्दा ठूलो कमजोरी भनेको धेरै डोमेनमा फैलिएको जानकारी एकसाथ ट्र्याक र समन्वय गर्न नसक्नु हो — जुन मानवीय ज्ञान–आधारित कामको केन्द्रमा पर्छ।

काम एकै व्यक्तिले एकै ठाउँमा सबै सन्दर्भ दिएर गर्दैनौँ। वास्तविक जीवनमा स्ल्याक, गुगल ड्राइभ र अन्य धेरै उपकरणहरूबीच काम भइरहेको हुन्छ।” धेरै एजेन्टिक एआई मोडेलका लागि यस्तो बहु–डोमेन तर्कशक्ति अझै पनि अस्थिर रहेको उनले बताए।

यी परिदृश्यहरू मर्करको विज्ञ बजारमा रहेका वास्तविक पेशेवरहरूबाट लिइएका हुन्। तिनैले प्रश्न तयार गरेका थिए र सफल उत्तरको मापदण्ड पनि तय गरेका थिए। हगिङ फेसमा सार्वजनिक रूपमा उपलब्ध प्रश्नहरू हेर्दा, ती कति जटिल हुन सक्छन् भन्ने स्पष्ट हुन्छ।

उदाहरणका लागि, एउटा प्रश्नको सही उत्तर “हो” हुन्छ — तर त्यहाँ पुग्न कम्पनीको आन्तरिक नीतिहरू र युरोपेली संघ (ईयू) का गोपनीयता कानुनहरूको गहिरो विश्लेषण आवश्यक पर्छ।

टेकक्रञ्चका अनुसार यो प्रश्न राम्रोसँग जानकार मानवलाई समेत कठिन पर्न सक्छ, तर अनुसन्धानकर्ताहरूले यही क्षेत्रका पेशेवरहरूले गर्ने वास्तविक कामलाई मोडेल गर्न खोजेका थिए।

यदि कुनै एलएलएमले यस्ता प्रश्नहरू विश्वसनीय रूपमा समाधान गर्न सक्छ भने आज काम गरिरहेका धेरै वकिलहरूको भूमिकालाई प्रतिस्थापन गर्न सक्ने सम्भावना हुन्छ।

“यो सम्भवतः अर्थतन्त्रको सबैभन्दा महत्वपूर्ण विषय हो,” फुडीले भने। “यो बेन्चमार्कले यी पेशेवरहरूले वास्तवमै गर्ने कामलाई राम्ररी प्रतिनिधित्व गर्छ।” “यो बेन्चमार्कको ठूलो परिवर्तन भनेको हामीले वास्तविक पेशागत सेवाजस्तै सम्पूर्ण कार्य–परिवेश निर्माण गर्नु हो,” फुडीले भने।

यसअघि ओपनएआईले जीडीपीभाल नामक बेन्चमार्कमार्फत पेशागत क्षमताहरू मापन गर्ने प्रयास गरेको थियो। तर एपेक्स-एजेन्ट्स त्यसबाट महत्वपूर्ण रूपमा फरक छ।

जीडीपीभालले धेरै पेशाहरूमा फैलिएको सामान्य ज्ञान परीक्षण गर्छ भने, एपेक्स-एजेन्ट्सले सीमित तर उच्च–मूल्य भएका पेशाहरूमा लगातार र जटिल कार्य गर्न सक्ने क्षमता मापन गर्छ। यसले मोडेलका लागि चुनौती बढाउँछ, तर रोजगारी स्वचालित हुन सक्छ कि सक्दैन भन्ने प्रश्नसँग बढी प्रत्यक्ष रूपमा जोडिने टेकक्रञ्चले उल्लेख गरेको छ।

यद्यपि कुनै पनि मोडेल लगानी बैंकरको भूमिका लिन तयार देखिएन, केही भने तुलनात्मक रूपमा नजिक पुगेका छन्। जेमिनी ३ फ्ल्याशले २४ प्रतिशत वन-शट एक्युरेसी सहित सबैभन्दा राम्रो प्रदर्शन गर्‍यो। त्यसपछि जीपीटी-५.२ ले २३ प्रतिशत स्कोर गर्‍यो। ओपस ४.५, जेमिनी ३ प्रो र जीपीटी-५ ले करिब १८ प्रतिशत अंक प्राप्त गरे।

प्रारम्भिक नतिजा अपेक्षाअनुसार नआए पनि, एआई क्षेत्रमा कठिन बेन्चमार्कहरू छिट्टै पार गर्ने इतिहास छ। अब एपेक्स-एजेन्ट्स सार्वजनिक भइसकेपछि, आफूहरू अझ राम्रो गर्न सक्छौँ भन्ने विश्वास राख्ने एआई प्रयोगशालाहरूका लागि यो खुला चुनौती बनेको छ — र फुडीले आउँदो महिनाहरूमा उल्लेखनीय सुधार देखिने अपेक्षा गरेका छन्।

“यो निकै छिटो सुधार हुँदैछ,” उनले भने। “अहिले भन्नुपर्दा, यो २५ प्रतिशत समय मात्र ठीक गर्ने इन्टर्नजस्तो छ। तर गत वर्ष त्यो इन्टर्न ५ वा १० प्रतिशत मात्र ठीक गर्थ्यो। वर्षेनी यस्तो सुधारले धेरै छिट्टै ठूलो प्रभाव पार्न सक्छ।”

प्रकाशित: १० माघ २०८२, शनिबार