ओपनएआईको ओ३ एआई मोडेलको बेञ्चमार्क कम्पनीले अपेक्षा गरेभन्दा कम निस्कियो

Technology Khabar ८ बैशाख २०८२, सोमबार

काठमाडौं ।

ओपनएआईको ओ३ एआई मोडेलको पहिलो र तेस्रो पक्षीय बेञ्चमार्क परिणामहरूमा देखिएको असमानताले कम्पनीको पारदर्शिता र परीक्षण अभ्यासबारे प्रश्न उठाएको छ।

ओपनएआईले गत डिसेम्बरमा ओ३ सार्वजनिक गर्दा, कम्पनीले यो मोडेलले फ्रन्टियरम्याथ नामक कठिन गणित समस्याहरूको सेटमा करिब २५ प्रतिशतभन्दा बढी प्रश्नहरूको उत्तर दिनसक्ने दावी गरेको थियो। यो स्कोर अन्य मोडेलहरूभन्दा निकै माथि थियो — दोस्रो सर्वश्रेष्ठ मोडेलले करिब २ प्रतिशत मात्र प्रश्नहरू समाधान गर्न सकेको थियो।

ओपनएआईका प्रमुख अनुसन्धान अधिकारी मार्क चेनले एक प्रत्यक्ष प्रसारणमा भनेका थिए, “आज सबै उपलब्ध मोडेलहरूले फ्रन्टियरम्याथ मा २ प्रतिशतभन्दा कम मात्र स्कोर गरेका छन्। हामी आन्तरिक रूपमा देखिरहेका छौं कि ओ३ ले तीव्र परीक्षण कम्प्युट सेटिङमा २५ प्रतिशतभन्दा बढी स्कोर गर्न सकेको छ।”

तर त्यो स्कोर सम्भवत: ओ३ को त्यस्तो संस्करणबाट प्राप्त भएको थियो, जसमा सार्वजनिक रूपमा गत साता सार्वजनिक गरिएको मोडेलभन्दा बढी कम्प्युटिङ शक्ति प्रयोग गरिएको थियो।

टेकक्रञ्चका अनुसार फ्रन्टियरम्याथको पछाडि रहेको अनुसन्धान संस्था इपोक एआईले शुक्रबार ओ३ को स्वतन्त्र बेञ्चमार्क परीक्षणको नतिजा सार्वजनिक गर्‍यो। ओ३ ले करिब १० प्रतिशत स्कोर गरेको इपोकले पत्ता लगायो जुन ओपनएआईको उच्चतम दावीभन्दा निकै कम हो।

यसको मतलब ओपनएआईले झुट बोलेको हो भन्ने होइन। कम्पनीले डिसेम्बरमा प्रकाशित गरेको बेञ्चमार्क रिपोर्टमा कम स्कोरको सीमा उल्लेख गरिएको छ, जुन इपोकको परीक्षणसँग मेल खान्छ। इपोकले आफ्नो परीक्षण विधि ओपनएआई सँग फरक हुनसक्ने बताएको छ, र फ्रन्टियरम्याथको परिमार्जित संस्करण प्रयोग गरिएको उल्लेख गरेको छ।

इपोकले लेखेको छ, “हाम्रो परिणाम र ओपनएआई को नतिजाबीचको अन्तरको कारण ओपनएआई ले आन्तरिक रूपमा बढी शक्तिशाली प्रणाली प्रयोग गरेर परीक्षण गरेको, बढी कम्प्युटिङ प्रयोग गरेर मूल्यांकन गरेको, वा फ्रन्टियरम्याथको फरक संस्करण (२०२४-११-२६ को १८० समस्याहरू र २०२५-०२-२८-प्राइभेटको २९० समस्याहरू) प्रयोग गरेको हुनसक्छ।”

आर्क प्राइज फाउण्डेशन नामक संस्थाले एक्समा पोस्ट गर्दै सार्वजनिक रूपमा उपलब्ध ओ३ मोडेल “अर्को मोडेल हो […] जुन कुराकानी/उत्पादन प्रयोगका लागि ट्युन गरिएको भनेको छ। यसले इपोकको रिपोर्टलाई समर्थन गर्छ।

आर्क प्राइजले लेखेको छ, “हामीले परीक्षण गरेका सबै ओ३ कम्प्युट संस्करणहरू अहिले सार्वजनिक गरिएका संस्करणहरूभन्दा ठूला थिए।” सामान्यतया, ठूला कम्प्युट टियरहरूबाट बढी स्कोरको अपेक्षा गर्न सकिन्छ।

ओपनएआईका प्राविधिक सदस्य वेन्डा झोउले गत हप्ता प्रत्यक्ष प्रसारणमा उत्पादनमा रहेको ओ३ मोडेल “वास्तविक जीवनका प्रयोगहरू” र गति अनुरूप अझ अनुकूलित गरिएको हो, डिसेम्बरमा प्रदर्शन गरिएको संस्करणको तुलनामा। त्यसैले यसमा बेंचमार्क “असमानता” देखिन सक्छ भनेका थिए।

झोउ भन्छन्, “हामीले मोडेललाई अझै सस्तो, प्रयोगमा सहज र उपयोगी बनाउन अनुकूलन गरेका छौं। हामी अझै पनि यो मोडेल राम्रो भएकोमा विश्वस्त छौं […] जब तपाईं उत्तरको लागि सोध्नुहुन्छ, तपाईंले लामो समय कुर्नु पर्ने छैन, जुन यस्ता मोडेलहरूमा वास्तविक समस्या हो।”

सार्वजनिक ओ३ मोडेलले ओपनएआई का परीक्षण दाबीभन्दा कमजोर देखिनु भनेको त्यति ठूलो कुरा होइन, किनभने कम्पनीका ओ३-मिनी-हाई र ओ४-मिनी मोडेलहरूले फ्रन्टियरम्याथमा ओ३ भन्दा राम्रो प्रदर्शन गरेका छन्, र ओपनएआईले चाँडै थप शक्तिशाली ओ३ संस्करण ओ३-प्रो ल्याउने योजना बनाएको छ।

तर, यो घटनाले फेरि एकपटक एआई बेञ्चमार्कहरूलाई सतही रूपमा विश्वास गर्नुहुँदैन — विशेष गरी जब स्रोत कम्पनी नै हो, जसको सेवाहरू बेच्नुपर्ने हुन्छ भन्ने सम्झाउँछ।

एआई उद्योगमा बेञ्चमार्क “विवादहरू” सामान्यजस्तै हुँदै गएका छन्, किनभने कम्पनीहरू नयाँ मोडेलमार्फत शीर्षक र ध्यान कब्जा गर्न दौडिरहेका छन्।

जनवरीमा इपोकले ओ३ घोषणा भएपछि मात्र ओपनएआईबाट वित्तीय सहयोग पाएको कुरा सार्वजनिक गरेको भन्दै आलोचना खेपेको थियो। फ्रन्टियरम्याथ मा योगदान गर्ने धेरै अनुसन्धानकर्ताहरूलाई ओपनएआईको संलग्नता ढिलोसम्म थाहा नदिइएको टेकक्रञ्चले उल्लेख गरेको छ।

भर्खरै, इलन मस्कको एक्सएआईले आफ्नो नयाँ एआई मोडेल ग्रोक ३ Grok 3 का लागि भ्रामक बेंचमार्क चार्ट प्रकाशित गरेको आरोप लागेको थियो। यसै महिना मेटाले पनि सार्वजनिक गरेका बेञ्चमार्क स्कोरहरू त्यो संस्करणमा आधारित नभएको स्वीकार गरेको थियो, जुन वास्तवमा डेभलपरहरूलाई उपलब्ध गराइएको थियो।

इपोकले लेखेको छ, “हाम्रो परिणाम र ओपनएआई को नतिजाबीचको अन्तरको कारण ओपनएआई ले आन्तरिक रूपमा बढी शक्तिशाली प्रणाली प्रयोग गरेर परीक्षण गरेको, बढी कम्प्युटिङ प्रयोग गरेर मूल्यांकन गरेको, वा फ्रन्टियरम्याथको फरक संस्करण (२०२४-११-२६ को १८० समस्याहरू र २०२५-०२-२८-प्राइभेटको २९० समस्याहरू) प्रयोग गरेको हुनसक्छ।”

आर्क प्राइज फाउण्डेशन नामक संस्थाले एक्समा पोस्ट गर्दै सार्वजनिक रूपमा उपलब्ध ओ३ मोडेल “अर्को मोडेल हो […] जुन कुराकानी/उत्पादन प्रयोगका लागि ट्युन गरिएको भनेको छ। यसले इपोकको रिपोर्टलाई समर्थन गर्छ।

आर्क प्राइजले लेखेको छ, “हामीले परीक्षण गरेका सबै ओ३ कम्प्युटर संस्करणहरू अहिले सार्वजनिक गरिएका संस्करणहरूभन्दा ठूला थिए।” सामान्यतया, ठूला कम्प्युट टियरहरूबाट बढी स्कोरको अपेक्षा गर्न सकिन्छ।

ओपनएआईका प्राविधिक सदस्य वेन्डा झोउले गत हप्ता प्रत्यक्ष प्रसारणमा उत्पादनमा रहेको ओ३ मोडेल “वास्तविक जीवनका प्रयोगहरू” र गति अनुरूप अझ अनुकूलित गरिएको हो, डिसेम्बरमा प्रदर्शन गरिएको संस्करणको तुलनामा। त्यसैले यसमा बेञ्चमार्क “असमानता” देखिन सक्छ भनेका थिए।

झोउ भन्छन्, “हामीले मोडेललाई अझै सस्तो, प्रयोगमा सहज र उपयोगी बनाउन अनुकूलन गरेका छौं। हामी अझै पनि यो मोडेल राम्रो भएकोमा विश्वस्त छौं […] जब तपाईं उत्तरको लागि सोध्नुहुन्छ, तपाईंले लामो समय कुर्नु पर्ने छैन, जुन यस्ता मोडेलहरूमा वास्तविक समस्या हो।”

सार्वजनिक ओ३ मोडेलले ओपनएआई का परीक्षण दाबीभन्दा कमजोर देखिनु भनेको त्यति ठूलो कुरा होइन, किनभने कम्पनीका ओ३-मिनी-हाई र ओ४-मिनी मोडेलहरूले फ्रन्टियरम्याथमा ओ३ भन्दा राम्रो प्रदर्शन गरेका छन्, र ओपनएआईले चाँडै थप शक्तिशाली ओ३ संस्करण ओ३-प्रो ल्याउने योजना बनाएको छ।

तर, यो घटनाले फेरि एकपटक एआई बेञ्चमार्कहरूलाई सतही रूपमा विश्वास गर्नुहुँदैन — विशेष गरी जब स्रोत कम्पनी नै हो, जसको सेवाहरू बेच्नुपर्ने हुन्छ भन्ने सम्झाउँछ।

एआई उद्योगमा बेञ्चमार्क “विवादहरू” सामान्यजस्तै हुँदै गएका छन्, किनभने कम्पनीहरू नयाँ मोडेलमार्फत शीर्षक र ध्यान कब्जा गर्न दौडिरहेका छन्।

जनवरीमा इपोकले ओ३ घोषणा भएपछि मात्र ओपनएआई बाट वित्तीय सहयोग पाएको कुरा सार्वजनिक गरेको भन्दै आलोचना खेपेको थियो। फ्रन्टियरम्याथ मा योगदान गर्ने धेरै अनुसन्धानकर्ताहरूलाई ओपनएआई को संलग्नता ढिलोसम्म थाहा नदिइएको टेकक्रञ्चले उल्लेख गरेको छ।

भर्खरै, इलन मस्कको एक्सएआईले आफ्नो नयाँ एआई मोडेल ग्रोक ३ का लागि भ्रामक बेंचमार्क चार्ट प्रकाशित गरेको आरोप लागेको थियो। यसै महिना मेटाले पनि सार्वजनिक गरेका बेञ्चमार्क स्कोरहरू त्यो संस्करणमा आधारित नभएको स्वीकार गरेको थियो, जुन वास्तवमा विकासकर्ताहरूलाई उपलब्ध गराइएको थियो।

 

 

प्रकाशित: ८ बैशाख २०८२, सोमबार

तपाइको प्रतिक्रिया