ओपनएआईका मोडलहरुले ‘कपीराइट’युक्त सामग्री स्मरण गरेको खुलासा

Technology Khabar | २५ चैत्र २०८१, सोमबार

काठमाडौं ।

एउटा नयाँ अध्ययनले ओपनएआईले आफ्ना केही एआईमोडेलहरूमा प्रतिलिपि अधिकार सुरक्षित सामग्री प्रयोग गरेको आरोपलाई बल दिएको देखिन्छ।

ओपनएआई हाल लेखक, प्रोग्रामर र अन्य अधिकारधारीहरूले दायर गरेका मुद्दामा मुछिएको छ। उनीहरूले कम्पनीले आफ्नो सिर्जनाहरू — पुस्तक, कोडबेस आदिलाई — अनुमति बिना आफ्ना मोडेलहरू विकास गर्न प्रयोग गरेको आरोप लगाएका छन्।

ओपनएआईले यस्ता आरोपको विपक्षमा ‘फेयर युज’ को दावी गर्दै आएको छ, तर मुद्दा दायर गर्नेहरू भन्छन्, अमेरिकी प्रतिलिपि अधिकार ऐनमा तालिमको लागि त्यस्तो छुट छैन।

यो अध्ययन वाशिङटन विश्वविद्यालय, कोपेनहेगन विश्वविद्यालय र स्टानफोर्डका अनुसन्धानकर्ताहरूले सह-लेखन गरेका हुन्। उनीहरूले एपीआईको पछाडि रहेका मोडेलहरूले ‘सम्झेको’ तालिम डाटालाई पहिचान गर्न नयाँ विधि प्रस्तुत गरेका छन्।

मोडेलहरू भविष्यवाणी इन्जिन हुन्। धेरै डाटामा तालिम पाएर तिनीहरूले ढाँचाहरू सिक्छन् — जसरी निबन्ध, फोटो आदिको उत्पादन गर्छन्। अधिकांश नतिजा तालिम डाटाको हुबहु प्रतिलिपि हुँदैनन्, तर सिक्ने तरिकाका कारण केही नतिजा अनिवार्य रूपमा हुबहु हुने गर्छन्।

केही इमेज मोडेलहरू तालिममा प्रयोग गरिएका चलचित्रको स्क्रिनसट फेरि उत्पादन गर्नेसम्म भेटिएका छन्, भने भाषा मोडेलहरूले समाचार लेख हुबहु नक्कल गरेको पनि देखिएको टेकक्रञ्चले उल्लेख गरेको छ।

अध्ययनमा प्रयोग गरिएको विधि लेखकहरूले “हाई-सप्राइजल” शब्द भनेको कुरामा आधारित छ — अर्थात् कुनै ठूलो लेखनको सन्दर्भमा कम प्रयोग हुने शब्दहरू। उदाहरणका लागि, वाक्य

शोधकर्ताहरूले ओपनएआईका विभिन्न मोडेलहरू, जस्तै जीपीटी-४ र जीपीटी-३.५ मा यस्ता हाई-सप्राइजल शब्दहरू फिक्शन पुस्तक र न्यूयोर्क टाइम्सका लेखको स-साना अंशबाट हटाएर परीक्षण गरे। मोडेलहरूले कुन शब्द हटाइएको हो भनेर ठम्याउने प्रयास गर्दा यदि सही अनुमान गरे, त्यसको अर्थ तालिमकै क्रममा त्यो अंश याद गरिएको हुन सक्छ भन्ने निष्कर्षमा पुगेका छन्।

परीक्षणको नतिजाअनुसार जीपीटी-४ ले लोकप्रिय फिक्शन पुस्तकका केही अंश याद गरेको देखिएको छ। यिनीमध्ये केही बूकएमआईए नामक प्रतिलिपि अधिकार सुरक्षित ईबुकहरूको नमुना रहेको डाटासेटबाट लिइएका थिए। यसैगरी मोडेलले न्यूयोर्क टाइम्सका केही लेख पनि याद गरेको देखिएको छ तर त्यसको दर कम थियो।

वाशिङटन विश्वविद्यालयकी पीएचडी विद्यार्थी र अध्ययनकी सह-लेखिका अभिलाषा रविचन्दरले भनिन्, “यी नतिजाले मोडेलहरू कुन विवादास्पद डाटामा तालिम प्राप्त गरिरहेका छन् भन्ने बुझ्न सहयोग गर्छ।” उनले थप भनिन्, “भरोसायोग्य ठूला भाषा मोडेलहरूका लागि हामीसँग परीक्षण गर्न मिल्ने, मूल्यांकन गर्न सकिने र वैज्ञानिक रूपमा परीक्षण गर्न मिल्ने प्रविधि हुन आवश्यक छ। हाम्रो कामको उद्देश्य त्यही उपकरण विकास गर्नु हो, तर पूरै प्रणालीमै डाटा पारदर्शिताको खाँचो छ।”

ओपनएआईले प्रतिलिपि अधिकार सुरक्षित डाटा प्रयोग गरेर मोडेल विकास गर्न नियमहरू ढिलो गरिनुपर्ने माग लामो समयदेखि गर्दै आएको छ।

कम्पनीले केही सामग्री लाइसेन्स सम्झौता गरेको भए पनि र केही ‘अप्ट-आउट’ प्रणाली उपलब्ध गराएको भए पनि, जसअनुसार अधिकारवालाले आफ्नो सामग्री तालिममा प्रयोग नगरियोस् भनेर अनुरोध गर्न सक्छन्, कम्पनीले विभिन्न सरकारहरूसँग ‘फेयर युज’ सम्बन्धी नियम कानुनी रूपमा स्थापित गरियोस् भनेर दबाब दिँदै आएको छ।

प्रकाशित: २५ चैत्र २०८१, सोमबार