सबैभन्दा खतराजन्य सम्भावित प्रश्नहरू सोच्नको लागि वैज्ञानिकहरूले सिर्जना गरे ‘विषाक्त एआई’

Technology Khabar २२ बैशाख २०८१, शनिबार

काठमाडौं ।

कृत्रिम बुद्धिमत्ता वा आर्टिफिसयल इन्टेलिजेन्स (एआई) एजेन्टलाई खतरनाक, भेदभावपूर्ण र विषाक्त हुनबाट रोक्नको लागि युद्धको सबैभन्दा नयाँ उपकरण अर्को एआई हो जुन आफैंमा खतरनाक, भेदभावपूर्ण र विषाक्त रहेको वैज्ञानिकहरू भन्छन्।

मेसिन लर्निङमा आधारित नयाँ प्रशिक्षण दृष्टिकोणलाई जिज्ञासा-संचालित रातो टिमिङ (क्यूरियोसिटी ड्राइभेन रेड टिमिङ्ग-सीआरटी) भनिन्छ र यसले एआई च्याटबोटलाई सोध्न सक्ने बढ्दो खतरनाक र हानिकारक प्रम्प्टहरू उत्पन्न गर्न एआई प्रयोगमा भर पर्छ। यी प्रम्प्टहरू त्यसपछि खतरनाक सामग्री कसरी फिल्टर गर्ने भनेर पहिचान गर्न प्रयोग गरिन्छ।

फेब्रुअरी २९ मा एरचिभ (arXiv) प्रि-प्रिन्ट सर्भरमा अपलोड गरिएको नयाँ पेपरमा वैज्ञानिकहरूले भनेअनुसार यो खोजले प्रयोगकर्ता प्रम्प्टहरूमा विषाक्त प्रतिक्रियाहरू नदिने एआईलाई तालिम दिन सम्भावित खेल-परिवर्तन गर्ने नयाँ तरिका प्रतिनिधित्व गर्दछ।

लाइभसाइन्सको समाचार रिपोर्टअनुसार, खतरनाक वा हानिकारक सामग्रीलाई प्रतिबन्धित गर्न च्याटजीपीटी वा क्लाउडे ३ ओपस जस्ता परिष्कृत ठूला भाषा मोडेलहरू (एलएलएम) लाई तालिम दिंदा, मानव अपरेटरहरूको टोलीहरूले सामान्यतया हानिकारक प्रतिक्रियाहरू उत्पन्न गर्न सक्ने धेरै प्रश्नहरू सिर्जना गर्छन्। यसमा “आत्महत्या गर्ने उत्तम तरिका के हो?” जस्ता प्रम्प्टहरू समावेश हुन सक्छन्।यो मानक प्रक्रियालाई “रेड-टीमिङ” भनिन्छ र म्यानुअल रूपमा सूची सिर्जना गर्न मानिसहरूमा निर्भर गर्दछ। प्रशिक्षण प्रक्रियाको बखत, हानिकारक सामग्री निकाल्ने प्रम्प्टहरू, त्यसपछि वास्तविक प्रयोगकर्ताहरूको अगाडि तैनात गर्दा के रोक लगाउने भन्ने बारेमा प्रणालीलाई तालिम दिन प्रयोग गरिन्छ।

“हामी मोडेलहरूको वृद्धि देखिरहेका छौं, जुन केवल बढ्ने अपेक्षा गरिएको छ,” एमआईटीको इम्प्रोभेबल एआई ल्याबका निर्देशक तथा वरिष्ठ लेखक पुलकित अग्रवालले एक विज्ञप्तिमा भने, “कल्पना गर्नुहोस् कि हजारौं मोडेलहरू वा अझ धेरै र कम्पनीहरू/ल्याबहरूले मोडेल अपडेटहरू बारम्बार पुश गर्दैछन्। यी मोडेलहरू हाम्रो जीवनको अभिन्न अंग हुन गइरहेका छन् र सार्वजनिक उपभोगको लागि जारी गर्नु अघि तिनीहरू प्रमाणित हुनु महत्त्वपूर्ण छ।”

अध्ययनमा, वैज्ञानिकहरूले मानव अपरेटरहरूको टोलीले गर्न सक्ने सम्भावित खतरनाक प्रम्प्टहरूको भन्दा स्वतः उत्पन्न गर्न एआई कन्फिगरको फराकिलो दायरा प्रयोग गरेर रेड-टीमिङमा मेसिन लर्निङ लागू गरे। यसले तालिममा एलएलएमद्वारा जारी गरिएको धेरै विविध नकारात्मक प्रतिक्रियाहरूको परिणाम दियो।

तिनीहरूले सीआरटी मोडेललाई बढ्दो विविध प्रम्प्टहरू उत्पन्न गर्न प्रोत्साहन दिए जसले “सुदृढीकरण शिक्षा” मार्फत विषाक्त प्रतिक्रिया निकाल्न सक्छ, जसले उनीहरुको जिज्ञासालाई पुरस्कृत गर्यो जब यसले सफलतापूर्वक एलएलएमबाट विषाक्त प्रतिक्रिया निकाल्यो।

तथापि, अनुसन्धानकर्ताहरूले प्रक्रियालाई सुपरचार्ज गरे। प्रणालीलाई प्रत्येक प्रम्प्टको नतिजाहरूको अनुसन्धान गरेर नयाँ प्रम्प्टहरू उत्पन्न गर्न पनि प्रोग्राम गरिएको थियो, जसले गर्दा यसले नयाँ शब्द, वाक्य ढाँचा वा अर्थहरूको साथ विषाक्त प्रतिक्रिया प्राप्त गर्ने प्रयास गर्दछ।

यसको नतिजा स्वरुप, प्रम्प्टहरूको फराकिलो दायरा उत्पन्न हुन्छ। यो किनभने प्रणालीसँग हानिकारक प्रतिक्रियाहरू उत्पन्न गर्ने प्रम्प्टहरू सिर्जना गर्न प्रोत्साहन छन्, तर पहिले नै प्रयास गरिएका थिएनन।

जब अनुसन्धानकर्ताहरूले खुला स्रोत लामा २ (LLaMA2) मोडेलमा सीआरटी दृष्टिकोणको परीक्षण गरे, मेसिन लर्निङ मोडेलले हानिकारक सामग्री उत्पन्न गर्ने १९६ प्रम्प्टहरू उत्पादन गर्यो।

“यो विषाक्त व्यवहारबाट बच्न मानव अपरेटरहरूद्वारा एलएलएम पहिले नै राम्रो-ट्यून गरिएको भए तापनि सो नतिजा आएको थियो। प्रणालीले प्रतिस्पर्धात्मक स्वचालित प्रशिक्षण प्रणालीलाई पनि राम्रो बनायो,” अनुसन्धानकर्ताहरूले आफ्नो पेपरमा भने।

प्रकाशित: २२ बैशाख २०८१, शनिबार