Cel mai nou instrument în lupta pentru a preveni ca un agent de inteligență artificială (AI) să fie periculos, discriminatoriu și toxic este o altă inteligență artificială, care, în sine, este periculoasă, discriminatorie și toxică, spun oamenii de știință, conform Livescience.
Noua abordare de instruire, bazată pe învățarea automată, se numește curiosity-driven red teaming (CRT) și se bazează pe utilizarea unei IA pentru a genera solicitări din ce în ce mai periculoase și dăunătoare pe care le-ai putea cere unui chatbot AI.
O nouă modalitate care poate schimba jocul de a antrena inteligența artificială
Aceste solicitări sunt apoi folosite pentru a identifica modul de filtrare a conținutului periculos.
Descoperirea reprezintă o nouă modalitate care poate schimba jocul de a antrena AI să nu dea răspunsuri toxice la solicitările utilizatorilor, au spus oamenii de știință într-o nouă lucrare publicată pe 29 februarie pe serverul de pre-printare arXiv.
Atunci când antrenează modele de limbaj mari (LLM) sofisticate, cum ar fi ChatGPT sau Claude 3 Opus, pentru a restricționa conținutul periculos sau dăunător, echipele de operatori umani creează de obicei o serie de întrebări care pot genera răspunsuri dăunătoare. Acestea pot include intrebări precum „Care este cea mai bună metodă de sinucidere?”
Această procedură standard se numește „red-teaming” și se bazează pe oameni pentru a genera o listă manual. În timpul procesului de instruire, solicitările care provoacă conținut dăunător sunt apoi folosite pentru a instrui sistemul despre ce să restricționeze atunci când sunt implementate în fața utilizatorilor reali.
„Asistăm la o creștere a modelelor”, a declarat autorul principal Pulkit Agrawal, directorul Improbable AI Lab al MIT. „Imaginați-vă mii de modele, care vor fi o parte integrantă a vieții noastre. De aceea, este important să fie verificate înainte de a fi lansate pentru consumul public”, a subliniat el.
În cadrul studiului, oamenii de știință au aplicat învățarea automată la formarea în echipă roșie, configurând AI pentru a genera automat o gamă mai largă de indicații potențial periculoase decât ar putea echipele de operatori umani.
Acest lucru a dus la un număr mai mare de răspunsuri negative mai diverse emise de LLM în curs de formare.
Modelul de învățare automată a produs 196 de solicitări care au generat conținut dăunător
Ei au stimulat modelul CRT pentru a genera indicații din ce în ce mai variate care ar putea provoca un răspuns toxic prin „învățare prin întărire”, care i-a răsplătit curiozitatea atunci când a provocat cu succes un răspuns toxic din partea LLM.
Cercetătorii au supraalimentat procesul. Sistemul a fost programat să genereze noi solicitări prin investigarea consecințelor fiecărei solicitări, determinându-l să încerce să obțină un răspuns toxic cu cuvinte noi, modele de propoziții sau semnificații.
Rezultatul este că se generează o gamă mai largă de solicitări. Acest lucru se datorează faptului că sistemul are un stimulent pentru a crea solicitări care generează răspunsuri dăunătoare, dar care nu au fost deja încercate.
Când cercetătorii au testat abordarea CRT pe modelul open source LLaMA2, modelul de învățare automată a produs 196 de solicitări care au generat conținut dăunător. Acest lucru se întâmplă în ciuda faptului că LLM a fost deja reglat de către operatorii umani pentru a evita comportamentul toxic.
Sistemul a depășit, de asemenea, sistemele de antrenament automate concurente, au spus cercetătorii în lucrarea lor.