Companiile de inteligență artificială au epuizat suma cunoștințelor umane pentru antrenarea modelelor
Elon Musk a spus că firmele din domeniul tehnologiei vor fi nevoite să se bazeze pe date „sintetice” – adică informații generate de modele de inteligență artificială – pentru a dezvolta și perfecționa noile sisteme. Acest proces este deja în plină desfășurare, având în vedere ritmul accelerat al progreselor tehnologice din acest domeniu.
„Suma cumulată a cunoștințelor umane a fost epuizată în formarea inteligenței artificiale (AI). Asta s-a întâmplat practic anul trecut”, a declarat el într-un interviu transmis live pe platforma X.
Modelele de inteligență artificială, precum GPT-4, care stă la baza chatbotului ChatGPT, sunt „antrenate” folosind un volum imens de date preluate de pe internet. Acest proces presupune identificarea tiparelor în informațiile colectate, permițând modelelor să prezică, de exemplu, următorul cuvânt într-o propoziție.
Potrivit miliardarului american, „singura modalitate” de a face față deficitului de material sursă necesar pentru antrenarea noilor modele este utilizarea datelor sintetice generate de AI, notează The Guardian.
Referindu-se la această provocare, el a declarat:
„Singura modalitate de a completa aceste date este cu cele sintetice în care va scrie un fel de eseu sau va veni cu o teză și apoi se va califica și va trece prin acest proces de autoînvățare.”
Meta a utilizat date sintetice
Meta, compania care deține Facebook și Instagram, a recurs la utilizarea datelor sintetice pentru a îmbunătăți performanța celui mai mare model AI al său, Llama. De asemenea, Microsoft a integrat conținut creat de AI în procesul de dezvoltare al modelului său Phi-4. Google și OpenAI, compania din spatele ChatGPT, au utilizat și ele date sintetice pentru a avansa în domeniul inteligenței artificiale.
Cu toate acestea, Elon Musk a avertizat asupra riscurilor asociate cu „halucinațiile” modelelor AI – un termen care desemnează răspunsuri inexacte sau fără sens generate de acestea.
Într-un interviu cu Mark Penn, președintele grupului de publicitate Stagwell, Musk a subliniat dificultățile utilizării datelor sintetice, declarând că „halucinațiile fac procesul de utilizare a materialului artificial extrem de provocator, pentru că, până la urmă, cum știi dacă a halucinat răspunsul sau este un răspuns real?”
Pe măsură ce boom-ul IA continuă, datele de înaltă calitate și accesul la acestea au devenit un teren de dispută legală. OpenAI a recunoscut anul trecut că dezvoltarea unor instrumente precum ChatGPT nu ar fi posibilă fără utilizarea materialelor protejate prin drepturi de autor. În acest context, industriile creative și editurile cer despăgubiri pentru includerea creațiilor lor în procesul de antrenare a modelelor AI.