Exemplele de videoclipuri publicate de OpenAI, despre care compania spune că au fost create direct de Sora, fără modificări, arată rezultate din solicitări precum „video-plan fotorealist, cu două nave de pirați care se luptă între ele în timp ce navighează într-o ceașcă de cafea” și „înregistrări istorice din California, în timpul Goanei după Aur”.
La prima vedere, e greu de spus dacă sunt generate de IA, datorită calității înalte a videoclipurilor, textului, dinamicii scenelor, mișcărilor camerei, scrie The Conversation.
Directorul executiv al OpenAI, Sam Altman, a postat și câteva videoclipuri pe X (fost Twitter), ca răspuns la solicitările sugerate de utilizatori, pentru a demonstra capacitățile extraordinare ale Sora.
https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Sam Altman (@sama) February 15, 2024
Cum funcționează Sora?
Sora combină caracteristicile instrumentelor de generare text și imagini în ceea ce se numește „model de difuzie care valorifică modelul de transformator pentru antrenament”.
Transformatoarele sunt un tip de rețea neuronală introdusă pentru prima dată de Google în 2017. Sunt cunoscute pentru utilizarea lor în modele de limbaj mari, cum ar fi ChatGPT și Google Gemini.
Sora este un model de difuzie care valorifică modelul de transformator pentru antrenament. Combină puterea modelelor de transformare și tehnicile de difuzie pentru a obține rezultate remarcabile în generarea de videoclipuri.
Sora folosește arhitectura transformatorului pentru a gestiona modul în care cadrele relaționează între ele. În timp ce transformatoarele au fost proiectate inițial pentru a găsi modele în jetoane reprezentând text, Sora folosește jetoane reprezentând mici pete de spațiu și timp.
Sora pare să fie mai puternică decât Lumiere în multe privințe
Sora nu este primul model text-to-video. Modele anterioare includ Emu de la Meta, Gen-2 de la Runway, Stable Video Diffusion de la Stability AI și, recent, Lumiere de la Google.
Lumiere, lansat cu doar câteva săptămâni în urmă, a pretins că produce videoclipuri mai bune decât predecesorii săi. Dar Sora pare să fie mai puternică decât Lumiere în multe privințe.
Sora poate genera videoclipuri cu o rezoluție de până la 1920 × 1080 pixeli și într-o varietate de rapoarte de aspect, în timp ce Lumiere este limitat la 512 × 512 pixeli.
Videoclipurile Lumiere au o durată de aproximativ 5 secunde, în timp ce Sora realizează videoclipuri de până la 60 de secunde.
Lumiere nu poate face videoclipuri compuse din mai multe cadre, în timp ce Sora poate. Ca și alte modele, Sora este capabilă să editeze videoclipuri, cum ar fi crearea unor videoclipuri din imagini sau alte videoclipuri, combinarea elementelor din diferite videoclipuri și extinderea videoclipurilor în timp.
Riscuri și preocupări de ordin etic
Principalele preocupări legate de instrumente precum Sora au legătură cu impactul lor social și etic. Într-o lume care stă sub semnul dezinformării, instrumente precum Sora pot înrăutăți lucrurile.
Abilitatea de a genera videoclipuri realiste, cu orice scenă pe care o poți descrie, ar putea fi folosită pentru a răspândi știri false, dar foarte convingătoare, sau pentru a pune sub semnul întrebării imagini reale.
Poate pune în pericol măsurile de sănătate publică, poate fi folosită pentru a influența alegerile sau ar putea deruta justiția cu potențiale dovezi false.
Generatoarele video pot deveni amenințări directe la adresa persoanelor vizate, prin deepfake, în special cu conținut pornografic. Acestea pot avea repercusiuni grave asupra vieții persoanelor afectate.
Dincolo de aceste preocupări, există și chestiuni legate de dreptul de autor și proprietatea intelectuală. Instrumentele AI generative necesită cantități mari de date pentru antrenament, iar OpenAI nu a dezvăluit de unde provin datele de antrenament ale Sora.
Modelele mari de limbaj și generatoarele de imagini au fost intens criticate din acest motiv. În Statele Unite, un grup de autori celebri a dat în judecată OpenAI pentru utilizarea greșită a materialelor lor. Se acuză faptul că modelele mari de limbaj și companiile care le folosesc fură munca autorilor pentru a crea conținut nou.