Față de Lumiere, multe dintre modelele video de inteligență artificială existente se luptă cu consistența mișcării și, chiar dacă reușesc să surprindă un mers natural, alte elemente vor fi întrerupte sau se vor contopi cu peisajul.
Modelul lansat de Google are însă o abordare diferită pentru a genera videoclipuri. În loc să pună cap la cap cadre individuale, creează întregul videoclip într-un singur proces, gestionând simultan atât plasarea obiectelor, cât și mișcarea acestora.
Deși clipurile de previzualizare arată impresionant, nu este disponibil pentru a fi încercat de oricine, deoarece este doar un proiect de cercetare. Cu toate acestea, tehnologia de bază și abordarea video cu inteligență artificială ar putea fi integrate într-un viitor produs Google și ar fi un jucător important în acest domeniu, transmite Tom’s Guide.
Cum funcționează Lumiere?
Lumier funcționează atât la nivel de text-video, cât și la nivel de imagine-video, oferind o generare stilizată pornind de la o imagine de referință pentru a ajusta cu exactitate modul în care va arăta un element în cadrul videoclipului. O parte din acest lucru este deja posibil cu modelele Runway și Pika Labs.
Acest model de inteligență artificială este construit pe o arhitectură spațiu-timp și, deși acest lucru pare desprins dintr-un film SF, în realitate înseamnă că ia în considerare toate aspectele legate de mișcare și locație.
În timpul procesului său de generare, modelul examinează unde ar trebui să fie amplasate lucrurile, sau aspectul „spațiu” al clipului, precum și când și cum se mișcă lucrurile, sau elementul „timp”. Acesta analizează ambele aspecte în același timp, într-o singură rulare, pentru a crea o mișcare coerentă.
Cercetătorii au scris într-o lucrare despre acest model că „învață să genereze în mod direct un videoclip cu rată de cadre completă, de rezoluție redusă, prin procesarea acestuia în mai multe scări spațio-temporale”.
Ce mai poate face?
Atunci când a început să apară video generativ cu inteligență artificială, obiectivul său principal era realizarea unui clip video scurt, dar, pe măsură ce tehnologia se maturizează, încep să apară și alte caracteristici. Runway oferă posibilitatea de a evidenția diferite regiuni ale unei imagini și de a le anima în mod independent.
Echipa Google Research spune că Lumier generează „rezultate text-video de ultimă generație” și „facilitează o gamă largă de sarcini de creare de conținut și aplicații de editare video”.
Pe lângă promisiunea unei mișcări mai fluide, ei spun că poate, de asemenea, să animeze regiuni specifice ale unei imagini cu o ușurință relativă și să ofere capacități de inpainting, cum ar fi schimbarea stilului de îmbrăcăminte sau a tipului de animal prezentat într-un cadru.