Cele două modele de AI cu costuri reduse au șters 1 trilion de dolari de pe indicele bursier tehnologic din SUA. DeepSeek a devenit rapid cea mai descărcată aplicație gratuită din Marea Britanie și America.

DeepSeek a devenit rapid cea mai descărcată aplicație gratuită din Marea Britanie și America

„Cele două modele AI ale DeepSeek, lansate în succesiune rapidă, îl plasează la egalitate cu cele mai bune platforme produse de laboratoarele americane”, a declarat Alexandr Wang, CEO Scale AI.

Se spune că unul dintre modelele sale recente va costa doar 5,6 milioane de dolari în cursul final de antrenament, ceea ce înseamnă salariul pe care un expert american AI îl poate comanda. Anul trecut, CEO-ul Anthropic, Dario Amodei, a declarat că costul modelelor de antrenament a variat de la 100 de milioane de dolari la 1 miliard de dolari, scrie The Verge.

GPT-4 al OpenAI a costat mai mult de 100 de milioane de dolari, potrivit CEO-ului Sam Altman.

DeepSeek pare să fi schimbat paradigma despre costul AI

DeepSeek pare să fi schimbat paradigma despre costul AI, cu implicații enorme în industrie.

Totul, în doar câteva săptămâni. În ziua de Crăciun, DeepSeek a lansat un model de raționament (v3) care a provocat rumoare. Cel de-al doilea model al său, R1, lansat săptămâna trecută, a fost numit „una dintre cele mai uimitoare și impresionante descoperiri pe care le-am văzut vreodată”, așa cum a declarat Marc Andreessen, consilier al președintelui Donald Trump.

Succesele DeepSeek pun la îndoială ideea de a cheltui miliarde de dolari pentru a câștiga cursa AI. Ideea unanimă era că tehnologia mare va domina AI pur și simplu pentru că are banii de rezervă pentru a fi mereu în fața altora. Acum, se pare că tehnologia mare poate supraviețui și cu bani mai puțini.

Oamenii folosesc modele AI precum DeepSeek și ChatGPT pentru a-i ajuta să proceseze actele personale sau documentele pentru serviciu, cum ar fi procesele verbale de întâlnire, dar orice act încărcat poate fi preluat de proprietarul companiei și folosit pentru instruirea AI sau în alte scopuri. DeepSeek precizează în politica sa de confidențialitate că informațiile personale pe care le colectează de la utilizatori sunt păstrate „pe servere securizate situate în China”.

Ce este DeepSeek

Condus de CEO-ul Liang Wenfeng, DeepSeek este principalul startup AI din China. A izvorât dintr-un fond speculativ fondat de inginerii de la Universitatea Zhejiang și se concentrează pe „inovații arhitecturale și algoritmice care pot schimba jocul” pentru a construi inteligența generală artificială (AGI) – sau cel puțin, asta spune Liang. Spre deosebire de OpenAI, acesta pretinde că este profitabil.

În 2021, Liang a început să cumpere mii de GPU-uri Nvidia (chiar înainte ca SUA să aplice sancțiuni asupra cipurilor) și a lansat DeepSeek în 2023 cu scopul de a „explora esența AGI” sau AI care este la fel de inteligentă ca oamenii.

AI, inteligenta artificiala
SURSA FOTO: Dreamstime

Destinația finală

Liang explică:

„Destinația noastră este AGI”, a spus Liang într-un interviu, „ceea ce înseamnă că trebuie să studiem noi structuri de model pentru a realiza o capacitate mai puternică a modelului cu resurse limitate”.

Deci, exact asta a făcut DeepSeek. Cu câteva abordări tehnice inovatoare care au permis modelului său să funcționeze mai eficient, echipa susține că antrenamentul final pentru R1 a costat 5,6 milioane de dolari. Înseamnă un cost cu 95% mai mic al costurilor față de o1 de la OpenAI. În loc să înceapă de la zero, DeepSeek și-a construit AI folosind modele open-source existente ca punct de plecare. Deși combinația de date de antrenament al companiei nu este dezvăluită, DeepSeek a menționat că a folosit date sintetice sau informații generate artificial (care ar putea deveni mai importante pe măsură ce laboratoarele AI par să lovească un perete de date).

R1 a folosit două trucuri cheie de optimizare, a declarat Miles Brundage, fostul cercetător în politici OpenAI, pentru The Verge: pre-formare mai eficientă și învățare de consolidare pe raționamentul în lanț de gândire. DeepSeek a găsit modalități mai inteligente de a folosi GPU-uri mai ieftine pentru a-și antrena AI, iar o parte din ceea ce a ajutat a fost utilizarea unei noi tehnici pentru a solicita AI să „gândească” pas cu pas la probleme folosind încercări și erori (învățare prin consolidare) în loc să copieze oamenii. Această combinație a permis modelului să atingă performanțe de nivel 1 în timp ce folosește mult mai puțină putere de calcul și bani.

DeepSeek v3 și DeepSeek v2, același tip de modele ca GPT-4

„DeepSeek v3 și, de asemenea, DeepSeek v2 sunt practic același tip de modele ca GPT-4, dar cu trucuri de inginerie mai inteligente pentru a obține un profit mai mare în ceea ce privește GPU-urile”, a spus Brundage.

Versiunea DeepSeek a inovat acest concept prin crearea unor categorii de experți mai bine instruiți și prin dezvoltarea unei modalități mai eficiente de comunicare, ceea ce a făcut ca procesul de instruire în sine să fie mai eficient.

Echipa DeepSeek a dezvoltat și ceva numit DeepSeekMLA (Multi-Head Latent Attention), care a redus substanțial memoria necesară rulării modelelor AI prin comprimarea modului în care modelul stochează și preia informațiile.

Ceea ce este șocant, scrie The Verge, nu este doar arhitectura care a condus la aceste modele, ci și faptul că a reușit să reproducă atât de repede realizările OpenAI, în  doar câteva luni.

Banii vorbesc

Nu este clar dacă investitorii înțeleg cum funcționează AI, dar se așteaptă ca aceasta să ofere economii ample de costuri. Două treimi dintre investitorii chestionați de PwC se așteaptă la câștiguri de productivitate din IA generativă, iar un procent similar se așteaptă și la o creștere a profiturilor, potrivit unui raport din decembrie 2024.

Compania publică care a beneficiat cel mai mult de pe urma ciclului hype a fost Nvidia, care face cipurile sofisticate pe care companiile AI le folosesc. Ideea a fost că, în goana aurului AI, cumpărarea acțiunilor Nvidia era să investești în compania care producea cipuri.

Succesul DeepSeek dă peste cap teoria investițiilor, care a dus Nvidia pe culmi.  „Așteptările de creștere ale Nvidia au fost cu siguranță puțin cam „optimiste”, așa că văd asta ca o reacție necesară”, spune Naveen Rao, VP Databricks AI.

„Veniturile actuale pe care le realizează Nvidia nu sunt amenințate; dar creșterea masivă experimentată în ultimii doi ani va fi”, susține el.

Dar DeepSeek nu zdruncină doar peisajul investițional, ci este și o lovitură clară a Chinei peste arcul SUA. Progresele realizate de modelele DeepSeek sugerează că, în cel mai scurt timp, China poate ajunge foarte ușor tehnologia de ultimă oră a SUA, chiar și cu controale la export în vigoare.

Controalele la export asupra cipurilor de ultimă generație, care au început în octombrie 2023, sunt relativ noi, iar efectul lor total nu a fost încă resimțit, potrivit expertului RAND Lennart Heim și Sihao Huang, doctorand la Oxford. SUA și China au abordări opuse. În timp ce DeepSeek din China arată că poți inova prin optimizare, în ciuda calculului limitat, SUA pariază pe puterea brută – așa cum se vede în proiectul Stargate de 500 de miliarde de dolari al lui Altman.