Deoarece LLM-urile devin din tot mai folosite în lumea actuală, datele studiului  provoacă îngrijorări privire la credibilitatea IA în a oferi răspunsuri precise la întrebările noastre. Mai ales când vine vorba de probleme precum consilierea financiară. De asemenea, arată necesitatea verificării atente a tuturor informațiile pe care le primiți atunci când utilizați modele lingvistice mari.

Nu este surprinzător că inteligența artificială nu face întotdeauna lucrurile corect. Ocazional, chiar bate câmpii. Un studiu recent al cercetătorilor Apple a demonstrat defecte semnificative în modelele matematice utilizate de AI pentru raționamentul formal.

Ca parte a studiului, oamenii de știință de la Apple au pus o întrebare unui model AI Large Language Model (LLM) de mai multe ori, în moduri ușor diferite, și au fost uimiți când au descoperit că LLM oferă variații neașteptate ale răspunsurilor.

Aceste variații au fost mai importante atunci când au fost implicate numere, potrivit Makeuseof.

Care a fost concluzia celor de la Apple

Publicată de arxiv.org, lucrarea a concluzionat că a existat „o variabilitate semnificativă a performanței între diferitele răspunsuri ale aceleiași întrebări, provocând fiabilitatea rezultatelor actuale GSM8K care se bazează pe măsurători de precizie într-un singur punct”.

GSM8K este un set de date care include peste 8000 de întrebări și răspunsuri la matematică în școala generală.

Cercetătorii Apple au stabilit că variația acestei performanțe ar putea fi de până la 10%. Chiar și micile variații ale întrebărilor pot cauza probleme uriașe în fiabilitatea răspunsurilor LLM.

inteligență artificială, AI
SURSA FOTO: Dreamstime

AI nu folosește deloc logica

Cu alte cuvinte, sugerează cercetătorii, ar trebui să vă verificați răspunsurile de fiecare dată când folosiți ceva de genul ChatGPT. Asta pentru că, deși poate părea uneori că AI folosește logica pentru a vă oferi răspunsuri la întrebările puse, nu se folosește logica.

În schimb, inteligența artificială se bazează pe recunoașterea modelelor pentru a oferi răspunsuri la întrebări.

Studiul Apple arată că până și schimbarea unor cuvinte nesemnificative poate modifica răspunsul modelului.

Un exemplu de variație critică prezentată a apărut la o problemă privind colectarea de kiwi pe parcursul mai multor zile. Cercetătorii Apple au efectuat un experiment de control, apoi au adăugat câteva informații nesemnificative privind dimensiunea kiwi.

Modelele Meta și OpenAI au prezentat probleme

Llama de la Meta și o1 de la OpenAI și-au modificat apoi răspunsurile la problema din control, în ciuda faptului că datele privind dimensiunea kiwi nu au nicio influență tangibilă asupra rezultatului problemei.

GPT-4o de la OpenAI a avut, de asemenea, probleme cu performanța, atunci când a introdus mici variații în datele furnizate LLM.

Deoarece LLM-urile devin din tot mai folosite în lumea actuală, datele studiului  provoacă îngrijorări privire la credibilitatea IA în a oferi răspunsuri precise la întrebările noastre. Mai ales când vine vorba de probleme precum consilierea financiară. De asemenea, arată necesitatea verificării atente a tuturor informațiile pe care le primiți atunci când utilizați modele lingvistice mari.