Modelul de inteligență artificială GROVER tratează ADN-ul ca pe un limbaj, învățând regulile și contextul pentru a extrage semnificații biologice, cum ar fi promotorii genelor și locurile de legare a proteinelor.
Această abordare inovatoare ar putea revoluționa genomica și medicina, prin deblocarea straturilor ascunse de informații genetice. Descoperirile sugerează că funcțiile ADN-ului sunt codificate în secvențe, oferind noi perspective asupra predispozițiilor și tratamentelor la boli, scrie Neuroscience.
Date-cheie despre modelul de inteligență artificială
Model de limbaj AI: GROVER folosește tehnici de model de limbaj pentru a interpreta ADN-ul, tratând secvențele ca pe o structură lingvistică pentru a dezvălui funcțiile genetice.
Perspective genetice: modelul identifică promotori de gene, site-uri de legare a proteinelor și informații epigenetice, îmbunătățind înțelegerea regiunilor necodate ale ADN-ului.
Aplicații potențiale: GROVER poate avansa genomica și medicina personalizată, oferind perspective asupra biologiei și bolilor umane.
Pot fi decodate informațiile complexe ascunse în genomul uman
ADN-ul conține informații fundamentale necesare pentru a susține viața. Înțelegerea modului în care aceste informații sunt stocate și organizate a fost una dintre cele mai mari provocări științifice ale secolului trecut.
Cu GROVER, un nou model de limbaj mare antrenat pe ADN-ul uman, cercetătorii ar putea încerca acum să decodeze informațiile complexe ascunse în genomul nostru.
Dezvoltat de o echipă de la Centrul de Biotehnologie (BIOTEC) al Universității de Tehnologie din Dresda, GROVER tratează ADN-ul uman ca pe un text, învățând regulile și contextul acestuia pentru a trage informații funcționale despre secvențele ADN.
Acest nou instrument, publicat în ”Nature Machine Intelligence”, are potențialul de a transforma genomica și de a accelera medicina personalizată.
Oamenii de știință au căutat mereu să înțeleagă informațiile codificate în ADN. 70 de ani mai târziu, este clar că informațiile ascunse în ADN sunt multistratificate. Doar 1-2% din genom este format din gene, secvențele care codifică proteine.
„ADN-ul are multe funcții dincolo de codificarea proteinelor. Unele secvențe reglează genele, altele servesc unor scopuri structurale, majoritatea secvențelor servesc mai multe funcții simultan. În prezent, nu înțelegem semnificația ADN-ului. Când vine vorba de înțelegerea regiunilor ADN-ului, se pare că abia am început să ghicim unele lucruri. Aici AI și modelele de limbaj mari pot ajuta”, spune dr. Anna Poetsch, liderul grupului de cercetare dela BIOTEC.
ADN-ul ca limbaj
Modelele mari de limbaj, cum ar fi GPT, au transformat înțelegerea unor lucruri. Antrenate exclusiv pe text, modelele mari de limbaj au dezvoltat capacitatea de a folosi limba în multe contexte.
„ADN-ul este codul vieții. De ce să nu-l tratezi ca pe un limbaj?” spune dr. Poetsch. Echipa Poetsch a antrenat un model de limbaj mare pe un genom uman de referință. Instrumentul rezultat, numit GROVER, sau „Regulile genomului obținut prin reprezentări extrase”, poate fi folosit pentru a extrage semnificația biologică din ADN.
„GROVER a învățat regulile ADN-ului. În ceea ce privește limbajul, vorbim despre gramatică, sintaxă și semantică. Pentru ADN, aceasta înseamnă învățarea regulilor care guvernează secvențele, ordinea nucleotidelor și secvențelor și semnificația secvențelor. La fel ca modelele GPT care învață limbajul uman, GROVER a învățat practic cum să „vorbească” ADN-ul”, explică dr. Melissa Sanabria, cercetătorul din spatele proiectului.
Echipa a arătat că GROVER, pe lângă faptul că poate prezice cu exactitate următoarele secvențe de ADN, poate fi folosit și pentru a extrage informații contextuale care au semnificație biologică, de exemplu, identificarea promotorilor genelor sau a site-urilor de legare a proteinelor de pe ADN.
GROVER învață procese care sunt în general considerate a fi „epigenetice”, adică procese de reglementare care au loc pe deasupra ADN-ului.
„Antrenând GROVER doar cu secvența ADN, fără adnotări de funcții, putem extrage informații despre funcția biologică. Funcția, inclusiv o parte din informațiile epigenetice, este, de asemenea, codificată în secvență”, spune dr. Sanabria.
A fost nevoie de Dicționarul ADN
„ADN-ul seamănă cu limbajul. Are patru litere care construiesc secvențe, iar secvențele poartă un sens. Totuși, spre deosebire de o limbă, ADN-ul nu are cuvinte definite”, spune dr. Poetsch.
ADN-ul este format din patru litere (A, T, G și C) și gene, dar nu există secvențe predefinite de lungimi diferite care se combină pentru a construi gene sau alte secvențe semnificative.
Pentru a instrui GROVER, echipa a trebuit mai întâi să creeze ”un dicționar ADN”. Au folosit un truc, de la algoritmi de compresie. „Acest pas este crucial și diferențiază modelul nostru de limbaj ADN față de încercările anterioare”, spune dr. Poetsch.
„Am analizat întregul genom și am căutat combinații de litere care apar cel mai des. Am început cu două litere și am trecut peste ADN, iar și iar, pentru a-l construi până la cele mai comune combinații de mai multe litere. În acest fel, în aproximativ 600 de cicluri, am fragmentat ADN-ul în „cuvinte” care i-au permis lui GROVER să performeze cel mai bine atunci când anticipează următoarea secvență”, a explocat dr. Sanabria.