AI și învățarea automată în bioinformatică: un duo puternic care conduce inovația

Publicat: 2023-02-16

Progresele în tehnicile de secvențiere a ADN-ului au permis cercetătorilor să secvențeze genomul uman într-o singură zi, o sarcină care odată a durat un deceniu pentru a fi finalizată. Aceasta este doar una dintre multele contribuții puternice ale învățării automate (ML) la bioinformatică.

Pe măsură ce multe companii de biotehnologie angajează consultanți ML pentru a facilita procesul de manipulare a datelor biomedicale, AI pe piața bioinformatică continuă să crească. Se preconizează că va ajunge la 37.027,96 USD până în 2029, în creștere cu un CAGR de 42,7% din 2022. Vrei să faci parte din această revoluție digitală?

Acest articol oferă o scurtă introducere în ML, explică modul în care susține cercetarea biomedicală și enumeră provocările cu care te-ai putea confrunta la implementarea acestei tehnologii.

Introducere în învățarea automată pentru bioinformatică

ML este un subset al domeniului mai larg al inteligenței artificiale (AI). Permite sistemelor să învețe în mod independent din date și să execute sarcini pe care nu sunt programate în mod explicit să le gestioneze. Scopul său este de a oferi mașinilor capacitatea de a îndeplini sarcini care necesită inteligență umană, cum ar fi diagnosticarea, planificarea și predicția.

Există două tipuri principale de învățare automată.

  1. Învățarea supravegheată se bazează pe seturi de date etichetate pentru a-i învăța pe algoritmi cum să folosească un sistem de clasificare existent, inclusiv cum să facă predicții bazate pe acel sistem. Acest tip de ML este folosit pentru a antrena arbori de decizie și rețele neuronale.
  2. Învățarea nesupravegheată nu folosește etichete. În schimb, algoritmii încearcă să descopere singuri tiparele de date. Cu alte cuvinte, ei învață lucruri pe care nu le putem învăța direct. Acest lucru este comparabil cu modul în care funcționează creierul uman.

De asemenea, este posibil să combinați date etichetate și neetichetate în timpul antrenamentului, ceea ce va avea ca rezultat învățarea semi-supravegheată. Acest tip ML poate fi util atunci când nu aveți suficiente date etichetate de înaltă calitate pentru o abordare de învățare supravegheată, dar doriți totuși să-l utilizați pentru a dirija procesul de învățare.

Care sunt cele mai populare tehnici de învățare automată utilizate în bioinformatică?

Unii dintre acești algoritmi se încadrează strict în categoriile de învățare supravegheată/nesupravegheată, iar unii pot fi utilizați cu ambele metode.

Procesarea limbajului natural

Procesarea limbajului natural (NLP) este un set de tehnici care pot înțelege limbajul uman nestructurat.

NLP poate, de exemplu, să caute în volume de cercetări în domeniul biologiei, să adună informații despre un anumit subiect din diverse surse și să traducă rezultatele cercetării dintr-o limbă în alta. Pe lângă lucrările de cercetare minieră, soluțiile NLP pot analiza baze de date biomedicale relevante.

NLP poate beneficia domeniul bioinformaticii în următoarele moduri.

  • Interpretarea variantelor genetice
  • Analizați matricele de expresie ADN
  • Adnotați funcțiile proteinelor
  • Căutați noi ținte de droguri

Rețele neuronale

Acestea sunt structuri multistratificate formate din noduri/neuroni. Neuronii din straturile adiacente sunt conectați între ei prin legături, dar neuronii de pe un strat nu sunt interconectați. Neuronii de pe un strat primesc informații, o procesează și o transmit ca intrare la stratul următor. Și acest proces continuă până când informația procesată ajunge la nivelul de ieșire.

Cea mai de bază rețea neuronală se numește perceptron. Este format dintr-un neuron care acționează ca un clasificator. Acest neuron primește input și îl plasează într-una dintre cele două clase folosind o funcție de discriminare liniară. În rețelele neuronale mai mari, nu există limită pentru numărul de straturi sau numărul de noduri dintr-un singur strat.

Rețelele neuronale pot fi utilizate pentru:

  • clasifică profilurile de expresie genică
  • prezice structura proteinelor
  • secvența ADN.

Clustering

Agruparea nesupravegheată este procesul de organizare a elementelor în diferite grupuri, pe baza definiției oferite a similarității. Ca urmare a unei astfel de clasificări, elementele poziționate într-un cluster sunt strâns legate între ele și diferă de elementele din alte clustere.

Spre deosebire de clasificarea supravegheată, în clustering, nu știm dinainte câte clustere vor fi formate. Un exemplu faimos al acestei abordări ML în bioinformatică este profilul de expresie bazat pe microarray a genelor, unde genele cu niveluri de expresie similare sunt poziționate într-un singur cluster.

Reducerea dimensionalității

În problemele de clasificare ML, clasificările sunt efectuate pe baza factorilor/trăsăturilor. Uneori există prea mulți factori care afectează rezultatul final, ceea ce face setul de date dificil de vizualizat și manipulat. Algoritmii de reducere a dimensionalității pot minimiza numărul de caracteristici, făcând setul de date mai ușor de gestionat. De exemplu, o problemă de clasificare a climei ar putea avea umiditatea și precipitațiile printre caracteristicile sale. Aceste două pot fi prăbușite într-un singur factor de dragul simplității, deoarece ambele sunt strâns legate.

Reducerea dimensionalității are două componente principale.

  • Selectarea caracteristicilor: alegerea unui subset de variabile care să reprezinte un întreg model prin încorporare, filtrare sau împachetare caracteristici.
  • Extragerea caracteristicilor: reducerea numărului de dimensiuni dintr-un set de date – de exemplu, un spațiu 3D poate fi împărțit în două spații 2D.

Acest tip de algoritmi este utilizat pentru a comprima seturi mari de date de dragul reducerii timpului de calcul și a cerințelor de stocare. De asemenea, poate elimina caracteristicile redundante prezente în date.

Clasificatori de arbore de decizie

Acesta este unul dintre cei mai populari clasificatori clasici de învățare supervizată. Acești algoritmi aplică o abordare recursivă pentru a construi un model de arbore asemănător unei diagrame de flux, în care fiecare nod reprezintă un test pe o caracteristică. Mai întâi, algoritmul determină nodul superior - rădăcina - și apoi construiește arborele recursiv, câte un parametru. Nodul final din fiecare secvență se numește „nodul frunză”. Reprezintă clasificarea finală și deține eticheta clasei.

Modelele arborelui de decizie necesită o putere de calcul ridicată în timpul antrenamentului, dar ulterior pot efectua clasificări fără calculare extinsă. Principalul avantaj pe care acești clasificatori îl aduc în domeniul bioinformaticii este că generează reguli ușor de înțeles și rezultate explicabile.

Suport Vector Machine

Acesta este un model ML supravegheat care poate rezolva probleme de clasificare în două grupuri. Pentru a clasifica punctele de date, acești algoritmi caută un hiperplan optim care împarte datele, separându-le în două clase, cu distanța maximă dintre punctele de date.

Punctele situate pe ambele părți ale hiperplanului aparțin unor clase diferite. Dimensiunea hiperplanului depinde de numărul de caracteristici. În cazul a două caracteristici, limita de decizie este o linie; cu trei caracteristici, este o placă 2D. Această caracteristică face dificilă utilizarea SVM pentru clasificări cu mai mult de trei caracteristici.

Această abordare este utilă în identificarea computațională a genelor ARN funcționale. Poate selecta setul optim de gene pentru detectarea cancerului pe baza datelor de exprimare a acestora.

Top 5 aplicații ale învățării automate în bioinformatică

După ce am făcut o scurtă introducere în ML și am evidențiat cei mai des utilizați algoritmi ML, să vedem cum pot fi implementați în domeniul bioinformaticii.

Dacă oricare dintre aceste cazuri de utilizare rezonează cu dvs., apelați la profesioniști de consultanță în software AI pentru a implementa o soluție personalizată pentru afacerea dvs.

1. Facilitarea experimentelor de editare a genelor

Editarea genelor se referă la manipularea compoziției genetice a unui organism prin ștergerea, inserarea și înlocuirea unei părți a secvenței sale de ADN. Acest proces se bazează de obicei pe tehnica CRISPR, care este destul de eficientă. Dar există încă multe îmbunătățiri de dorit în domeniul selectării secvenței ADN potrivite pentru manipulare și aici ML poate ajuta. Folosind învățarea automată pentru bioinformatică, cercetătorii pot îmbunătăți designul experimentelor de editare a genelor și pot prezice rezultatele acestora.

O echipă de cercetare a folosit algoritmi ML pentru a descoperi cele mai optime variante combinaționale de reziduuri de aminoacizi care permit proteinei de editare a genomului Cas9 să se lege de ADN-ul țintă. Datorită numărului mare de aceste variante, un astfel de experiment ar fi fost altfel prea mare, dar utilizarea unei abordări de inginerie bazată pe ML a redus sarcina de screening cu aproximativ 95%.

2. Identificarea structurii proteinelor

Proteomica este studiul proteinelor, al interacțiunilor lor, al compoziției și al rolului lor în corpul uman. Acest domeniu implică seturi de date biologice grele și este costisitor din punct de vedere computațional. Prin urmare, tehnologii precum ML în bioinformatică sunt esențiale aici.

Una dintre cele mai de succes aplicații în acest domeniu este utilizarea rețelelor neuronale convoluționale pentru a poziționa aminoacizii proteinelor în trei clase - foaie, helix și bobină. Rețelele neuronale pot atinge o precizie de 84%, limita teoretică fiind de 88%–90%.

O altă utilizare a ML în proteomică este notarea modelului de proteine, o sarcină esențială pentru prezicerea structurii proteinei. În abordarea ML a bioinformaticii, cercetătorii de la Universitatea de Stat Fayetteville au implementat ML pentru a îmbunătăți scorul modelului de proteine. Ei au împărțit modelele de proteine ​​în cauză în grupuri și au folosit un interpret ML pentru a decide asupra vectorului caracteristic pentru a evalua modelele aparținând fiecărui grup. Acești vectori de caracteristici au fost utilizați mai târziu pentru a îmbunătăți în continuare algoritmii ML în timp ce îi antrenează pe fiecare grup separat.

3. Identificarea genelor asociate cu boli

Cercetătorii folosesc din ce în ce mai mult ML în bioinformatică pentru a identifica genele care sunt susceptibile de a fi implicate în anumite boli. Acest lucru se realizează prin analiza micromatricelor de expresie genică și secvențierea ARN.

Identificarea genelor a câștigat acțiune în studiile legate de cancer pentru a identifica genele care sunt susceptibile de a contribui la cancer, precum și pentru a clasifica tumorile prin analizarea lor la nivel molecular.

De exemplu, un grup de oameni de știință de la Universitatea din Washington a folosit ML în algoritmi de bioinformatică, inclusiv un arbore de decizie, o mașină de suport vector și rețele neuronale pentru a le testa capacitatea de a prezice și clasifica tipurile de cancer. Cercetătorii au implementat date de secvențiere a ARN din proiectul The Cancer Genome Atlas și au descoperit că mașina vectorului de suport liniar a fost cea mai precisă, atingând o precizie de 95,8% în clasificarea cancerului.

Într-un alt exemplu, cercetătorii au folosit ML pentru a clasifica tipurile de cancer de sân pe baza datelor despre expresia genelor. Această echipă s-a bazat, de asemenea, pe datele proiectului Atlas al genomului cancerului. Cercetătorii au clasificat probele în cancer de sân triplu negativ - unul dintre cele mai letale cancere de sân - și non-triplu negativ. Și încă o dată, clasificatorul de mașini cu vector de suport a oferit cele mai bune rezultate.

Vorbind despre boli non-canceroase, cercetătorii de la Universitatea din Pennsylvania s-au bazat pe ML pentru a identifica genele care ar fi o țintă potrivită pentru medicamentele pentru boala coronariană (CAD). Echipa a folosit instrumentul TPOT (Tree-based Pipeline Optimization Tool) alimentat de ML pentru a identifica o combinație de polimorfisme cu un singur nucleotide (SNP) legate de CAD. Ei au analizat datele genomice de la Biobank din Marea Britanie și au descoperit 28 de SNP relevante. Relația dintre SNP-urile din partea de sus a acestei liste și CAD a fost menționată anterior în literatură, iar această cercetare a validat aplicarea ML.

4. Parcurgerea bazei de cunoștințe în căutarea unor modele semnificative

Tehnologia avansată de secvențiere dublează bazele de date genomice la fiecare 2,5 ani, iar cercetătorii caută o modalitate de a extrage informații utile din aceste cunoștințe acumulate. ML în bioinformatică poate trece prin publicații și rapoarte biomedicale pentru a identifica diferite gene și proteine ​​și pentru a căuta funcționalitatea acestora. De asemenea, poate ajuta la adnotarea bazelor de date de proteine ​​și le poate completa cu informațiile pe care le extrage din literatura științifică.

Un exemplu vine de la un grup de cercetători care au implementat bioinformatica și ML în minerit de literatură pentru a facilita notarea modelelor de proteine. Modelarea structurală a andocărilor proteină-proteină are ca rezultat, de obicei, mai multe modele care sunt evaluate în continuare pe baza constrângerilor structurale. Echipa a folosit algoritmi ML pentru a parcurge lucrările PubMed privind interacțiunile proteină-proteină, căutând reziduuri care ar putea ajuta la generarea acestor constrângeri pentru notarea modelului. Și pentru a se asigura că constrângerile vor fi relevante, oamenii de știință au explorat capacitatea diferiților algoritmi ML de a verifica relevanța tuturor reziduurilor descoperite.

Această cercetare a dezvăluit că atât rețelele neuronale costisitoare din punct de vedere computațional, cât și mașinile vectoriale de sprijin care necesită mai puține resurse au obținut rezultate foarte similare.

5. Reutilizarea drogurilor

Reutilizarea medicamentelor, sau reprofilarea, este o tehnică pe care oamenii de știință o folosesc pentru a descoperi noi aplicații care nu au fost destinate medicamentelor existente. Cercetătorii adoptă AI în bioinformatică pentru a efectua analize de droguri pe baze de date relevante, cum ar fi BindingDB și DrugBank. Există trei direcții majore pentru reutilizarea medicamentelor.

  • Interacțiunea medicament-țintă analizează capacitatea unui medicament de a se lega direct de o proteină țintă
  • Interacțiunea medicament-medicament investighează modul în care acționează medicamentele atunci când sunt luate în combinații
  • Interacțiunea proteină-proteină analizează suprafața proteinelor intracelulare care interacționează și încearcă să descopere punctele fierbinți și site-urile alosterice.

Cercetătorii de la China University of Petroleum și Shandong University au dezvoltat un algoritm de rețea neuronală profundă și l-au folosit în baza de date DrugBank. Ei au vrut să studieze interacțiunile medicament-țintă dintre moleculele medicamentului și proteina de fuziune mitocondrială 2 (MFN2), care este una dintre principalele proteine ​​care pot provoca boala Alzheimer. Studiul a identificat 15 molecule de medicament cu potențial de legare. În urma investigațiilor ulterioare, s-a părut că 11 dintre ele s-ar putea andoca cu succes cu MFN2. Și cinci dintre ele aveau o forță de legare medie spre puternică.

Provocări prezentate de ML în bioinformatică

ML în bioinformatică diferă de ML în alte sectoare datorită celor patru factori de mai jos, care constituie, de asemenea, principalele provocări ale aplicării ML în acest domeniu.

  1. Utilizarea AI în bioinformatică este costisitoare. Pentru ca algoritmul să funcționeze corect, trebuie să achiziționați un set mare de date de antrenament. Cu toate acestea, este destul de costisitor să obțineți 10.000 de scanări toracice sau orice alt tip de date medicale.
  2. Există dificultăți asociate cu seturile de date de antrenament. În alte domenii, dacă nu aveți suficiente date de antrenament, puteți genera date sintetice pentru a vă extinde setul de date. Cu toate acestea, acest truc ar putea să nu fie potrivit când vine vorba de organe umane. Problema este că software-ul dvs. de generare a scanării ar putea produce o scanare a unui om real. Și dacă începeți să utilizați asta fără permisiunea persoanei, veți fi într-o încălcare gravă a confidențialității acesteia.
  3. O altă provocare asociată cu datele de antrenament este că, dacă doriți să construiți un algoritm care funcționează cu boli rare, nu vor exista prea multe date cu care să lucrați în primul rând.
  4. Nivelul de încredere trebuie să fie foarte ridicat. Când viața umană depinde de performanța algoritmului, sunt prea multe în joc, ceea ce nu lasă loc erorii.
  5. Medicii nu vor fi deschiși să utilizeze modelul ML dacă nu înțeleg cum a produs recomandările acestuia. În schimb, puteți utiliza AI explicabilă, dar acești algoritmi nu sunt la fel de puternici ca unele modele de învățare nesupravegheate.

Pentru provocări generale asociate AI și sfaturi de implementare, consultați articolul nostru și cartea electronică gratuită.

În concluzie

Tehnologiile AI și ML au multe aplicații în medicină și biologie. Pe blogul nostru, puteți găsi mai multe informații despre AI în studiile clinice, precum și despre utilizarea AI în diagnosticul și tratamentul cancerului, împreună cu celelalte beneficii ale acesteia în asistența medicală.

Bioinformatica este un alt domeniu legat de medicină în care soluțiile medicale bazate pe ML și AI sunt la îndemână. Bioinformatica necesită manipularea unor cantități mari de diferite forme de date, cum ar fi secvențele genomului, structurile proteinelor și publicațiile științifice. ML este binecunoscut pentru capacitățile sale de procesare a datelor; cu toate acestea, multe modele de bioinformatică AI sunt costisitoare de rulat. Poate fi nevoie de sute de mii de dolari pentru a antrena un algoritm de învățare profundă. De exemplu, antrenarea modelului AlphaFold2 pentru predicția structurii proteinelor a consumat un echivalent a 100-200 de GPU-uri care rulează timp de câteva săptămâni.

Puteți găsi mai multe informații despre ce să vă așteptați din punct de vedere al prețului în articolul nostru despre cât costă implementarea AI. Dacă doriți să implementați învățarea automată în bioinformatică, trimiteți-ne un mesaj. Vom lucra împreună cu dvs. pentru a găsi cele mai potrivite modele ML pentru un buget rezonabil.

Vă gândiți să implementați învățarea automată în bioinformatică, dar nu sunteți sigur care model este potrivit pentru dvs.? Intrați în legătură! Vă vom ajuta să alegeți cel mai potrivit tip ML pentru sarcină. De asemenea, vă vom ajuta să construiți/personalizați, antrenați și implementați algoritmul.


Acest articol a fost publicat inițial pe site-ul Itrex.