AI e machine learning in bioinformatica: un potente binomio che guida l'innovazione

Pubblicato: 2023-02-16

I progressi nelle tecniche di sequenziamento del DNA hanno permesso ai ricercatori di sequenziare il genoma umano in un solo giorno, un compito che una volta richiedeva un decennio per essere completato. Questo è solo uno dei molti potenti contributi dell'apprendimento automatico (ML) alla bioinformatica.

Poiché molte aziende biotecnologiche assumono consulenti ML per facilitare il processo di gestione dei dati biomedici, l'IA nel mercato della bioinformatica continua a crescere. Si prevede che raggiungerà $ 37.027,96 entro il 2029, crescendo a un CAGR del 42,7% dal 2022. Vuoi far parte di questa rivoluzione digitale?

Questo articolo fornisce una breve introduzione al machine learning, spiega come supporta la ricerca biomedica ed enumera le sfide che potresti incontrare implementando questa tecnologia.

Introduzione all'apprendimento automatico per la bioinformatica

ML è un sottoinsieme del campo più ampio dell'intelligenza artificiale (AI). Consente ai sistemi di apprendere in modo indipendente dai dati ed eseguire attività per le quali non sono esplicitamente programmati. Il suo obiettivo è dare alle macchine la capacità di eseguire attività che richiedono l'intelligenza umana, come la diagnosi, la pianificazione e la previsione.

Esistono due tipi principali di apprendimento automatico.

L'apprendimento supervisionato si basa su set di dati etichettati per insegnare agli algoritmi come utilizzare un sistema di classificazione esistente, incluso come fare previsioni basate su quel sistema. Questo tipo di ML viene utilizzato per addestrare alberi decisionali e reti neurali.
L'apprendimento non supervisionato non usa etichette. Invece, gli algoritmi cercano di scoprire i modelli di dati da soli. In altre parole, imparano cose che noi non possiamo insegnargli direttamente. Questo è paragonabile a come funziona il cervello umano.

È anche possibile combinare dati etichettati e non etichettati durante la formazione, il che si tradurrà in un apprendimento semi-supervisionato. Questo tipo di ML può essere utile quando non si dispone di dati etichettati di alta qualità sufficienti per un approccio di apprendimento supervisionato, ma si desidera comunque utilizzarli per dirigere il processo di apprendimento.

Quali sono le tecniche di apprendimento automatico più popolari utilizzate in bioinformatica?

Alcuni di questi algoritmi rientrano strettamente nelle categorie di apprendimento supervisionato/non supervisionato e alcuni possono essere utilizzati con entrambi i metodi.

Elaborazione del linguaggio naturale

L'elaborazione del linguaggio naturale (NLP) è un insieme di tecniche in grado di comprendere il linguaggio umano non strutturato.

La PNL può, ad esempio, cercare tra volumi di ricerca biologica, aggregare informazioni su un determinato argomento da varie fonti e tradurre i risultati della ricerca da una lingua all'altra. Oltre a estrarre documenti di ricerca, le soluzioni NLP possono analizzare database biomedici pertinenti.

La PNL può beneficiare il campo della bioinformatica nei seguenti modi.

Interpretare le varianti genetiche
Analizza gli array di espressione del DNA
Annotare le funzioni proteiche
Cerca nuovi bersagli farmacologici

Reti neurali

Si tratta di strutture multistrato costituite da nodi/neuroni. I neuroni negli strati adiacenti sono collegati tra loro tramite collegamenti, ma i neuroni su uno strato non sono interconnessi. I neuroni su uno strato ricevono informazioni, le elaborano e le trasmettono come input allo strato successivo. E questo processo continua finché le informazioni elaborate non raggiungono il livello di output.

La rete neurale più basilare è chiamata perceptron. Consiste in un neurone che funge da classificatore. Questo neurone riceve input e lo colloca in una delle due classi utilizzando una funzione di discriminazione lineare. Nelle reti neurali più grandi, non c'è limite al numero di livelli o al numero di nodi in un livello.

Le reti neurali possono essere utilizzate per:

classificare i profili di espressione genica
prevedere la struttura delle proteine
sequenza DNA.

Raggruppamento

Il clustering non supervisionato è il processo di organizzazione degli elementi in vari gruppi in base alla definizione di somiglianza fornita. Come risultato di tale classificazione, gli elementi posizionati in un cluster sono strettamente correlati tra loro e differiscono dagli elementi in altri cluster.

A differenza della classificazione supervisionata, nel clustering non sappiamo in anticipo quanti cluster si formeranno. Un famoso esempio di questo approccio ML in bioinformatica è il profilo di espressione dei geni basato su microarray, in cui i geni con livelli di espressione simili sono posizionati in un cluster.

Riduzione della dimensionalità

Nei problemi di classificazione ML, le classificazioni vengono eseguite in base a fattori/caratteristiche. A volte ci sono troppi fattori che influenzano il risultato finale, rendendo il set di dati difficile da visualizzare e manipolare. Gli algoritmi di riduzione della dimensionalità possono ridurre al minimo il numero di funzionalità, rendendo il set di dati più gestibile. Ad esempio, un problema di classificazione climatica potrebbe avere tra le sue caratteristiche l'umidità e le precipitazioni. Questi due possono essere ridotti in un fattore per semplicità poiché sono entrambi strettamente correlati.

La riduzione della dimensionalità ha due componenti principali.

Selezione delle funzionalità: scelta di un sottoinsieme di variabili per rappresentare un intero modello incorporando, filtrando o avvolgendo le funzionalità.
Estrazione delle caratteristiche: riduzione del numero di dimensioni in un set di dati, ad esempio uno spazio 3D può essere suddiviso in due spazi 2D.

Questo tipo di algoritmi viene utilizzato per comprimere set di dati di grandi dimensioni allo scopo di ridurre i tempi di calcolo e i requisiti di archiviazione. Può anche eliminare le caratteristiche ridondanti presenti nei dati.

Classificatori dell'albero decisionale

Questo è uno dei classificatori di apprendimento supervisionato classici più popolari. Questi algoritmi applicano un approccio ricorsivo per creare un modello ad albero simile a un diagramma di flusso, in cui ogni nodo rappresenta un test su una funzionalità. Innanzitutto, l'algoritmo determina il nodo superiore, la radice, quindi costruisce l'albero in modo ricorsivo, un parametro alla volta. Il nodo finale in ogni sequenza è chiamato "il nodo foglia". Rappresenta la classifica finale e detiene l'etichetta di classe.

I modelli di albero decisionale richiedono un'elevata potenza di calcolo durante l'addestramento, ma in seguito possono eseguire classificazioni senza calcoli estesi. Il vantaggio principale che questi classificatori apportano al campo della bioinformatica è che generano regole comprensibili e risultati spiegabili.

Supporta la macchina vettoriale

Si tratta di un modello ML supervisionato in grado di risolvere problemi di classificazione a due gruppi. Per classificare i punti dati, questi algoritmi cercano un iperpiano ottimale che divide i dati separandoli in due classi con la massima distanza tra i punti dati.

I punti situati su entrambi i lati dell'iperpiano appartengono a classi diverse. La dimensione dell'iperpiano dipende dal numero di caratteristiche. Nel caso di due feature, il confine decisionale è una linea; con tre caratteristiche, è una piastra 2D. Questa caratteristica rende difficile l'utilizzo di SVM per classificazioni con più di tre caratteristiche.

Questo approccio è utile nell'identificazione computazionale dei geni dell'RNA funzionale. Può selezionare il set ottimale di geni per il rilevamento del cancro in base ai loro dati di espressione.

Le 5 principali applicazioni dell'apprendimento automatico in bioinformatica

Dopo aver fornito una breve introduzione al ML ed evidenziato gli algoritmi ML più comunemente utilizzati, vediamo come possono essere implementati nel campo della bioinformatica.

Se uno di questi casi d'uso ti interessa, rivolgiti ai professionisti della consulenza software di intelligenza artificiale per implementare una soluzione personalizzata per la tua azienda.

1. Facilitare gli esperimenti di editing genetico

L'editing genetico si riferisce alla manipolazione della composizione genetica di un organismo mediante l'eliminazione, l'inserimento e la sostituzione di una parte della sua sequenza di DNA. Questo processo si basa tipicamente sulla tecnica CRISPR, che è piuttosto efficace. Ma c'è ancora molto da desiderare nell'area della selezione della giusta sequenza di DNA per la manipolazione, ed è qui che il ML può aiutare. Utilizzando l'apprendimento automatico per la bioinformatica, i ricercatori possono migliorare la progettazione di esperimenti di modifica genetica e prevederne i risultati.

Un team di ricerca ha utilizzato algoritmi ML per scoprire le varianti combinatorie più ottimali dei residui di aminoacidi che consentono alla proteina Cas9 di modificare il genoma di legarsi al DNA bersaglio. A causa dell'elevato numero di queste varianti, un simile esperimento sarebbe stato altrimenti troppo grande, ma l'utilizzo di un approccio ingegneristico basato sul machine learning ha ridotto il carico di screening di circa il 95%.

2. Identificazione della struttura proteica

La proteomica è lo studio delle proteine, delle loro interazioni, della composizione e del loro ruolo nel corpo umano. Questo campo coinvolge set di dati biologici pesanti ed è computazionalmente costoso. Pertanto, tecnologie come ML in bioinformatica sono essenziali qui.

Una delle applicazioni di maggior successo in questo campo è l'utilizzo di reti neurali convoluzionali per posizionare gli amminoacidi delle proteine in tre classi: foglio, elica e bobina. Le reti neurali possono raggiungere una precisione dell'84% con il limite teorico dell'88%–90%.

Un altro utilizzo di ML nella proteomica è il punteggio del modello proteico, un compito essenziale per prevedere la struttura delle proteine. Nel loro approccio ML alla bioinformatica, i ricercatori della Fayetteville State University hanno utilizzato il ML per migliorare il punteggio del modello proteico. Hanno diviso i modelli proteici in questione in gruppi e hanno utilizzato un interprete ML per decidere il vettore delle caratteristiche per valutare i modelli appartenenti a ciascun gruppo. Questi vettori di funzionalità sono stati utilizzati in seguito per migliorare ulteriormente gli algoritmi ML durante l'addestramento su ciascun gruppo separatamente.

3. Individuazione dei geni associati alle malattie

I ricercatori utilizzano sempre più il ML in bioinformatica per identificare i geni che potrebbero essere coinvolti in particolari malattie. Ciò si ottiene analizzando i microarray di espressione genica e il sequenziamento dell'RNA.

L'identificazione dei geni ha guadagnato terreno negli studi sul cancro per identificare i geni che possono contribuire al cancro, nonché per classificare i tumori analizzandoli a livello molecolare.

Ad esempio, un gruppo di scienziati dell'Università di Washington ha utilizzato il machine learning in algoritmi bioinformatici, tra cui un albero decisionale, una macchina vettoriale di supporto e reti neurali per testare la loro capacità di prevedere e classificare i tipi di cancro. I ricercatori hanno distribuito i dati di sequenziamento dell'RNA dal progetto The Cancer Genome Atlas e hanno scoperto che la macchina del vettore di supporto lineare era la più precisa, raggiungendo un'accuratezza del 95,8% nella classificazione del cancro.

In un altro esempio, i ricercatori hanno utilizzato ML per classificare i tipi di cancro al seno in base ai dati di espressione genica. Questo team si è anche basato sui dati del Cancer Genome Atlas Project. I ricercatori hanno classificato i campioni in carcinoma mammario triplo negativo - uno dei tumori al seno più letali - e non triplo negativo. E ancora una volta, il classificatore della macchina vettoriale di supporto ha fornito i migliori risultati.

Parlando di malattie non cancerose, i ricercatori dell'Università della Pennsylvania si sono affidati al ML per identificare i geni che sarebbero stati un bersaglio adatto per i farmaci per la malattia coronarica (CAD). Il team ha utilizzato lo strumento TPOT (Tree-based Pipeline Optimization Tool) basato su ML per individuare una combinazione di polimorfismi a singolo nucleotide (SNP) correlati al CAD. Hanno analizzato i dati genomici della biobanca del Regno Unito e hanno scoperto 28 SNP rilevanti. La relazione tra gli SNP in cima a questo elenco e CAD è stata precedentemente menzionata in letteratura e questa ricerca ha convalidato l'applicazione del ML.

4. Attraversare la Knowledge Base alla ricerca di modelli significativi

La tecnologia avanzata di sequenziamento raddoppia i database genomici ogni 2,5 anni e i ricercatori stanno cercando un modo per estrarre informazioni utili da questa conoscenza accumulata. Il ML in bioinformatica può vagliare pubblicazioni e rapporti biomedici per identificare diversi geni e proteine e cercare la loro funzionalità. Può anche aiutare ad annotare database di proteine e integrarli con le informazioni che recupera dalla letteratura scientifica.

Un esempio viene da un gruppo di ricercatori che ha utilizzato la bioinformatica e il machine learning nell'estrazione della letteratura per facilitare il punteggio del modello proteico. La modellazione strutturale degli ancoraggi proteina-proteina in genere si traduce in diversi modelli che vengono ulteriormente valutati in base a vincoli strutturali. Il team ha utilizzato algoritmi ML per esaminare i documenti PubMed sulle interazioni proteina-proteina, alla ricerca di residui che potrebbero aiutare a generare questi vincoli per il punteggio del modello. E per assicurarsi che i vincoli fossero rilevanti, gli scienziati hanno esplorato la capacità di diversi algoritmi ML di verificare la pertinenza di tutti i residui scoperti.

Questa ricerca ha rivelato che sia le reti neurali computazionalmente costose che le macchine vettoriali di supporto meno impegnative hanno ottenuto risultati molto simili.

5. Riutilizzo dei farmaci

La riproposizione di farmaci, o riprofiling, è una tecnica che gli scienziati usano per scoprire nuove applicazioni che non erano destinate a farmaci esistenti. I ricercatori adottano l'intelligenza artificiale nella bioinformatica per eseguire analisi dei farmaci su database pertinenti, come BindingDB e DrugBank. Ci sono tre direzioni principali per il riutilizzo dei farmaci.

L'interazione farmaco-bersaglio esamina la capacità di un farmaco di legarsi direttamente a una proteina bersaglio
L'interazione farmaco-farmaco indaga su come agiscono i farmaci quando vengono assunti in combinazione
L'interazione proteina-proteina esamina la superficie delle proteine intracellulari interagenti e tenta di scoprire hotspot e siti allosterici.

I ricercatori della China University of Petroleum e della Shandong University hanno sviluppato un algoritmo di rete neurale profonda e lo hanno utilizzato nel database DrugBank. Volevano studiare le interazioni farmaco-bersaglio tra le molecole del farmaco e la proteina di fusione mitocondriale 2 (MFN2), che è una delle principali proteine che possono causare il morbo di Alzheimer. Lo studio ha identificato 15 molecole farmacologiche con potenziale di legame. Dopo ulteriori indagini, è emerso che 11 di loro potevano attraccare con successo con MFN2. E cinque di loro avevano una forza vincolante da media a forte.

Sfide presentate da ML in bioinformatica

Il machine learning in bioinformatica differisce dal machine learning in altri settori a causa dei quattro fattori seguenti, che costituiscono anche le principali sfide dell'applicazione del machine learning a questo campo.

Usare l'intelligenza artificiale nella bioinformatica è costoso. Affinché l'algoritmo funzioni correttamente, è necessario acquisire un set di dati di addestramento di grandi dimensioni. Tuttavia, è piuttosto costoso ottenere 10.000 scansioni del torace o qualsiasi altro tipo di dati medici.
Esistono difficoltà associate ai set di dati di addestramento. In altri campi, se non disponi di dati di addestramento sufficienti, puoi generare dati sintetici per espandere il set di dati. Tuttavia, questo trucco potrebbe non essere appropriato quando si tratta di organi umani. Il problema è che il tuo software di generazione della scansione potrebbe produrre una scansione di un vero essere umano. E se inizi a usarlo senza il permesso della persona, violerai gravemente la sua privacy.
Un'altra sfida associata ai dati di addestramento è che se vuoi costruire un algoritmo che funzioni con le malattie rare, non ci saranno molti dati con cui lavorare in primo luogo.
Il livello di confidenza deve essere molto alto. Quando la vita umana dipende dalle prestazioni dell'algoritmo, la posta in gioco è troppo alta, il che non lascia spazio all'errore.
I medici non saranno disposti a utilizzare il modello ML se non capiscono come ha prodotto le sue raccomandazioni. Puoi invece utilizzare l'intelligenza artificiale spiegabile, ma questi algoritmi non sono così potenti come alcuni modelli di apprendimento non supervisionato a scatola nera.

Per le sfide generali associate all'IA e i suggerimenti per l'implementazione, consulta il nostro articolo e l'eBook gratuito.

Per riassumere

Le tecnologie AI e ML hanno molte applicazioni in medicina e biologia. Sul nostro blog, puoi trovare maggiori informazioni sull'intelligenza artificiale negli studi clinici, nonché sull'uso dell'IA nella diagnosi e nel trattamento del cancro, insieme agli altri vantaggi nell'assistenza sanitaria.

La bioinformatica è un altro campo correlato alla medicina in cui le soluzioni mediche basate su ML e AI sono utili. La bioinformatica richiede la gestione di grandi quantità di varie forme di dati, come sequenze di genomi, strutture proteiche e pubblicazioni scientifiche. ML è ben noto per le sue capacità di elaborazione dei dati; tuttavia, molti modelli di bioinformatica AI sono costosi da eseguire. Possono essere necessarie centinaia di migliaia di dollari per addestrare un algoritmo di deep learning. Ad esempio, l'addestramento del modello AlphaFold2 per la previsione della struttura proteica ha consumato un equivalente di 100-200 GPU in esecuzione per diverse settimane.

Puoi trovare maggiori informazioni su cosa aspettarti in termini di prezzo nel nostro articolo su quanto costa implementare l'IA. Se desideri implementare l'apprendimento automatico nella bioinformatica, scrivici. Lavoreremo insieme a te per trovare i modelli ML più adatti a un budget ragionevole.

Stai pensando di implementare l'apprendimento automatico nella bioinformatica, ma non sei sicuro di quale modello sia giusto per te? Contattaci! Ti aiuteremo a selezionare il tipo di ML più adatto per l'attività. Ti aiuteremo anche a creare/personalizzare, addestrare e distribuire l'algoritmo.

Questo articolo è stato originariamente pubblicato sul sito web di Itrex.