IA et apprentissage automatique en bioinformatique : un puissant duo moteur d'innovation

Publié: 2023-02-16

Les progrès des techniques de séquençage de l'ADN ont permis aux chercheurs de séquencer le génome humain en une journée seulement, une tâche qui prenait autrefois une décennie. Ce n'est qu'une des nombreuses contributions puissantes de l'apprentissage automatique (ML) à la bioinformatique.

Alors que de nombreuses entreprises de biotechnologie embauchent des consultants ML pour faciliter le processus de traitement des données biomédicales, l'IA sur le marché de la bioinformatique continue de croître. Il devrait atteindre 37 027,96 $ d'ici 2029, avec un TCAC de 42,7 % à partir de 2022. Voulez-vous faire partie de cette révolution numérique ?

Cet article donne une brève introduction au ML, explique comment il soutient la recherche biomédicale et énumère les défis auxquels vous pourriez être confronté lors du déploiement de cette technologie.

Introduction à l'apprentissage automatique pour la bioinformatique

Le ML est un sous-ensemble du domaine plus large de l'intelligence artificielle (IA). Il permet aux systèmes d'apprendre indépendamment des données et d'exécuter des tâches pour lesquelles ils ne sont pas explicitement programmés. Son objectif est de donner aux machines la capacité d'effectuer des tâches qui nécessitent l'intelligence humaine, telles que le diagnostic, la planification et la prédiction.

Il existe deux principaux types d'apprentissage automatique.

  1. L'apprentissage supervisé s'appuie sur des ensembles de données étiquetés pour enseigner aux algorithmes comment utiliser un système de classification existant, y compris comment faire des prédictions basées sur ce système. Ce type de ML est utilisé pour former des arbres de décision et des réseaux de neurones.
  2. L'apprentissage non supervisé n'utilise pas d'étiquettes. Au lieu de cela, les algorithmes tentent de découvrir eux-mêmes des modèles de données. En d'autres termes, ils apprennent des choses que nous ne pouvons pas leur enseigner directement. Ceci est comparable au fonctionnement du cerveau humain.

Il est également possible de combiner des données étiquetées et non étiquetées pendant la formation, ce qui se traduira par un apprentissage semi-supervisé. Ce type de ML peut être utile lorsque vous ne disposez pas de suffisamment de données étiquetées de haute qualité pour une approche d'apprentissage supervisé, mais que vous souhaitez tout de même l'utiliser pour diriger le processus d'apprentissage.

Quelles sont les techniques d'apprentissage automatique les plus populaires utilisées en bioinformatique ?

Certains de ces algorithmes relèvent strictement des catégories d'apprentissage supervisé/non supervisé, et certains peuvent être utilisés avec les deux méthodes.

Traitement du langage naturel

Le traitement du langage naturel (TLN) est un ensemble de techniques permettant de comprendre le langage humain non structuré.

La PNL peut, par exemple, rechercher dans des volumes de recherche en biologie, agréger des informations sur un sujet donné à partir de diverses sources et traduire les résultats de la recherche d'une langue à une autre. En plus des documents de recherche minière, les solutions NLP peuvent analyser les bases de données biomédicales pertinentes.

La PNL peut bénéficier au domaine de la bioinformatique des manières suivantes.

  • Interpréter les variants génétiques
  • Analyser les puces d'expression d'ADN
  • Annoter les fonctions des protéines
  • Rechercher de nouvelles cibles médicamenteuses

Les réseaux de neurones

Ce sont des structures multicouches constituées de nœuds/neurones. Les neurones des couches adjacentes sont connectés les uns aux autres via des liens, mais les neurones d'une couche ne sont pas interconnectés. Les neurones d'une couche reçoivent des informations, les traitent et les transmettent en entrée à la couche suivante. Et ce processus se poursuit jusqu'à ce que les informations traitées atteignent la couche de sortie.

Le réseau de neurones le plus élémentaire s'appelle un perceptron. Il se compose d'un neurone qui agit comme un classificateur. Ce neurone reçoit une entrée et la place dans l'une des deux classes à l'aide d'une fonction de discrimination linéaire. Dans les grands réseaux de neurones, il n'y a pas de limite au nombre de couches ou au nombre de nœuds dans une couche.

Les réseaux de neurones peuvent être utilisés pour :

  • classer les profils d'expression génique
  • prédire la structure des protéines
  • séquencer l'ADN.

Regroupement

Le regroupement non supervisé est le processus d'organisation des éléments en divers groupes en fonction de la définition de similarité fournie. À la suite d'une telle classification, les éléments positionnés dans un groupe sont étroitement liés les uns aux autres et diffèrent des éléments des autres groupes.

Contrairement à la classification supervisée, dans le clustering, nous ne savons pas à l'avance combien de clusters seront formés. Un exemple célèbre de cette approche ML en bioinformatique est le profilage de l'expression des gènes basé sur les puces à ADN, où les gènes avec des niveaux d'expression similaires sont positionnés dans un cluster.

Réduction de dimensionnalité

Dans les problèmes de classification ML, les classifications sont effectuées en fonction de facteurs/caractéristiques. Parfois, trop de facteurs affectent le résultat final, ce qui rend l'ensemble de données difficile à visualiser et à manipuler. Les algorithmes de réduction de dimensionnalité peuvent minimiser le nombre d'entités, ce qui rend l'ensemble de données plus gérable. Par exemple, un problème de classification climatique peut avoir l'humidité et les précipitations parmi ses caractéristiques. Ces deux facteurs peuvent être regroupés en un seul facteur pour des raisons de simplicité, car ils sont tous deux étroitement liés.

La réduction de la dimensionnalité a deux composantes principales.

  • Sélection de fonctionnalités : choix d'un sous-ensemble de variables pour représenter un modèle entier en incorporant, filtrant ou enveloppant des fonctionnalités.
  • Extraction de caractéristiques : réduction du nombre de dimensions dans un jeu de données - par exemple, un espace 3D peut être divisé en deux espaces 2D.

Ce type d'algorithmes est utilisé pour compresser de grands ensembles de données dans le but de réduire le temps de calcul et les besoins de stockage. Il peut également éliminer les fonctionnalités redondantes présentes dans les données.

Classificateurs d'arbre de décision

C'est l'un des classificateurs classiques d'apprentissage supervisé les plus populaires. Ces algorithmes appliquent une approche récursive pour construire un modèle d'arbre de type organigramme, où chaque nœud représente un test sur une fonctionnalité. Tout d'abord, l'algorithme détermine le nœud supérieur - la racine - puis construit l'arbre de manière récursive, un paramètre à la fois. Le dernier nœud de chaque séquence est appelé « le nœud feuille ». Il représente le classement final et détient le label de classe.

Les modèles d'arbre de décision exigent une puissance de calcul élevée pendant la formation, mais ils peuvent ensuite effectuer des classifications sans calcul intensif. Le principal avantage que ces classificateurs apportent au domaine de la bioinformatique est qu'ils génèrent des règles compréhensibles et des résultats explicables.

Soutenir la machine vectorielle

Il s'agit d'un modèle de ML supervisé qui peut résoudre des problèmes de classification à deux groupes. Pour classer les points de données, ces algorithmes recherchent un hyperplan optimal qui divise les données le séparant en deux classes avec la distance maximale entre les points de données.

Les points situés de part et d'autre de l'hyperplan appartiennent à des classes différentes. La dimension de l'hyperplan dépend du nombre d'entités. Dans le cas de deux entités, la limite de décision est une ligne ; avec trois caractéristiques, c'est une plaque 2D. Cette caractéristique rend difficile l'utilisation de SVM pour les classifications avec plus de trois caractéristiques.

Cette approche est utile dans l'identification informatique des gènes d'ARN fonctionnels. Il peut sélectionner l'ensemble optimal de gènes pour la détection du cancer en fonction de leurs données d'expression.

Top 5 des applications de l'apprentissage automatique en bioinformatique

Après avoir donné une brève introduction au ML et mis en évidence les algorithmes de ML les plus couramment utilisés, voyons comment ils peuvent être déployés dans le domaine de la bioinformatique.

Si l'un de ces cas d'utilisation vous interpelle, adressez-vous à des professionnels du conseil en logiciels d'IA pour mettre en œuvre une solution personnalisée pour votre entreprise.

1. Faciliter les expériences d'édition de gènes

L'édition de gènes fait référence à la manipulation de la composition génétique d'un organisme en supprimant, en insérant et en remplaçant une partie de sa séquence d'ADN. Ce processus repose généralement sur la technique CRISPR, qui est plutôt efficace. Mais il reste encore beaucoup à faire dans le domaine de la sélection de la bonne séquence d'ADN pour la manipulation, et c'est là que le ML peut aider. En utilisant l'apprentissage automatique pour la bioinformatique, les chercheurs peuvent améliorer la conception des expériences d'édition de gènes et prédire leurs résultats.

Une équipe de recherche a utilisé des algorithmes ML pour découvrir les variantes combinatoires les plus optimales de résidus d'acides aminés qui permettent à la protéine d'édition du génome Cas9 de se lier à l'ADN cible. En raison du grand nombre de ces variantes, une telle expérience aurait autrement été trop importante, mais l'utilisation d'une approche d'ingénierie axée sur le ML a réduit la charge de dépistage d'environ 95 %.

2. Identification de la structure des protéines

La protéomique est l'étude des protéines, de leurs interactions, de leur composition et de leur rôle dans le corps humain. Ce domaine implique de lourds ensembles de données biologiques et est coûteux en calculs. Par conséquent, des technologies telles que ML en bioinformatique sont ici essentielles.

L'une des applications les plus réussies dans ce domaine consiste à utiliser des réseaux de neurones convolutifs pour positionner les acides aminés des protéines en trois classes - feuille, hélice et bobine. Les réseaux de neurones peuvent atteindre une précision de 84 %, la limite théorique étant de 88 % à 90 %.

Une autre utilisation de ML en protéomique est la notation des modèles protéiques, une tâche essentielle pour prédire la structure des protéines. Dans leur approche ML de la bioinformatique, des chercheurs de l'Université d'État de Fayetteville ont déployé ML pour améliorer la notation des modèles protéiques. Ils ont divisé les modèles de protéines en question en groupes et ont utilisé un interpréteur ML pour décider du vecteur de caractéristiques pour évaluer les modèles appartenant à chaque groupe. Ces vecteurs de caractéristiques ont été utilisés plus tard pour améliorer encore les algorithmes ML tout en les entraînant sur chaque groupe séparément.

3. Repérer les gènes associés aux maladies

Les chercheurs utilisent de plus en plus le ML en bioinformatique pour identifier les gènes susceptibles d'être impliqués dans des maladies particulières. Ceci est réalisé en analysant les microréseaux d'expression génique et le séquençage de l'ARN.

L'identification des gènes a gagné du terrain dans les études liées au cancer pour identifier les gènes susceptibles de contribuer au cancer, ainsi que pour classer les tumeurs en les analysant au niveau moléculaire.

Par exemple, un groupe de scientifiques de l'Université de Washington a utilisé ML dans des algorithmes bioinformatiques, y compris un arbre de décision, une machine à vecteurs de support et des réseaux de neurones pour tester leur capacité à prédire et classer les types de cancer. Les chercheurs ont déployé les données de séquençage de l'ARN du projet The Cancer Genome Atlas et ont découvert que la machine à vecteur de support linéaire était la plus précise, atteignant 95,8 % de précision dans la classification du cancer.

Dans un autre exemple, les chercheurs ont utilisé ML pour classer les types de cancer du sein en fonction des données d'expression génique. Cette équipe s'est également appuyée sur les données du Cancer Genome Atlas Project. Les chercheurs ont classé les échantillons en cancer du sein triple négatif – l'un des cancers du sein les plus meurtriers – et non triple négatif. Et encore une fois, le classificateur de machine à vecteurs de support a donné les meilleurs résultats.

En parlant de maladies non cancéreuses, des chercheurs de l'Université de Pennsylvanie se sont appuyés sur ML pour identifier les gènes qui seraient une cible appropriée pour les médicaments contre les maladies coronariennes (CAD). L'équipe a utilisé l'outil d'optimisation de pipeline basé sur l'arbre (TPOT) alimenté par ML pour identifier une combinaison de polymorphismes nucléotidiques simples (SNP) liés à la CAD. Ils ont analysé les données génomiques de la UK Biobank et découvert 28 SNP pertinents. La relation entre les SNP en haut de cette liste et la CAD a déjà été mentionnée dans la littérature, et cette recherche a validé l'application du ML.

4. Parcourir la base de connaissances à la recherche de modèles significatifs

La technologie de séquençage avancée double les bases de données génomiques tous les 2,5 ans, et les chercheurs cherchent un moyen d'extraire des informations utiles de ces connaissances accumulées. Le ML en bioinformatique peut parcourir des publications et des rapports biomédicaux pour identifier différents gènes et protéines et rechercher leur fonctionnalité. Il peut également aider à annoter les bases de données de protéines et les compléter avec les informations qu'il récupère de la littérature scientifique.

Un exemple vient d'un groupe de chercheurs qui ont déployé la bioinformatique et le ML dans l'exploration de la littérature pour faciliter la notation des modèles de protéines. La modélisation structurelle des amarrages protéine-protéine se traduit généralement par plusieurs modèles qui sont ensuite notés en fonction des contraintes structurelles. L'équipe a utilisé des algorithmes ML pour parcourir les articles PubMed sur les interactions protéine-protéine, à la recherche de résidus qui pourraient aider à générer ces contraintes pour la notation du modèle. Et pour s'assurer que les contraintes seraient pertinentes, les scientifiques ont exploré la capacité de différents algorithmes ML à vérifier la pertinence de tous les résidus découverts.

Cette recherche a révélé que les réseaux de neurones coûteux en calcul et les machines à vecteurs de support moins exigeantes en ressources ont obtenu des résultats très similaires.

5. Réutiliser les médicaments

La réorientation des médicaments, ou reprofilage, est une technique utilisée par les scientifiques pour découvrir de nouvelles applications qui n'étaient pas destinées aux médicaments existants. Les chercheurs adoptent l'IA en bioinformatique pour effectuer des analyses de médicaments sur des bases de données pertinentes, telles que BindingDB et DrugBank. Il existe trois directions principales pour la réutilisation des médicaments.

  • L'interaction médicament-cible examine la capacité d'un médicament à se lier directement à une protéine cible
  • L'interaction médicamenteuse étudie comment les médicaments agissent lorsqu'ils sont pris en combinaison
  • L'interaction protéine-protéine examine la surface des protéines intracellulaires en interaction et tente de découvrir des points chauds et des sites allostériques.

Des chercheurs de l'Université du pétrole de Chine et de l'Université du Shandong ont développé un algorithme de réseau neuronal profond et l'ont utilisé sur la base de données DrugBank. Ils voulaient étudier les interactions médicament-cible entre les molécules médicamenteuses et la protéine de fusion mitochondriale 2 (MFN2), qui est l'une des principales protéines pouvant causer la maladie d'Alzheimer. L'étude a identifié 15 molécules médicamenteuses ayant un potentiel de liaison. Après une enquête plus approfondie, il est apparu que 11 d'entre eux pouvaient s'arrimer avec succès à MFN2. Et cinq d'entre eux avaient une force de liaison moyenne à forte.

Défis présentés par ML en bioinformatique

Le ML en bioinformatique diffère du ML dans d'autres secteurs en raison des quatre facteurs ci-dessous, qui constituent également les principaux défis de l'application du ML à ce domaine.

  1. L'utilisation de l'IA en bioinformatique coûte cher. Pour que l'algorithme fonctionne correctement, vous devez acquérir un grand ensemble de données d'entraînement. Cependant, il est plutôt coûteux d'obtenir 10 000 scanners thoraciques, ou tout autre type de données médicales d'ailleurs.
  2. Il y a des difficultés associées à la formation des ensembles de données. Dans d'autres domaines, si vous ne disposez pas de suffisamment de données d'entraînement, vous pouvez générer des données synthétiques pour étendre votre ensemble de données. Cependant, cette astuce pourrait ne pas être appropriée lorsqu'il s'agit d'organes humains. Le problème est que votre logiciel de génération de scan peut produire un scan d'un vrai humain. Et si vous commencez à l'utiliser sans la permission de la personne, vous serez en violation flagrante de sa vie privée.
  3. Un autre défi associé aux données de formation est que si vous souhaitez créer un algorithme qui fonctionne avec des maladies rares, il n'y aura pas beaucoup de données avec lesquelles travailler en premier lieu.
  4. Le niveau de confiance doit être très élevé. Lorsque la vie humaine dépend des performances de l'algorithme, il y a tout simplement trop en jeu, ce qui ne laisse pas de place à l'erreur.
  5. Les médecins ne seront pas ouverts à l'utilisation du modèle ML s'ils ne comprennent pas comment il a produit ses recommandations. Vous pouvez utiliser une IA explicable à la place, mais ces algorithmes ne sont pas aussi puissants que certains modèles d'apprentissage non supervisés en boîte noire.

Pour les défis généraux associés à l'IA et des conseils de mise en œuvre, consultez notre article et notre eBook gratuit.

Pour résumer

Les technologies d'IA et de ML ont de nombreuses applications en médecine et en biologie. Sur notre blog, vous trouverez plus d'informations sur l'IA dans les essais cliniques, ainsi que sur l'utilisation de l'IA dans le diagnostic et le traitement du cancer, ainsi que sur ses autres avantages pour les soins de santé.

La bioinformatique est un autre domaine lié à la médecine où les solutions médicales basées sur le ML et l'IA sont pratiques. La bioinformatique nécessite de gérer de grandes quantités de diverses formes de données, telles que des séquences de génomes, des structures de protéines et des publications scientifiques. ML est bien connu pour ses capacités de traitement de données ; cependant, de nombreux modèles bioinformatiques d'IA sont coûteux à exécuter. Cela peut prendre des centaines de milliers de dollars pour former un algorithme d'apprentissage en profondeur. Par exemple, la formation du modèle AlphaFold2 pour la prédiction de la structure des protéines a consommé l'équivalent de 100 à 200 GPU fonctionnant pendant plusieurs semaines.

Vous pouvez trouver plus d'informations sur ce à quoi vous attendre en termes de prix dans notre article sur le coût de la mise en œuvre de l'IA. Si vous souhaitez déployer l'apprentissage automatique en bioinformatique, écrivez-nous. Nous travaillerons avec vous pour trouver les modèles ML les mieux adaptés pour un budget raisonnable.

Vous envisagez de déployer l'apprentissage automatique en bioinformatique, mais vous ne savez pas quel modèle vous convient le mieux ? Entrer en contact! Nous vous aiderons à sélectionner le type de ML le mieux adapté à la tâche. Nous vous aiderons également à créer/personnaliser, former et déployer l'algorithme.


Cet article a été initialement publié sur le site Web d'Itrex.