IA e aprendizado de máquina em bioinformática: uma dupla poderosa impulsionando a inovação

Publicados: 2023-02-16

Os avanços nas técnicas de sequenciamento de DNA permitiram aos pesquisadores sequenciar o genoma humano em apenas um dia, uma tarefa que antes levava uma década para ser concluída. Esta é apenas uma das muitas contribuições poderosas do aprendizado de máquina (ML) para a bioinformática.

Como muitas empresas de biotecnologia contratam consultores de ML para facilitar o processo de manipulação de dados biomédicos, a IA no mercado de bioinformática continua crescendo. Prevê-se que chegue a $ 37.027,96 até 2029, crescendo a um CAGR de 42,7% a partir de 2022. Você quer fazer parte dessa revolução digital?

Este artigo fornece uma breve introdução ao ML, explica como ele oferece suporte à pesquisa biomédica e enumera os desafios que você pode enfrentar ao implantar essa tecnologia.

Introdução ao Machine Learning para Bioinformática

ML é um subconjunto do campo mais amplo de inteligência artificial (IA). Ele permite que os sistemas aprendam independentemente com os dados e executem tarefas para as quais não foram explicitamente programados. Seu objetivo é dar às máquinas a capacidade de realizar tarefas que requerem inteligência humana, como diagnóstico, planejamento e previsão.

Existem dois tipos principais de aprendizado de máquina.

  1. O aprendizado supervisionado depende de conjuntos de dados rotulados para ensinar algoritmos como usar um sistema de classificação existente, incluindo como fazer previsões com base nesse sistema. Esse tipo de ML é usado para treinar árvores de decisão e redes neurais.
  2. O aprendizado não supervisionado não usa rótulos. Em vez disso, os algoritmos tentam descobrir padrões de dados por conta própria. Em outras palavras, eles aprendem coisas que não podemos ensiná-los diretamente. Isso é comparável ao funcionamento do cérebro humano.

Também é possível combinar dados rotulados e não rotulados durante o treinamento, o que resultará em aprendizado semi-supervisionado. Esse tipo de ML pode ser útil quando você não tem dados rotulados de alta qualidade suficientes para uma abordagem de aprendizado supervisionado, mas ainda deseja usá-los para direcionar o processo de aprendizado.

Quais são as técnicas de aprendizado de máquina mais populares usadas em bioinformática?

Alguns desses algoritmos se enquadram estritamente nas categorias de aprendizado supervisionado/não supervisionado e alguns podem ser usados ​​com ambos os métodos.

Processamento de linguagem natural

O processamento de linguagem natural (PLN) é um conjunto de técnicas que podem compreender a linguagem humana não estruturada.

A PNL pode, por exemplo, pesquisar volumes de pesquisa em biologia, agregar informações sobre um determinado tópico de várias fontes e traduzir descobertas de pesquisa de um idioma para outro. Além de pesquisas de mineração, as soluções de NLP podem analisar bancos de dados biomédicos relevantes.

A PNL pode beneficiar o campo da bioinformática das seguintes maneiras.

  • Interpretar variantes genéticas
  • Analisar matrizes de expressão de DNA
  • Anotar funções de proteínas
  • Procure novos alvos de drogas

Redes neurais

Estas são estruturas multicamadas que consistem em nós/neurônios. Os neurônios em camadas adjacentes são conectados uns aos outros por meio de links, mas os neurônios em uma camada não são interligados. Os neurônios em uma camada recebem informações, as processam e as transmitem como entrada para a próxima camada. E esse processo continua até que as informações processadas cheguem à camada de saída.

A rede neural mais básica é chamada de perceptron. Consiste em um neurônio que atua como um classificador. Este neurônio recebe entrada e a coloca em uma das duas classes usando uma função de discriminação linear. Em redes neurais maiores, não há limite para o número de camadas ou o número de nós em uma camada.

As redes neurais podem ser usadas para:

  • classificar perfis de expressão gênica
  • prever a estrutura da proteína
  • DNA sequencial.

Agrupamento

O agrupamento não supervisionado é o processo de organizar elementos em vários grupos com base na definição de similaridade fornecida. Como resultado dessa classificação, os elementos posicionados em um cluster relacionam-se estreitamente entre si e diferem dos elementos em outros clusters.

Ao contrário da classificação supervisionada, no clustering, não sabemos antecipadamente quantos clusters serão formados. Um exemplo famoso dessa abordagem de ML em bioinformática é o perfil de expressão baseado em microarray de genes, onde genes com níveis de expressão semelhantes são posicionados em um cluster.

Redução de dimensionalidade

Em problemas de classificação de ML, as classificações são realizadas com base em fatores/características. Às vezes, há muitos fatores que afetam o resultado final, dificultando a visualização e a manipulação do conjunto de dados. Algoritmos de redução de dimensionalidade podem minimizar o número de recursos, tornando o conjunto de dados mais gerenciável. Por exemplo, um problema de classificação climática pode ter umidade e precipitação entre suas características. Esses dois podem ser agrupados em um fator para simplificar, pois ambos estão intimamente relacionados.

A redução de dimensionalidade tem dois componentes principais.

  • Seleção de recursos: escolha de um subconjunto de variáveis ​​para representar um modelo inteiro, incorporando, filtrando ou agrupando recursos.
  • Extração de recursos: redução do número de dimensões em um conjunto de dados – por exemplo, um espaço 3D pode ser dividido em dois espaços 2D.

Esse tipo de algoritmo é usado para compactar grandes conjuntos de dados para reduzir o tempo computacional e os requisitos de armazenamento. Também pode eliminar recursos redundantes presentes nos dados.

Classificadores de árvore de decisão

Este é um dos classificadores clássicos de aprendizado supervisionado mais populares. Esses algoritmos aplicam uma abordagem recursiva para construir um modelo de árvore semelhante a um fluxograma, onde cada nó representa um teste em um recurso. Primeiro, o algoritmo determina o nó superior — a raiz — e então constrói a árvore recursivamente, um parâmetro por vez. O nó final em cada sequência é chamado de “nó folha”. Representa a classificação final e contém o rótulo da classe.

Os modelos de árvore de decisão exigem alto poder computacional durante o treinamento, mas depois podem realizar classificações sem computação extensiva. A principal vantagem que esses classificadores trazem para o campo da bioinformática é que eles geram regras compreensíveis e resultados explicáveis.

Máquina de vetores de suporte

Este é um modelo de ML supervisionado que pode resolver problemas de classificação de dois grupos. Para classificar os pontos de dados, esses algoritmos buscam um hiperplano ótimo que divide os dados separando-os em duas classes com a distância máxima entre os pontos de dados.

Os pontos localizados em ambos os lados do hiperplano pertencem a diferentes classes. A dimensão do hiperplano depende do número de feições. No caso de dois recursos, o limite de decisão é uma linha; com três características, é uma placa 2D. Essa característica dificulta o uso do SVM para classificações com mais de três recursos.

Esta abordagem é útil na identificação computacional de genes de RNA funcionais. Ele pode selecionar o conjunto ideal de genes para detecção de câncer com base em seus dados de expressão.

As 5 principais aplicações de aprendizado de máquina em bioinformática

Depois de fazer uma breve introdução ao ML e destacar os algoritmos de ML mais usados, vamos ver como eles podem ser implantados no campo da bioinformática.

Se algum desses casos de uso ressoar com você, recorra a profissionais de consultoria de software de IA para implementar uma solução personalizada para o seu negócio.

1. Facilitando experimentos de edição de genes

A edição genética refere-se à manipulação da composição genética de um organismo, excluindo, inserindo e substituindo uma parte de sua sequência de DNA. Esse processo geralmente depende da técnica CRISPR, que é bastante eficaz. Mas ainda há muito a ser desejado na área de seleção da sequência correta de DNA para manipulação, e é aí que o ML pode ajudar. Usando aprendizado de máquina para bioinformática, os pesquisadores podem aprimorar o design de experimentos de edição de genes e prever seus resultados.

Uma equipe de pesquisa empregou algoritmos de ML para descobrir as variantes combinacionais mais ideais de resíduos de aminoácidos que permitem que a proteína de edição do genoma Cas9 se ligue ao DNA alvo. Devido ao grande número dessas variantes, esse experimento teria sido muito grande, mas o uso de uma abordagem de engenharia orientada por ML reduziu a carga de triagem em cerca de 95%.

2. Identificando a Estrutura da Proteína

A proteômica é o estudo das proteínas, suas interações, composição e seu papel no corpo humano. Este campo envolve conjuntos de dados biológicos pesados ​​e é computacionalmente caro. Portanto, tecnologias como ML em bioinformática são essenciais aqui.

Uma das aplicações mais bem-sucedidas nesse campo é o uso de redes neurais convolucionais para posicionar os aminoácidos das proteínas em três classes — folha, hélice e bobina. As redes neurais podem atingir uma precisão de 84%, com o limite teórico sendo de 88% a 90%.

Outro uso de ML em proteômica é a pontuação do modelo de proteína, uma tarefa essencial para prever a estrutura da proteína. Em sua abordagem de ML para bioinformática, pesquisadores da Fayetteville State University implantaram ML para melhorar a pontuação do modelo de proteína. Eles dividiram os modelos de proteína em questão em grupos e usaram um interpretador de ML para decidir sobre o vetor de características para avaliar os modelos pertencentes a cada grupo. Esses vetores de recursos foram usados ​​posteriormente para melhorar ainda mais os algoritmos de ML enquanto os treinavam em cada grupo separadamente.

3. Detecção de Genes Associados a Doenças

Os pesquisadores estão usando cada vez mais ML em bioinformática para identificar genes que provavelmente estão envolvidos em doenças específicas. Isso é obtido analisando microarranjos de expressão gênica e sequenciamento de RNA.

A identificação de genes ganhou força em estudos relacionados ao câncer para identificar genes que provavelmente contribuem para o câncer, bem como para classificar tumores analisando-os em nível molecular.

Por exemplo, um grupo de cientistas da Universidade de Washington usou ML em algoritmos de bioinformática, incluindo uma árvore de decisão, uma máquina de vetores de suporte e redes neurais para testar sua capacidade de prever e classificar os tipos de câncer. Os pesquisadores implantaram dados de sequenciamento de RNA do projeto The Cancer Genome Atlas e descobriram que a máquina de vetor de suporte linear era a mais precisa, atingindo 95,8% de precisão na classificação do câncer.

Em outro exemplo, os pesquisadores usaram ML para classificar os tipos de câncer de mama com base em dados de expressão gênica. Esta equipe também se baseou nos dados do Cancer Genome Atlas Project. Os pesquisadores classificaram as amostras em câncer de mama triplo negativo – um dos cânceres de mama mais letais – e não triplo negativo. E, mais uma vez, o classificador de máquina de vetores de suporte apresentou os melhores resultados.

Falando em doenças não cancerígenas, os pesquisadores da Universidade da Pensilvânia confiaram no ML para identificar genes que seriam um alvo adequado para medicamentos para doença arterial coronariana (DAC). A equipe usou a ferramenta de otimização de pipeline baseada em árvore (TPOT) com tecnologia ML para identificar uma combinação de polimorfismos de nucleotídeo único (SNPs) relacionados ao CAD. Eles analisaram os dados genômicos do UK Biobank e descobriram 28 SNPs relevantes. A relação entre os SNPs no topo desta lista e o CAD já foi mencionada na literatura, e esta pesquisa validou a aplicação do ML.

4. Percorrendo a Base de Conhecimento em Busca de Padrões Significativos

A tecnologia avançada de sequenciamento dobra os bancos de dados genômicos a cada 2,5 anos, e os pesquisadores estão procurando uma maneira de extrair informações úteis desse conhecimento acumulado. O ML em bioinformática pode filtrar publicações e relatórios biomédicos para identificar diferentes genes e proteínas e procurar sua funcionalidade. Ele também pode auxiliar na anotação de bancos de dados de proteínas e complementá-los com as informações que recupera da literatura científica.

Um exemplo vem de um grupo de pesquisadores que implantou bioinformática e ML na mineração de literatura para facilitar a pontuação do modelo de proteína. A modelagem estrutural de encaixes proteína-proteína normalmente resulta em vários modelos que são pontuados com base em restrições estruturais. A equipe usou algoritmos de ML para percorrer os artigos do PubMed sobre interações proteína-proteína, procurando resíduos que pudessem ajudar a gerar essas restrições para a pontuação do modelo. E para garantir que as restrições seriam relevantes, os cientistas exploraram a capacidade de diferentes algoritmos de ML de verificar a relevância de todos os resíduos descobertos.

Esta pesquisa revelou que tanto as redes neurais computacionalmente caras quanto as máquinas de vetores de suporte que demandam menos recursos alcançaram resultados muito semelhantes.

5. Reaproveitamento de medicamentos

O reaproveitamento de medicamentos, ou reprofiling, é uma técnica que os cientistas usam para descobrir novas aplicações que não foram planejadas para medicamentos existentes. Pesquisadores adotam IA em bioinformática para realizar análises de medicamentos em bancos de dados relevantes, como BindingDB e DrugBank. Existem três direções principais para o reaproveitamento de medicamentos.

  • A interação droga-alvo analisa a capacidade de uma droga de se ligar diretamente a uma proteína alvo
  • A interação medicamentosa investiga como os medicamentos agem quando são tomados em combinações
  • A interação proteína-proteína examina a superfície da interação de proteínas intracelulares e tenta descobrir pontos de acesso e locais alostéricos.

Pesquisadores da China University of Petroleum e da Shandong University desenvolveram um algoritmo de rede neural profunda e o usaram no banco de dados DrugBank. Eles queriam estudar as interações droga-alvo entre moléculas de drogas e a proteína de fusão mitocondrial 2 (MFN2), que é uma das principais proteínas que podem causar a doença de Alzheimer. O estudo identificou 15 moléculas de drogas com potencial de ligação. Após uma investigação mais aprofundada, parecia que 11 deles poderiam se encaixar com sucesso no MFN2. E cinco deles tinham uma força de ligação média a forte.

Desafios Apresentados pelo ML em Bioinformática

O ML em bioinformática difere do ML em outros setores devido aos quatro fatores abaixo, que também constituem os principais desafios da aplicação do ML a esse campo.

  1. Usar IA em bioinformática é caro. Para que o algoritmo funcione corretamente, você precisa adquirir um grande conjunto de dados de treinamento. No entanto, é bastante caro obter 10.000 exames de tórax ou qualquer outro tipo de dados médicos.
  2. Existem dificuldades associadas aos conjuntos de dados de treinamento. Em outros campos, se você não tiver dados de treinamento suficientes, poderá gerar dados sintéticos para expandir seu conjunto de dados. No entanto, esse truque pode não ser apropriado quando se trata de órgãos humanos. O problema é que seu software de geração de escaneamento pode produzir um escaneamento de um ser humano real. E se você começar a usar isso sem a permissão da pessoa, estará violando grosseiramente a privacidade dela.
  3. Outro desafio associado aos dados de treinamento é que, se você deseja criar um algoritmo que funcione com doenças raras, não haverá muitos dados com os quais trabalhar.
  4. O nível de confiança deve ser muito alto. Quando a vida humana depende do desempenho do algoritmo, há muito em jogo, o que não deixa espaço para erros.
  5. Os médicos não estarão abertos a usar o modelo ML se não entenderem como ele produziu suas recomendações. Em vez disso, você pode usar IA explicável, mas esses algoritmos não são tão poderosos quanto alguns modelos de aprendizado não supervisionados de caixa preta.

Para desafios gerais associados à IA e dicas de implementação, confira nosso artigo e e-book gratuito.

Resumindo

As tecnologias de IA e ML têm muitas aplicações em medicina e biologia. Em nosso blog, você pode encontrar mais informações sobre IA em ensaios clínicos, bem como o uso de IA no diagnóstico e tratamento do câncer, juntamente com seus outros benefícios na área da saúde.

A bioinformática é outro campo relacionado à medicina em que as soluções médicas baseadas em ML e IA são úteis. A bioinformática requer o manuseio de grandes quantidades de várias formas de dados, como sequências de genomas, estruturas de proteínas e publicações científicas. O ML é conhecido por seus recursos de processamento de dados; no entanto, muitos modelos de bioinformática de IA são caros de executar. Pode levar centenas de milhares de dólares para treinar um algoritmo de aprendizado profundo. Por exemplo, o treinamento do modelo AlphaFold2 para previsão da estrutura da proteína consumiu o equivalente a 100–200 GPUs em execução por várias semanas.

Você pode encontrar mais informações sobre o que esperar em termos de preço em nosso artigo sobre quanto custa implementar IA. Se você deseja implantar aprendizado de máquina em bioinformática, envie-nos uma mensagem. Trabalharemos junto com você para encontrar os modelos de ML mais adequados para um orçamento razoável.

Está pensando em implantar aprendizado de máquina em bioinformática, mas não tem certeza de qual modelo é o certo para você? Entrar em contato! Ajudaremos você a selecionar o tipo de ML mais adequado para a tarefa. Também ajudaremos você a criar/personalizar, treinar e implantar o algoritmo.


Este artigo foi originalmente publicado no site da Itrex.