ИИ и машинное обучение в биоинформатике: мощный дуэт, стимулирующий инновации

Опубликовано: 2023-02-16

Достижения в методах секвенирования ДНК позволили исследователям секвенировать геном человека всего за один день — задача, на выполнение которой раньше уходило десятилетие. Это лишь один из многих важных вкладов машинного обучения (МО) в биоинформатику.

Поскольку многие биотехнологические компании нанимают консультантов по машинному обучению для облегчения процесса обработки биомедицинских данных, ИИ на рынке биоинформатики продолжает расти. Прогнозируется, что к 2029 году он достигнет 37 027,96 долларов США, увеличившись в среднем на 42,7% по сравнению с 2022 годом. Хотите стать частью этой цифровой революции?

В этой статье дается краткое введение в машинное обучение, объясняется, как оно поддерживает биомедицинские исследования, и перечисляются проблемы, с которыми вы можете столкнуться при развертывании этой технологии.

Введение в машинное обучение для биоинформатики

Машинное обучение — это часть более широкой области искусственного интеллекта (ИИ). Это позволяет системам независимо учиться на данных и выполнять задачи, для обработки которых они не запрограммированы явно. Его цель — дать машинам возможность выполнять задачи, требующие человеческого интеллекта, такие как диагностика, планирование и прогнозирование.

Существует два основных типа машинного обучения.

  1. Обучение под наблюдением опирается на помеченные наборы данных, чтобы научить алгоритмы использовать существующую систему классификации, в том числе делать прогнозы на основе этой системы. Этот тип машинного обучения используется для обучения деревьев решений и нейронных сетей.
  2. Неконтролируемое обучение не использует ярлыки. Вместо этого алгоритмы пытаются самостоятельно выявить шаблоны данных. Другими словами, они узнают то, чему мы не можем их научить напрямую. Это сравнимо с тем, как работает человеческий мозг.

Также возможно комбинировать размеченные и неразмеченные данные во время обучения, что приведет к полуконтролируемому обучению. Этот тип машинного обучения может быть полезен, когда у вас недостаточно высококачественных размеченных данных для обучения с учителем, но вы все равно хотите использовать их для управления процессом обучения.

Какие наиболее популярные методы машинного обучения используются в биоинформатике?

Некоторые из этих алгоритмов строго относятся к категориям контролируемого/неконтролируемого обучения, а некоторые могут использоваться с обоими методами.

Обработка естественного языка

Обработка естественного языка (NLP) — это набор методов, которые могут понимать неструктурированный человеческий язык.

НЛП может, например, выполнять поиск в объемах биологических исследований, собирать информацию по заданной теме из различных источников и переводить результаты исследований с одного языка на другой. В дополнение к добыче исследовательских работ, решения NLP могут анализировать соответствующие биомедицинские базы данных.

НЛП может принести пользу области биоинформатики следующими способами.

  • Интерпретация генетических вариантов
  • Анализ массивов экспрессии ДНК
  • Аннотировать функции белка
  • Ищите новые цели для наркотиков

Нейронные сети

Это многослойные структуры, состоящие из узлов/нейронов. Нейроны соседних слоев связаны друг с другом связями, но нейроны одного слоя не связаны между собой. Нейроны одного слоя получают информацию, обрабатывают ее и передают в качестве входных данных следующему слою. И этот процесс продолжается до тех пор, пока обработанная информация не достигнет выходного слоя.

Самая простая нейронная сеть называется перцептроном. Он состоит из одного нейрона, который действует как классификатор. Этот нейрон получает ввод и помещает его в один из двух классов, используя линейную функцию дискриминации. В более крупных нейронных сетях нет ограничений на количество слоев или количество узлов в одном слое.

Нейронные сети можно использовать для:

  • классифицировать профили экспрессии генов
  • предсказать структуру белка
  • последовательность ДНК.

Кластеризация

Неконтролируемая кластеризация — это процесс организации элементов в различные группы на основе предоставленного определения сходства. В результате такой классификации элементы, расположенные в одном кластере, тесно связаны друг с другом и отличаются от элементов в других кластерах.

В отличие от контролируемой классификации, при кластеризации мы заранее не знаем, сколько кластеров будет сформировано. Одним из известных примеров этого подхода ML в биоинформатике является профилирование экспрессии генов на основе микрочипов, где гены с одинаковыми уровнями экспрессии расположены в одном кластере.

Уменьшение размерности

В задачах классификации ML классификации выполняются на основе факторов/признаков. Иногда на конечный результат влияет слишком много факторов, что затрудняет визуализацию набора данных и управление им. Алгоритмы уменьшения размерности могут минимизировать количество признаков, делая набор данных более управляемым. Например, проблема классификации климата может включать в себя влажность и количество осадков. Эти два фактора можно объединить в один фактор для простоты, поскольку они оба тесно связаны.

Снижение размерности имеет два основных компонента.

  • Выбор функций: выбор подмножества переменных для представления всей модели путем внедрения, фильтрации или переноса функций.
  • Извлечение признаков: уменьшение количества измерений в наборе данных — например, 3D-пространство можно разбить на два 2D-пространства.

Этот тип алгоритмов используется для сжатия больших наборов данных с целью сокращения времени вычислений и требований к хранению. Это также может устранить избыточные функции, присутствующие в данных.

Классификаторы дерева решений

Это один из самых популярных классических классификаторов обучения с учителем. Эти алгоритмы применяют рекурсивный подход для построения модели дерева, похожей на блок-схему, где каждый узел представляет собой проверку функции. Сначала алгоритм определяет верхний узел — корень — а затем рекурсивно строит дерево, по одному параметру за раз. Последний узел в каждой последовательности называется «листовым узлом». Он представляет окончательную классификацию и содержит ярлык класса.

Модели деревьев решений требуют высокой вычислительной мощности во время обучения, но впоследствии они могут выполнять классификации без дополнительных вычислений. Основное преимущество, которое эти классификаторы привносят в область биоинформатики, заключается в том, что они генерируют понятные правила и объяснимые результаты.

Машина опорных векторов

Это модель машинного обучения с учителем, которая может решать задачи двухгрупповой классификации. Для классификации точек данных эти алгоритмы ищут оптимальную гиперплоскость, которая делит данные на два класса с максимальным расстоянием между точками данных.

Точки, расположенные по обе стороны от гиперплоскости, принадлежат разным классам. Размерность гиперплоскости зависит от количества признаков. В случае двух признаков граница решения представляет собой линию; с тремя функциями, это 2D пластина. Эта характеристика затрудняет использование SVM для классификаций с более чем тремя признаками.

Этот подход полезен при компьютерной идентификации функциональных генов РНК. Он может выбрать оптимальный набор генов для обнаружения рака на основе данных об их экспрессии.

Топ 5 приложений машинного обучения в биоинформатике

После краткого введения в ML и выделения наиболее часто используемых алгоритмов ML давайте посмотрим, как их можно использовать в области биоинформатики.

Если какой-либо из этих вариантов использования вам подходит, обратитесь к специалистам по консалтингу в области программного обеспечения ИИ, чтобы внедрить индивидуальное решение для вашего бизнеса.

1. Содействие экспериментам по редактированию генов

Редактирование генов относится к манипулированию генетическим составом организма путем удаления, вставки и замены части его последовательности ДНК. Этот процесс обычно основан на методе CRISPR, который довольно эффективен. Но еще многое предстоит сделать в области выбора правильной последовательности ДНК для манипуляций, и здесь может помочь машинное обучение. Используя машинное обучение для биоинформатики, исследователи могут улучшить дизайн экспериментов по редактированию генов и предсказать их результаты.

Исследовательская группа использовала алгоритмы машинного обучения для обнаружения наиболее оптимальных комбинационных вариантов аминокислотных остатков, которые позволяют редактирующему геном белку Cas9 связываться с ДНК-мишенью. Из-за большого количества этих вариантов такой эксперимент в противном случае был бы слишком большим, но использование инженерного подхода, основанного на машинном обучении, уменьшило нагрузку на скрининг примерно на 95%.

2. Определение структуры белка

Протеомика — это изучение белков, их взаимодействий, состава и роли в организме человека. Эта область включает в себя тяжелые наборы биологических данных и требует больших вычислительных ресурсов. Поэтому такие технологии, как МО в биоинформатике, здесь незаменимы.

Одним из наиболее успешных приложений в этой области является использование сверточных нейронных сетей для позиционирования белковых аминокислот на три класса — листы, спирали и клубки. Нейронные сети могут достигать точности 84% при теоретическом пределе 88–90%.

Другое использование ML в протеомике — это оценка модели белка, задача, необходимая для прогнозирования структуры белка. В своем подходе ML к биоинформатике исследователи из Государственного университета Фейетвилля применили ML для улучшения оценки моделей белков. Они разделили рассматриваемые белковые модели на группы и использовали интерпретатор ML, чтобы выбрать вектор признаков для оценки моделей, принадлежащих каждой группе. Эти векторы признаков были использованы позже для дальнейшего улучшения алгоритмов машинного обучения при их обучении для каждой группы отдельно.

3. Обнаружение генов, связанных с заболеваниями

Исследователи все чаще используют машинное обучение в биоинформатике для выявления генов, которые могут быть вовлечены в определенные заболевания. Это достигается путем анализа микрочипов экспрессии генов и секвенирования РНК.

Идентификация генов получила широкое распространение в исследованиях, связанных с раком, для выявления генов, которые могут способствовать развитию рака, а также для классификации опухолей путем их анализа на молекулярном уровне.

Например, группа ученых из Вашингтонского университета использовала машинное обучение в алгоритмах биоинформатики, включая дерево решений, машину опорных векторов и нейронные сети, чтобы проверить их способность предсказывать и классифицировать типы рака. Исследователи использовали данные секвенирования РНК из проекта «Атлас генома рака» и обнаружили, что машина линейных опорных векторов была наиболее точной, достигая точности 95,8% в классификации рака.

В другом примере исследователи использовали машинное обучение для классификации типов рака молочной железы на основе данных об экспрессии генов. Эта команда также опиралась на данные проекта «Атлас генома рака». Исследователи разделили образцы на трижды отрицательный рак молочной железы — один из самых смертельных видов рака молочной железы — и не трижды отрицательный. И снова классификатор опорных векторов показал наилучшие результаты.

Говоря о нераковых заболеваниях, исследователи из Университета Пенсильвании полагались на ML для выявления генов, которые могли бы стать подходящей мишенью для лекарств от ишемической болезни сердца (ИБС). Команда использовала инструмент оптимизации конвейера на основе дерева (TPOT) на основе машинного обучения, чтобы точно определить комбинацию однонуклеотидных полиморфизмов (SNP), связанных с CAD. Они проанализировали геномные данные из британского биобанка и обнаружили 28 соответствующих SNP. Связь между SNP в верхней части этого списка и CAD ранее упоминалась в литературе, и это исследование подтвердило применение ML.

4. Обход базы знаний в поисках значимых паттернов

Передовая технология секвенирования удваивает геномные базы данных каждые 2,5 года, и исследователи ищут способ извлечь полезную информацию из этих накопленных знаний. ML в биоинформатике может просеивать биомедицинские публикации и отчеты, чтобы идентифицировать различные гены и белки и искать их функциональность. Он также может помочь в аннотировании баз данных белков и дополнении их информацией, которую он извлекает из научной литературы.

Один из примеров исходит от группы исследователей, которые применили биоинформатику и машинное обучение для анализа литературы, чтобы облегчить оценку моделей белков. Структурное моделирование стыковки белок-белок обычно приводит к созданию нескольких моделей, которые дополнительно оцениваются на основе структурных ограничений. Команда использовала алгоритмы машинного обучения для просмотра документов PubMed о взаимодействиях белок-белок в поисках остатков, которые могли бы помочь создать эти ограничения для оценки модели. А чтобы убедиться, что ограничения будут релевантными, ученые исследовали способность разных алгоритмов машинного обучения проверять все обнаруженные остатки на релевантность.

Это исследование показало, что как вычислительно дорогие нейронные сети, так и менее требовательные к ресурсам машины опорных векторов дали очень похожие результаты.

5. Перепрофилирование лекарств

Перепрофилирование или перепрофилирование лекарств — это метод, который ученые используют для открытия новых применений, не предназначенных для существующих лекарств. Исследователи применяют ИИ в биоинформатике для анализа лекарств в соответствующих базах данных, таких как BindingDB и DrugBank. Существует три основных направления перепрофилирования лекарств.

  • Взаимодействие лекарственного средства с мишенью изучает способность лекарственного средства связываться непосредственно с белком-мишенью.
  • Лекарственное взаимодействие исследует, как действуют лекарства, когда они принимаются в комбинациях.
  • Взаимодействие белок-белок изучает поверхность взаимодействующих внутриклеточных белков и пытается обнаружить горячие точки и аллостерические сайты.

Исследователи из Китайского нефтяного университета и Шаньдунского университета разработали алгоритм глубокой нейронной сети и использовали его в базе данных DrugBank. Они хотели изучить взаимодействия между молекулами лекарства и митохондриальным слитым белком 2 (MFN2), который является одним из основных белков, вызывающих болезнь Альцгеймера. В ходе исследования было выявлено 15 молекул лекарственных препаратов с потенциалом связывания. При дальнейшем расследовании выяснилось, что 11 из них смогли успешно состыковаться с MFN2. И пять из них имели силу связывания от средней до сильной.

Проблемы, связанные с машинным обучением в биоинформатике

ML в биоинформатике отличается от ML в других секторах из-за следующих четырех факторов, которые также составляют основные проблемы применения ML в этой области.

  1. Использование ИИ в биоинформатике дорого. Чтобы алгоритм работал правильно, вам необходимо получить большой набор обучающих данных. Тем не менее, получить 10 000 сканов грудной клетки или любые другие медицинские данные в этом отношении довольно дорого.
  2. Существуют трудности, связанные с обучающими наборами данных. В других областях, если у вас недостаточно данных для обучения, вы можете создать синтетические данные для расширения набора данных. Однако этот трюк может оказаться неуместным, когда речь идет о человеческих органах. Проблема в том, что ваше программное обеспечение для генерации сканов может сканировать реального человека. И если вы начнете использовать это без разрешения человека, вы грубо нарушите его частную жизнь.
  3. Еще одна проблема, связанная с обучающими данными, заключается в том, что если вы хотите построить алгоритм, работающий с редкими заболеваниями, в первую очередь не будет большого количества данных для работы.
  4. Уровень доверия должен быть очень высоким. Когда от работы алгоритма зависит человеческая жизнь, на карту поставлено слишком много, что не оставляет права на ошибку.
  5. Врачи не будут открыты для использования модели машинного обучения, если они не понимают, как она дает свои рекомендации. Вместо этого вы можете использовать объяснимый ИИ, но эти алгоритмы не так эффективны, как некоторые модели обучения без учителя.

Чтобы узнать об общих проблемах, связанных с ИИ, и советах по внедрению, ознакомьтесь с нашей статьей и бесплатной электронной книгой.

Подводить итоги

Технологии искусственного интеллекта и машинного обучения имеют множество применений в медицине и биологии. В нашем блоге вы можете найти больше информации об ИИ в клинических испытаниях, а также об использовании ИИ для диагностики и лечения рака, а также о других его преимуществах в здравоохранении.

Биоинформатика — еще одна область, связанная с медициной, где могут пригодиться медицинские решения на основе МО и ИИ. Биоинформатика требует обработки больших объемов различных форм данных, таких как последовательности генома, структуры белков и научные публикации. ML хорошо известен своими возможностями обработки данных; однако многие модели биоинформатики ИИ дороги в эксплуатации. На обучение алгоритма глубокого обучения могут уйти сотни тысяч долларов. Например, для обучения модели AlphaFold2 предсказанию структуры белка потребовалось эквивалентно 100–200 GPU, работающих в течение нескольких недель.

Вы можете найти больше информации о том, чего ожидать в плане цены, в нашей статье о том, сколько стоит внедрение ИИ. Если вы хотите внедрить машинное обучение в биоинформатику, напишите нам. Мы будем работать вместе с вами, чтобы найти наиболее подходящие модели ML по разумному бюджету.

Рассматриваете возможность внедрения машинного обучения в биоинформатике, но не знаете, какая модель вам подходит? Связаться! Мы поможем вам выбрать наиболее подходящий тип машинного обучения для вашей задачи. Мы также поможем вам создать/настроить, обучить и развернуть алгоритм.


Эта статья была первоначально опубликована на веб-сайте Itrex.