生物信息学中的人工智能和机器学习:强大的二重奏推动创新

已发表: 2023-02-16

DNA 测序技术的进步使研究人员能够在一天内对人类基因组进行测序,而这项任务曾经需要十年才能完成。 这只是机器学习 (ML) 对生物信息学的众多强大贡献之一。

随着许多生物技术公司聘请 ML 顾问来促进处理生物医学数据的过程,生物信息学市场中的 AI 继续增长。 预计到 2029 年将达到 37,027.96 美元,从 2022 年开始以 42.7% 的复合年增长率增长。您想成为这场数字革命的一部分吗?

本文简要介绍了 ML,解释了它如何支持生物医学研究,并列举了您在部署该技术时可能面临的挑战。

生物信息学机器学习简介

ML 是更广泛的人工智能 (AI) 领域的一个子集。 它使系统能够独立地从数据中学习并执行它们没有明确编程处理的任务。 它的目标是让机器能够执行需要人类智能的任务,例如诊断、规划和预测。

机器学习有两种主要类型。

  1. 监督学习依靠标记的数据集来教算法如何使用现有的分类系统,包括如何基于该系统进行预测。 这种类型的 ML 用于训练决策树和神经网络。
  2. 无监督学习不使用标签。 相反,算法会尝试自行发现数据模式。 换句话说,他们学到了我们无法直接教给他们的东西。 这与人脑的工作方式相当。

也可以在训练期间结合标记和未标记的数据,这将导致半监督学习。 当您没有足够的高质量标记数据用于监督学习方法时,此 ML 类型会很有用,但您仍想使用它来指导学习过程。

生物信息学中最流行的机器学习技术是什么?

其中一些算法严格属于有监督/无监督学习类别,有一些可以与这两种方法一起使用。

自然语言处理

自然语言处理(NLP)是一组可以理解非结构化人类语言的技术。

例如,NLP 可以搜索大量生物学研究,从各种来源汇总关于给定主题的信息,并将研究结果从一种语言翻译成另一种语言。 除了挖掘研究论文,NLP 解决方案还可以解析相关的生物医学数据库。

NLP 可以通过以下方式使生物信息学领域受益。

  • 解释遗传变异
  • 分析 DNA 表达阵列
  • 注释蛋白质功能
  • 寻找新的药物靶点

神经网络

这些是由节点/神经元组成的多层结构。 相邻层中的神经元通过链接相互连接,但一层上的神经元不相互连接。 一层上的神经元接收信息、处理信息并将其作为输入传递到下一层。 这个过程一直持续到处理后的信息到达输出层。

最基本的神经网络称为感知器。 它由一个充当分类器的神经元组成。 该神经元接收输入并使用线性辨别函数将其置于两个类别之一。 在较大的神经网络中,层数或一层中的节点数没有限制。

神经网络可用于:

  • 对基因表达谱进行分类
  • 预测蛋白质结构
  • 序列DNA。

聚类

无监督聚类是根据提供的相似性定义将元素组织成不同组的过程。 作为这种分类的结果,位于一个集群中的元素彼此密切相关,并且不同于其他集群中的元素。

与监督分类不同,在聚类中,我们事先不知道将形成多少个聚类。 这种 ML 方法在生物信息学中的一个著名示例是基于微阵列的基因表达谱分析,其中具有相似表达水平的基因位于一个簇中。

降维

在 ML 分类问题中,分类是根据因素/特征执行的。 有时影响最终结果的因素太多,使得数据集难以可视化和操作。 降维算法可以最大限度地减少特征的数量,使数据集更易于管理。 例如,气候分类问题的特征可能包括湿度和降雨量。 为简单起见,这两者可以合并为一个因素,因为它们密切相关。

降维有两个主要组成部分。

  • 特征选择:通过嵌入、过滤或包装特征来选择变量子集来表示整个模型。
  • 特征提取:减少数据集中的维数——例如,一个 3D 空间可以分成两个 2D 空间。

此类算法用于压缩大型数据集,以减少计算时间和存储需求。 它还可以消除数据中存在的冗余特征。

决策树分类器

这是最流行的经典监督学习分类器之一。 这些算法应用递归方法来构建类似流程图的树模型,其中每个节点代表对一个特征的测试。 首先,该算法确定顶部节点——根——然后递归地构建树,一次一个参数。 每个序列中的最后一个节点称为“叶节点”。 它代表最终分类并持有类标签。

决策树模型在训练期间需要很高的计算能力,但之后它们可以在不需要大量计算的情况下进行分类。 这些分类器给生物信息学领域带来的主要优势是它们生成可理解的规则和可解释的结果。

支持向量机

这是一个有监督的 ML 模型,可以解决两组分类问题。 为了对数据点进行分类,这些算法会寻找一个最佳超平面,该超平面将数据分成两类,数据点之间的距离最大。

位于超平面两侧的点属于不同的类。 超平面的维度取决于特征的数量。 在两个特征的情况下,决策边界是一条线; 具有三个特征,它是一个二维板。 这个特性使得 SVM 很难用于具有三个以上特征的分类。

这种方法可用于功能性 RNA 基因的计算识别。 它可以根据基因的表达数据选择用于癌症检测的最佳基因组。

机器学习在生物信息学中的 5 大应用

在简要介绍了 ML 并重点介绍了最常用的 ML 算法之后,让我们看看如何将它们部署到生物信息学领域。

如果这些用例中的任何一个引起您的共鸣,请求助于 AI 软件咨询专家,为您的企业实施定制的解决方案。

1. 促进基因编辑实验

基因编辑是指通过删除、插入和替换其 DNA 序列的一部分来操纵生物体的遗传组成。 这个过程通常依赖于相当有效的 CRISPR 技术。 但在选择正确的 DNA 序列进行操作方面仍有很多改进空间,而这正是 ML 可以提供帮助的地方。 将机器学习用于生物信息学,研究人员可以改进基因编辑实验的设计并预测其结果。

一个研究团队使用 ML 算法来发现氨基酸残基的最佳组合变体,使基因组编辑蛋白 Cas9 能够与目标 DNA 结合。 由于这些变体数量众多,否则这样的实验会太大,但使用 ML 驱动的工程方法可将筛选负担降低约 95%。

2. 识别蛋白质结构

蛋白质组学是对蛋白质、它们的相互作用、组成及其在人体中的作用的研究。 该领域涉及繁重的生物数据集,计算量大。 因此,生物信息学中的 ML 等技术在这里必不可少。

该领域最成功的应用之一是使用卷积神经网络将蛋白质的氨基酸分为三类——片状、螺旋状和螺旋状。 神经网络可以达到 84% 的准确率,理论极限为 88%–90%。

ML 在蛋白质组学中的另一个用途是蛋白质模型评分,这是预测蛋白质结构必不可少的任务。 在他们的 ML 生物信息学方法中,费耶特维尔州立大学的研究人员部署了 ML 来改进蛋白质模型评分。 他们将有问题的蛋白质模型分成几组,并使用 ML 解释器来决定特征向量来评估属于每组的模型。 这些特征向量稍后用于进一步改进 ML 算法,同时分别在每个组上训练它们。

3. 发现与疾病相关的基因

研究人员越来越多地在生物信息学中使用 ML 来识别可能与特定疾病有关的基因。 这是通过分析基因表达微阵列和 RNA 测序来实现的。

基因鉴定已在癌症相关研究中获得关注,以鉴定可能导致癌症的基因,以及通过在分子水平上分析肿瘤来对肿瘤进行分类。

例如,华盛顿大学的一组科学家在生物信息学算法中使用 ML,包括决策树、支持向量机和神经网络,以测试他们预测和分类癌症类型的能力。 研究人员部署了癌症基因组图谱项目的 RNA 测序数据,发现线性支持向量机是最精确的,在癌症分类中达到 95.8% 的准确率。

在另一个示例中,研究人员使用 ML 根据基因表达数据对乳腺癌类型进行分类。 该团队还依赖于癌症基因组图谱项目的数据。 研究人员将样本分为三阴性乳腺癌——最致命的乳腺癌之一——和非三阴性乳腺癌。 支持向量机分类器再一次提供了最好的结果。

谈到非癌性疾病,宾夕法尼亚大学的研究人员依靠 ML 来识别可能成为冠状动脉疾病 (CAD) 药物合适靶标的基因。 该团队使用 ML 支持的基于树的管道优化工具 (TPOT) 来查明与 CAD 相关的单核苷酸多态性 (SNP) 的组合。 他们分析了来自英国生物银行的基因组数据,发现了 28 个相关的 SNP。 该列表顶部的 SNP 与 CAD 之间的关系先前已在文献中提及,本研究验证了 ML 的应用。

4. 遍历知识库寻找有意义的模式

先进的测序技术使基因组数据库每 2.5 年翻一番,研究人员正在寻找一种方法来从这些积累的知识中提取有用的见解。 生物信息学中的 ML 可以筛选生物医学出版物和报告,以识别不同的基因和蛋白质并搜索它们的功能。 它还可以帮助注释蛋白质数据库,并用它从科学文献中检索到的信息来补充它们。

一个例子来自一组研究人员,他们在文献挖掘中部署生物信息学和 ML 以促进蛋白质模型评分。 蛋白质-蛋白质对接的结构建模通常会产生几个模型,这些模型会根据结构约束进一步评分。 该团队使用 ML 算法遍历关于蛋白质-蛋白质相互作用的 PubMed 论文,寻找可以帮助生成这些模型评分约束的残基。 为了确保约束是相关的,科学家们探索了不同 ML 算法的能力,以检查所有发现的残基的相关性。

这项研究表明,计算成本高昂的神经网络和资源需求较少的支持向量机都取得了非常相似的结果。

5. 药物再利用

药物再利用或重新分析是科学家用来发现不适用于现有药物的新应用的技术。 研究人员在生物信息学中采用 AI 在相关数据库(如 BindingDB 和 DrugBank)上进行药物分析。 药物再利用的三个主要方向。

  • 药物-靶点相互作用研究药物直接结合靶蛋白的能力
  • 药物相互作用研究药物联合服用时的作用
  • 蛋白质-蛋白质相互作用研究相互作用的细胞内蛋白质的表面,并试图发现热点和变构位点。

中国石油大学和山东大学的研究人员开发了一种深度神经网络算法,并将其用于 DrugBank 数据库。 他们想研究药物分子与线粒体融合蛋白 2 (MFN2) 之间的药物靶点相互作用,MFN2 是导致阿尔茨海默病的主要蛋白质之一。 该研究确定了 15 种具有结合潜力的药物分子。 经过进一步调查,似乎其中 11 个可以成功与 MFN2 对接。 其中五个具有中强结合力。

机器学习在生物信息学中带来的挑战

由于以下四个因素,生物信息学中的机器学习不同于其他领域的机器学习,这也构成了将机器学习应用于该领域的主要挑战。

  1. 在生物信息学中使用人工智能是昂贵的。 为了使算法正常运行,您需要获取大型训练数据集。 然而,获得 10,000 次胸部扫描或与此相关的任何其他类型的医疗数据的成本相当高。
  2. 训练数据集存在一些困难。 在其他领域,如果你没有足够的训练数据,你可以生成合成数据来扩展你的数据集。 然而,这个技巧可能不适用于人体器官。 问题是您的扫描生成软件可能会生成真人的扫描。 如果你在未经对方许可的情况下开始使用它,你将严重侵犯他们的隐私。
  3. 与训练数据相关的另一个挑战是,如果你想构建一种适用于罕见疾病的算法,首先就没有太多数据可供使用。
  4. 置信度必须非常高。 当人类的生命取决于算法的性能时,风险就太大了,不容许犯错。
  5. 如果医生不了解它是如何产生建议的,他们将不会愿意使用 ML 模型。 您可以改用可解释的 AI,但这些算法不如一些黑盒无监督学习模型强大。

有关与 AI 相关的一般挑战和实​​施技巧,请查看我们的文章和免费电子书。

总结

AI 和 ML 技术在医学和生物学中有许多应用。 在我们的博客上,您可以找到有关 AI 在临床试验中的更多信息,以及 AI 在癌症诊断和治疗中的应用,以及它在医疗保健方面的其他好处。

生物信息学是另一个与医学相关的领域,其中基于 ML 和 AI 的医疗解决方案非常方便。 生物信息学需要处理大量各种形式的数据,例如基因组序列、蛋白质结构和科学出版物。 ML 以其数据处理能力而闻名; 然而,许多 AI 生物信息学模型的运行成本很高。 训练深度学习算法可能需要数十万美元。 例如,训练用于蛋白质结构预测的 AlphaFold2 模型消耗了相当于 100-200 个 GPU 运行数周。

您可以在我们关于实施 AI 的成本的文章中找到更多关于价格预期的信息。 如果您想在生物信息学中部署机器学习,请给我们写信。 我们将与您合作,以合理的预算找到最合适的 ML 模型。

考虑在生物信息学中部署机器学习,但不确定哪种模型适合您? 保持联系! 我们将协助您为任务选择最适合的 ML 类型。 我们还将帮助您构建/定制、训练和部署算法。


本文最初发表于 Itrex 网站。