生物信息學中的人工智能和機器學習:強大的二重奏推動創新

已發表: 2023-02-16

DNA 測序技術的進步使研究人員能夠在一天內對人類基因組進行測序,而這項任務曾經需要十年才能完成。 這只是機器學習 (ML) 對生物信息學的眾多強大貢獻之一。

隨著許多生物技術公司聘請 ML 顧問來促進處理生物醫學數據的過程,生物信息學市場中的 AI 繼續增長。 預計到 2029 年將達到 37,027.96 美元,從 2022 年開始以 42.7% 的複合年增長率增長。您想成為這場數字革命的一部分嗎?

本文簡要介紹了 ML,解釋了它如何支持生物醫學研究,並列舉了您在部署該技術時可能面臨的挑戰。

生物信息學機器學習簡介

ML 是更廣泛的人工智能 (AI) 領域的一個子集。 它使系統能夠獨立地從數據中學習並執行它們沒有明確編程處理的任務。 它的目標是讓機器能夠執行需要人類智能的任務,例如診斷、規劃和預測。

機器學習有兩種主要類型。

  1. 監督學習依靠標記的數據集來教算法如何使用現有的分類系統,包括如何基於該系統進行預測。 這種類型的 ML 用於訓練決策樹和神經網絡。
  2. 無監督學習不使用標籤。 相反,算法會嘗試自行發現數據模式。 換句話說,他們學到了我們無法直接教給他們的東西。 這與人腦的工作方式相當。

也可以在訓練期間結合標記和未標記的數據,這將導致半監督學習。 當您沒有足夠的高質量標記數據用於監督學習方法時,此 ML 類型會很有用,但您仍想使用它來指導學習過程。

生物信息學中最流行的機器學習技術是什麼?

其中一些算法嚴格屬於有監督/無監督學習類別,有一些可以與這兩種方法一起使用。

自然語言處理

自然語言處理(NLP)是一組可以理解非結構化人類語言的技術。

例如,NLP 可以搜索大量生物學研究,從各種來源匯總關於給定主題的信息,並將研究結果從一種語言翻譯成另一種語言。 除了挖掘研究論文,NLP 解決方案還可以解析相關的生物醫學數據庫。

NLP 可以通過以下方式使生物信息學領域受益。

  • 解釋遺傳變異
  • 分析 DNA 表達陣列
  • 註釋蛋白質功能
  • 尋找新的藥物靶點

神經網絡

這些是由節點/神經元組成的多層結構。 相鄰層中的神經元通過鏈接相互連接,但一層上的神經元不相互連接。 一層上的神經元接收信息、處理信息並將其作為輸入傳遞到下一層。 這個過程一直持續到處理後的信息到達輸出層。

最基本的神經網絡稱為感知器。 它由一個充當分類器的神經元組成。 該神經元接收輸入並使用線性辨別函數將其置於兩個類別之一。 在較大的神經網絡中,層數或一層中的節點數沒有限制。

神經網絡可用於:

  • 對基因表達譜進行分類
  • 預測蛋白質結構
  • 序列DNA。

聚類

無監督聚類是根據提供的相似性定義將元素組織成不同組的過程。 作為這種分類的結果,位於一個集群中的元素彼此密切相關,並且不同於其他集群中的元素。

與監督分類不同,在聚類中,我們事先不知道將形成多少個聚類。 這種 ML 方法在生物信息學中的一個著名示例是基於微陣列的基因表達譜分析,其中具有相似表達水平的基因位於一個簇中。

降維

在 ML 分類問題中,分類是根據因素/特徵執行的。 有時影響最終結果的因素太多,使得數據集難以可視化和操作。 降維算法可以最大限度地減少特徵的數量,使數據集更易於管理。 例如,氣候分類問題的特徵可能包括濕度和降雨量。 為簡單起見,這兩者可以合併為一個因素,因為它們密切相關。

降維有兩個主要組成部分。

  • 特徵選擇:通過嵌入、過濾或包裝特徵來選擇變量子集來表示整個模型。
  • 特徵提取:減少數據集中的維數——例如,一個 3D 空間可以分成兩個 2D 空間。

此類算法用於壓縮大型數據集,以減少計算時間和存儲需求。 它還可以消除數據中存在的冗餘特徵。

決策樹分類器

這是最流行的經典監督學習分類器之一。 這些算法應用遞歸方法來構建類似流程圖的樹模型,其中每個節點代表對一個特徵的測試。 首先,該算法確定頂部節點——根——然後遞歸地構建樹,一次一個參數。 每個序列中的最後一個節點稱為“葉節點”。 它代表最終分類並持有類標籤。

決策樹模型在訓練期間需要很高的計算能力,但之後它們可以在不需要大量計算的情況下進行分類。 這些分類器給生物信息學領域帶來的主要優勢是它們生成可理解的規則和可解釋的結果。

支持向量機

這是一個有監督的 ML 模型,可以解決兩組分類問題。 為了對數據點進行分類,這些算法會尋找一個最佳超平面,該超平面將數據分成兩類,數據點之間的距離最大。

位於超平面兩側的點屬於不同的類。 超平面的維度取決於特徵的數量。 在兩個特徵的情況下,決策邊界是一條線; 具有三個特徵,它是一個二維板。 這個特性使得 SVM 很難用於具有三個以上特徵的分類。

這種方法可用於功能性 RNA 基因的計算識別。 它可以根據基因的表達數據選擇用於癌症檢測的最佳基因組。

機器學習在生物信息學中的 5 大應用

在簡要介紹了 ML 並重點介紹了最常用的 ML 算法之後,讓我們看看如何將它們部署到生物信息學領域。

如果這些用例中的任何一個引起您的共鳴,請求助於 AI 軟件諮詢專家,為您的企業實施定制的解決方案。

1. 促進基因編輯實驗

基因編輯是指通過刪除、插入和替換其 DNA 序列的一部分來操縱生物體的遺傳組成。 這個過程通常依賴於相當有效的 CRISPR 技術。 但在選擇正確的 DNA 序列進行操作方面仍有很多改進空間,而這正是 ML 可以提供幫助的地方。 將機器學習用於生物信息學,研究人員可以改進基因編輯實驗的設計並預測其結果。

一個研究團隊使用 ML 算法來發現氨基酸殘基的最佳組合變體,使基因組編輯蛋白 Cas9 能夠與目標 DNA 結合。 由於這些變體數量眾多,否則這樣的實驗會太大,但使用 ML 驅動的工程方法可將篩選負擔降低約 95%。

2. 識別蛋白質結構

蛋白質組學是對蛋白質、它們的相互作用、組成及其在人體中的作用的研究。 該領域涉及繁重的生物數據集,計算量大。 因此,生物信息學中的 ML 等技術在這裡必不可少。

該領域最成功的應用之一是使用卷積神經網絡將蛋白質的氨基酸分為三類——片狀、螺旋狀和螺旋狀。 神經網絡可以達到 84% 的準確率,理論極限為 88%–90%。

ML 在蛋白質組學中的另一個用途是蛋白質模型評分,這是預測蛋白質結構必不可少的任務。 在他們的 ML 生物信息學方法中,費耶特維爾州立大學的研究人員部署了 ML 來改進蛋白質模型評分。 他們將有問題的蛋白質模型分成幾組,並使用 ML 解釋器來決定特徵向量來評估屬於每組的模型。 這些特徵向量稍後用於進一步改進 ML 算法,同時分別在每個組上訓練它們。

3. 發現與疾病相關的基因

研究人員越來越多地在生物信息學中使用 ML 來識別可能與特定疾病有關的基因。 這是通過分析基因表達微陣列和 RNA 測序來實現的。

基因鑑定已在癌症相關研究中獲得關注,以鑑定可能導致癌症的基因,以及通過在分子水平上分析腫瘤來對腫瘤進行分類。

例如,華盛頓大學的一組科學家在生物信息學算法中使用 ML,包括決策樹、支持向量機和神經網絡,以測試他們預測和分類癌症類型的能力。 研究人員部署了癌症基因組圖譜項目的 RNA 測序數據,發現線性支持向量機是最精確的,在癌症分類中達到 95.8% 的準確率。

在另一個示例中,研究人員使用 ML 根據基因表達數據對乳腺癌類型進行分類。 該團隊還依賴於癌症基因組圖譜項目的數據。 研究人員將樣本分為三陰性乳腺癌——最致命的乳腺癌之一——和非三陰性乳腺癌。 支持向量機分類器再一次提供了最好的結果。

談到非癌性疾病,賓夕法尼亞大學的研究人員依靠 ML 來識別可能成為冠狀動脈疾病 (CAD) 藥物合適靶標的基因。 該團隊使用 ML 支持的基於樹的管道優化工具 (TPOT) 來查明與 CAD 相關的單核苷酸多態性 (SNP) 的組合。 他們分析了來自英國生物銀行的基因組數據,發現了 28 個相關的 SNP。 該列表頂部的 SNP 與 CAD 之間的關係先前已在文獻中提及,本研究驗證了 ML 的應用。

4. 遍歷知識庫尋找有意義的模式

先進的測序技術使基因組數據庫每 2.5 年翻一番,研究人員正在尋找一種方法來從這些積累的知識中提取有用的見解。 生物信息學中的 ML 可以篩選生物醫學出版物和報告,以識別不同的基因和蛋白質並蒐索它們的功能。 它還可以幫助註釋蛋白質數據庫,並用它從科學文獻中檢索到的信息來補充它們。

一個例子來自一組研究人員,他們在文獻挖掘中部署生物信息學和 ML 以促進蛋白質模型評分。 蛋白質-蛋白質對接的結構建模通常會產生幾個模型,這些模型會根據結構約束進一步評分。 該團隊使用 ML 算法遍歷關於蛋白質-蛋白質相互作用的 PubMed 論文,尋找可以幫助生成這些模型評分約束的殘基。 為了確保約束是相關的,科學家們探索了不同 ML 算法的能力,以檢查所有發現的殘基的相關性。

這項研究表明,計算成本高昂的神經網絡和資源需求較少的支持向量機都取得了非常相似的結果。

5. 藥物再利用

藥物再利用或重新分析是科學家用來發現不適用於現有藥物的新應用的技術。 研究人員在生物信息學中採用 AI 在相關數據庫(如 BindingDB 和 DrugBank)上進行藥物分析。 藥物再利用的三個主要方向。

  • 藥物-靶點相互作用研究藥物直接結合靶蛋白的能力
  • 藥物相互作用研究藥物聯合服用時的作用
  • 蛋白質-蛋白質相互作用研究相互作用的細胞內蛋白質的表面,並試圖發現熱點和變構位點。

中國石油大學和山東大學的研究人員開發了一種深度神經網絡算法,並將其用於 DrugBank 數據庫。 他們想研究藥物分子與線粒體融合蛋白 2 (MFN2) 之間的藥物靶點相互作用,MFN2 是導致阿爾茨海默病的主要蛋白質之一。 該研究確定了 15 種具有結合潛力的藥物分子。 經過進一步調查,似乎其中 11 個可以成功與 MFN2 對接。 其中五個具有中強結合力。

機器學習在生物信息學中帶來的挑戰

由於以下四個因素,生物信息學中的機器學習不同於其他領域的機器學習,這也構成了將機器學習應用於該領域的主要挑戰。

  1. 在生物信息學中使用人工智能是昂貴的。 為了使算法正常運行,您需要獲取大型訓練數據集。 然而,獲得 10,000 次胸部掃描或與此相關的任何其他類型的醫療數據的成本相當高。
  2. 訓練數據集存在一些困難。 在其他領域,如果你沒有足夠的訓練數據,你可以生成合成數據來擴展你的數據集。 然而,這個技巧可能不適用於人體器官。 問題是您的掃描生成軟件可能會生成真人的掃描。 如果你在未經對方許可的情況下開始使用它,你將嚴重侵犯他們的隱私。
  3. 與訓練數據相關的另一個挑戰是,如果你想構建一種適用於罕見疾病的算法,首先就沒有太多數據可供使用。
  4. 置信度必須非常高。 當人類的生命取決於算法的性能時,風險就太大了,不容許犯錯。
  5. 如果醫生不了解它是如何產生建議的,他們將不會願意使用 ML 模型。 您可以改用可解釋的 AI,但這些算法不如一些黑盒無監督學習模型強大。

有關與 AI 相關的一般挑戰和實施技巧,請查看我們的文章和免費電子書。

總結

AI 和 ML 技術在醫學和生物學中有許多應用。 在我們的博客上,您可以找到有關 AI 在臨床試驗中的更多信息,以及 AI 在癌症診斷和治療中的應用,以及它在醫療保健方面的其他好處。

生物信息學是另一個與醫學相關的領域,其中基於 ML 和 AI 的醫療解決方案非常方便。 生物信息學需要處理大量各種形式的數據,例如基因組序列、蛋白質結構和科學出版物。 ML 以其數據處理能力而聞名; 然而,許多 AI 生物信息學模型的運行成本很高。 訓練深度學習算法可能需要數十萬美元。 例如,訓練用於蛋白質結構預測的 AlphaFold2 模型消耗了相當於 100-200 個 GPU 運行數週。

您可以在我們關於實施 AI 的成本的文章中找到更多關於價格預期的信息。 如果您想在生物信息學中部署機器學習,請給我們寫信。 我們將與您合作,以合理的預算找到最合適的 ML 模型。

考慮在生物信息學中部署機器學習,但不確定哪種模型適合您? 保持聯繫! 我們將協助您為任務選擇最適合的 ML 類型。 我們還將幫助您構建/定制、訓練和部署算法。


本文最初發表於 Itrex 網站。