バイオインフォマティクスにおける AI と機械学習: イノベーションを推進する強力なデュオ

公開: 2023-02-16

DNA 配列決定技術の進歩により、研究者は、かつては完了までに 10 年かかった作業を、わずか 1 日で配列決定できるようになりました。 これは、バイオインフォマティクスに対する機械学習 (ML) の多くの強力な貢献の 1 つにすぎません。

多くのバイオテクノロジー企業が ML コンサルタントを雇って生物医学データの処理プロセスを促進しているため、バイオインフォマティクス市場における AI は成長を続けています。 2029 年までに 37,027.96 ドルに達すると予測されており、2022 年から 42.7% の CAGR で成長しています。このデジタル革命の一部になりたいですか?

この記事では、ML を簡単に紹介し、ML が生物医学研究をどのようにサポートするかを説明し、このテクノロジを展開する際に直面する可能性のある課題を列挙します。

バイオインフォマティクスのための機械学習の概要

ML は、人工知能 (AI) のより広い分野のサブセットです。 これにより、システムはデータから独立して学習し、処理するように明示的にプログラムされていないタスクを実行できます。 その目標は、診断、計画、予測など、人間の知性を必要とするタスクをマシンが実行できるようにすることです。

機械学習には主に 2 つのタイプがあります。

  1. 教師あり学習は、ラベル付けされたデータセットに依存して、既存の分類システムを使用する方法 (そのシステムに基づいて予測を行う方法など) をアルゴリズムに教えます。 このタイプの ML は、決定木とニューラル ネットワークのトレーニングに使用されます。
  2. 教師なし学習ではラベルを使用しません。 代わりに、アルゴリズムは独自にデータ パターンを明らかにしようとします。 つまり、私たちが直接教えられないことを学ぶのです。 これは、人間の脳の仕組みに匹敵します。

トレーニング中にラベル付きデータとラベルなしデータを組み合わせることも可能で、半教師あり学習になります。 この ML タイプは、教師あり学習アプローチ用の高品質のラベル付きデータが十分にない場合に役立ちますが、それでも学習プロセスを指示するために使用したい場合があります。

バイオインフォマティクスで使用される最も一般的な機械学習手法は何ですか?

これらのアルゴリズムの一部は、教師あり/教師なし学習のカテゴリに厳密に分類され、一部は両方の方法で使用できます。

自然言語処理

自然言語処理 (NLP) は、構造化されていない人間の言語を理解できる一連の技術です。

NLP は、たとえば、大量の生物学研究を検索し、さまざまなソースから特定のトピックに関する情報を集約し、研究結果をある言語から別の言語に翻訳することができます。 研究論文のマイニングに加えて、NLP ソリューションは関連する生物医学データベースを解析できます。

NLP は、バイオインフォマティクス分野に次のようなメリットをもたらします。

  • 遺伝子バリアントの解釈
  • DNA 発現アレイの分析
  • タンパク質機能に注釈を付ける
  • 新しい創薬ターゲットを探す

ニューラル ネットワーク

これらは、ノード/ニューロンからなる多層構造です。 隣接する層のニューロンはリンクを介して相互に接続されていますが、1 つの層のニューロンは相互にリンクされていません。 ある層のニューロンは、情報を受け取って処理し、入力として次の層に渡します。 そして、このプロセスは、処理された情報が出力層に到達するまで続きます。

最も基本的なニューラル ネットワークは、パーセプトロンと呼ばれます。 これは、分類器として機能する 1 つのニューロンで構成されます。 このニューロンは入力を受け取り、線形識別関数を使用して 2 つのクラスのいずれかに配置します。 大規模なニューラル ネットワークでは、レイヤーの数や 1 つのレイヤー内のノードの数に制限はありません。

ニューラル ネットワークは、次の目的で使用できます。

  • 遺伝子発現プロファイルを分類する
  • タンパク質構造を予測する
  • シーケンス DNA。

クラスタリング

教師なしクラスタリングは、指定された類似性の定義に基づいて要素をさまざまなグループに編成するプロセスです。 このような分類の結果、あるクラスターに位置する要素は互いに密接に関連し、他のクラスターの要素とは異なります。

教師あり分類とは異なり、クラスタリングでは、形成されるクラスターの数が事前にわかりません。 バイオインフォマティクスにおけるこの ML アプローチの有名な例の 1 つは、マイクロアレイに基づく遺伝子の発現プロファイリングです。この場合、同様の発現レベルを持つ遺伝子が 1 つのクラスターに配置されます。

次元削減

ML 分類問題では、因子/特徴に基づいて分類が実行されます。 最終結果に影響を与える要因が多すぎて、データセットの視覚化と操作が困難になる場合があります。 次元削減アルゴリズムは特徴の数を最小限に抑え、データセットをより管理しやすくします。 たとえば、気候分類の問題には、その特徴に湿度と降雨量が含まれる場合があります。 これら 2 つは密接に関連しているため、簡単にするために 1 つの要因にまとめることができます。

次元削減には 2 つの主要なコンポーネントがあります。

  • 特徴の選択: 特徴の埋め込み、フィルタリング、またはラッピングによってモデル全体を表す変数のサブセットを選択します。
  • 特徴抽出: データセットの次元数を削減します。たとえば、3D 空間を 2 つの 2D 空間に分割できます。

このタイプのアルゴリズムは、計算時間とストレージ要件を削減するために、大規模なデータセットを圧縮するために使用されます。 また、データに存在する冗長な特徴を排除することもできます。

決定木分類子

これは、最も人気のある古典的な教師あり学習分類器の 1 つです。 これらのアルゴリズムは、再帰的なアプローチを適用してフローチャートのようなツリー モデルを構築します。各ノードは機能のテストを表します。 最初に、アルゴリズムは最上位ノード (ルート) を決定し、一度に 1 つのパラメーターを使用してツリーを再帰的に構築します。 各シーケンスの最後のノードは「リーフ ノード」と呼ばれます。 これは最終的な分類を表し、クラス ラベルを保持します。

ディシジョン ツリー モデルは、トレーニング中に高い計算能力を必要としますが、その後は大規模な計算を行わなくても分類を実行できます。 これらの分類器がバイオインフォマティクス分野にもたらす主な利点は、理解可能なルールと説明可能な結果を​​生成することです。

サポート ベクター マシン

これは、2 グループ分類の問題を解決できる教師あり ML モデルです。 データ ポイントを分類するために、これらのアルゴリズムは、データ ポイント間の距離が最大になる 2 つのクラスにデータを分割する最適な超平面を探します。

超平面の両側にある点は、異なるクラスに属します。 超平面の次元は、特徴の数によって異なります。 2 つの特徴の場合、決定境界は線です。 3 つの機能を備えた 2D プレートです。 この特性により、3 つ以上の特徴を持つ分類に SVM を使用することが困難になります。

このアプローチは、機能的な RNA 遺伝子のコンピューターによる同定に役立ちます。 発現データに基づいて、がん検出に最適な遺伝子セットを選択できます。

バイオインフォマティクスにおける機械学習の上位 5 つのアプリケーション

ML を簡単に紹介し、最も一般的に使用されている ML アルゴリズムを強調した後、バイオインフォマティクスの分野でそれらをどのように展開できるかを見てみましょう。

これらのユース ケースのいずれかに共感する場合は、AI ソフトウェア コンサルティングの専門家に相談して、ビジネスに合わせてカスタマイズされたソリューションを実装してください。

1. 遺伝子編集実験の促進

遺伝子編集とは、生物の DNA 配列の一部を削除、挿入、および置換することにより、生物の遺伝子構成を操作することを指します。 このプロセスは通常、かなり効果的な CRISPR 技術に依存しています。 しかし、操作に適した DNA 配列を選択する領域には、まだ多くの改善が必要であり、ML が役立つのはこの点です。 バイオインフォマティクスに機械学習を使用することで、研究者は遺伝子編集実験の設計を強化し、その結果を予測できます。

ある研究チームは、ML アルゴリズムを使用して、ゲノム編集タンパク質 Cas9 が標的 DNA と結合できるようにするアミノ酸残基の最適な組み合わせバリアントを発見しました。 これらのバリアントの数が多いため、このような実験はそうでなければ大規模になりすぎましたが、ML 主導のエンジニアリング アプローチを使用することで、スクリーニングの負担が約 95% 削減されました。

2. タンパク質構造の同定

プロテオミクスは、タンパク質、その相互作用、組成、および人体における役割の研究です。 このフィールドには、大量の生物学的データセットが含まれており、計算コストが高くなります。 したがって、ここではバイオインフォマティクスにおける ML などのテクノロジーが不可欠です。

この分野で最も成功したアプリケーションの 1 つは、畳み込みニューラル ネットワークを使用して、タンパク質のアミノ酸を 3 つのクラス (シート、ヘリックス、コイル) に配置することです。 ニューラル ネットワークは 84% の精度を達成でき、理論上の限界は 88% ~ 90% です。

プロテオミクスにおける ML のもう 1 つの用途は、タンパク質構造の予測に不可欠なタスクであるタンパク質モデルのスコアリングです。 ファイエットビル州立大学の研究者は、バイオインフォマティクスへの ML アプローチで、タンパク質モデルのスコアリングを改善するために ML を導入しました。 問題のタンパク質モデルをグループに分け、ML インタープリターを使用して特徴ベクトルを決定し、各グループに属するモデルを評価しました。 これらの特徴ベクトルは、後で各グループで個別にトレーニングしながら、ML アルゴリズムをさらに改善するために使用されました。

3. 病気に関連する遺伝子の発見

研究者は、バイオインフォマティクスで ML をますます使用して、特定の疾患に関与する可能性が高い遺伝子を特定しています。 これは、遺伝子発現マイクロ アレイと RNA シーケンスを分析することによって達成されます。

遺伝子同定は、がんに寄与する可能性が高い遺伝子を特定し、分子レベルで分析することによって腫瘍を分類するために、がん関連の研究で注目を集めています。

たとえば、ワシントン大学の科学者グループは、意思決定ツリー、サポート ベクター マシン、ニューラル ネットワークなどのバイオインフォマティクス アルゴリズムで ML を使用して、がんの種類を予測および分類する能力をテストしました。 研究者は、The Cancer Genome Atlas プロジェクトの RNA 配列決定データを展開し、線形サポート ベクター マシンが最も正確であり、がん分類で 95.8% の精度を達成したことを発見しました。

別の例では、研究者は ML を使用して、遺伝子発現データに基づいて乳がんの種類を分類しました。 このチームは、Cancer Genome Atlas Project のデータにも依存していました。 研究者は、サンプルをトリプルネガティブ乳がん(最も致命的な乳がんの1つ)と非トリプルネガティブ乳がんに分類しました. ここでも、サポート ベクター マシン分類器が最良の結果をもたらしました。

非がん性疾患といえば、ペンシルバニア大学の研究者は ML を利用して、冠動脈疾患 (CAD) 治療薬の適切な標的となる遺伝子を特定しました。 チームは、ML を利用したツリーベースのパイプライン最適化ツール (TPOT) を使用して、CAD に関連する一塩基多型 (SNP) の組み合わせを特定しました。 彼らは、英国のバイオバンクからのゲノムデータを分析し、28 の関連する SNP を明らかにしました。 このリストの上位にある SNP と CAD との関係は以前に文献で言及されており、この研究は ML の適用を検証しました。

4. 意味のあるパターンを求めて知識ベースをたどる

高度な配列決定技術により、ゲノム データベースは 2.5 年ごとに 2 倍になり、研究者はこの蓄積された知識から有用な洞察を引き出す方法を探しています。 バイオインフォマティクスの ML は、生物医学の出版物やレポートをふるいにかけて、さまざまな遺伝子やタンパク質を特定し、それらの機能を検索することができます。 また、タンパク質データベースに注釈を付けたり、科学文献から取得した情報で補完したりすることもできます。

1 つの例は、バイオインフォマティクスと ML を文献マイニングに展開して、タンパク質モデルのスコアリングを容易にした研究者グループからのものです。 タンパク質間ドッキングの構造モデリングは、通常、構造上の制約に基づいてさらにスコアリングされるいくつかのモデルをもたらします。 チームは ML アルゴリズムを使用して、タンパク質間相互作用に関する PubMed の論文を調べ、モデル スコアリングの制約を生成するのに役立つ残基を探しました。 そして、制約が関連していることを確認するために、科学者は、関連性について発見されたすべての残基をチェックするさまざまな ML アルゴリズムの機能を調査しました。

この研究により、計算コストの高いニューラル ネットワークと、リソースをそれほど必要としないサポート ベクター マシンの両方が、非常に類似した結果を達成したことが明らかになりました。

5. 薬物の転用

薬物転用または再プロファイリングは、科学者が既存の薬物を対象としていない新しいアプリケーションを発見するために使用する手法です。 研究者はバイオインフォマティクスに AI を採用して、BindingDB や DrugBank などの関連データベースで薬物分析を実行しています。 ドラッグ リパーパスには 3 つの主要な方向性があります。

  • 薬物-標的相互作用は、標的タンパク質に直接結合する薬物の能力を調べます
  • 薬と薬の相互作用は、薬を組み合わせて服用したときに薬がどのように作用するかを調査します
  • タンパク質間相互作用は、相互作用する細胞内タンパク質の表面を調べ、ホットスポットとアロステリック サイトを発見しようとします。

中国石油大学と山東大学の研究者は、ディープ ニューラル ネットワーク アルゴリズムを開発し、それを DrugBank データベースで使用しました。 彼らは、薬物分子と、アルツハイマー病を引き起こす可能性のある主要なタンパク質の 1 つであるミトコンドリア融合タンパク質 2 (MFN2) との間の薬物-標的相互作用を研究したいと考えていました。 この研究では、結合の可能性がある 15 の薬物分子が特定されました。 さらに調査したところ、そのうちの 11 機が MFN2 とのドッキングに成功したようです。 そして、そのうちの 5 つは中程度から強い結合力を持っていました。

バイオインフォマティクスにおける ML によって提示される課題

バイオインフォマティクスの ML は、以下の 4 つの要因により、他の分野の ML とは異なります。これらの要因は、ML をこの分野に適用する際の主な課題でもあります。

  1. バイオインフォマティクスで AI を使用するにはコストがかかります。 アルゴリズムを適切に実行するには、大規模なトレーニング データセットを取得する必要があります。 ただし、10,000 の胸部スキャンやその他の種類の医療データを取得するにはかなりの費用がかかります。
  2. トレーニング データセットに関連する問題があります。 他の分野では、十分なトレーニング データがない場合は、合成データを生成してデータセットを拡張できます。 ただし、このトリックは、人間の臓器に関しては適切ではない場合があります。 問題は、スキャン生成ソフトウェアが実際の人間のスキャンを生成する可能性があることです。 そして、その人の許可なしにそれを使い始めると、その人のプライバシーを著しく侵害することになります.
  3. データのトレーニングに関連するもう 1 つの課題は、希少疾患で機能するアルゴリズムを構築したい場合、そもそも使用するデータがあまりないということです。
  4. 信頼度は非常に高くなければなりません。 人間の命がアルゴリズムのパフォーマンスに依存している場合、リスクが大きすぎるため、エラーの余地はありません。
  5. 医師は、ML モデルがどのように推奨事項を作成したかを理解していない場合、ML モデルの使用にオープンではありません。 代わりに説明可能な AI を使用できますが、これらのアルゴリズムは、一部のブラックボックスの教師なし学習モデルほど強力ではありません。

一般的な AI 関連の課題と実装のヒントについては、記事と無料の eBook をご覧ください。

総括する

AI および ML テクノロジーは、医学および生物学において多くの用途があります。 私たちのブログでは、臨床試験における AI や、がんの診断と治療における AI の使用、およびヘルスケアにおける AI のその他の利点について詳しく説明しています。

バイオインフォマティクスは、ML および AI ベースの医療ソリューションが便利なもう 1 つの医療関連分野です。 バイオインフォマティクスでは、ゲノム配列、タンパク質構造、科学出版物など、大量のさまざまな形式のデータを処理する必要があります。 ML は、そのデータ処理機能でよく知られています。 ただし、多くの AI バイオインフォマティクス モデルは実行に費用がかかります。 深層学習アルゴリズムをトレーニングするには、数十万ドルかかる場合があります。 たとえば、タンパク質構造予測のために AlphaFold2 モデルをトレーニングすると、数週間実行することで 100 ~ 200 GPU に相当する量が消費されました。

AI の実装にかかる費用に関する記事で、価格に関して何が期待できるかについての詳細を見つけることができます。 機械学習をバイオインフォマティクスに展開したい場合は、ご連絡ください。 お客様と協力して、妥当な予算で最適な ML モデルを見つけます。

バイオインフォマティクスに機械学習を導入することを検討していますが、どのモデルが適切かわかりませんか? 連絡する! タスクに最適な ML タイプの選択を支援します。 また、アルゴリズムの構築/カスタマイズ、トレーニング、デプロイも支援します。


この記事はもともと Itrex の Web サイトに掲載されたものです。