생물 정보학의 AI 및 머신 러닝: 혁신을 주도하는 강력한 듀오

게시 됨: 2023-02-16

DNA 시퀀싱 기술의 발전으로 연구원들은 한때 완료하는 데 10년이 걸렸던 작업을 단 하루 만에 인간 게놈 시퀀싱할 수 있게 되었습니다. 이것은 기계 학습(ML)이 생물정보학에 기여하는 많은 강력한 기여 중 하나일 뿐입니다.

많은 생명 공학 회사가 ML 컨설턴트를 고용하여 생물 의학 데이터 처리 프로세스를 촉진함에 따라 생물 정보학 시장의 AI는 계속 성장하고 있습니다. 2029년까지 $37,027.96에 도달하여 2022년부터 CAGR 42.7%로 성장할 것으로 예상됩니다. 이 디지털 혁명의 일부가 되고 싶습니까?

이 문서에서는 ML에 대한 간략한 소개를 제공하고 ML이 생물 의학 연구를 지원하는 방법을 설명하며 이 기술을 배포할 때 직면할 수 있는 문제를 열거합니다.

생물 정보학을 위한 기계 학습 소개

ML은 광범위한 인공 지능(AI) 분야의 하위 집합입니다. 이를 통해 시스템은 데이터로부터 독립적으로 학습하고 처리하도록 명시적으로 프로그래밍되지 않은 작업을 실행할 수 있습니다. 그 목표는 기계가 진단, 계획 및 예측과 같은 인간 지능이 필요한 작업을 수행할 수 있는 능력을 부여하는 것입니다.

기계 학습에는 두 가지 주요 유형이 있습니다.

감독 학습은 레이블이 지정된 데이터 세트를 사용하여 해당 시스템을 기반으로 예측하는 방법을 포함하여 기존 분류 시스템을 사용하는 방법을 알고리즘에 가르칩니다. 이 유형의 ML은 의사 결정 트리 및 신경망을 교육하는 데 사용됩니다.
비지도 학습은 레이블을 사용하지 않습니다. 대신 알고리즘은 자체적으로 데이터 패턴을 발견하려고 합니다. 즉, 그들은 우리가 직접 가르칠 수 없는 것을 배웁니다. 이것은 인간의 뇌가 작동하는 방식과 비슷합니다.

또한 훈련 중에 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 결합하여 반지도 학습이 가능합니다. 이 ML 유형은 지도 학습 접근 방식을 위한 고품질 레이블 데이터가 충분하지 않지만 여전히 학습 프로세스를 지시하는 데 사용하려는 경우에 유용할 수 있습니다.

생물 정보학에서 가장 많이 사용되는 기계 학습 기술은 무엇입니까?

이러한 알고리즘 중 일부는 엄격하게 지도/비지도 학습 범주에 속하며 일부는 두 방법 모두에서 사용할 수 있습니다.

자연어 처리

자연어 처리(NLP)는 구조화되지 않은 인간의 언어를 이해할 수 있는 일련의 기술입니다.

예를 들어, NLP는 많은 양의 생물학 연구를 검색하고, 다양한 소스에서 주어진 주제에 대한 정보를 집계하고, 연구 결과를 한 언어에서 다른 언어로 번역할 수 있습니다. 마이닝 연구 논문 외에도 NLP 솔루션은 관련 생물 의학 데이터베이스를 구문 분석할 수 있습니다.

NLP는 다음과 같은 방식으로 생물 정보학 분야에 도움이 될 수 있습니다.

유전적 변이 해석
DNA 발현 어레이 분석
단백질 기능에 주석 달기
새로운 약물 표적 찾기

신경망

이들은 노드/뉴런으로 구성된 다층 구조입니다. 인접한 레이어의 뉴런은 링크를 통해 서로 연결되지만 한 레이어의 뉴런은 서로 연결되지 않습니다. 한 계층의 뉴런은 정보를 받아 처리하고 다음 계층의 입력으로 전달합니다. 그리고 이 과정은 처리된 정보가 출력 레이어에 도달할 때까지 계속됩니다.

가장 기본적인 신경망은 퍼셉트론이라고 합니다. 분류자 역할을 하는 하나의 뉴런으로 구성됩니다. 이 뉴런은 입력을 수신하고 선형 판별 함수를 사용하여 두 클래스 중 하나에 배치합니다. 더 큰 신경망에서는 레이어 수 또는 한 레이어의 노드 수에 제한이 없습니다.

신경망은 다음과 같은 용도로 사용할 수 있습니다.

유전자 발현 프로필 분류
단백질 구조 예측
시퀀스 DNA.

클러스터링

감독되지 않은 클러스터링은 제공된 유사성의 정의를 기반으로 요소를 다양한 그룹으로 구성하는 프로세스입니다. 이러한 분류 결과 한 군집에 위치한 원소들은 서로 밀접하게 관련되어 있고 다른 군집의 원소들과 차이가 있다.

지도 분류와 달리 클러스터링에서는 얼마나 많은 클러스터가 형성될지 미리 알 수 없습니다. 생물정보학에서 이 ML 접근법의 한 가지 유명한 예는 비슷한 발현 수준을 가진 유전자가 하나의 클러스터에 위치하는 마이크로어레이 기반 유전자 발현 프로파일링입니다.

차원 감소

ML 분류 문제에서 분류는 요인/특징을 기반으로 수행됩니다. 때로는 최종 결과에 영향을 미치는 요소가 너무 많아 데이터 세트를 시각화하고 조작하기 어렵게 만듭니다. 차원 감소 알고리즘은 기능 수를 최소화하여 데이터 세트를 보다 쉽게 관리할 수 있습니다. 예를 들어, 기후 분류 문제의 특징 중 습도와 강우량이 있을 수 있습니다. 이 두 가지는 밀접하게 관련되어 있으므로 단순화를 위해 하나의 요소로 축소할 수 있습니다.

차원 감소에는 두 가지 주요 구성 요소가 있습니다.

기능 선택: 기능을 포함, 필터링 또는 래핑하여 전체 모델을 나타내는 변수의 하위 집합을 선택합니다.
기능 추출: 데이터 세트의 차원 수 줄이기 - 예를 들어 3D 공간을 두 개의 2D 공간으로 나눌 수 있습니다.

이 유형의 알고리즘은 계산 시간과 스토리지 요구 사항을 줄이기 위해 대규모 데이터 세트를 압축하는 데 사용됩니다. 또한 데이터에 존재하는 중복 기능을 제거할 수 있습니다.

의사결정 트리 분류기

이것은 가장 인기 있는 클래식 지도 학습 분류기 중 하나입니다. 이러한 알고리즘은 각 노드가 기능에 대한 테스트를 나타내는 순서도와 같은 트리 모델을 구축하기 위해 재귀적 접근 방식을 적용합니다. 먼저 알고리즘은 최상위 노드(루트)를 결정한 다음 한 번에 하나의 매개변수씩 재귀적으로 트리를 구축합니다. 각 시퀀스의 마지막 노드를 "리프 노드"라고 합니다. 최종 분류를 나타내며 클래스 레이블을 보유합니다.

의사 결정 트리 모델은 훈련 중에 높은 계산 능력을 요구하지만 나중에는 광범위한 컴퓨팅 없이 분류를 수행할 수 있습니다. 이러한 분류기가 생물정보학 분야에 가져오는 주요 이점은 이해할 수 있는 규칙과 설명할 수 있는 결과를 생성한다는 것입니다.

서포트 벡터 머신

이는 두 그룹 분류 문제를 해결할 수 있는 감독된 ML 모델입니다. 데이터 포인트를 분류하기 위해 이러한 알고리즘은 데이터 포인트 사이의 최대 거리를 두고 데이터를 두 클래스로 분리하는 최적의 초평면을 찾습니다.

초평면의 양쪽에 있는 점은 서로 다른 클래스에 속합니다. 초평면의 차원은 피처의 수에 따라 다릅니다. 두 가지 기능의 경우 결정 경계는 선입니다. 세 가지 기능이 있는 2D 플레이트입니다. 이 특성으로 인해 3개 이상의 기능이 있는 분류에 SVM을 사용하기가 어렵습니다.

이 접근법은 기능적 RNA 유전자의 전산 식별에 유용합니다. 발현 데이터를 기반으로 암 검출을 위한 최적의 유전자 세트를 선택할 수 있습니다.

생물 정보학에서 기계 학습의 상위 5가지 응용 프로그램

ML에 대한 간략한 소개와 가장 일반적으로 사용되는 ML 알고리즘을 강조한 후 생물 정보학 분야에서 어떻게 배포할 수 있는지 살펴보겠습니다.

이러한 사용 사례 중 마음에 드는 것이 있으면 AI 소프트웨어 컨설팅 전문가에게 문의하여 비즈니스에 맞는 맞춤형 솔루션을 구현하십시오.

1. 유전자 편집 실험 촉진

유전자 편집은 DNA 서열의 일부를 삭제, 삽입 및 교체하여 유기체의 유전적 구성을 조작하는 것을 말합니다. 이 프로세스는 일반적으로 다소 효과적인 CRISPR 기술에 의존합니다. 그러나 조작을 위한 올바른 DNA 시퀀스를 선택하는 영역에서 여전히 개선해야 할 사항이 많이 있으며, 여기에서 ML이 도움이 될 수 있습니다. 연구자들은 생물정보학에 기계 학습을 사용하여 유전자 편집 실험의 설계를 개선하고 그 결과를 예측할 수 있습니다.

연구팀은 ML 알고리즘을 사용하여 게놈 편집 단백질 Cas9이 표적 DNA와 결합할 수 있도록 하는 아미노산 잔기의 가장 최적의 조합 변이체를 발견했습니다. 이러한 변형의 수가 많기 때문에 그러한 실험은 그렇지 않았다면 너무 컸을 것이지만 ML 기반 엔지니어링 접근 방식을 사용하면 스크리닝 부담이 약 95% 감소했습니다.

2. 단백질 구조 식별

Proteomics는 단백질, 상호 작용, 구성 및 인체에서의 역할에 대한 연구입니다. 이 분야는 대량의 생물학적 데이터 세트를 포함하며 계산 비용이 많이 듭니다. 따라서 생물 정보학의 ML과 같은 기술은 여기에 필수적입니다.

이 분야에서 가장 성공적인 응용 프로그램 중 하나는 단백질의 아미노산을 시트, 나선 및 코일의 세 가지 클래스로 배치하기 위해 컨볼루션 신경망을 사용하는 것입니다. 신경망은 이론적 한계가 88%–90%인 84%의 정확도를 달성할 수 있습니다.

단백질체학에서 ML의 또 다른 용도는 단백질 구조를 예측하는 데 필수적인 작업인 단백질 모델 스코어링입니다. 생물 정보학에 대한 ML 접근 방식에서 Fayetteville State University의 연구원은 단백질 모델 점수를 개선하기 위해 ML을 배포했습니다. 문제의 단백질 모델을 그룹으로 나누고 각 그룹에 속하는 모델을 평가하기 위해 특징 벡터를 결정하기 위해 ML 인터프리터를 사용했습니다. 이러한 특징 벡터는 나중에 각 그룹에서 개별적으로 학습하면서 ML 알고리즘을 추가로 개선하는 데 사용되었습니다.

3. 질병 관련 유전자 발견

연구자들은 특정 질병에 관여할 가능성이 있는 유전자를 식별하기 위해 생물 정보학에서 ML을 점점 더 많이 사용하고 있습니다. 이는 유전자 발현 마이크로어레이 및 RNA 시퀀싱을 분석하여 달성됩니다.

유전자 식별은 암에 기여할 가능성이 있는 유전자를 식별하고 분자 수준에서 종양을 분석하여 종양을 분류하기 위한 암 관련 연구에서 견인력을 얻었습니다.

예를 들어, 워싱턴 대학의 과학자 그룹은 암 유형을 예측하고 분류하는 능력을 테스트하기 위해 결정 트리, 지원 벡터 머신 및 신경망을 포함한 생물 정보학 알고리즘에서 ML을 사용했습니다. 연구원들은 The Cancer Genome Atlas 프로젝트의 RNA 시퀀싱 데이터를 배포했으며 선형 지원 벡터 머신이 가장 정확하여 암 분류에서 95.8%의 정확도를 기록했음을 발견했습니다.

또 다른 예에서 연구자들은 ML을 사용하여 유전자 발현 데이터를 기반으로 유방암 유형을 분류했습니다. 이 팀은 또한 Cancer Genome Atlas Project의 데이터에 의존했습니다. 연구원들은 샘플을 가장 치명적인 유방암 중 하나인 삼중 음성 유방암과 삼중 음성이 아닌 것으로 분류했습니다. 그리고 다시 한 번 서포트 벡터 머신 분류기가 최상의 결과를 제공했습니다.

비암성 질환에 대해 말하자면, 펜실베니아 대학의 연구원들은 ML에 의존하여 관상 동맥 질환(CAD) 약물에 적합한 표적이 될 유전자를 식별했습니다. 팀은 ML 기반 TPOT(Tree-based Pipeline Optimization Tool)를 사용하여 CAD와 관련된 단일 염기 다형성(SNP)의 조합을 정확히 찾아냈습니다. 그들은 UK Biobank의 게놈 데이터를 분석하고 28개의 관련 SNP를 발견했습니다. 이 목록의 맨 위에 있는 SNP와 CAD 간의 관계는 이전에 문헌에서 언급되었으며, 이 연구는 ML의 적용을 검증했습니다.

4. 의미 있는 패턴을 찾기 위해 지식 기반 탐색

고급 시퀀싱 기술은 2.5년마다 게놈 데이터베이스를 두 배로 늘리고 연구자들은 이 축적된 지식에서 유용한 통찰력을 추출할 방법을 찾고 있습니다. 생물 정보학의 ML은 생물 의학 간행물과 보고서를 훑어보고 다양한 유전자와 단백질을 식별하고 그 기능을 검색할 수 있습니다. 또한 단백질 데이터베이스에 주석을 달고 과학 문헌에서 검색한 정보로 보완할 수 있습니다.

한 가지 예는 단백질 모델 채점을 용이하게 하기 위해 문헌 마이닝에 생물정보학 및 ML을 배치한 연구원 그룹에서 나옵니다. 단백질-단백질 도킹의 구조적 모델링은 일반적으로 구조적 제약 조건에 따라 추가 점수가 매겨지는 여러 모델을 생성합니다. 팀은 ML 알고리즘을 사용하여 단백질-단백질 상호 작용에 대한 PubMed 논문을 탐색하고 모델 스코어링에 대한 이러한 제약 조건을 생성하는 데 도움이 될 수 있는 잔류물을 검색했습니다. 그리고 제약 조건이 관련이 있는지 확인하기 위해 과학자들은 발견된 모든 잔기의 관련성을 확인하는 다양한 ML 알고리즘의 기능을 탐색했습니다.

이 연구는 계산 비용이 많이 드는 신경망과 리소스를 덜 요구하는 지원 벡터 머신 모두 매우 유사한 결과를 달성했음을 보여주었습니다.

5. 용도 변경 약물

약물 용도 변경 또는 재프로파일링은 과학자들이 기존 약물을 대상으로 하지 않는 새로운 응용 분야를 발견하기 위해 사용하는 기술입니다. 연구원들은 BindingDB 및 DrugBank와 같은 관련 데이터베이스에서 약물 분석을 수행하기 위해 생물 정보학에서 AI를 채택합니다. 약물 용도 변경에는 세 가지 주요 방향이 있습니다.

약물-표적 상호작용은 약물이 표적 단백질에 직접 결합하는 능력을 조사합니다.
약물-약물 상호 작용은 약물을 조합하여 복용할 때 약물이 어떻게 작용하는지 조사합니다.
단백질-단백질 상호작용은 상호작용하는 세포내 단백질의 표면을 들여다보고 핫스팟과 알로스테릭 부위를 발견하려고 시도합니다.

China University of Petroleum과 Shandong University의 연구원들은 심층 신경망 알고리즘을 개발하여 DrugBank 데이터베이스에서 사용했습니다. 그들은 약물 분자와 알츠하이머병을 일으킬 수 있는 주요 단백질 중 하나인 미토콘드리아 융합 단백질 2(MFN2) 사이의 약물 표적 상호 작용을 연구하기를 원했습니다. 이 연구는 결합 가능성이 있는 15개의 약물 분자를 확인했습니다. 추가 조사 결과 11대가 MFN2와 성공적으로 도킹할 수 있는 것으로 나타났습니다. 그리고 그 중 5개는 중간 내지 강한 결합력을 가졌다.

생물 정보학에서 ML이 제시하는 과제

생물 정보학의 ML은 아래의 4가지 요인으로 인해 다른 분야의 ML과 다르며, 이는 이 분야에 ML을 적용하는 데 있어 주요 과제이기도 합니다.

생물 정보학에서 AI를 사용하는 것은 비용이 많이 듭니다. 알고리즘이 제대로 수행되려면 대규모 훈련 데이터 세트를 획득해야 합니다. 그러나 10,000개의 흉부 스캔 또는 해당 문제에 대한 다른 유형의 의료 데이터를 얻는 데는 다소 비용이 많이 듭니다.
교육 데이터 세트와 관련된 어려움이 있습니다. 다른 필드에서 훈련 데이터가 충분하지 않은 경우 합성 데이터를 생성하여 데이터 세트를 확장할 수 있습니다. 그러나 이 트릭은 인간의 장기에 관해서는 적절하지 않을 수 있습니다. 문제는 스캔 생성 소프트웨어가 실제 사람의 스캔을 생성할 수 있다는 것입니다. 그리고 그 사람의 허락 없이 그것을 사용하기 시작한다면, 당신은 그들의 사생활을 심각하게 침해하게 될 것입니다.
훈련 데이터와 관련된 또 다른 문제는 희귀 질환에 작동하는 알고리즘을 구축하려는 경우 처음부터 작업할 데이터가 많지 않을 것이라는 점입니다.
신뢰 수준이 매우 높아야 합니다. 인간의 생명이 알고리즘의 성능에 달려 있다면 너무 많은 것이 걸려 있어 오류의 여지가 없습니다.
권장 사항을 생성한 방법을 이해하지 못하는 경우 의사는 ML 모델을 사용할 수 없습니다. 대신 설명 가능한 AI를 사용할 수 있지만 이러한 알고리즘은 일부 블랙박스 비지도 학습 모델만큼 강력하지 않습니다.

일반적인 AI 관련 과제 및 구현 팁은 기사와 무료 eBook을 확인하십시오.

요약하자면

AI 및 ML 기술은 의학 및 생물학 분야에서 많은 응용 분야를 가지고 있습니다. 블로그에서 임상 시험에서의 AI, 암 진단 및 치료에서의 AI 사용, 의료 분야에서의 기타 이점에 대한 자세한 정보를 확인할 수 있습니다.

생물 정보학은 ML 및 AI 기반 의료 솔루션이 편리한 또 다른 의학 관련 분야입니다. 생물 정보학은 게놈 서열, 단백질 구조 및 과학 출판물과 같은 다양한 형태의 데이터를 대량으로 처리해야 합니다. ML은 데이터 처리 기능으로 잘 알려져 있습니다. 그러나 많은 AI 생물 정보학 모델은 실행 비용이 많이 듭니다. 딥 러닝 알고리즘을 교육하는 데 수십만 달러가 소요될 수 있습니다. 예를 들어 단백질 구조 예측을 위해 AlphaFold2 모델을 교육하는 데 몇 주 동안 실행되는 100-200 GPU에 해당하는 GPU가 사용되었습니다.

AI 구현 비용에 대한 기사에서 가격 측면에서 예상되는 사항에 대한 자세한 정보를 찾을 수 있습니다. 생물 정보학에 머신 러닝을 적용하고 싶다면 연락주세요. 합리적인 예산으로 가장 적합한 ML 모델을 찾기 위해 함께 노력하겠습니다.

생물 정보학에 머신 러닝을 도입하는 것을 고려하고 있지만 어떤 모델이 적합한지 확신이 서지 않으십니까? 연락하세요! 작업에 가장 적합한 ML 유형을 선택하는 데 도움을 드립니다. 또한 알고리즘 구축/사용자 지정, 교육 및 배포를 도와드립니다.

이 기사는 원래 Itrex 웹 사이트에 게시되었습니다.