Biyoinformatikte Yapay Zeka ve Makine Öğrenimi: İnovasyonu Destekleyen Güçlü Bir İkili

Yayınlanan: 2023-02-16

DNA dizileme tekniklerindeki ilerlemeler, araştırmacıların, bir zamanlar tamamlanması on yıl süren bir görev olan insan genomunu yalnızca bir günde dizilemelerini sağladı. Bu, makine öğreniminin (ML) biyoinformatiğe yaptığı birçok güçlü katkıdan yalnızca biridir.

Birçok biyoteknoloji şirketi, biyomedikal verileri işleme sürecini kolaylaştırmak için Makine Öğrenimi danışmanları tuttukça, biyoinformatik pazarındaki yapay zeka büyümeye devam ediyor. 2022'ye göre %42,7'lik bir YBBO ile 2029'da 37.027,96 dolara ulaşacağı tahmin ediliyor. Bu dijital devrimin bir parçası olmak istiyor musunuz?

Bu makale makine öğrenimine kısa bir giriş yapmakta, biyomedikal araştırmaları nasıl desteklediğini açıklamakta ve bu teknolojiyi dağıtırken karşılaşabileceğiniz zorlukları sıralamaktadır.

Biyoinformatik için Makine Öğrenimine Giriş

Makine öğrenimi, daha geniş yapay zeka (AI) alanının bir alt kümesidir. Sistemlerin verilerden bağımsız olarak öğrenmelerini ve işlemek için açıkça programlanmadıkları görevleri yürütmelerini sağlar. Amacı, makinelere teşhis, planlama ve tahmin gibi insan zekası gerektiren görevleri gerçekleştirme yeteneği kazandırmaktır.

Makine öğreniminin iki ana türü vardır.

Denetimli öğrenme, algoritmalara, bu sisteme dayalı tahminlerin nasıl yapılacağı da dahil olmak üzere, mevcut bir sınıflandırma sisteminin nasıl kullanılacağını öğretmek için etiketli veri kümelerine dayanır. Bu makine öğrenimi türü, karar ağaçlarını ve sinir ağlarını eğitmek için kullanılır.
Denetimsiz öğrenme etiket kullanmaz. Bunun yerine, algoritmalar veri kalıplarını kendi başlarına ortaya çıkarmaya çalışır. Başka bir deyişle, onlara doğrudan öğretemeyeceğimiz şeyleri öğrenirler. Bu, insan beyninin nasıl çalıştığı ile karşılaştırılabilir.

Eğitim sırasında etiketli ve etiketsiz verileri birleştirmek de mümkündür, bu da yarı denetimli öğrenmeyle sonuçlanacaktır. Bu makine öğrenimi türü, denetimli öğrenme yaklaşımı için yeterli sayıda yüksek kaliteli etiketli veriye sahip olmadığınızda ancak yine de öğrenme sürecini yönlendirmek için kullanmak istediğinizde yararlı olabilir.

Biyoinformatikte Kullanılan En Popüler Makine Öğrenimi Teknikleri Nelerdir?

Bu algoritmalardan bazıları kesinlikle denetimli/denetimsiz öğrenme kategorilerine girer ve bazıları her iki yöntemle birlikte kullanılabilir.

Doğal Dil İşleme

Doğal dil işleme (NLP), yapılandırılmamış insan dilini anlayabilen bir dizi tekniktir.

NLP, örneğin ciltler dolusu biyoloji araştırmasını araştırabilir, belirli bir konu hakkında çeşitli kaynaklardan bilgi toplayabilir ve araştırma bulgularını bir dilden diğerine çevirebilir. Madencilik araştırma kağıtlarına ek olarak, NLP çözümleri ilgili biyomedikal veritabanlarını ayrıştırabilir.

NLP, biyoinformatik alanına aşağıdaki şekillerde fayda sağlayabilir.

Genetik varyantları yorumlama
DNA ifade dizilerini analiz edin
Protein fonksiyonlarına açıklama ekleyin
Yeni ilaç hedefleri arayın

Nöral ağlar

Bunlar düğümlerden/nöronlardan oluşan çok katmanlı yapılardır. Bitişik katmanlardaki nöronlar birbirlerine bağlantılar aracılığıyla bağlanır, ancak bir katmandaki nöronlar birbirine bağlı değildir. Bir katmandaki nöronlar bilgiyi alır, işler ve bir sonraki katmana girdi olarak iletir. Ve bu süreç, işlenen bilgi çıkış katmanına ulaşana kadar devam eder.

En temel sinir ağına algılayıcı denir. Sınıflandırıcı görevi gören bir nörondan oluşur. Bu nöron girdiyi alır ve doğrusal bir ayrım fonksiyonu kullanarak iki sınıftan birine yerleştirir. Daha büyük sinir ağlarında, katman sayısında veya bir katmandaki düğüm sayısında bir sınır yoktur.

Sinir ağları şu amaçlarla kullanılabilir:

gen ifade profillerini sınıflandırmak
protein yapısını tahmin etmek
dizi DNA'sı.

Kümeleme

Denetimsiz kümeleme, sağlanan benzerlik tanımına dayalı olarak öğeleri çeşitli gruplar halinde düzenleme sürecidir. Bu sınıflandırma sonucunda, bir kümede konumlanan öğeler birbirleriyle yakın ilişki içinde olmakta ve diğer kümelerdeki öğelerden farklılık göstermektedir.

Denetimli sınıflandırmadan farklı olarak, kümelemede kaç kümenin oluşacağını önceden bilemeyiz. Biyoinformatikteki bu makine öğrenimi yaklaşımının ünlü bir örneği, benzer ifade seviyelerine sahip genlerin bir kümede konumlandırıldığı, genlerin mikrodizi tabanlı ifade profillemesidir.

Boyutsal küçülme

ML sınıflandırma problemlerinde, sınıflandırmalar faktörlere/özelliklere göre yapılır. Bazen nihai sonucu etkileyen çok fazla faktör vardır ve bu da veri setinin görselleştirilmesini ve manipüle edilmesini zorlaştırır. Boyut azaltma algoritmaları, özellik sayısını en aza indirerek veri kümesini daha yönetilebilir hale getirebilir. Örneğin, bir iklim sınıflandırma probleminin özellikleri arasında nem ve yağış olabilir. Bu ikisi, her ikisi de yakından ilişkili olduğundan, basitlik adına tek bir faktöre indirgenebilir.

Boyut azaltmanın iki ana bileşeni vardır.

Özellik seçimi: özellikleri gömerek, filtreleyerek veya kaydırarak tüm modeli temsil edecek değişkenlerin bir alt kümesini seçme.
Özellik çıkarımı: bir veri kümesindeki boyutların sayısını azaltmak – örneğin, bir 3B alan iki 2B alana bölünebilir.

Bu tür algoritmalar, hesaplama süresini ve depolama gereksinimlerini azaltmak adına büyük veri kümelerini sıkıştırmak için kullanılır. Ayrıca verilerde bulunan gereksiz özellikleri de ortadan kaldırabilir.

Karar Ağacı Sınıflandırıcıları

Bu, en popüler klasik denetimli öğrenme sınıflandırıcılarından biridir. Bu algoritmalar, her düğümün bir özellik üzerinde bir testi temsil ettiği akış şeması benzeri bir ağaç modeli oluşturmak için yinelemeli bir yaklaşım uygular. İlk olarak, algoritma en üstteki düğümü (kökü) belirler ve ardından her seferinde bir parametre olmak üzere ağacı yinelemeli olarak oluşturur. Her dizideki son düğüme "yaprak düğüm" denir. Nihai sınıflandırmayı temsil eder ve sınıf etiketini tutar.

Karar ağacı modelleri, eğitim sırasında yüksek hesaplama gücü gerektirir, ancak daha sonra kapsamlı hesaplama olmadan sınıflandırmalar yapabilirler. Bu sınıflandırıcıların biyoinformatik alanına getirdiği temel avantaj, anlaşılır kurallar ve açıklanabilir sonuçlar üretmeleridir.

Destek Vektör Makinesi

Bu, iki gruplu sınıflandırma problemlerini çözebilen denetimli bir makine öğrenimi modelidir. Veri noktalarını sınıflandırmak için bu algoritmalar, veriyi veri noktaları arasındaki maksimum mesafe ile iki sınıfa ayıran optimal bir hiper düzlem arar.

Hiper düzlemin her iki yanında yer alan noktalar farklı sınıflara aittir. Hiper düzlemin boyutu, özelliklerin sayısına bağlıdır. İki özellik olması durumunda, karar sınırı bir çizgidir; üç özelliği olan bir 2D plakadır. Bu özellik, üçten fazla özelliğe sahip sınıflandırmalar için DVM kullanımını zorlaştırır.

Bu yaklaşım, işlevsel RNA genlerinin hesaplamalı olarak tanımlanmasında yararlıdır. Ekspresyon verilerine dayanarak kanser tespiti için en uygun gen setini seçebilir.

Biyoinformatikte Makine Öğreniminin En İyi 5 Uygulaması

Makine öğrenimine kısa bir giriş yaptıktan ve en sık kullanılan makine öğrenimi algoritmalarını vurguladıktan sonra, bunların biyoinformatik alanında nasıl konuşlandırılabileceğini görelim.

Bu kullanım durumlarından herhangi biri size uygunsa, işletmeniz için özelleştirilmiş bir çözüm uygulamak üzere yapay zeka yazılım danışmanlığı uzmanlarına başvurun.

1. Gen Düzenleme Deneylerini Kolaylaştırmak

Gen düzenleme, bir organizmanın DNA dizisinin bir kısmını silerek, ekleyerek ve değiştirerek genetik kompozisyonunun manipüle edilmesini ifade eder. Bu süreç tipik olarak oldukça etkili olan CRISPR tekniğine dayanır. Ancak, manipülasyon için doğru DNA dizisini seçme alanında hala arzu edilecek çok gelişme var ve makine öğreniminin yardımcı olabileceği yer burasıdır. Biyoinformatik için makine öğrenimini kullanan araştırmacılar, gen düzenleme deneylerinin tasarımını geliştirebilir ve sonuçlarını tahmin edebilir.

Bir araştırma ekibi, genom düzenleyici protein Cas9'un hedef DNA ile bağlanmasına izin veren amino asit kalıntılarının en uygun kombinasyonel varyantlarını keşfetmek için ML algoritmaları kullandı. Bu varyantların çok sayıda olması nedeniyle, aksi takdirde böyle bir deney çok büyük olurdu, ancak makine öğrenimi odaklı bir mühendislik yaklaşımı kullanmak, tarama yükünü yaklaşık %95 oranında azalttı.

2. Protein Yapısını Belirleme

Proteomik, proteinlerin, etkileşimlerinin, bileşimlerinin ve insan vücudundaki rollerinin incelenmesidir. Bu alan, ağır biyolojik veri kümelerini içerir ve hesaplama açısından pahalıdır. Bu nedenle, biyoinformatikte ML gibi teknolojiler burada esastır.

Bu alandaki en başarılı uygulamalardan biri, proteinlerin amino asitlerini tabaka, sarmal ve bobin olmak üzere üç sınıfa yerleştirmek için evrişimli sinir ağlarını kullanmaktır. Yapay sinir ağları, teorik sınır %88-%90 olmak üzere %84'lük bir doğruluk elde edebilir.

ML'nin proteomikte başka bir kullanımı, protein yapısını tahmin etmek için gerekli bir görev olan protein modeli puanlamasıdır. Fayetteville Eyalet Üniversitesi'nden araştırmacılar, biyoenformatiğe yönelik makine öğrenimi yaklaşımlarında, protein modeli puanlamasını iyileştirmek için makine öğrenimini kullandılar. Söz konusu protein modellerini gruplara ayırdılar ve her gruba ait modelleri değerlendirmek için özellik vektörüne karar vermek için bir ML yorumlayıcı kullandılar. Bu özellik vektörleri daha sonra ML algoritmalarını her grupta ayrı ayrı eğitirken daha da geliştirmek için kullanıldı.

3. Hastalıklarla İlişkili Lekelenme Genleri

Araştırmacılar, belirli hastalıklarda yer alması muhtemel genleri tanımlamak için biyoinformatikte makine öğrenimini giderek daha fazla kullanıyor. Bu, gen ekspresyonu mikrodizilerini ve RNA dizilimini analiz ederek elde edilir.

Gen tanımlama, kansere katkıda bulunması muhtemel genleri belirlemek ve ayrıca tümörleri moleküler düzeyde analiz ederek sınıflandırmak için kanserle ilgili çalışmalarda ilgi görmüştür.

Örneğin, Washington Üniversitesi'ndeki bir grup bilim insanı, kanser türlerini tahmin etme ve sınıflandırma yeteneklerini test etmek için bir karar ağacı, bir destek vektör makinesi ve sinir ağları dahil olmak üzere biyoinformatik algoritmalarda makine öğrenimi kullandı. Araştırmacılar, Kanser Genom Atlası projesinden RNA dizileme verilerini kullandılar ve doğrusal destek vektör makinesinin, kanser sınıflandırmasında %95,8 doğruluk oranıyla en hassas makine olduğunu keşfettiler.

Başka bir örnekte, araştırmacılar meme kanseri türlerini gen ifade verilerine dayalı olarak sınıflandırmak için makine öğrenimini kullandılar. Bu ekip aynı zamanda Kanser Genomu Atlas Projesi'nin verilerine de güvendi. Araştırmacılar örnekleri üçlü negatif meme kanseri - en ölümcül meme kanserlerinden biri - ve üçlü olmayan negatif olarak sınıflandırdılar. Ve bir kez daha, destek vektör makine sınıflandırıcısı en iyi sonuçları verdi.

Kanserli olmayan hastalıklardan bahsetmişken, Pennsylvania Üniversitesi'ndeki araştırmacılar, koroner arter hastalığı (CAD) ilaçları için uygun bir hedef olabilecek genleri belirlemek için ML'ye güvendiler. Ekip, CAD ile ilgili tek nükleotit polimorfizmlerinin (SNP'ler) bir kombinasyonunu belirlemek için makine öğrenimi destekli Ağaç Tabanlı Ardışık Düzen Optimizasyon Aracını (TPOT) kullandı. UK Biobank'tan genomik verileri analiz ettiler ve 28 ilgili SNP'yi ortaya çıkardılar. Bu listenin başındaki SNP'ler ile CAD arasındaki ilişki literatürde daha önce bahsedilmişti ve bu araştırma, ML'nin uygulanmasını doğruladı.

4. Anlamlı Modeller Arayışında Bilgi Tabanını Gezmek

Gelişmiş sıralama teknolojisi, genomik veritabanlarını her 2,5 yılda bir ikiye katlıyor ve araştırmacılar, bu birikmiş bilgiden yararlı içgörüler çıkarmanın bir yolunu arıyor. Biyoinformatikte makine öğrenimi, farklı genleri ve proteinleri tanımlamak ve işlevselliklerini araştırmak için biyomedikal yayınları ve raporları inceleyebilir. Ayrıca protein veritabanlarına açıklama eklemeye yardımcı olabilir ve bunları bilimsel literatürden aldığı bilgilerle tamamlayabilir.

Bir örnek, protein modeli puanlamasını kolaylaştırmak için literatür madenciliğinde biyoinformatik ve makine öğrenimi kullanan bir grup araştırmacıdan geliyor. Protein-protein kenetlenmelerinin yapısal modellemesi tipik olarak, yapısal kısıtlamalara dayalı olarak ayrıca puanlanan birkaç modelle sonuçlanır. Ekip, protein-protein etkileşimleriyle ilgili PubMed makalelerinde gezinmek için makine öğrenimi algoritmalarını kullandı ve model puanlaması için bu kısıtlamaları oluşturmaya yardımcı olabilecek kalıntıları aradı. Kısıtlamaların alakalı olduğundan emin olmak için bilim adamları, farklı makine öğrenimi algoritmalarının keşfedilen tüm kalıntıları alaka düzeyi açısından kontrol etme yeteneğini keşfettiler.

Bu araştırma, hem hesaplama açısından pahalı sinir ağlarının hem de daha az kaynak gerektiren destek vektör makinelerinin çok benzer sonuçlar elde ettiğini ortaya koydu.

5. İlaçların Yeniden Kullanılması

İlacın yeniden amaçlandırılması veya yeniden profillenmesi, bilim adamlarının mevcut ilaçlara yönelik olmayan yeni uygulamaları keşfetmek için kullandıkları bir tekniktir. Araştırmacılar, BindingDB ve DrugBank gibi ilgili veritabanlarında ilaç analizi yapmak için biyoinformatikte yapay zekayı benimsiyor. İlacın yeniden kullanılması için üç ana yön vardır.

İlaç-hedef etkileşimi, bir ilacın doğrudan bir hedef proteine bağlanma yeteneğini araştırır
İlaç-ilaç etkileşimi, ilaçların kombinasyon halinde alındığında nasıl etki ettiğini araştırır.
Protein-protein etkileşimi, etkileşen hücre içi proteinlerin yüzeyine bakar ve sıcak noktaları ve allosterik bölgeleri keşfetmeye çalışır.

Çin Petrol Üniversitesi ve Shandong Üniversitesi'nden araştırmacılar, derin bir sinir ağı algoritması geliştirdiler ve bunu DrugBank veritabanında kullandılar. İlaç molekülleri ile Alzheimer hastalığına neden olabilen ana proteinlerden biri olan mitokondriyal füzyon proteini 2 (MFN2) arasındaki ilaç-hedef etkileşimlerini incelemek istediler. Çalışma, bağlanma potansiyeline sahip 15 ilaç molekülü tanımladı. Daha fazla araştırma üzerine, 11 tanesinin MFN2 ile başarılı bir şekilde kenetlenebileceği ortaya çıktı. Ve beş tanesi orta ila güçlü bir bağlama gücüne sahipti.

Biyoinformatikte Makine Öğrenimi Tarafından Sunulan Zorluklar

Biyoenformatikte Makine Öğrenimi, diğer sektörlerdeki Makine Öğreniminden aşağıdaki dört faktör nedeniyle farklılık gösterir ve bunlar da Makine Öğrenimini bu alana uygulamanın temel zorluklarını oluşturur.

Yapay zekayı biyoinformatikte kullanmak pahalıdır. Algoritmanın düzgün çalışması için, büyük bir eğitim veri seti edinmeniz gerekir. Bununla birlikte, 10.000 göğüs taraması veya bu konuda başka herhangi bir tıbbi veri elde etmek oldukça maliyetlidir.
Eğitim veri kümeleriyle ilgili zorluklar vardır. Diğer alanlarda, yeterli eğitim veriniz yoksa, veri kümenizi genişletmek için sentetik veriler oluşturabilirsiniz. Ancak insan organları söz konusu olduğunda bu numara uygun olmayabilir. Sorun, tarama oluşturma yazılımınızın gerçek bir insan taraması üretebilmesidir. Ve bunu kişinin izni olmadan kullanmaya başlarsanız, onların mahremiyetini büyük ölçüde ihlal etmiş olursunuz.
Eğitim verileriyle ilgili bir başka zorluk da, nadir hastalıklarla çalışan bir algoritma oluşturmak istiyorsanız, ilk etapta çalışacak çok fazla veri olmayacak olmasıdır.
Güven düzeyi çok yüksek olmalıdır. İnsan hayatı algoritmanın performansına bağlı olduğunda, tehlikede olan çok fazla şey vardır ve bu da hataya yer bırakmaz.
Doktorlar, tavsiyelerini nasıl ürettiğini anlamadıkları takdirde makine öğrenimi modelini kullanmaya açık olmayacaklardır. Bunun yerine açıklanabilir AI kullanabilirsiniz, ancak bu algoritmalar bazı kara kutu denetimsiz öğrenme modelleri kadar güçlü değildir.

AI ile ilgili genel zorluklar ve uygulama ipuçları için makalemize ve ücretsiz e-Kitabımıza göz atın.

Özetle

AI ve ML teknolojilerinin tıp ve biyolojide birçok uygulaması vardır. Blogumuzda, yapay zekanın klinik deneylerde kullanılması, yapay zekanın kanser teşhisi ve tedavisinde kullanımı ve sağlık hizmetlerindeki diğer faydaları hakkında daha fazla bilgi bulabilirsiniz.

Biyoinformatik, makine öğrenimi ve yapay zeka tabanlı tıbbi çözümlerin kullanışlı olduğu, tıpla ilgili başka bir alandır. Biyoinformatik, genom dizileri, protein yapıları ve bilimsel yayınlar gibi büyük miktarlarda çeşitli veri biçimlerinin işlenmesini gerektirir. Makine öğrenimi, veri işleme yetenekleriyle tanınır; ancak, birçok AI biyoinformatik modelinin çalıştırılması pahalıdır. Bir derin öğrenme algoritmasını eğitmek yüzbinlerce dolar alabilir. Örneğin, protein yapısı tahmini için AlphaFold2 modelini eğitmek, birkaç hafta boyunca çalışan 100-200 GPU'ya eşdeğer tüketti.

Yapay zekayı uygulamanın ne kadara mal olduğuyla ilgili makalemizde fiyat açısından ne bekleyeceğiniz konusunda daha fazla bilgi bulabilirsiniz. Biyoinformatikte makine öğrenimini devreye almak istiyorsanız, bize yazın. Makul bir bütçeyle en uygun makine öğrenimi modellerini bulmak için sizinle birlikte çalışacağız.

Biyoenformatikte makine öğrenimini kullanmayı düşünüyor ancak hangi modelin sizin için doğru olduğundan emin değil misiniz? Temasta olmak! Görev için en uygun makine öğrenimi türünü seçmenizde size yardımcı olacağız. Algoritmayı oluşturmanıza/özelleştirmenize, eğitmenize ve dağıtmanıza da yardımcı olacağız.

Bu makale ilk olarak Itrex web sitesinde yayınlanmıştır.