AI dan Pembelajaran Mesin dalam Bioinformatika: Inovasi Penggerak Duo yang Kuat
Diterbitkan: 2023-02-16Kemajuan dalam teknik pengurutan DNA telah memungkinkan para peneliti untuk mengurutkan genom manusia hanya dalam satu hari, sebuah tugas yang pernah memakan waktu satu dekade untuk menyelesaikannya. Ini hanya salah satu dari banyak kontribusi yang kuat dari pembelajaran mesin (ML) untuk bioinformatika.
Karena banyak perusahaan bioteknologi menyewa konsultan ML untuk memfasilitasi proses penanganan data biomedis, AI di pasar bioinformatika terus berkembang. Diperkirakan akan mencapai $37.027,96 pada tahun 2029, tumbuh pada CAGR sebesar 42,7% dari tahun 2022. Apakah Anda ingin menjadi bagian dari revolusi digital ini?
Artikel ini memberikan pengenalan singkat tentang ML, menjelaskan bagaimana ML mendukung penelitian biomedis, dan menyebutkan tantangan yang mungkin Anda hadapi dalam menerapkan teknologi ini.
Pengantar Pembelajaran Mesin untuk Bioinformatika
ML adalah bagian dari bidang kecerdasan buatan (AI) yang lebih luas. Ini memungkinkan sistem untuk belajar secara mandiri dari data dan menjalankan tugas yang tidak diprogram secara eksplisit untuk ditangani. Tujuannya adalah memberi mesin kemampuan untuk melakukan tugas yang membutuhkan kecerdasan manusia, seperti mendiagnosis, merencanakan, dan memprediksi.
Ada dua jenis utama pembelajaran mesin.
- Pembelajaran yang diawasi bergantung pada kumpulan data berlabel untuk mengajarkan algoritme cara menggunakan sistem klasifikasi yang ada, termasuk cara membuat prediksi berdasarkan sistem tersebut. Jenis ML ini digunakan untuk melatih pohon keputusan dan jaringan saraf.
- Pembelajaran tanpa pengawasan tidak menggunakan label. Alih-alih, algoritme mencoba mengungkap pola data sendiri. Dengan kata lain, mereka mempelajari hal-hal yang tidak dapat kita ajarkan secara langsung. Ini sebanding dengan cara kerja otak manusia.
Dimungkinkan juga untuk menggabungkan data berlabel dan tidak berlabel selama pelatihan, yang akan menghasilkan pembelajaran semi-diawasi. Jenis ML ini dapat berguna saat Anda tidak memiliki cukup data berlabel berkualitas tinggi untuk pendekatan pembelajaran terawasi, tetapi Anda tetap ingin menggunakannya untuk mengarahkan proses pembelajaran.
Apa Teknik Pembelajaran Mesin Paling Populer yang Digunakan dalam Bioinformatika?
Beberapa dari algoritme ini termasuk dalam kategori pembelajaran yang diawasi/tidak diawasi, dan beberapa dapat digunakan dengan kedua metode tersebut.
Pemrosesan Bahasa Alami
Pemrosesan bahasa alami (NLP) adalah seperangkat teknik yang dapat memahami bahasa manusia yang tidak terstruktur.
NLP dapat, misalnya, menelusuri volume penelitian biologi, mengumpulkan informasi tentang topik tertentu dari berbagai sumber, dan menerjemahkan temuan penelitian dari satu bahasa ke bahasa lain. Selain makalah penelitian pertambangan, solusi NLP dapat mengurai database biomedis yang relevan.
NLP dapat bermanfaat bagi bidang bioinformatika dengan cara berikut.
- Menafsirkan varian genetik
- Menganalisis susunan ekspresi DNA
- Anotasi fungsi protein
- Cari target obat baru
Jaringan Neural
Ini adalah struktur berlapis-lapis yang terdiri dari node / neuron. Neuron di lapisan yang berdekatan terhubung satu sama lain melalui tautan, tetapi neuron pada satu lapisan tidak saling terkait. Neuron pada satu lapisan menerima informasi, memprosesnya, dan meneruskannya sebagai input ke lapisan berikutnya. Dan proses ini berlanjut hingga informasi yang diproses mencapai lapisan output.
Jaringan saraf yang paling dasar disebut perceptron. Ini terdiri dari satu neuron yang bertindak sebagai classifier. Neuron ini menerima input dan menempatkannya di salah satu dari dua kelas menggunakan fungsi diskriminasi linier. Dalam jaringan saraf yang lebih besar, tidak ada batasan jumlah lapisan atau jumlah node dalam satu lapisan.
Jaringan saraf dapat digunakan untuk:
- mengklasifikasikan profil ekspresi gen
- memprediksi struktur protein
- urutan DNA.
Kekelompokan
Pengelompokan tanpa pengawasan adalah proses pengorganisasian elemen ke dalam berbagai kelompok berdasarkan definisi kesamaan yang disediakan. Sebagai hasil dari klasifikasi tersebut, elemen-elemen yang ditempatkan dalam satu cluster berhubungan erat satu sama lain, dan berbeda dengan elemen-elemen dalam cluster lainnya.
Berbeda dengan klasifikasi terbimbing, dalam clustering kita tidak mengetahui terlebih dahulu berapa banyak cluster yang akan terbentuk. Salah satu contoh terkenal dari pendekatan ML dalam bioinformatika ini adalah profil ekspresi gen berbasis microarray, di mana gen dengan level ekspresi serupa diposisikan dalam satu kluster.
Pengurangan Dimensi
Dalam masalah klasifikasi ML, klasifikasi dilakukan berdasarkan faktor/fitur. Terkadang ada terlalu banyak faktor yang memengaruhi hasil akhir, membuat kumpulan data sulit untuk divisualisasikan dan dimanipulasi. Algoritme reduksi dimensi dapat meminimalkan jumlah fitur, membuat kumpulan data lebih mudah dikelola. Misalnya, masalah klasifikasi iklim mungkin memiliki kelembapan dan curah hujan di antara fitur-fiturnya. Keduanya dapat diciutkan menjadi satu faktor demi kesederhanaan karena keduanya terkait erat.
Pengurangan dimensi memiliki dua komponen utama.
- Pemilihan fitur: memilih subset variabel untuk mewakili keseluruhan model dengan menyematkan, memfilter, atau membungkus fitur.
- Ekstraksi fitur: mengurangi jumlah dimensi dalam kumpulan data – misalnya, ruang 3D dapat dipecah menjadi dua ruang 2D.
Jenis algoritme ini digunakan untuk mengompresi kumpulan data besar demi mengurangi waktu komputasi dan kebutuhan penyimpanan. Itu juga dapat menghilangkan fitur berlebihan yang ada dalam data.
Pengklasifikasi Pohon Keputusan
Ini adalah salah satu pengklasifikasi pembelajaran terawasi klasik yang paling populer. Algoritme ini menerapkan pendekatan rekursif untuk membangun model pohon seperti diagram alir, di mana setiap node mewakili pengujian pada suatu fitur. Pertama, algoritme menentukan node teratas — root — dan kemudian membangun pohon secara rekursif, satu parameter dalam satu waktu. Simpul terakhir dalam setiap urutan disebut "simpul daun". Ini mewakili klasifikasi akhir dan memegang label kelas.
Model pohon keputusan menuntut daya komputasi yang tinggi selama pelatihan, tetapi setelah itu mereka dapat melakukan klasifikasi tanpa komputasi ekstensif. Keuntungan utama yang dibawa pengklasifikasi ini ke bidang bioinformatika adalah mereka menghasilkan aturan yang dapat dipahami dan hasil yang dapat dijelaskan.
Mendukung Mesin Vektor
Ini adalah model ML terawasi yang dapat memecahkan masalah klasifikasi dua grup. Untuk mengklasifikasikan titik data, algoritma ini mencari hyperplane optimal yang membagi data menjadi dua kelas dengan jarak maksimum antar titik data.
Titik-titik yang terletak di kedua sisi hyperplane termasuk dalam kelas yang berbeda. Dimensi hyperplane bergantung pada jumlah fitur. Dalam kasus dua fitur, batas keputusan adalah garis; dengan tiga fitur, ini adalah pelat 2D. Karakteristik ini menyulitkan penggunaan SVM untuk klasifikasi dengan lebih dari tiga fitur.
Pendekatan ini berguna dalam identifikasi komputasi gen RNA fungsional. Itu dapat memilih set gen yang optimal untuk deteksi kanker berdasarkan data ekspresi mereka.
5 Aplikasi Pembelajaran Mesin Teratas dalam Bioinformatika
Setelah memberikan pengenalan singkat tentang ML dan menyoroti algoritme ML yang paling umum digunakan, mari kita lihat bagaimana algoritme tersebut dapat diterapkan di bidang bioinformatika.
Jika salah satu dari kasus penggunaan ini selaras dengan Anda, hubungi profesional konsultan perangkat lunak AI untuk menerapkan solusi yang disesuaikan untuk bisnis Anda.
1. Memfasilitasi Eksperimen Pengeditan Gen
Pengeditan gen mengacu pada manipulasi komposisi genetik suatu organisme dengan menghapus, memasukkan, dan mengganti bagian dari urutan DNA-nya. Proses ini biasanya mengandalkan teknik CRISPR, yang cukup efektif. Tapi masih banyak perbaikan yang diinginkan di bidang pemilihan urutan DNA yang tepat untuk manipulasi, dan di sinilah ML dapat membantu. Dengan menggunakan pembelajaran mesin untuk bioinformatika, para peneliti dapat menyempurnakan desain eksperimen penyuntingan gen dan memprediksi hasilnya.
Sebuah tim peneliti menggunakan algoritme ML untuk menemukan varian kombinasi residu asam amino yang paling optimal yang memungkinkan protein pengedit genom Cas9 untuk berikatan dengan DNA target. Karena banyaknya varian ini, eksperimen semacam itu akan menjadi terlalu besar, tetapi menggunakan pendekatan rekayasa berbasis ML mengurangi beban penyaringan sekitar 95%.
2. Mengidentifikasi Struktur Protein
Proteomik adalah studi tentang protein, interaksinya, komposisi, dan perannya dalam tubuh manusia. Bidang ini melibatkan kumpulan data biologis yang berat dan mahal secara komputasi. Oleh karena itu, teknologi seperti ML dalam bioinformatika sangat penting di sini.
Salah satu aplikasi paling sukses di bidang ini adalah menggunakan jaringan saraf konvolusional untuk memposisikan asam amino protein ke dalam tiga kelas — lembaran, heliks, dan gulungan. Jaringan saraf dapat mencapai akurasi 84% dengan batas teoretis 88%–90%.
Penggunaan lain ML dalam proteomik adalah penilaian model protein, tugas penting untuk memprediksi struktur protein. Dalam pendekatan ML untuk bioinformatika, peneliti dari Fayetteville State University menggunakan ML untuk meningkatkan penilaian model protein. Mereka membagi model protein yang dipertanyakan ke dalam kelompok dan menggunakan juru bahasa ML untuk memutuskan vektor fitur untuk mengevaluasi model milik masing-masing kelompok. Vektor fitur ini kemudian digunakan untuk lebih menyempurnakan algoritme ML sambil melatihnya di setiap grup secara terpisah.
3. Bercak Gen yang Berhubungan dengan Penyakit
Para peneliti semakin banyak menggunakan ML dalam bioinformatika untuk mengidentifikasi gen yang mungkin terlibat dalam penyakit tertentu. Ini dicapai dengan menganalisis microarray ekspresi gen dan pengurutan RNA.
Identifikasi gen telah mendapatkan daya tarik dalam studi terkait kanker untuk mengidentifikasi gen yang cenderung berkontribusi terhadap kanker, serta mengklasifikasikan tumor dengan menganalisisnya pada tingkat molekuler.
Misalnya, sekelompok ilmuwan di University of Washington menggunakan ML dalam algoritme bioinformatika, termasuk pohon keputusan, mesin vektor pendukung, dan jaringan saraf untuk menguji kemampuan mereka memprediksi dan mengklasifikasikan jenis kanker. Para peneliti menerapkan data pengurutan RNA dari proyek The Cancer Genome Atlas, dan menemukan bahwa mesin vektor pendukung linier adalah yang paling tepat, mencapai akurasi 95,8% dalam klasifikasi kanker.
Dalam contoh lain, peneliti menggunakan ML untuk mengklasifikasikan jenis kanker payudara berdasarkan data ekspresi gen. Tim ini juga mengandalkan data Cancer Genome Atlas Project. Para peneliti mengklasifikasikan sampel menjadi kanker payudara tiga negatif – salah satu kanker payudara paling mematikan – dan non-tiga negatif. Dan sekali lagi, pengklasifikasi mesin vektor dukungan memberikan hasil terbaik.
Berbicara tentang penyakit non-kanker, para peneliti di University of Pennsylvania mengandalkan ML untuk mengidentifikasi gen yang akan menjadi target yang cocok untuk obat penyakit arteri koroner (CAD). Tim menggunakan Alat Optimasi Pipa Berbasis Pohon (TPOT) bertenaga ML untuk menentukan kombinasi polimorfisme nukleotida tunggal (SNP) yang terkait dengan CAD. Mereka menganalisis data genomik dari UK Biobank dan menemukan 28 SNP yang relevan. Hubungan antara SNP di atas daftar ini dan CAD telah disebutkan sebelumnya dalam literatur, dan penelitian ini memvalidasi penerapan ML.
4. Melintasi Basis Pengetahuan untuk Mencari Pola yang Bermakna
Teknologi pengurutan canggih menggandakan basis data genomik setiap 2,5 tahun, dan para peneliti sedang mencari cara untuk mengekstrak wawasan berguna dari akumulasi pengetahuan ini. ML dalam bioinformatika dapat menyaring publikasi dan laporan biomedis untuk mengidentifikasi gen dan protein yang berbeda dan mencari fungsinya. Itu juga dapat membantu dalam membuat anotasi basis data protein dan melengkapinya dengan informasi yang diambilnya dari literatur ilmiah.
Salah satu contoh berasal dari sekelompok peneliti yang menerapkan bioinformatika dan ML dalam penambangan literatur untuk memfasilitasi penilaian model protein. Pemodelan struktural docking protein-protein biasanya menghasilkan beberapa model yang diberi skor lebih lanjut berdasarkan kendala struktural. Tim menggunakan algoritme ML untuk melintasi makalah PubMed tentang interaksi protein-protein, mencari residu yang dapat membantu menghasilkan batasan ini untuk penilaian model. Dan untuk memastikan bahwa kendala tersebut relevan, para ilmuwan mengeksplorasi kemampuan algoritme ML yang berbeda untuk memeriksa relevansi semua residu yang ditemukan.
Penelitian ini mengungkapkan bahwa baik jaringan saraf yang mahal secara komputasi dan mesin vektor dukungan yang membutuhkan lebih sedikit sumber daya mencapai hasil yang sangat mirip.
5. Menggunakan kembali Obat
Repurposing obat, atau reprofiling, adalah teknik yang digunakan para ilmuwan untuk menemukan aplikasi baru yang tidak dimaksudkan untuk obat yang sudah ada. Peneliti mengadopsi AI dalam bioinformatika untuk melakukan analisis obat pada database yang relevan, seperti BindingDB dan DrugBank. Ada tiga arah utama untuk repurposing obat.
- Interaksi obat-target melihat kemampuan obat untuk berikatan langsung dengan protein target
- Interaksi obat-obat menyelidiki bagaimana obat bertindak ketika mereka diambil dalam kombinasi
- Interaksi protein-protein melihat ke permukaan interaksi protein intraseluler, dan upaya untuk menemukan hotspot dan situs alosterik.
Peneliti dari China University of Petroleum dan Shandong University mengembangkan algoritma jaringan saraf yang dalam dan menggunakannya pada database DrugBank. Mereka ingin mempelajari interaksi target obat antara molekul obat dan protein fusi mitokondria 2 (MFN2), yang merupakan salah satu protein utama yang dapat menyebabkan penyakit Alzheimer. Studi ini mengidentifikasi 15 molekul obat dengan potensi pengikatan. Setelah diselidiki lebih lanjut, ternyata 11 di antaranya berhasil berlabuh dengan MFN2. Dan lima di antaranya memiliki kekuatan pengikat sedang hingga kuat.
Tantangan yang Disampaikan oleh ML dalam Bioinformatika
ML di bidang bioinformatika berbeda dengan ML di sektor lain karena empat faktor di bawah ini, yang juga menjadi tantangan utama penerapan ML di bidang ini.
- Menggunakan AI dalam bioinformatika itu mahal. Agar algoritme berfungsi dengan baik, Anda perlu memperoleh kumpulan data pelatihan yang besar. Namun, agak mahal untuk mendapatkan 10.000 pemindaian dada, atau jenis data medis lainnya.
- Ada kesulitan yang terkait dengan kumpulan data pelatihan. Di bidang lain, jika Anda tidak memiliki cukup data pelatihan, Anda dapat membuat data sintetis untuk memperluas kumpulan data Anda. Namun, trik ini mungkin tidak sesuai untuk organ manusia. Masalahnya adalah perangkat lunak pembuat pindaian Anda mungkin menghasilkan pindaian manusia sungguhan. Dan jika Anda mulai menggunakannya tanpa izin orang tersebut, Anda akan melakukan pelanggaran berat terhadap privasi mereka.
- Tantangan lain yang terkait dengan data pelatihan adalah jika Anda ingin membuat algoritme yang bekerja dengan penyakit langka, tidak akan ada banyak data untuk dikerjakan sejak awal.
- Tingkat kepercayaan diri harus sangat tinggi. Ketika kehidupan manusia bergantung pada kinerja algoritme, ada terlalu banyak yang dipertaruhkan, yang tidak menyisakan ruang untuk kesalahan.
- Dokter tidak akan terbuka untuk menggunakan model ML jika mereka tidak memahami bagaimana model tersebut menghasilkan rekomendasinya. Anda dapat menggunakan AI yang dapat dijelaskan sebagai gantinya, tetapi algoritme ini tidak sekuat beberapa model pembelajaran tanpa pengawasan kotak hitam.
Untuk tantangan umum terkait AI dan kiat implementasi, lihat artikel kami dan eBuku gratis.
Untuk menyimpulkan
Teknologi AI dan ML memiliki banyak aplikasi dalam kedokteran dan biologi. Di blog kami, Anda dapat menemukan lebih banyak informasi tentang AI dalam uji klinis, serta penggunaan AI dalam diagnosis dan pengobatan kanker, beserta manfaat lainnya dalam perawatan kesehatan.
Bioinformatika adalah bidang terkait kedokteran lainnya di mana solusi medis berbasis ML dan AI berguna. Bioinformatika membutuhkan penanganan berbagai bentuk data dalam jumlah besar, seperti urutan genom, struktur protein, dan publikasi ilmiah. ML terkenal dengan kemampuan pemrosesan datanya; namun, banyak model bioinformatika AI mahal untuk dijalankan. Diperlukan ratusan ribu dolar untuk melatih algoritme pembelajaran mendalam. Misalnya, melatih model AlphaFold2 untuk prediksi struktur protein menghabiskan setara dengan 100–200 GPU yang berjalan selama beberapa minggu.
Anda dapat menemukan informasi lebih lanjut tentang apa yang diharapkan dari segi harga di artikel kami tentang berapa biaya untuk mengimplementasikan AI. Jika Anda ingin menerapkan pembelajaran mesin dalam bioinformatika, hubungi kami. Kami akan bekerja sama dengan Anda untuk menemukan model ML yang paling cocok dengan anggaran yang masuk akal.
Mempertimbangkan penerapan pembelajaran mesin dalam bioinformatika, tetapi tidak yakin model mana yang tepat untuk Anda? Berhubungan! Kami akan membantu Anda memilih jenis ML yang paling cocok untuk tugas tersebut. Kami juga akan membantu Anda membuat/menyesuaikan, melatih, dan menerapkan algoritme.
Artikel ini awalnya diterbitkan di situs web Itrex.