Sztuczna inteligencja i uczenie maszynowe w bioinformatyce: potężny duet napędzający innowacje
Opublikowany: 2023-02-16Postępy w technikach sekwencjonowania DNA umożliwiły naukowcom sekwencjonowanie ludzkiego genomu w ciągu zaledwie jednego dnia, co kiedyś zajmowało dekadę. To tylko jeden z wielu potężnych wkładów uczenia maszynowego (ML) w bioinformatykę.
Ponieważ wiele firm biotechnologicznych zatrudnia konsultantów ML w celu usprawnienia procesu obsługi danych biomedycznych, sztuczna inteligencja na rynku bioinformatyki stale się rozwija. Przewiduje się, że do 2029 r. osiągnie poziom 37 027,96 USD, a od 2022 r. wzrośnie o CAGR na poziomie 42,7%. Czy chcesz być częścią tej cyfrowej rewolucji?
Ten artykuł zawiera krótkie wprowadzenie do uczenia maszynowego, wyjaśnia, w jaki sposób wspiera badania biomedyczne, i wylicza wyzwania, które możesz napotkać przy wdrażaniu tej technologii.
Wprowadzenie do uczenia maszynowego w bioinformatyce
ML jest podzbiorem szerszej dziedziny sztucznej inteligencji (AI). Umożliwia systemom niezależne uczenie się na podstawie danych i wykonywanie zadań, do obsługi których nie zostały zaprogramowane. Jego celem jest umożliwienie maszynom wykonywania zadań wymagających ludzkiej inteligencji, takich jak diagnozowanie, planowanie i przewidywanie.
Istnieją dwa główne typy uczenia maszynowego.
- Uczenie nadzorowane opiera się na oznakowanych zestawach danych, aby nauczyć algorytmy, jak korzystać z istniejącego systemu klasyfikacji, w tym jak tworzyć prognozy na podstawie tego systemu. Ten typ uczenia maszynowego jest używany do trenowania drzew decyzyjnych i sieci neuronowych.
- Uczenie bez nadzoru nie używa etykiet. Zamiast tego algorytmy próbują samodzielnie odkryć wzorce danych. Innymi słowy, uczą się rzeczy, których nie możemy ich nauczyć bezpośrednio. Można to porównać do działania ludzkiego mózgu.
Możliwe jest również łączenie danych oznaczonych i nieoznakowanych podczas szkolenia, co spowoduje uczenie się częściowo nadzorowane. Ten typ uczenia maszynowego może być przydatny, gdy nie masz wystarczającej ilości danych z etykietami o wysokiej jakości, aby zastosować metodę uczenia nadzorowanego, ale nadal chcesz go używać do kierowania procesem uczenia się.
Jakie są najpopularniejsze techniki uczenia maszynowego stosowane w bioinformatyce?
Niektóre z tych algorytmów należą ściśle do kategorii uczenia nadzorowanego/nienadzorowanego, a niektóre mogą być używane z obiema metodami.
Przetwarzanie języka naturalnego
Przetwarzanie języka naturalnego (NLP) to zestaw technik, które mogą zrozumieć nieustrukturyzowany ludzki język.
NLP może na przykład przeszukiwać tomy badań biologicznych, agregować informacje na dany temat z różnych źródeł i tłumaczyć wyniki badań z jednego języka na inny. Oprócz prac badawczych dotyczących górnictwa, rozwiązania NLP mogą analizować odpowiednie biomedyczne bazy danych.
NLP może przynieść korzyści dziedzinie bioinformatyki w następujący sposób.
- Zinterpretuj warianty genetyczne
- Analizuj macierze ekspresji DNA
- Opisz funkcje białek
- Szukaj nowych celów dla leków
Sieci neuronowe
Są to wielowarstwowe struktury składające się z węzłów/neuronów. Neurony w sąsiednich warstwach są połączone ze sobą za pomocą połączeń, ale neurony w jednej warstwie nie są ze sobą połączone. Neurony w jednej warstwie odbierają informacje, przetwarzają je i przekazują jako dane wejściowe do następnej warstwy. I ten proces trwa, dopóki przetworzone informacje nie dotrą do warstwy wyjściowej.
Najbardziej podstawowa sieć neuronowa nazywana jest perceptronem. Składa się z jednego neuronu, który działa jako klasyfikator. Ten neuron otrzymuje dane wejściowe i umieszcza je w jednej z dwóch klas za pomocą liniowej funkcji dyskryminacji. W większych sieciach neuronowych nie ma ograniczeń co do liczby warstw czy liczby węzłów w jednej warstwie.
Sieci neuronowe mogą być wykorzystywane do:
- klasyfikować profile ekspresji genów
- przewidywać strukturę białek
- sekwencja DNA.
Grupowanie
Grupowanie bez nadzoru to proces organizowania elementów w różne grupy w oparciu o dostarczoną definicję podobieństwa. W wyniku takiej klasyfikacji elementy znajdujące się w jednym skupieniu są ze sobą ściśle powiązane i różnią się od elementów w innych skupieniach.
Inaczej niż w przypadku klasyfikacji nadzorowanej, w klastrowaniu nie wiemy z góry, ile klastrów zostanie utworzonych. Jednym ze słynnych przykładów tego podejścia ML w bioinformatyce jest oparte na mikromacierzach profilowanie ekspresji genów, w którym geny o podobnych poziomach ekspresji są umieszczone w jednym klastrze.
Redukcja wymiarowości
W problemach klasyfikacyjnych ML klasyfikacje są przeprowadzane na podstawie czynników/cech. Czasami zbyt wiele czynników wpływa na końcowy wynik, co utrudnia wizualizację zbioru danych i manipulowanie nim. Algorytmy redukcji wymiarowości mogą zminimalizować liczbę funkcji, ułatwiając zarządzanie zbiorem danych. Na przykład problem z klasyfikacją klimatu może zawierać wśród swoich cech wilgotność i opady. Dla uproszczenia te dwa czynniki można sprowadzić do jednego czynnika, ponieważ oba są ze sobą ściśle powiązane.
Redukcja wymiarowości ma dwa główne składniki.
- Wybór funkcji: wybór podzbioru zmiennych do reprezentowania całego modelu poprzez osadzanie, filtrowanie lub zawijanie cech.
- Ekstrakcja cech: zmniejszenie liczby wymiarów w zbiorze danych – na przykład przestrzeń 3D można podzielić na dwie przestrzenie 2D.
Ten typ algorytmów jest używany do kompresji dużych zbiorów danych w celu skrócenia czasu obliczeń i wymagań dotyczących pamięci. Może również wyeliminować zbędne cechy obecne w danych.
Klasyfikatory drzew decyzyjnych
Jest to jeden z najpopularniejszych klasycznych klasyfikatorów uczenia nadzorowanego. Algorytmy te stosują rekurencyjne podejście do budowania modelu drzewa podobnego do schematu blokowego, w którym każdy węzeł reprezentuje test funkcji. Najpierw algorytm określa najwyższy węzeł — korzeń — a następnie rekurencyjnie buduje drzewo, po jednym parametrze na raz. Ostatni węzeł w każdej sekwencji nazywany jest „węzłem liścia”. Reprezentuje ostateczną klasyfikację i posiada etykietę klasy.
Modele drzew decyzyjnych wymagają dużej mocy obliczeniowej podczas uczenia, ale później mogą przeprowadzać klasyfikacje bez rozległych obliczeń. Główną zaletą tych klasyfikatorów w dziedzinie bioinformatyki jest to, że generują zrozumiałe reguły i możliwe do wyjaśnienia wyniki.
Maszyna wektorów nośnych
Jest to nadzorowany model uczenia maszynowego, który może rozwiązywać problemy z klasyfikacją dwóch grup. Aby sklasyfikować punkty danych, algorytmy te szukają optymalnej hiperpłaszczyzny, która dzieli dane dzielące je na dwie klasy z maksymalną odległością między punktami danych.
Punkty znajdujące się po obu stronach hiperpłaszczyzny należą do różnych klas. Wymiar hiperpłaszczyzny zależy od liczby cech. W przypadku dwóch cech granicą decyzyjną jest linia; z trzema funkcjami, jest to płyta 2D. Ta cecha utrudnia użycie SVM do klasyfikacji z więcej niż trzema cechami.
Podejście to jest przydatne w komputerowej identyfikacji funkcjonalnych genów RNA. Może wybrać optymalny zestaw genów do wykrywania raka na podstawie danych dotyczących ich ekspresji.
5 najlepszych zastosowań uczenia maszynowego w bioinformatyce
Po krótkim wprowadzeniu do ML i zwróceniu uwagi na najczęściej używane algorytmy ML, zobaczmy, jak można je wdrożyć w dziedzinie bioinformatyki.
Jeśli któryś z tych przypadków użycia rezonuje z Tobą, zwróć się do profesjonalistów zajmujących się doradztwem w zakresie oprogramowania AI, aby wdrożyli dostosowane rozwiązanie dla Twojej firmy.
1. Ułatwianie eksperymentów z edycją genów
Edycja genów odnosi się do manipulowania składem genetycznym organizmu poprzez usuwanie, wstawianie i zastępowanie części jego sekwencji DNA. Proces ten zwykle opiera się na technice CRISPR, która jest dość skuteczna. Wciąż jednak pozostaje wiele do życzenia w zakresie wyboru odpowiedniej sekwencji DNA do manipulacji i właśnie w tym zakresie ML może pomóc. Wykorzystując uczenie maszynowe w bioinformatyce, naukowcy mogą usprawnić projektowanie eksperymentów z edycją genów i przewidywać ich wyniki.
Zespół badawczy zastosował algorytmy ML, aby odkryć najbardziej optymalne kombinacje wariantów reszt aminokwasowych, które pozwalają białku Cas9 edytującemu genom związać się z docelowym DNA. Ze względu na dużą liczbę tych wariantów taki eksperyment byłby w przeciwnym razie zbyt duży, ale zastosowanie podejścia inżynieryjnego opartego na uczeniu maszynowym zmniejszyło obciążenie związane z badaniem przesiewowym o około 95%.
2. Identyfikacja struktury białka
Proteomika to nauka o białkach, ich interakcjach, składzie i roli w organizmie człowieka. Ta dziedzina obejmuje duże zbiory danych biologicznych i jest kosztowna obliczeniowo. Dlatego technologie takie jak ML w bioinformatyce są tutaj niezbędne.
Jednym z najbardziej udanych zastosowań w tej dziedzinie jest użycie splotowych sieci neuronowych do pozycjonowania aminokwasów białek w trzech klasach — arkusz, helisa i cewka. Sieci neuronowe mogą osiągnąć dokładność 84%, przy teoretycznym limicie wynoszącym 88–90%.
Innym zastosowaniem ML w proteomice jest ocena modeli białek, zadanie niezbędne do przewidywania struktury białek. W swoim podejściu ML do bioinformatyki, naukowcy z Fayetteville State University wdrożyli ML, aby poprawić punktację modeli białek. Podzielili przedmiotowe modele białek na grupy i wykorzystali interpreter ML, aby zdecydować o wektorze cech do oceny modeli należących do każdej grupy. Te wektory cech zostały później użyte do dalszego ulepszenia algorytmów ML podczas szkolenia ich na każdej grupie osobno.
3. Wykrywanie genów związanych z chorobami
Naukowcy coraz częściej wykorzystują ML w bioinformatyce do identyfikacji genów, które mogą być zaangażowane w określone choroby. Osiąga się to poprzez analizę mikromacierzy do ekspresji genów i sekwencjonowanie RNA.
Identyfikacja genów zyskała na popularności w badaniach związanych z rakiem w celu zidentyfikowania genów, które prawdopodobnie przyczyniają się do raka, a także do klasyfikowania nowotworów poprzez analizę ich na poziomie molekularnym.
Na przykład grupa naukowców z University of Washington wykorzystała ML w algorytmach bioinformatycznych, w tym w drzewie decyzyjnym, maszynie wektorów nośnych i sieciach neuronowych, aby przetestować ich zdolność do przewidywania i klasyfikowania typów raka. Naukowcy wykorzystali dane sekwencjonowania RNA z projektu The Cancer Genome Atlas i odkryli, że liniowa maszyna wektora nośnego była najbardziej precyzyjna, osiągając 95,8% dokładność w klasyfikacji raka.
W innym przykładzie naukowcy wykorzystali ML do sklasyfikowania typów raka piersi na podstawie danych dotyczących ekspresji genów. Zespół ten oparł się również na danych projektu Cancer Genome Atlas Project. Naukowcy podzielili próbki na potrójnie ujemnego raka piersi — jednego z najbardziej śmiercionośnych nowotworów piersi — i niepotrójnie ujemnego. I po raz kolejny klasyfikator maszyny wektora nośnego dał najlepsze wyniki.
Mówiąc o chorobach nienowotworowych, naukowcy z University of Pennsylvania polegali na ML, aby zidentyfikować geny, które byłyby odpowiednim celem dla leków na chorobę wieńcową (CAD). Zespół wykorzystał oparte na ML narzędzie do optymalizacji potoków (TPOT) oparte na drzewie, aby wskazać kombinację polimorfizmów pojedynczego nukleotydu (SNP) związanych z CAD. Przeanalizowali dane genomiczne z brytyjskiego Biobanku i odkryli 28 odpowiednich SNP. Związek między SNP na szczycie tej listy a CAD był wcześniej wspominany w literaturze, a badanie to potwierdziło zastosowanie ML.
4. Przemierzanie bazy wiedzy w poszukiwaniu sensownych wzorców
Zaawansowana technologia sekwencjonowania podwaja genomowe bazy danych co 2,5 roku, a naukowcy szukają sposobu na wydobycie użytecznych spostrzeżeń z tej zgromadzonej wiedzy. ML w bioinformatyce może przeszukiwać publikacje i raporty biomedyczne, aby zidentyfikować różne geny i białka oraz wyszukać ich funkcjonalność. Może również pomóc w dodawaniu adnotacji do baz danych białek i uzupełniać je informacjami uzyskanymi z literatury naukowej.
Jeden przykład pochodzi od grupy badaczy, którzy zastosowali bioinformatykę i ML w eksploracji literatury, aby ułatwić ocenę modeli białek. Modelowanie strukturalne dokowania białko-białko zazwyczaj skutkuje kilkoma modelami, które są dodatkowo oceniane na podstawie ograniczeń strukturalnych. Zespół wykorzystał algorytmy ML do przejrzenia artykułów PubMed na temat interakcji białko-białko, szukając reszt, które mogłyby pomóc w wygenerowaniu tych ograniczeń na potrzeby punktacji modelu. Aby upewnić się, że ograniczenia będą istotne, naukowcy zbadali zdolność różnych algorytmów ML do sprawdzenia wszystkich odkrytych reszt pod kątem trafności.
Badanie to ujawniło, że zarówno drogie obliczeniowo sieci neuronowe, jak i mniej wymagające pod względem zasobów maszyny wektorów nośnych osiągnęły bardzo podobne wyniki.
5. Zmiana przeznaczenia leków
Zmiana przeznaczenia lub przeprofilowanie leków to technika stosowana przez naukowców do odkrywania nowych zastosowań, które nie były przeznaczone dla istniejących leków. Naukowcy wykorzystują sztuczną inteligencję w bioinformatyce do przeprowadzania analiz leków w odpowiednich bazach danych, takich jak BindingDB i DrugBank. Istnieją trzy główne kierunki zmiany przeznaczenia leków.
- Interakcja lek-cel bada zdolność leku do bezpośredniego wiązania się z docelowym białkiem
- Interakcja lek-lek bada, jak działają leki, gdy są przyjmowane w kombinacjach
- Interakcja białko-białko bada powierzchnię oddziałujących białek wewnątrzkomórkowych i próbuje odkryć hotspoty i miejsca allosteryczne.
Naukowcy z China University of Petroleum i Shandong University opracowali algorytm głębokiej sieci neuronowej i wykorzystali go w bazie danych DrugBank. Chcieli zbadać interakcje lek-cel między cząsteczkami leku a mitochondrialnym białkiem fuzyjnym 2 (MFN2), które jest jednym z głównych białek, które mogą powodować chorobę Alzheimera. W badaniu zidentyfikowano 15 cząsteczek leku o potencjale wiązania. Po dalszych badaniach okazało się, że 11 z nich może z powodzeniem zadokować z MFN2. A pięć z nich miało średnią lub silną siłę wiążącą.
Wyzwania przedstawione przez ML w bioinformatyce
ML w bioinformatyce różni się od ML w innych sektorach ze względu na cztery poniższe czynniki, które również stanowią główne wyzwania związane z zastosowaniem ML w tej dziedzinie.
- Wykorzystanie AI w bioinformatyce jest drogie. Aby algorytm działał poprawnie, musisz pozyskać duży zbiór danych treningowych. Jednak uzyskanie 10 000 skanów klatki piersiowej lub jakichkolwiek innych danych medycznych jest dość kosztowne.
- Istnieją trudności związane z zestawami danych szkoleniowych. W innych dziedzinach, jeśli nie masz wystarczającej ilości danych szkoleniowych, możesz wygenerować dane syntetyczne, aby rozszerzyć swój zestaw danych. Jednak ta sztuczka może nie być odpowiednia, jeśli chodzi o narządy ludzkie. Problem polega na tym, że oprogramowanie do generowania skanów może wygenerować skan prawdziwego człowieka. A jeśli zaczniesz używać tego bez zgody tej osoby, poważnie naruszysz jej prywatność.
- Kolejnym wyzwaniem związanym z danymi treningowymi jest to, że jeśli chcesz zbudować algorytm, który działa na rzadkich chorobach, to przede wszystkim nie będzie zbyt wielu danych do pracy.
- Poziom ufności musi być bardzo wysoki. Kiedy życie ludzkie zależy od wydajności algorytmu, stawka jest po prostu zbyt wysoka, co nie pozostawia miejsca na błąd.
- Lekarze nie będą otwarci na korzystanie z modelu ML, jeśli nie zrozumieją, w jaki sposób generuje on swoje zalecenia. Zamiast tego możesz użyć wytłumaczalnej sztucznej inteligencji, ale te algorytmy nie są tak potężne, jak niektóre modele uczenia się bez nadzoru czarnej skrzynki.
Aby zapoznać się z ogólnymi wyzwaniami związanymi ze sztuczną inteligencją i wskazówkami dotyczącymi wdrażania, zapoznaj się z naszym artykułem i bezpłatnym e-bookiem.
Podsumowując
Technologie AI i ML mają wiele zastosowań w medycynie i biologii. Na naszym blogu znajdziesz więcej informacji na temat sztucznej inteligencji w badaniach klinicznych, a także wykorzystania sztucznej inteligencji w diagnostyce i leczeniu nowotworów oraz innych jej zaletach w opiece zdrowotnej.
Bioinformatyka to kolejna dziedzina związana z medycyną, w której przydatne są rozwiązania medyczne oparte na ML i AI. Bioinformatyka wymaga obsługi dużych ilości różnych form danych, takich jak sekwencje genomu, struktury białek i publikacje naukowe. ML jest dobrze znany ze swoich możliwości przetwarzania danych; jednak wiele modeli bioinformatycznych AI jest kosztownych w eksploatacji. Wyszkolenie algorytmu głębokiego uczenia może zająć setki tysięcy dolarów. Na przykład szkolenie modelu AlphaFold2 w celu przewidywania struktury białek wymagało równowartości 100–200 procesorów graficznych działających przez kilka tygodni.
Więcej informacji na temat tego, czego można się spodziewać cenowo, znajdziesz w naszym artykule o tym, ile kosztuje wdrożenie AI. Jeśli chcesz wdrożyć uczenie maszynowe w bioinformatyce, napisz do nas. Będziemy współpracować z Tobą, aby znaleźć najlepiej dopasowane modele ML za rozsądny budżet.
Zastanawiasz się nad wdrożeniem uczenia maszynowego w bioinformatyce, ale nie wiesz, który model jest dla Ciebie odpowiedni? Skontaktuj się! Pomożemy Ci wybrać najlepiej dopasowany typ ML do zadania. Pomożemy Ci również zbudować/dostosować, wyszkolić i wdrożyć algorytm.
Ten artykuł został pierwotnie opublikowany na stronie internetowej Itrex.