10 trendów w nauce o danych w 2020 roku
Opublikowany: 2020-08-22Wielu badaczy z różnych uniwersytetów podwaja badania NLP
Jednym z największych przebojów w każdym projekcie związanym z nauką danych jest brak odpowiednich danych treningowych
Rok 2020 i kilka następnych lat będzie bardzo ekscytujący dla firm i zespołów stosujących analitykę danych
Sztuczna inteligencja jest dziś gorącym tematem i chociaż niektóre grupy twierdzą, że może nadejść kolejna zima, większa populacja (w tym ja) mocno czuje, że tym razem nadeszło lato i będzie to jedna wielka impreza. W rzeczywistości, dzięki postępowi zarówno w zakresie sprzętu, jak i oprogramowania, zima może nie być widoczna przez długi czas. Poniżej znajduje się 10 najważniejszych trendów, którymi jestem podekscytowany w 2020 roku.
Obliczenia kwantowe
Pod koniec 2019 roku ogłoszenie przez Google kwantowej mocy obliczeniowej, która przewyższała standardowy superkomputer ponad miliard razy, wywołała falę w mediach. Chociaż obecnie może nie być żadnego bezpośredniego zastosowania w rzeczywistych zastosowaniach, w laboratoriach badawczych takich firm jak Google i IBM kładzie się duży nacisk na obliczenia kwantowe. Dlatego w 2020 r. i później z pewnością dokonamy definitywnych skoków w dziedzinie obliczeń kwantowych, a wkrótce mogą one stać się opłacalne w praktycznych zastosowaniach.
Postępy w przetwarzaniu języka naturalnego (NLP)
Przetwarzanie języka naturalnego (NLP) było od jakiegoś czasu ważnym celem, a wraz z niedawnym wprowadzeniem transformatorów i modeli uwagi, sprawy idą naprzód pełną parą. Kilka miesięcy temu OpenAI Elona Muska wypuściło model GPT-3. Model oparty jest na modelu architektury transformatora, który został wytrenowany na parametrach do 175B. To wszystko zmieniło. Model osiągnął SOTA w różnych zadaniach związanych z modelem językowym i nadal to robi w wielu zadaniach prywatnych.
Wielu badaczy z różnych uniwersytetów podwaja badania NLP. Od nowszych kontekstowych reprezentacji słów po modelowanie od sekwencji do sekwencji, wiele zasobów przeznacza się na NLP i umożliwia maszynie rozumienie i reagowanie na język, tak jak ludzie.
Repozytoria danych i rynki
Jednym z największych przebojów w każdym projekcie związanym z nauką danych jest brak odpowiednich danych treningowych. Wiele zespołów spędza do 80% czasu na gromadzeniu odpowiednich danych treningowych. W ciągu ostatniego roku wiele niezależnych zespołów, projektów typu open source i projektów finansowanych ze środków publicznych otworzyło dostęp do wielu uporządkowanych zbiorów danych. Organizacje zaczynają również zarabiać na danych, do których mają dostęp lub działają jako agregatory danych, które gromadzą, normalizują i porządkują dane w formatach, które mogą być używane przez inne zespoły zajmujące się analizą danych. Ta nowa branża będzie świadkiem rosnącego trendu w nadchodzących latach.
Adnotacja jako firma
Podczas gdy zbieranie i agregacja danych odbywa się na równoległych ścieżkach, kluczowy element, który obejmuje oznakowanie tych samych danych, opatrzenie ich adnotacjami i przygotowanie do treningu, również nabiera tempa. Narzędzia i usługi, takie jak mechaniczny turk — który umożliwia crowdsourcing adnotacji — już istnieją, ale teraz rośnie świadomość, że może to być opłacalny biznes. Wiele krajów rozwijających się, zwłaszcza tych, które działają w tańszych gospodarkach siły roboczej, rozwijają działalność polegającą na znakowaniu danych dużymi zespołami ludzi, którzy wybierają, tagują i etykietują dane wejściowe oraz przygotowują je do konsumpcji.
Rzeczywistość rozszerzona (AR)
Od czasu premiery aplikacji Google Glass i Microsoft HoloLens, w tym innych w ciągu ostatnich kilku lat, poczyniono znaczne postępy w AR. W tym roku widzieliśmy patenty i ogłoszenia różnych firm w okularach AR, które pozwolą ludziom na interakcję i pracę w symulowanym środowisku rzeczywistym. Inteligentne okulary 2021 zmienią sposób, w jaki świat działa i komunikuje się.
Polecany dla Ciebie:
Analiza danych jako usługa
Analiza danych na dużą skalę wymaga dobrej konfiguracji oprogramowania i sprzętu. Trzeba skonfigurować klastry uczenia maszynowego, zainstalować niezbędne oprogramowanie — nawet te „ podłącz i używaj” — i ponieść duże koszty początkowe, zanim będzie można przeanalizować pierwszy zestaw danych. Istnieje jednak wiele rozwiązań SaaS i samoobsługowych, w których można zacząć od grosza za dolara. Ponadto dzięki narzędziom i technikom, takim jak AutoML, dostępnym u prawie wszystkich dostawców, zaawansowana analiza danych jest teraz dostępna dla każdego.
Wyjaśnienie AI
Modele AI, zwłaszcza te, które zajmują się większymi wymiarami pochodnymi danych i danych zebranych z różnych punktów styku, są w dużej mierze czarnymi skrzynkami modelu uczenia głębokiego. Dane wchodzą, a decyzja (wyjście) wychodzi. Niewiele jest uzasadnienia, dlaczego podjęto określoną decyzję. W miarę jak wkraczamy w przyszłość, w której sztuczna inteligencja jest wykorzystywana w aplikacjach takich jak diagnostyka medyczna, pojazdy autonomiczne, zautomatyzowany handel, a nawet w rekrutacji i innych funkcjach decyzyjnych, ważne staje się zapewnienie przejrzystości i wglądu w to, dlaczego dana maszyna -wyuczony model podjął konkretną decyzję. Istnieje wiele narzędzi i struktur typu open source, które przyniosły dobre wczesne wyniki w interpretacji modeli sztucznej inteligencji.
Odpowiedzialna i etyczna sztuczna inteligencja
Jeśli autonomiczny samochód staje przed dwiema możliwościami, z których oba powodują pewną szkodę dla człowieka, jaką decyzję powinien podjąć model? Czy powinna być oparta na danych LUB czy powinna istnieć jakaś zasada nadrzędna?
Jeśli dokonano bardzo nowatorskiego postępu w sztucznej inteligencji, czy można go wykorzystać w zastosowaniach wojskowych, które ostatecznie zostaną wykorzystane w działaniach wojennych?
Oto niektóre z pytań, wraz z uprzedzeniami, ochroną danych, dyskryminacją itp., które stara się rozwiązać odpowiedzialna i etyczna sztuczna inteligencja. Istnieje duży ruch wokół etycznego wykorzystania AI, a wiele firm tworzy dedykowane grupy zadaniowe i koalicje, które się tym zajmują.
Platformy hurtowni danych i zarządzania danymi
Magazynowanie istnieje od dawna i służyło organizacjom jako podstawowy krok do zbierania i strukturyzowania danych w taki sposób, aby nabierały sensu. W ciągu ostatnich kilku lat pojawiło się wiele usług i platform związanych z magazynowaniem, które mogą być wykorzystywane przez zespoły inżynierii danych, aby rozpocząć podróże związane z magazynowaniem danych i lacingiem danych.
Nauka o danych jako podstawowa kompetencja organizacji
Wiele lat temu analiza statystyczna i analiza dużych zbiorów danych były postrzegane jako umiejętności „eksperckie”, które zostały przekazane zespołom analitycznym, ale to się zmieniło kilka lat temu. Obecnie wiele zespołów biznesowych woli, aby ich członkowie korzystali z narzędzi analitycznych do analizy danych.
Podobnie dzisiaj istnieje ruch, w którym w zespołach biznesowych budowane są umiejętności w zakresie analizy danych. Zespoły biznesowe uczą się, jak zarządzać projektami, oczekiwaniami i terminami związanymi z nauką o danych oraz jak umiejętności i zarządzanie zespołem różnią się od tych w tradycyjnych zespołach programistycznych.
Podsumowując, rok 2020 i kilka kolejnych lat będzie bardzo ekscytujący dla firm i zespołów wdrażających naukę o danych i powiązane obszary pracy.