10 trendów w nauce o danych w 2020 roku

Opublikowany: 2020-08-22

Wielu badaczy z różnych uniwersytetów podwaja badania NLP

Jednym z największych przebojów w każdym projekcie związanym z nauką danych jest brak odpowiednich danych treningowych

Rok 2020 i kilka następnych lat będzie bardzo ekscytujący dla firm i zespołów stosujących analitykę danych

Sztuczna inteligencja jest dziś gorącym tematem i chociaż niektóre grupy twierdzą, że może nadejść kolejna zima, większa populacja (w tym ja) mocno czuje, że tym razem nadeszło lato i będzie to jedna wielka impreza. W rzeczywistości, dzięki postępowi zarówno w zakresie sprzętu, jak i oprogramowania, zima może nie być widoczna przez długi czas. Poniżej znajduje się 10 najważniejszych trendów, którymi jestem podekscytowany w 2020 roku.

Obliczenia kwantowe

Pod koniec 2019 roku ogłoszenie przez Google kwantowej mocy obliczeniowej, która przewyższała standardowy superkomputer ponad miliard razy, wywołała falę w mediach. Chociaż obecnie może nie być żadnego bezpośredniego zastosowania w rzeczywistych zastosowaniach, w laboratoriach badawczych takich firm jak Google i IBM kładzie się duży nacisk na obliczenia kwantowe. Dlatego w 2020 r. i później z pewnością dokonamy definitywnych skoków w dziedzinie obliczeń kwantowych, a wkrótce mogą one stać się opłacalne w praktycznych zastosowaniach.

Postępy w przetwarzaniu języka naturalnego (NLP)

Przetwarzanie języka naturalnego (NLP) było od jakiegoś czasu ważnym celem, a wraz z niedawnym wprowadzeniem transformatorów i modeli uwagi, sprawy idą naprzód pełną parą. Kilka miesięcy temu OpenAI Elona Muska wypuściło model GPT-3. Model oparty jest na modelu architektury transformatora, który został wytrenowany na parametrach do 175B. To wszystko zmieniło. Model osiągnął SOTA w różnych zadaniach związanych z modelem językowym i nadal to robi w wielu zadaniach prywatnych.

Wielu badaczy z różnych uniwersytetów podwaja badania NLP. Od nowszych kontekstowych reprezentacji słów po modelowanie od sekwencji do sekwencji, wiele zasobów przeznacza się na NLP i umożliwia maszynie rozumienie i reagowanie na język, tak jak ludzie.

Repozytoria danych i rynki

Jednym z największych przebojów w każdym projekcie związanym z nauką danych jest brak odpowiednich danych treningowych. Wiele zespołów spędza do 80% czasu na gromadzeniu odpowiednich danych treningowych. W ciągu ostatniego roku wiele niezależnych zespołów, projektów typu open source i projektów finansowanych ze środków publicznych otworzyło dostęp do wielu uporządkowanych zbiorów danych. Organizacje zaczynają również zarabiać na danych, do których mają dostęp lub działają jako agregatory danych, które gromadzą, normalizują i porządkują dane w formatach, które mogą być używane przez inne zespoły zajmujące się analizą danych. Ta nowa branża będzie świadkiem rosnącego trendu w nadchodzących latach.

Adnotacja jako firma

Podczas gdy zbieranie i agregacja danych odbywa się na równoległych ścieżkach, kluczowy element, który obejmuje oznakowanie tych samych danych, opatrzenie ich adnotacjami i przygotowanie do treningu, również nabiera tempa. Narzędzia i usługi, takie jak mechaniczny turk — który umożliwia crowdsourcing adnotacji — już istnieją, ale teraz rośnie świadomość, że może to być opłacalny biznes. Wiele krajów rozwijających się, zwłaszcza tych, które działają w tańszych gospodarkach siły roboczej, rozwijają działalność polegającą na znakowaniu danych dużymi zespołami ludzi, którzy wybierają, tagują i etykietują dane wejściowe oraz przygotowują je do konsumpcji.

Rzeczywistość rozszerzona (AR)

Od czasu premiery aplikacji Google Glass i Microsoft HoloLens, w tym innych w ciągu ostatnich kilku lat, poczyniono znaczne postępy w AR. W tym roku widzieliśmy patenty i ogłoszenia różnych firm w okularach AR, które pozwolą ludziom na interakcję i pracę w symulowanym środowisku rzeczywistym. Inteligentne okulary 2021 zmienią sposób, w jaki świat działa i komunikuje się.

Polecany dla Ciebie:

Jak platforma agregacji kont RBI ma zmienić fintech w Indiach

Zasoby

Jak platforma agregacji kont RBI ma przekształcić fintech w Indiach

Przedsiębiorcy nie mogą tworzyć zrównoważonych, skalowalnych startupów poprzez „Jugaad”: CEO CitiusTech

Aktualności

Przedsiębiorcy nie mogą tworzyć zrównoważonych, skalowalnych start-upów poprzez „Jugaad”: Cit...

Zasoby

Jak Metaverse zmieni indyjski przemysł motoryzacyjny?

Zasoby

Co oznacza przepis anty-profitowy dla indyjskich startupów?

W jaki sposób startupy Edtech pomagają w podnoszeniu umiejętności i przygotowują pracowników na przyszłość

Zasoby

W jaki sposób start-upy Edtech pomagają indyjskim pracownikom podnosić umiejętności i być gotowym na przyszłość...

Aktualności

Akcje New Age Tech w tym tygodniu: Kłopoty Zomato nadal, EaseMyTrip publikuje Stro...

Analiza danych jako usługa

Analiza danych na dużą skalę wymaga dobrej konfiguracji oprogramowania i sprzętu. Trzeba skonfigurować klastry uczenia maszynowego, zainstalować niezbędne oprogramowanie — nawet te „ podłącz i używaj” — i ponieść duże koszty początkowe, zanim będzie można przeanalizować pierwszy zestaw danych. Istnieje jednak wiele rozwiązań SaaS i samoobsługowych, w których można zacząć od grosza za dolara. Ponadto dzięki narzędziom i technikom, takim jak AutoML, dostępnym u prawie wszystkich dostawców, zaawansowana analiza danych jest teraz dostępna dla każdego.

Wyjaśnienie AI

Modele AI, zwłaszcza te, które zajmują się większymi wymiarami pochodnymi danych i danych zebranych z różnych punktów styku, są w dużej mierze czarnymi skrzynkami modelu uczenia głębokiego. Dane wchodzą, a decyzja (wyjście) wychodzi. Niewiele jest uzasadnienia, dlaczego podjęto określoną decyzję. W miarę jak wkraczamy w przyszłość, w której sztuczna inteligencja jest wykorzystywana w aplikacjach takich jak diagnostyka medyczna, pojazdy autonomiczne, zautomatyzowany handel, a nawet w rekrutacji i innych funkcjach decyzyjnych, ważne staje się zapewnienie przejrzystości i wglądu w to, dlaczego dana maszyna -wyuczony model podjął konkretną decyzję. Istnieje wiele narzędzi i struktur typu open source, które przyniosły dobre wczesne wyniki w interpretacji modeli sztucznej inteligencji.

Odpowiedzialna i etyczna sztuczna inteligencja

Jeśli autonomiczny samochód staje przed dwiema możliwościami, z których oba powodują pewną szkodę dla człowieka, jaką decyzję powinien podjąć model? Czy powinna być oparta na danych LUB czy powinna istnieć jakaś zasada nadrzędna?

Jeśli dokonano bardzo nowatorskiego postępu w sztucznej inteligencji, czy można go wykorzystać w zastosowaniach wojskowych, które ostatecznie zostaną wykorzystane w działaniach wojennych?

Oto niektóre z pytań, wraz z uprzedzeniami, ochroną danych, dyskryminacją itp., które stara się rozwiązać odpowiedzialna i etyczna sztuczna inteligencja. Istnieje duży ruch wokół etycznego wykorzystania AI, a wiele firm tworzy dedykowane grupy zadaniowe i koalicje, które się tym zajmują.

Platformy hurtowni danych i zarządzania danymi

Magazynowanie istnieje od dawna i służyło organizacjom jako podstawowy krok do zbierania i strukturyzowania danych w taki sposób, aby nabierały sensu. W ciągu ostatnich kilku lat pojawiło się wiele usług i platform związanych z magazynowaniem, które mogą być wykorzystywane przez zespoły inżynierii danych, aby rozpocząć podróże związane z magazynowaniem danych i lacingiem danych.

Nauka o danych jako podstawowa kompetencja organizacji

Wiele lat temu analiza statystyczna i analiza dużych zbiorów danych były postrzegane jako umiejętności „eksperckie”, które zostały przekazane zespołom analitycznym, ale to się zmieniło kilka lat temu. Obecnie wiele zespołów biznesowych woli, aby ich członkowie korzystali z narzędzi analitycznych do analizy danych.

Podobnie dzisiaj istnieje ruch, w którym w zespołach biznesowych budowane są umiejętności w zakresie analizy danych. Zespoły biznesowe uczą się, jak zarządzać projektami, oczekiwaniami i terminami związanymi z nauką o danych oraz jak umiejętności i zarządzanie zespołem różnią się od tych w tradycyjnych zespołach programistycznych.

Podsumowując, rok 2020 i kilka kolejnych lat będzie bardzo ekscytujący dla firm i zespołów wdrażających naukę o danych i powiązane obszary pracy.