10 Trends in der Datenwissenschaft im Jahr 2020

Veröffentlicht: 2020-08-22

Viele Forscher an verschiedenen Universitäten verdoppeln die NLP-Forschung

Einer der größten Showstopper für jedes Data-Science-Projekt ist das Fehlen relevanter Trainingsdaten

2020 und die nächsten Jahre werden für die Unternehmen und Teams, die Data Science übernehmen, sehr spannend

Künstliche Intelligenz ist heute ein heißes Thema, und während es einige Gruppen gibt, die behaupten, dass ein weiterer Winter kommen könnte, hat eine größere Bevölkerung (einschließlich mir) das starke Gefühl, dass diesmal der Sommer da ist und es eine große Party werden wird. Angesichts der Fortschritte bei Hard- und Software ist der Winter möglicherweise noch lange nicht in Sicht. Nachfolgend sind die Top 10 Trends aufgeführt, auf die ich mich im Jahr 2020 freue.

Quanten-Computing

Gegen Ende des Jahres 2019 sorgte Googles Ankündigung von Quantencomputerleistung, die einen Standard-Supercomputer um mehr als den Faktor Milliarde übertraf, für Aufsehen in den Medien. Während es heute in realen Anwendungen möglicherweise keine direkte Verwendung dafür gibt, gibt es in Forschungslabors von Unternehmen wie Google und IBM einen umfassenden Fokus auf Quantencomputing. Daher werden wir im Jahr 2020 und darüber hinaus mit Sicherheit entscheidende Sprünge im Quantencomputing machen, und bald könnte es für praktische Anwendungen rentabel werden.

Fortschritte in der Verarbeitung natürlicher Sprache (NLP)

Die Verarbeitung natürlicher Sprache (NLP) ist seit einiger Zeit ein wichtiger Schwerpunkt, und mit dem jüngsten Einzug von Transformatoren und Aufmerksamkeitsmodellen gehen die Dinge mit Volldampf voran. Vor einigen Monaten veröffentlichte Elon Musks OpenAI das GPT-3-Modell. Das Modell basiert auf dem Transformator-Architekturmodell, das mit bis zu 175 B-Parametern trainiert wurde. Das hat alles verändert. Das Modell erreichte SOTA bei verschiedenen Sprachmodellaufgaben und tut dies weiterhin bei vielen privaten Aufgaben.

Viele Forscher an verschiedenen Universitäten verdoppeln die NLP-Forschung. Von neueren kontextualisierten Wortdarstellungen bis hin zur Sequenz-zu-Sequenz-Modellierung wird eine große Anzahl von Ressourcen für NLP aufgewendet und es der Maschine ermöglicht, Sprache zu verstehen und darauf zu reagieren, genau wie Menschen.

Datenspeicher und Marktplätze

Einer der größten Showstopper für jedes Data-Science-Projekt ist das Fehlen relevanter Trainingsdaten. Viele Teams verbringen am Ende bis zu 80 % ihrer Zeit damit, die richtigen Trainingsdaten zu sammeln. Im vergangenen Jahr haben viele unabhängige Teams, Open-Source-Projekte und öffentlich finanzierte Projekte den Zugang zu vielen strukturierten Datensätzen eröffnet. Organisationen steigen auch in das Geschäft ein, die Daten zu monetarisieren, auf die sie entweder Zugriff haben oder als Datenaggregatoren fungieren, die Daten in Formaten sammeln, normalisieren und strukturieren, die von anderen Data-Science-Teams verwendet werden können. Dieser neue Geschäftszweig wird in den kommenden Jahren einen steigenden Trend verzeichnen.

Anmerkung als Geschäft

Während die Datenerfassung und -aggregation in parallelen Bahnen erfolgt, nimmt ein kritischer Teil, bei dem es darum geht, dieselben Daten zu taggen, zu kommentieren und für das Training bereit zu machen, ebenfalls stark an Fahrt auf. Tools und Dienste wie Mechanical Turk – die das Crowdsourcing von Anmerkungen ermöglichen – existieren bereits, aber jetzt wächst die Erkenntnis, dass dies tatsächlich ein rentables Geschäft sein kann. Viele Entwicklungsländer, insbesondere solche, die in Volkswirtschaften mit billigeren Arbeitskräften tätig sind, entwickeln ein Geschäft rund um das Taggen von Daten mit großen Teams von Menschen, die Eingabedaten auswählen, markieren und kennzeichnen und sie für den Verbrauch bereit machen.

Erweiterte Realität (AR)

Seit der Veröffentlichung der Google Glass- und Microsoft HoloLens-Anwendungen, einschließlich anderer in den letzten Jahren, wurden bei AR erhebliche Fortschritte erzielt. In diesem Jahr haben wir Patente und Ankündigungen von verschiedenen Unternehmen für AR-Brillen gesehen, die es Menschen ermöglichen werden, in einer realen simulierten Umgebung zu interagieren und zu arbeiten. Die Smart Glasses von 2021 werden die Art und Weise verändern, wie die Welt arbeitet und kommuniziert.

Für dich empfohlen:

Wie das Account Aggregator Framework der RBI Fintech in Indien transformieren wird

Wie das Account Aggregator Framework der RBI Fintech in Indien transformieren wird

Unternehmer können durch „Jugaad“ keine nachhaltigen, skalierbaren Startups schaffen: CEO von CitiusTech

Unternehmer können mit „Jugaad“ keine nachhaltigen, skalierbaren Startups gründen: Zit...

Wie Metaverse die indische Automobilindustrie verändern wird

Wie Metaverse die indische Automobilindustrie verändern wird

Was bedeutet die Anti-Profiteering-Bestimmung für indische Startups?

Was bedeutet die Anti-Profiteering-Bestimmung für indische Startups?

Wie Edtech-Startups dabei helfen, die Mitarbeiter weiterzubilden und zukunftsfähig zu machen

Wie Edtech-Startups Indiens Arbeitskräften helfen, sich weiterzubilden und zukunftsfähig zu werden ...

New-Age-Tech-Aktien in dieser Woche: Zomatos Probleme gehen weiter, EaseMyTrip-Posts steigen...

Datenanalyse als Service

Die Analyse von Daten in großem Maßstab erfordert eine gute Einrichtung von Software und Hardware. Man muss Machine-Learning-Cluster einrichten, die notwendige Software installieren – selbst die „ Plug-and-Play“ -Software – und hohe Vorabkosten tragen, bevor der erste Datensatz analysiert werden kann. Es sind jedoch viele SaaS- und Self-Service-Lösungen verfügbar, bei denen man mit ein paar Cent auf den Dollar loslegen kann. Darüber hinaus steht mit Tools und Techniken wie AutoML, die bei fast allen Anbietern verfügbar sind, jetzt eine leistungsstarke Datenanalyse für jedermann zur Verfügung.

KI-Erklärbarkeit

KI-Modelle, insbesondere solche, die sich mit größeren abgeleiteten Dimensionen von Daten und Daten befassen, die an verschiedenen Berührungspunkten gesammelt wurden, sind größtenteils Deep-Learning-Modell-Blackboxes. Die Daten gehen hinein und die Entscheidung (Ausgabe) kommt heraus. Es gibt sehr wenig Gründe dafür, warum eine bestimmte Entscheidung getroffen wurde. Während wir uns in die Zukunft bewegen, in der KI in Anwendungen wie medizinischer Diagnose, selbstfahrenden Fahrzeugen, automatisiertem Handel und sogar in der Personalbeschaffung und anderen Entscheidungsfindungsfunktionen eingesetzt wird, wird es wichtig, Transparenz und Sichtbarkeit darüber zu gewährleisten, warum eine bestimmte Maschine verwendet wird -erlerntes Modell zu einer bestimmten Entscheidung gelangt. Es gibt viele Open-Source-Tools und -Frameworks, die gute frühe Ergebnisse bei der Interpretation von KI-Modellen erbracht haben.

Verantwortungsbewusste und ethische KI

Wenn ein selbstfahrendes Auto vor zwei Entscheidungen gestellt wird, die beide zu einem gewissen Schaden für einen Menschen führen, welche Entscheidung sollte das Modell treffen? Sollte es auf Daten basieren ODER sollte es eine Überschreibungsregel geben?

Wenn ein sehr neuartiger Fortschritt in der KI gemacht wurde, ist es in Ordnung, ihn in einer militärischen Anwendung zu verwenden, die schließlich in der Kriegsführung eingesetzt wird?

Dies sind einige der Fragen, zusammen mit Voreingenommenheit, Datenschutz, Diskriminierung usw., die eine verantwortungsbewusste und ethische KI zu beantworten versucht. Es gibt eine große Bewegung rund um den ethischen Einsatz von KI, und viele Unternehmen bilden spezielle Task Forces und Koalitionen, die sich damit befassen.

Plattformen für Data Warehousing und Datenmanagement

Warehousing gibt es schon seit langem und es war der wichtigste Schritt für Unternehmen, um Daten so zu sammeln und zu strukturieren, dass sie sinnvoll werden. In den letzten Jahren sind viele Warehousing-Dienste und -Plattformen entstanden, die von Data-Engineering-Teams genutzt werden können, um ihre Data-Warehousing- und Data-Laking-Reisen anzukurbeln.

Data Science als Basiskompetenz für Organisationen

Vor vielen Jahren galten Statistik- und Big-Data-Analysen als „Experten“-Fähigkeiten, die an Analyseteams vergeben wurden, aber das hat sich vor einigen Jahren geändert. Derzeit ziehen es viele Geschäftsteams vor, dass ihre Teammitglieder Analysetools verwenden, um Daten zu analysieren.

In ähnlicher Weise gibt es heute eine Bewegung, bei der datenwissenschaftliche Fähigkeiten in Geschäftsteams aufgebaut werden. Geschäftsteams lernen, wie sie Data-Science-Projekte, -Erwartungen und -Zeitpläne verwalten und wie sich Fähigkeiten und Teammanagement von denen in traditionellen Softwareentwicklungsteams unterscheiden.

Insgesamt werden 2020 und die nächsten Jahre sehr spannend für die Unternehmen und Teams, die Data Science und verwandte Arbeitsbereiche übernehmen.