10 tendances à suivre en science des données en 2020

Publié: 2020-08-22

De nombreux chercheurs de diverses universités multiplient les efforts de recherche en PNL

L'un des principaux obstacles à tout projet de science des données est le manque de données de formation pertinentes

2020 et les prochaines années vont être très excitantes pour les entreprises et les équipes qui adoptent la science des données

L'intelligence artificielle est un sujet brûlant aujourd'hui, et bien que certains groupes prétendent qu'un autre hiver pourrait arriver, une population plus large (dont moi-même) est convaincue que cette fois, l'été est là et que ce sera une grande fête. En fait, avec les progrès du matériel et des logiciels, il se peut que l'hiver ne soit pas en vue avant longtemps. Vous trouverez ci-dessous les 10 principales tendances qui me passionnent en 2020.

L'informatique quantique

Vers la fin de 2019, l'annonce par Google d'une puissance de calcul quantique, qui a surpassé un supercalculateur standard par un facteur de plus d'un milliard, a provoqué des vagues dans les médias. Bien qu'il puisse ne pas y avoir d'utilisation directe dans les applications du monde réel aujourd'hui, l'informatique quantique fait l'objet d'une attention particulière dans les laboratoires de recherche d'entreprises telles que Google et IBM. Par conséquent, en 2020 et au-delà, nous sommes sûrs de faire des sauts définitifs dans l'informatique quantique, et bientôt, cela pourrait devenir viable pour des applications pratiques.

Progrès dans le traitement du langage naturel (TAL)

Le traitement du langage naturel (TLN) est un objectif important depuis un certain temps, et avec l'arrivée récente des transformateurs et des modèles d'attention, les choses avancent à plein régime. Il y a quelques mois, OpenAI d'Elon Musk a sorti le modèle GPT-3. Le modèle est basé sur le modèle d'architecture de transformateur, qui a été formé sur jusqu'à 175 B paramètres. Cela a tout changé. Le modèle a réalisé SOTA sur diverses tâches de modèle de langage et continue de le faire sur de nombreuses tâches privées.

De nombreux chercheurs de diverses universités multiplient les recherches en PNL. Des nouvelles représentations de mots contextualisées à la modélisation séquence à séquence, un grand nombre de ressources sont consacrées à la PNL et permettent à la machine de comprendre et de répondre au langage, tout comme les humains.

Référentiels de données et places de marché

L'un des principaux obstacles à tout projet de science des données est le manque de données de formation pertinentes. De nombreuses équipes finissent par passer jusqu'à 80 % de leur temps à collecter les bonnes données d'entraînement. Au cours de l'année écoulée, de nombreuses équipes indépendantes, projets open source et projets financés par des fonds publics ont ouvert l'accès à de nombreux ensembles de données structurés. Les organisations se lancent également dans la monétisation des données auxquelles elles ont accès ou fonctionnent comme des agrégateurs de données qui collectent, normalisent et structurent les données dans des formats pouvant être utilisés par d'autres équipes de science des données. Ce nouveau secteur d'activité connaîtra une tendance à la hausse dans les années à venir.

Annotation en tant qu'entreprise

Alors que la collecte et l'agrégation des données se produisent en parallèle, un élément essentiel, qui consiste à obtenir les mêmes données étiquetées, annotées et prêtes pour la formation, prend également de l'ampleur. Des outils et des services tels que Mechanical Turk, qui permet le crowdsourcing d'annotations, existent déjà, mais on se rend de plus en plus compte qu'il peut s'agir d'une activité viable. De nombreux pays en développement, en particulier ceux qui opèrent dans des économies de main-d'œuvre moins chères, développent une activité autour du marquage des données avec de grandes équipes de personnes sélectionnant, marquant et étiquetant les données d'entrée et les préparant à la consommation.

Réalité augmentée (RA)

Depuis la sortie des applications Google Glass et Microsoft HoloLens, y compris d'autres au cours des dernières années, des progrès significatifs ont été réalisés dans la réalité augmentée. Cette année, nous avons vu des brevets et des annonces de diverses entreprises dans le domaine des lunettes AR, qui permettront aux gens d'interagir et de travailler dans un environnement simulé du monde réel. Les lunettes intelligentes de 2021 vont changer la façon dont le monde fonctionne et communique.

Recommandé pour vous:

Comment le cadre d'agrégation de comptes de RBI est sur le point de transformer la Fintech en Inde

Comment le cadre d'agrégation de comptes de RBI est sur le point de transformer la Fintech en Inde

Les entrepreneurs ne peuvent pas créer de startups durables et évolutives via « Jugaad » : PDG de CitiusTech

Les entrepreneurs ne peuvent pas créer de startups durables et évolutives via "Jugaad": Cit ...

Comment Metaverse va transformer l'industrie automobile indienne

Comment Metaverse va transformer l'industrie automobile indienne

Que signifie la disposition anti-profit pour les startups indiennes ?

Que signifie la disposition anti-profit pour les startups indiennes ?

Comment les startups Edtech aident à améliorer les compétences et à préparer la main-d'œuvre pour l'avenir

Comment les startups Edtech aident la main-d'œuvre indienne à se perfectionner et à se préparer pour l'avenir...

Stocks technologiques de la nouvelle ère cette semaine : les problèmes de Zomato continuent, EaseMyTrip publie des...

Analyse de données en tant que service

L'analyse des données à grande échelle nécessite une bonne configuration des logiciels et du matériel. Il faut mettre en place des clusters d'apprentissage automatique, installer les logiciels nécessaires, même les logiciels « plug and play » , et engager un coût initial important avant que le premier ensemble de données puisse être analysé. Cependant, il existe de nombreuses solutions SaaS et libre-service disponibles où l'on peut commencer avec quelques centimes sur le dollar. De plus, avec des outils et des techniques tels qu'AutoML disponibles avec presque tous les fournisseurs, l'analyse de données de haute puissance est désormais accessible à tous.

Explicabilité de l'IA

Les modèles d'IA, en particulier ceux qui traitent de plus grandes dimensions de données dérivées et de données recueillies à partir de divers points de contact, sont en grande partie des boîtes noires de modèles d'apprentissage en profondeur. Les données entrent et la décision (sortie) sort. Il y a très peu de raisonnement derrière pourquoi une certaine décision a été prise. Alors que nous nous dirigeons vers l'avenir où l'IA est utilisée dans des applications telles que le diagnostic médical, les véhicules autonomes, le commerce automatisé, et même dans le recrutement et d'autres fonctions de prise de décision, il devient important d'assurer la transparence et la visibilité sur pourquoi une certaine machine -le modèle appris a pris une décision particulière. Il existe de nombreux outils et cadres open source qui ont donné de bons premiers résultats dans l'interprétation des modèles d'IA.

IA responsable et éthique

Si une voiture autonome est confrontée à deux choix, qui entraînent tous deux des dommages pour un humain, quelle décision le modèle devrait-il prendre ? Doit-il être basé sur des données OU doit-il y avoir une règle de dérogation ?

Si une avancée très nouvelle dans l'IA a été réalisée, est-il acceptable qu'elle soit utilisée dans une application militaire qui sera éventuellement utilisée dans la guerre ?

Ce sont quelques-unes des questions, avec les préjugés, la protection des données, la discrimination, etc., auxquelles l'IA responsable et éthique tente de répondre. Il y a un grand mouvement autour de l'utilisation éthique de l'IA, et de nombreuses entreprises créent des groupes de travail et des coalitions dédiés à cette question.

Plates-formes d'entreposage et de gestion de données

L'entreposage existe depuis longtemps et a servi d'étape principale aux organisations pour collecter et structurer les données de manière à ce qu'elles commencent à avoir un sens. Ces dernières années ont vu l'émergence de nombreux services et plates-formes d'entreposage qui peuvent être utilisés par les équipes d'ingénierie des données pour lancer leurs parcours d'entreposage de données et de fuite de données.

La science des données comme compétence de base pour les organisations

Il y a de nombreuses années, l'analyse statistique et de données volumineuses était considérée comme des compétences « expertes » confiées à des équipes d'analyse, mais cela a changé il y a quelques années. À l'heure actuelle, de nombreuses équipes commerciales préfèrent que les membres de leur équipe utilisent des outils d'analyse pour analyser les données.

De même, aujourd'hui, il y a un mouvement où les compétences en science des données se construisent au sein des équipes commerciales. Les équipes commerciales apprennent à gérer les projets, les attentes et les délais de science des données, et en quoi les compétences et la gestion d'équipe sont différentes de celles des équipes de développement de logiciels traditionnelles.

En somme, 2020 et les prochaines années vont être très excitantes pour les entreprises et les équipes qui adopteront la science des données et les domaines de travail connexes.