L'IA multimodale et ses applications en entreprise | L'IA en entreprise #21

Publié: 2022-10-11

Les modèles d'intelligence artificielle d'aujourd'hui disponibles pour les entreprises diffèrent de l'intelligence humaine principalement en ce qu'ils sont pour la plupart unimodaux. Cela signifie qu'ils n'acceptent qu'un seul type d'information. La prochaine étape sur la voie d'une IA complètement capable concerne les modèles multimodaux. Ils intègrent différents types de données, de la même manière, les humains ont développé plusieurs sens pour explorer le monde dans lequel ils vivent. Mais quelles applications l'IA multimodale a-t-elle en entreprise ?

IA multimodale – table des matières :

  1. Introduction
  2. L'IA multimodale aujourd'hui
  3. Gato et le futur de l'IA multimodale en entreprise
  4. Sommaire

Introduction

La plupart des modèles d'intelligence artificielle d'aujourd'hui s'entraînent sur un type de données. Ceux-ci peuvent inclure :

  • textes - comme dans le traitement du langage naturel (TAL)
  • les images – comme c'est le cas des technologies de reconnaissance d'images (Computer Vision) permettant d'identifier des visages, des formes, des empreintes digitales, etc.
  • données numériques – pour l'analyse des données d'entreprise

De tels modèles unimodaux traitent rapidement de grandes quantités d'informations et repèrent les modèles bien mieux que les humains. Cependant, ils ont de sérieuses limites. Ils sont insensibles au contexte et peu aptes à gérer des situations inhabituelles et ambiguës.

Ces tâches les plus difficiles pour l'intelligence artificielle sont bien mieux gérées par les modèles multimodaux. Ils peuvent, comme les humains, explorer le monde avec différents « sens » et apprendre de différentes sources. Ce faisant, ils relient des faits éloignés et combinent une variété de données ensemble.

Dans un contexte commercial, une IA multimodale tournée vers l'avenir pourrait gérer, par exemple, l'optimisation des processus commerciaux d'une entreprise, l'analyse des publications sur les réseaux sociaux, l'organisation de la logistique ou encore le positionnement physique des marchandises dans un entrepôt. Avec un accès à divers types de données, il pourrait gérer l'entreprise de manière centralisée, tout en ayant une connaissance approfondie et détaillée de tous les aspects mesurables des opérations commerciales.

L'IA multimodale aujourd'hui

Un modèle d'intelligence artificielle qui tire parti de la multimodalité est DALL-E 2, l'auteur d'images surprenantes créées à partir d'indices textuels. Cependant, les capacités de l'intelligence artificielle "multi-sensorielle" d'aujourd'hui vont bien au-delà de la composition de visuels. Les modèles développés aujourd'hui combinent des paires de modalités telles que :

  • texte et image
  • texte et audio
  • texte et vidéo
  • image et modèle tridimensionnel

L'un des outils les plus passionnants qui ont déjà été reconnus est Synthesia. Cette plate-forme basée sur un navigateur pour créer des vidéos à partir du texte saisi propose une présentation visuelle accompagnée d'un avatar-conférencier. Synthesia propose de nombreuses fonctionnalités pour les fabricants de :

  • présentations de produits
  • manuels de logiciels et d'équipements techniques
  • matériel d'entraînement

Désormais, au lieu d'embaucher des acteurs, des voix off et des concepteurs de présentations, utilisez simplement les services de l'IA multimodale pour les entreprises et créez des séquences basées sur un texte bien écrit en quelques minutes. En utilisant le module de traduction, vous préparerez également des documents dans plusieurs versions linguistiques.

Gato et le futur de l'IA multimodale en entreprise

Le plus fin des modèles multimodaux modernes est Gato. Ce réseau de neurones profonds développé par Deep Mind acquiert simultanément des informations provenant de diverses sources, il apprend plus rapidement et plus efficacement que les modèles unimodaux. Certaines de ses capacités incluent :

  • décrire des images – transformer des données visuelles en données textuelles
  • manipulation d'objets dans l'espace physique - par un bras robotique équipé de capteurs tactiles et d'images de caméra, il effectue des tâches liées au réarrangement des objets
  • exécuter un chatbot textuel - c'est-à-dire effectuer des tâches de chatbot
  • la compréhension des règles ainsi que la prise de décision dans les jeux

Aujourd'hui, bon nombre de ces fonctionnalités existent déjà dans des systèmes complexes tels que les voitures autonomes ou les villes intelligentes . Cependant, leur application n'a pas encore été mise à l'échelle dans le domaine des petites entreprises.

Pourtant, on peut imaginer des fonctionnalités multimodales livrées à diverses entreprises. En décrivant les images des caméras de vidéosurveillance, il peut cataloguer les marchandises en stock ou identifier les produits manquants dans les rayons des magasins. La manipulation d'objets permettra automatiquement de réapprovisionner les biens manquants préalablement identifiés sans intervention humaine.

Multimodal AI and its applications in business

Sommaire

L'intelligence artificielle multimodale a suscité de grands espoirs. De notre point de vue, cela annonce principalement des changements révolutionnaires dans la façon dont l'IA fonctionne pour les entreprises. Au lieu de solutions ponctuelles distribuées pour automatiser des tâches simples et répétitives, l'émergence d'outils puissants pour collecter des données à partir de diverses sources et tirer des conclusions à partir de volumes de données au-delà des capacités de perception humaines se profile à l'horizon.

Peut-être qu'à l'avenir, l'IA créera même des entreprises autonomes. Plus tôt cependant, il produira des documents audiovisuels en temps réel répondant directement aux demandes de produits des clients.

Si vous aimez notre contenu, rejoignez notre communauté d'abeilles occupées sur Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Multimodal AI and its applications in business | AI in business #21 robert whitney avatar 1background

Auteur : Robert Whitney

Expert JavaScript et instructeur qui coache les départements informatiques. Son objectif principal est d'augmenter la productivité de l'équipe en enseignant aux autres comment coopérer efficacement lors du codage.

L'IA en entreprise :

  1. L'intelligence artificielle en entreprise - Introduction
  2. Menaces et opportunités de l'IA en entreprise (partie 1)
  3. Menaces et opportunités de l'IA en entreprise (partie 2)
  4. Applications d'IA en entreprise - aperçu
  5. Qu'est-ce que le NLP ou le traitement automatique du langage naturel en entreprise
  6. Traitement automatique des documents
  7. IA et réseaux sociaux – que disent-ils de nous ?
  8. Traducteur automatique. Localisation intelligente des produits numériques
  9. Chatbots textuels assistés par IA
  10. Le fonctionnement et les applications métiers des voicebots
  11. La technologie des assistants virtuels, ou comment parler à l'IA ?
  12. La PNL d'entreprise aujourd'hui et demain
  13. Comment l'intelligence artificielle peut-elle aider avec le BPM ?
  14. L'intelligence artificielle va-t-elle remplacer les analystes métier ?
  15. Le rôle de l'IA dans la prise de décision en entreprise
  16. Qu'est-ce que l'Intelligence d'Affaires ?
  17. Planification des publications sur les réseaux sociaux. Comment l'IA peut-elle aider ?
  18. Publications automatisées sur les réseaux sociaux
  19. L'intelligence artificielle dans la gestion de contenu
  20. L'IA créative d'aujourd'hui et de demain
  21. L'IA multimodale et ses applications en entreprise
  22. Nouvelles interactions. Comment l'IA change-t-elle la façon dont nous utilisons les appareils ?
  23. RPA et API dans une entreprise numérique
  24. Nouveaux services et produits fonctionnant avec l'IA
  25. Le futur marché du travail et les métiers à venir
  26. IA verte et IA pour la Terre
  27. EdTech. L'intelligence artificielle dans l'éducation