Comment se désinscrire des robots de formation IA de Google Bard et OpenAI ChatGPT

Publié: 2023-11-13

Alors que l’intelligence artificielle commence tout juste à bouleverser une grande partie de la vie sur Internet (et normale), nombreux sont ceux qui soulèvent des questions éthiques sur la manière dont les entreprises développant l’IA se procurent les données utilisées pour entraîner ces logiciels. Pour répondre à ces préoccupations, OpenAI et Google ont pris des mesures pour offrir aux éditeurs la possibilité d'exclure leur contenu de l'utilisation pour former des robots IA.

Préoccupations des éditeurs Web concernant les robots IA

Les éditeurs ont raison de s’inquiéter du rôle que joue leur contenu dans la formation de l’IA, et ils peuvent s’inquiéter pour plusieurs raisons différentes.

Droits d'auteur et revenus du contenu

Les créateurs et les éditeurs ont le droit de tirer des revenus du contenu qu'ils mettent à disposition. Celui qui détient les droits d’auteur devrait bénéficier de l’utilisation de son contenu. Cela soulève deux préoccupations spécifiques pour les éditeurs.

Premièrement, les entreprises développant des programmes d’intelligence artificielle utilisent le contenu des éditeurs sans les rémunérer. Bien qu’il s’agisse d’une utilisation peu courante, les programmes de formation constituent un moyen d’utiliser le contenu. Les éditeurs devraient donc pouvoir contrôler s'ils autorisent cela (et peut-être s'ils facturent).

« illégalement copié et traité des millions d'images protégées par le droit d'auteur »
- Poursuite Getty Images

C’est exactement ce que Getty Images, l’un des plus grands fournisseurs de photos et de vidéos en ligne, a chargé OpenAI. Getty Images affirme que ses 12 millions d’images ont été utilisées « sans autorisation… ni compensation ». Le procès comprend plusieurs exemples d’images comportant un filigrane Getty Images flou.

Un autre procès intenté par Getty Images affirme que Stability AI « a copié et traité illégalement des millions d'images protégées par le droit d'auteur », avec des exemples de fichiers produits avec des logos Getty modifiés par l'IA.

Getty Images lutte contre la violation des droits d'auteur contre Stability AI - BeyondGames.biz

Comparaison de photos présentée sur The Verge

Les changements dans le secteur des éditeurs apportés par l’IA

Certains éditeurs peuvent considérer l’IA comme une menace au sein de leur secteur. Même s’ils acceptent que leur modèle économique devra éventuellement changer en raison des capacités de l’IA, ils ne voudront peut-être pas accélérer le développement du logiciel.

Même si empêcher les sociétés d’IA d’accéder à un éditeur spécifique peut avoir un effet négligeable sur le développement, certains éditeurs pourraient s’y opposer pour des raisons de principe.

Protéger le contenu unique

Quelques éditeurs peuvent espérer conserver leur contenu unique en empêchant l’IA de le copier (ou de créer quelque chose de similaire). Il ne s'agit pas d'un nouveau défi pour les éditeurs en ligne, car les scrapers sont utilisés depuis longtemps pour collecter des données sur les sites Web. C'est une autre facette qui pourrait cependant être pertinente dans des niches très spécialisées ou pour les plateformes d'information.

Options pour se désinscrire de la formation en IA

Sans réglementation, les éditeurs doivent se retirer manuellement du développement de chaque entreprise d'IA. Les deux principaux dont il faut se désinscrire sont OpenAI (créateur de ChatGPT) et Google (qui possède Bard et Vertex AI).

Certains au sein de l'industrie de l'édition en ligne considèrent cela comme une option symbolique, un dirigeant déclarant : « C'est un geste symbolique… Je pense que c'était en quelque sorte un effort inutile de ma part. Il est inévitable que ces éléments soient ingérés, explorés et tirés des leçons.

Néanmoins, les éditeurs ont désormais la possibilité de se désinscrire.

Comment se désinscrire de ChatGPT

Certains sites n'ont pas à s'inquiéter du fait que le robot d'exploration d'OpenAI collecte des informations à partir de leur contenu.

La société affirme qu'elle ne collecte pas de données à partir de contenus situés derrière un paywall ou un formulaire demandant des informations personnelles. Il n'explore pas non plus les sites qui ne sont pas conformes aux directives de contenu d'OpenAI. Tous ces éléments sont filtrés automatiquement.

Les éditeurs dont le contenu n'est pas automatiquement exclu (ce qui inclut la plupart des éditeurs) peuvent bloquer le GPTBot en ajoutant du code de base au fichier robots.txt de leur site Web.

Le GPTBot est identifié dans un fichier robots.txt comme :

Jeton d'agent utilisateur : GPTBot
Chaîne complète de l'agent utilisateur : Mozilla/5.0 AppleWebKit/537.36
(KHTML, comme Gecko ; compatible ; GPTBot/1.0 ;
+https://openai.com/gptbot)

Pour bloquer complètement le GPTBot, ajoutez ce qui suit au fichier robots.txt de votre site :

Agent utilisateur : GPTBot
Interdire : /

Pour bloquer sélectivement le GPTBot d'un contenu spécifique, utilisez l'exemple suivant pour sélectionner les dossiers accessibles et non accessibles :

Agent utilisateur : GPTBot
Autoriser : /répertoire-1/
Interdire : /répertoire-2/

Cela revient à empêcher Google ou les robots d'un autre moteur de recherche d'accéder à un site Web ou à des dossiers.

Comment se désinscrire de Google Bard

Google a mis à disposition une option de désinscription pour ses Bard AI et Vertex AI en septembre 2023. La désinscription est exécutée à peu près de la même manière que la désinscription d'OpenAI.

Pour bloquer le robot d'exploration IA de Google, ajoutez le code suivant au fichier robots.txt de votre site :

Agent utilisateur : Google Extended
Interdire : /

Comme avec le bot d'OpenAI, vous pouvez également accorder à Google un accès partiel mais pas total :

Agent utilisateur : Google Extended
Autoriser : /répertoire-1/
Interdire : /répertoire-2/

"Ils traitent tout cela comme un seul et même produit de recherche."
- Matt Rogerson, Le Gardien

Avant de se désinscrire, les webmasters et les éditeurs doivent être conscients que cela signifiera probablement qu'un site ne sera pas non plus exploré pour l'indexation de recherche. Comme le dit Matt Rogerson du Guardian, ce sont des « grattoirs groupés ». Il a expliqué : « Ils traitent tout cela comme un seul grand produit de recherche. Ils disent : « Non, vous n'avez pas le choix de la granularité. Nous vous donnons la possibilité de vous désinscrire. Mais évidemment, nous ne voulons pas abandonner toute exploration du Web.

Bloquez les robots de formation IA de votre contenu

Cette solution n'est pas parfaite. Jusqu'à présent, il ne s'adresse qu'à deux développeurs d'IA (pas Microsoft, par exemple), et toutes les entreprises dans ce domaine ont déjà récupéré de grandes quantités de données. Comme l'écrit Google : « À mesure que les applications d'IA se développent, les éditeurs Web seront confrontés à la complexité croissante de la gestion des différentes utilisations à grande échelle. »

Ce sont cependant deux actions simples que les webmasters et les éditeurs en ligne peuvent entreprendre.

Si vous êtes un éditeur en ligne et que vous vous inquiétez de la manière dont votre contenu pourrait être utilisé pour la formation en IA, effectuez ces deux actions simples pour empêcher Chat GPT d'OpenAI, Bard de Google et Vertex AI de Google d'accéder à votre site Web.

Vous souhaitez savoir comment l’IA est utilisée par les éditeurs ?

Voici quelques articles supplémentaires sur l’IA pour les éditeurs numériques :

  • Comment les principales publications médiatiques utilisent l'IA pour la production de contenu
  • 6 façons dont l'IA peut augmenter les abonnements
  • Mégaliste des outils d'IA pour les éditeurs
  • Plus d'articles sur l'IA pour les éditeurs

La solution de gestion des relations avec les visiteurs (VRM) d'Admiral exploite l'IA et l'apprentissage automatique de plusieurs manières et continue d'innover en matière d'outils pour automatiser la croissance des relations avec les visiteurs et des revenus. Les exemples incluent l'intégration de ChatGPT pour automatiser la génération de CTA afin de générer des conversions, et des déclencheurs en temps réel basés sur les pics de trafic de visiteurs avec Surge Targeting.

Découvrez comment VRM peut vous aider à générer des relations et des revenus tout au long du parcours du visiteur.

Planifier une démo