So deaktivieren Sie KI-Trainings-Bots von Google Bard und OpenAI ChatGPT

Veröffentlicht: 2023-11-13

Da künstliche Intelligenz gerade erst damit begonnen hat, einen Großteil des Internetlebens (und des normalen Lebens) auf den Kopf zu stellen, werfen viele ethische Fragen darüber auf, wie Unternehmen, die KI entwickeln, die Daten beschaffen, die für das Training dieser Software verwendet werden. Um diese Bedenken auszuräumen, haben sowohl OpenAI als auch Google Schritte unternommen, um Herausgebern die Möglichkeit zu geben, ihre Inhalte von der Verwendung zum Trainieren von KI-Bots auszuschließen.

Web-Publisher haben Bedenken hinsichtlich KI-Bots

Verleger machen sich zu Recht Sorgen über die Rolle, die ihre Inhalte beim Training von KI spielen, und sie könnten aus verschiedenen Gründen besorgt sein.

Inhaltsurheberrecht und Einnahmen

Urheber und Herausgeber haben das Recht, mit den von ihnen bereitgestellten Inhalten Einnahmen zu erzielen. Wer das Urheberrecht besitzt, soll von der Nutzung seiner Inhalte profitieren. Dies wirft für Verlage zwei besondere Bedenken auf.

Erstens nutzen Unternehmen, die Programme für künstliche Intelligenz entwickeln, Inhalte von Verlagen, ohne diese zu entlohnen. Auch wenn dies eine bisher unübliche Anwendung ist, sind Schulungsprogramme eine Möglichkeit, Inhalte zu nutzen. Verlage sollten daher die Kontrolle darüber haben, ob sie dies zulassen (und möglicherweise eine Gebühr erheben).

„Millionen urheberrechtlich geschützter Bilder rechtswidrig kopiert und verarbeitet“
- Klage von Getty Images

Genau das hat Getty Images, einer der größten Online-Foto- und Videoanbieter, OpenAI beauftragt. Getty Images behauptet, seine 12 Millionen Bilder seien „ohne Erlaubnis … oder Entschädigung“ verwendet worden. Die Klage umfasst mehrere Beispiele von Bildern, die ein unscharfes Getty Images-Wasserzeichen aufweisen.

In einer weiteren Klage von Getty Images wird Stability AI vorgeworfen, „Millionen urheberrechtlich geschützter Bilder rechtswidrig kopiert und verarbeitet zu haben“, mit Beispielen für Dateien, die mit KI-veränderten Getty-Logos erstellt wurden.

Getty Images bekämpft Urheberrechtsverletzung gegen Stabilitäts-KI – BeyondGames.biz

Fotovergleich auf The Verge

Veränderungen in der Verlagsbranche durch KI

Einige Verlage betrachten KI möglicherweise als Bedrohung für ihre Branche. Selbst wenn sie akzeptieren, dass sich ihr Geschäftsmodell aufgrund der Fähigkeiten der KI irgendwann ändern muss, möchten sie die Entwicklung der Software möglicherweise nicht beschleunigen.

Auch wenn die Verhinderung des Zugriffs von KI-Unternehmen auf einen bestimmten Herausgeber vernachlässigbare Auswirkungen auf die Entwicklung haben könnte, könnten einige Herausgeber grundsätzlich Einwände dagegen erheben.

Schutz einzigartiger Inhalte

Einige Verlage hoffen möglicherweise, ihre Inhalte einzigartig zu halten, indem sie verhindern, dass KI sie möglicherweise kopiert (oder etwas Ähnliches erstellt). Dies stellt für Online-Publisher keine neue Herausforderung dar, da Scraper schon seit langem zum Sammeln von Daten von Websites eingesetzt werden. Es handelt sich jedoch um einen weiteren Aspekt, der in hochspezialisierten Nischen oder für Nachrichtenplattformen relevant sein könnte.

Optionen zum Abmelden vom KI-Training

Ohne Regulierung müssen Verlage die Entwicklung jedes KI-Unternehmens manuell ablehnen. Die beiden wichtigsten Anbieter, von denen man sich abmelden sollte, sind OpenAI (Ersteller von ChatGPT) und Google (mit Bard und Vertex AI).

Einige in der Online-Publishing-Branche betrachten dies als eine nominelle Option, wobei ein Manager erklärte: „Es ist eine symbolische Geste … Ich denke, es war eine Art vergebliche Mühe meinerseits.“ Es ist unvermeidlich, dass dieses Zeug aufgenommen, gecrawlt und daraus gelernt wird.“

Dennoch haben Verlage jetzt die Möglichkeit, sich abzumelden.

So deaktivieren Sie ChatGPT

Bestimmte Websites müssen sich keine Sorgen machen, dass der Crawler von OpenAI Informationen aus ihren Inhalten sammelt.

Das Unternehmen gibt an, keine Daten von Inhalten zu sammeln, die sich hinter einer Paywall oder einem Formular befinden, in dem personenbezogene Daten abgefragt werden. Außerdem werden keine Websites gecrawlt, die nicht den Inhaltsrichtlinien von OpenAI entsprechen. All dies wird automatisch herausgefiltert.

Herausgeber mit Inhalten, die nicht automatisch ausgeschlossen werden (was die meisten Herausgeber betrifft), können den GPTBot blockieren, indem sie der robots.txt-Datei ihrer Website einfachen Code hinzufügen.

Der GPTBot wird in einer robots.txt-Datei wie folgt identifiziert:

Benutzeragenten-Token: GPTBot
Vollständiger User-Agent-String: Mozilla/5.0 AppleWebKit/537.36
(KHTML, wie Gecko; kompatibel; GPTBot/1.0;
+https://openai.com/gptbot)

Um den GPTBot vollständig zu blockieren, fügen Sie Folgendes zur robots.txt-Datei Ihrer Website hinzu:

Benutzeragent: GPTBot
Nicht zulassen: /

Um den GPTBot selektiv für bestimmte Inhalte zu blockieren, verwenden Sie das folgende Beispiel, um auszuwählen, auf welche Ordner zugegriffen werden kann und auf welche nicht:

Benutzeragent: GPTBot
Erlauben: /directory-1/
Nicht zulassen: /directory-2/

Dies ist vergleichbar damit, den Crawlern von Google oder einer anderen Suchmaschine den Zugriff auf eine Website oder Ordner zu verweigern.

So deaktivieren Sie Google Bard

Google hat im September 2023 ein Opt-out für seine Bard AI und Vertex AI zur Verfügung gestellt. Das Opt-out erfolgt weitgehend auf die gleiche Weise wie das Opt-out von OpenAI.

Um den KI-Crawler von Google zu blockieren, fügen Sie den folgenden Code zur robots.txt-Datei Ihrer Website hinzu:

Benutzeragent: Google-Extended
Nicht zulassen: /

Wie beim OpenAI-Bot könnten Sie Google auch einen gewissen, aber nicht vollständigen Zugriff gewähren:

Benutzeragent: Google-Extended
Erlauben: /directory-1/
Nicht zulassen: /directory-2/

„Sie behandeln alles wie ein einziges großes Suchprodukt.“
- Matt Rogerson, The Guardian

Bevor Sie sich abmelden, sollten sich Webmaster und Publisher darüber im Klaren sein, dass dies wahrscheinlich bedeutet, dass eine Website auch nicht für die Suchindizierung gecrawlt wird. Wie Matt Rogerson von The Guardian es ausdrückte, handelt es sich dabei um „gebündelte Schaber“. Er erklärte: „Sie behandeln alles wie ein großes Suchprodukt. Sie sagen: „Nein, die Granularitätsauswahl steht Ihnen nicht zur Verfügung.“ Wir geben Ihnen die Möglichkeit, sich abzumelden.' Aber natürlich möchten wir nicht jegliches Web-Crawling ausschließen.“

Blockieren Sie KI-Trainings-Bots aus Ihren Inhalten

Diese Lösung ist nicht perfekt. Es richtet sich bisher nur an zwei KI-Entwickler (z. B. nicht an Microsoft), und alle Unternehmen in diesem Bereich haben bereits riesige Datenmengen gesammelt. Wie Google geschrieben hat: „Mit der Ausweitung von KI-Anwendungen werden Web-Publisher mit der zunehmenden Komplexität konfrontiert, verschiedene Nutzungen in großem Maßstab zu verwalten.“

Dies sind jedoch zwei einfache Maßnahmen, die Webmaster und Online-Publisher ergreifen können.

Wenn Sie ein Online-Publisher sind und sich Sorgen darüber machen, wie Ihre Inhalte für KI-Schulungen verwendet werden könnten, ergreifen Sie diese beiden einfachen Maßnahmen, um den Zugriff von OpenAIs Chat GPT, Googles Bard und Googles Vertex AI auf Ihre Website zu blockieren.

Interessiert daran, wie KI von Verlagen eingesetzt wird?

Hier sind einige zusätzliche Artikel zum Thema KI für digitale Verlage:

  • Wie große Medienpubs KI für die Content-Produktion nutzen
  • 6 Möglichkeiten, wie KI Abonnements steigern kann
  • Megaliste von KI-Tools für Verlage
  • Weitere Artikel über KI für Verlage

Die Visitor Relationship Management (VRM)-Lösung von Admiral nutzt KI und maschinelles Lernen auf vielfältige Weise und entwickelt weiterhin innovative Tools, um das Wachstum von Besucherbeziehungen und Einnahmen zu automatisieren. Beispiele hierfür sind die Integration von ChatGPT zur Automatisierung der CTA-Generierung zur Förderung von Conversions sowie Echtzeit-Trigger basierend auf Besucherverkehrsspitzen mit Surge Targeting.

Finden Sie heraus, wie VRM Ihnen dabei helfen kann, Beziehungen und Umsatz während der gesamten Besucherreise zu steigern.

Vereinbaren Sie eine Demo