Jak zrezygnować z botów szkoleniowych AI firmy Google Bard i OpenAI ChatGPT

Opublikowany: 2023-11-13

Ponieważ sztuczna inteligencja dopiero zaczęła wywracać do góry nogami większość Internetu (i normalnego) życia, wiele osób podnosi kwestie etyczne dotyczące sposobu, w jaki firmy rozwijające sztuczną inteligencję pozyskują dane wykorzystywane do szkolenia tego oprogramowania. Aby rozwiać te obawy, zarówno OpenAI, jak i Google podjęły kroki, aby zapewnić wydawcom opcję wykluczenia ich treści z wykorzystywania do szkolenia botów AI.

Wydawnictwo Web Publisher ma obawy dotyczące botów AI

Wydawcy mają rację, niepokojąc się rolą, jaką ich treści odgrywają w szkoleniu sztucznej inteligencji, i mogą mieć kilka różnych powodów.

Prawa autorskie do treści i zarobki

Twórcy i wydawcy mają prawo do zarabiania na udostępnianych przez siebie treściach. Kto ma prawa autorskie, powinien czerpać korzyści z wykorzystania ich treści. Budzi to dwie szczególne obawy wydawców.

Po pierwsze, firmy opracowujące programy oparte na sztucznej inteligencji korzystają z treści wydawców, nie płacąc im za to wynagrodzenia. Chociaż było to wcześniej rzadkie zastosowanie, programy szkoleniowe umożliwiają wykorzystanie treści. Wydawcy powinni zatem mieć kontrolę nad tym, czy na to pozwolą (i być może, czy będą pobierać opłaty).

„bezprawnie skopiowane i przetworzone miliony obrazów chronionych prawem autorskim”
- Pozew Getty Images

To jest dokładnie to, o co Getty Images, jeden z największych internetowych dostawców zdjęć i filmów, zlecił OpenAI. Getty Images twierdzi, że 12 milionów ich zdjęć zostało wykorzystanych „bez pozwolenia… lub odszkodowania”. Pozew zawiera wiele przykładów obrazów zawierających zamazany znak wodny Getty Images.

Dodatkowy pozew złożony przez Getty Images twierdzi, że Stability AI „bezprawnie skopiowało i przetworzyło miliony obrazów chronionych prawem autorskim”, wraz z przykładami plików utworzonych z logo Getty zmienionymi przez sztuczną inteligencję.

Getty Images walczy z naruszeniami praw autorskich przeciwko stabilności AI - BeyondGames.biz

Porównanie zdjęć w The Verge

Wydawca Zmiany w branży spowodowane przez sztuczną inteligencję

Niektórzy wydawcy mogą postrzegać sztuczną inteligencję jako zagrożenie w swojej branży. Nawet jeśli zaakceptują, że ich model biznesowy będzie musiał się ostatecznie zmienić ze względu na możliwości sztucznej inteligencji, mogą nie chcieć przyspieszać rozwoju oprogramowania.

Chociaż uniemożliwienie firmom zajmującym się sztuczną inteligencją dostępu do konkretnego wydawcy może mieć znikomy wpływ na rozwój, niektórzy wydawcy mogą się temu sprzeciwić ze względu na zasady.

Ochrona unikalnych treści

Kilku wydawców może mieć nadzieję na zachowanie wyjątkowości swoich treści, uniemożliwiając sztucznej inteligencji potencjalne ich kopiowanie (lub tworzenie czegoś podobnego). Nie jest to nowe wyzwanie dla wydawców internetowych, ponieważ skrobaki są od dawna wykorzystywane do gromadzenia danych ze stron internetowych. Jest to jednak kolejny aspekt, który może być istotny w wysoce wyspecjalizowanych niszach lub na platformach informacyjnych.

Opcje rezygnacji ze szkoleń AI

Bez regulacji wydawcy muszą ręcznie zrezygnować z rozwoju każdej firmy zajmującej się sztuczną inteligencją. Dwie główne, z których należy zrezygnować, to OpenAI (twórca ChatGPT) i Google (który ma Bard i Vertex AI).

Niektórzy przedstawiciele branży wydawniczej online uważają to za opcję nominalną, a jeden z dyrektorów stwierdził: „To symboliczny gest… Myślę, że był to w pewnym sensie zmarnowany wysiłek z mojej strony. To nieuniknione, że te rzeczy są wchłaniane, przeszukiwane i wyciągane z nich wnioski.”

Niemniej jednak wydawcy mają teraz możliwość rezygnacji.

Jak zrezygnować z ChatGPT

Niektóre witryny nie muszą się martwić, że robot OpenAI zbierze informacje z ich zawartości.

Firma twierdzi, że nie gromadzi danych z treści znajdujących się za zaporą płatniczą lub formularzem żądającym podania danych osobowych. Nie indeksuje również witryn, które nie są zgodne z wytycznymi dotyczącymi treści OpenAI. Wszystko to jest automatycznie filtrowane.

Wydawcy, których treści nie są automatycznie wykluczane (co dotyczy większości wydawców), mogą zablokować GPTBota, dodając podstawowy kod do pliku robots.txt swojej witryny internetowej.

GPTBot jest identyfikowany w pliku robots.txt jako:

Token agenta użytkownika: GPTBot
Pełny ciąg agenta użytkownika: Mozilla/5.0 AppleWebKit/537.36
(KHTML, jak Gecko; kompatybilny; GPTBot/1.0;
+https://openai.com/gptbot)

Aby całkowicie zablokować GPTBota, dodaj następujące elementy do pliku robots.txt swojej witryny:

Agent użytkownika: GPTBot
Uniemożliwić: /

Aby selektywnie zablokować GPTBotowi dostęp do określonej zawartości, skorzystaj z poniższego przykładu, aby wybrać, do których folderów można uzyskać dostęp, a do których nie można uzyskać dostępu:

Agent użytkownika: GPTBot
Zezwalaj: /katalog-1/
Nie zezwalaj: /katalog-2/

Przypomina to blokowanie Google lub robotom innej wyszukiwarki dostępu do witryny internetowej lub folderów.

Jak zrezygnować z Google Bard

We wrześniu 2023 r. firma Google udostępniła opcję rezygnacji dla swoich Bard AI i Vertex AI. Rezygnacja odbywa się w podobny sposób, jak rezygnacja z OpenAI.

Aby zablokować robota Google AI, dodaj następujący kod do pliku robots.txt swojej witryny:

Klient użytkownika: Rozszerzony Google
Uniemożliwić: /

Podobnie jak w przypadku bota OpenAI, możesz także przyznać Google pewien, ale nie całkowity dostęp:

Klient użytkownika: Rozszerzony Google
Zezwalaj: /katalog-1/
Nie zezwalaj: /katalog-2/

„Traktują to wszystko jako jeden wielki produkt do wyszukiwania”.
– Matt Rogerson, „Strażnik”.

Przed rezygnacją webmasterzy i wydawcy powinni mieć świadomość, że prawdopodobnie będzie to oznaczać, że witryna nie będzie również indeksowana pod kątem wyszukiwania. Jak to ujął Matt Rogerson z The Guardian, są to „zestaw skrobaków”. Wyjaśnił: „Traktują to wszystko jako jeden wielki produkt do wyszukiwania. Mówią: „Nie, nie masz możliwości wyboru szczegółowości. Dajemy Ci możliwość rezygnacji.' Ale oczywiście nie chcemy rezygnować ze wszystkich usług indeksowania sieci.”

Blokuj boty szkoleniowe AI w swoich treściach

To rozwiązanie nie jest idealne. Jak dotąd dotyczy tylko dwóch twórców sztucznej inteligencji (np. nie Microsoft), a wszystkie firmy w tej dziedzinie pozyskały już ogromne ilości danych. Jak napisał Google: „Wraz z rozwojem zastosowań sztucznej inteligencji wydawcy stron internetowych staną w obliczu rosnącej złożoności zarządzania różnymi zastosowaniami na dużą skalę”.

Są to jednak dwie proste czynności, które mogą podjąć webmasterzy i wydawcy online.

Jeśli jesteś wydawcą internetowym i obawiasz się, w jaki sposób Twoje treści mogą zostać wykorzystane do szkolenia w zakresie sztucznej inteligencji, wykonaj te dwie proste czynności, aby zablokować dostęp do Twojej witryny programom OpenAI Chat GPT, Google Bard i Vertex AI firmy Google.

Interesuje Cię, w jaki sposób wydawcy wykorzystują sztuczną inteligencję?

Oto kilka dodatkowych artykułów na temat sztucznej inteligencji dla wydawców cyfrowych:

Jak główne puby medialne wykorzystują sztuczną inteligencję do produkcji treści
6 sposobów, w jakie sztuczna inteligencja może zwiększyć liczbę subskrypcji
Megalista narzędzi AI dla wydawców
Więcej artykułów na temat AI dla wydawców

Rozwiązanie Admiral do zarządzania relacjami z gośćmi (VRM) wykorzystuje sztuczną inteligencję i uczenie maszynowe na wiele sposobów i stale udoskonala narzędzia w celu automatyzacji wzrostu relacji z gośćmi i przychodów. Przykłady obejmują integrację ChatGPT w celu zautomatyzowania generowania wezwania do działania w celu zwiększenia konwersji oraz wyzwalacze w czasie rzeczywistym oparte na skokach ruchu odwiedzających z funkcją Surge Targeting.

Dowiedz się, jak VRM może pomóc Ci w budowaniu relacji i przychodach na całej długości podróży odwiedzającego.

Zaplanuj demonstrację