Como cancelar os bots de treinamento de IA do Google Bard e OpenAI ChatGPT

Publicados: 2023-11-13

Como a inteligência artificial apenas começou a mudar grande parte da vida na Internet (e normal), muitos estão levantando questões éticas sobre como as empresas que desenvolvem IA obtêm os dados que são usados para treinar este software. Para resolver essas preocupações, tanto a OpenAI quanto o Google tomaram medidas para fornecer aos editores a opção de excluir seu conteúdo do uso para treinar bots de IA.

Preocupações dos editores da Web sobre AI Bots

Os editores têm razão em se preocupar com o papel que seu conteúdo desempenha no treinamento de IA, e podem estar preocupados por alguns motivos diferentes.

Direitos autorais e ganhos de conteúdo

Os criadores e editores têm o direito de obter receitas com o conteúdo que disponibilizam. Quem detém os direitos autorais deve se beneficiar do uso de seu conteúdo. Isso levanta duas preocupações específicas para os editores.

Primeiro, as empresas que desenvolvem programas de inteligência artificial estão a utilizar o conteúdo dos editores sem os compensar. Embora este seja um uso anteriormente incomum, os programas de treinamento são uma forma de usar o conteúdo. Os editores devem, portanto, ter controle sobre se permitirão isso (e talvez se cobrarão).

"copiou e processou ilegalmente milhões de imagens protegidas por direitos autorais"
- Processo da Getty Images

É exatamente isso que a Getty Images, um dos maiores provedores de fotos e vídeos online, cobrou da OpenAI. A Getty Images afirma que suas 12 milhões de imagens foram usadas “sem permissão… ou compensação”. O processo inclui vários exemplos de imagens que apresentam uma marca d'água borrada da Getty Images.

Um processo adicional da Getty Images afirma que a Stability AI “copiou e processou ilegalmente milhões de imagens protegidas por direitos autorais”, com exemplos de arquivos produzidos com logotipos Getty alterados por IA.

Getty Images combate violação de direitos autorais contra IA de estabilidade - BeyondGames.biz

Comparação de fotos apresentadas no The Verge

Mudanças na indústria de editores trazidas pela IA

Alguns editores podem ver a IA como uma ameaça em seu setor. Mesmo que aceitem que o seu modelo de negócio terá eventualmente de mudar devido às capacidades da IA, podem não querer acelerar o desenvolvimento do software.

Embora impedir o acesso de empresas de IA a um editor específico possa ter um efeito insignificante no desenvolvimento, alguns editores podem opor-se a isso com base em princípios.

Protegendo Conteúdo Exclusivo

Alguns editores podem esperar manter seu conteúdo único, evitando que a IA o copie (ou faça algo semelhante). Este não é um desafio novo para editores online, já que scrapers são usados há muito tempo para coletar dados de sites. É outra faceta que pode ser relevante em nichos altamente especializados ou para plataformas de notícias.

Opções para cancelar o treinamento de IA

Sem regulamentação, os editores devem cancelar manualmente o desenvolvimento de cada empresa de IA. Os dois principais opt-out são OpenAI (criador do ChatGPT) e Google (que possui Bard e Vertex AI).

Alguns membros da indústria editorial on-line veem isso como uma opção nominal, com um executivo afirmando: “É um gesto simbólico...Acho que foi um esforço desperdiçado da minha parte. É inevitável que esse material seja ingerido, rastreado e aprendido.”

No entanto, os editores agora têm a opção de cancelar.

Como cancelar o ChatGPT

Certos sites não precisam se preocupar com o rastreador da OpenAI coletando informações de seu conteúdo.

A empresa afirma que não coleta dados de conteúdo protegido por acesso pago ou formulário solicitando informações pessoais. Ele também não rastreia sites que não estejam alinhados com as diretrizes de conteúdo da OpenAI. Tudo isso é filtrado automaticamente.

Os editores que possuem conteúdo que não é excluído automaticamente (o que inclui a maioria dos editores) podem bloquear o GPTBot adicionando código básico ao arquivo robots.txt de seus sites.

O GPTBot é identificado em um arquivo robots.txt como:

Token do agente do usuário: GPTBot
String completa do agente do usuário: Mozilla/5.0 AppleWebKit/537.36
(KHTML, como Gecko; compatível; GPTBot/1.0;
+https://openai.com/gptbot)

Para bloquear totalmente o GPTBot, adicione o seguinte ao arquivo robots.txt do seu site:

Agente de usuário: GPTBot
Proibir: /

Para bloquear seletivamente o GPTBot de conteúdo específico, use o exemplo a seguir para selecionar quais pastas podem ou não ser acessadas:

Agente de usuário: GPTBot
Permitir: /diretório-1/
Proibir: /diretório-2/

Isso é como bloquear o acesso de rastreadores do Google ou de outro mecanismo de pesquisa a um site ou pastas.

Como cancelar o Google Bard

O Google disponibilizou uma desativação para Bard AI e Vertex AI em setembro de 2023. A desativação é executada da mesma maneira que a desativação do OpenAI.

Para bloquear o rastreador de IA do Google, adicione o seguinte código ao arquivo robots.txt do seu site:

Agente do usuário: Google-Extended
Proibir: /

Tal como acontece com o bot da OpenAI, você também pode dar ao Google acesso parcial, mas não total:

Agente do usuário: Google-Extended
Permitir: /diretório-1/
Proibir: /diretório-2/

"Eles tratam tudo como um grande produto de busca."
- Matt Rogerson, O guardião

Antes de cancelar, os webmasters e editores devem estar cientes de que isso provavelmente significará que um site também não será rastreado para indexação de pesquisa. Como disse Matt Rogerson, do The Guardian, estes são “raspadores agrupados”. Ele explicou: “Eles tratam tudo como um grande produto de busca. Eles dizem: 'Não, você não tem a opção de granularidade. Damos-lhe a oportunidade de cancelar.' Mas, obviamente, não queremos cancelar todo o rastreamento da web.”

Bloqueie bots de treinamento de IA do seu conteúdo

Esta solução não é perfeita. Até agora, ele aborda apenas dois desenvolvedores de IA (por exemplo, não a Microsoft), e todas as empresas neste campo já coletaram grandes quantidades de dados. Como escreveu o Google: “À medida que as aplicações de IA se expandem, os editores da web enfrentarão a complexidade crescente de gerenciar diferentes usos em escala”.

No entanto, essas são duas ações simples que webmasters e editores online podem realizar.

Se você é um editor on-line e está preocupado com a forma como seu conteúdo pode ser usado para treinamento de IA, execute estas duas ações simples para impedir que o Chat GPT da OpenAI, o Bard do Google e o Vertex AI do Google acessem seu site.

Interessado em como a IA está sendo usada pelos editores?

Aqui estão alguns artigos adicionais sobre IA para editores digitais:

Como os principais editores de mídia estão usando IA para produção de conteúdo
6 maneiras pelas quais a IA pode aumentar as assinaturas
Megalista de ferramentas de IA para editores
Mais artigos sobre IA para editores

A solução Visitor Relationship Management (VRM) da Admiral aproveita a IA e o aprendizado de máquina de diversas maneiras e continua a inovar em ferramentas para automatizar o crescimento do relacionamento e da receita com os visitantes. Os exemplos incluem a integração do ChatGPT para automatizar a geração de CTA para gerar conversões e gatilhos em tempo real com base em picos de tráfego de visitantes com Surge Targeting.

Descubra como o VRM pode ajudá-lo a gerar relacionamentos e receitas ao longo da jornada do visitante.

Agende uma demonstração