Cómo darse de baja de los robots de entrenamiento de IA de Google Bard y OpenAI ChatGPT

Publicado: 2023-11-13

Dado que la inteligencia artificial acaba de empezar a alterar gran parte de la vida en Internet (y en la vida normal), muchos plantean cuestiones éticas sobre cómo las empresas que desarrollan IA obtienen los datos que se utilizan para entrenar este software. Para abordar estas preocupaciones, tanto OpenAI como Google han tomado medidas para brindar a los editores una opción para excluir su contenido del uso para entrenar robots de IA.

Preocupaciones de los editores web sobre los robots de inteligencia artificial

Los editores tienen razón al preocuparse por el papel que desempeña su contenido en el entrenamiento de la IA, y podrían estar preocupados por diferentes razones.

Derechos de autor del contenido y ganancias

Los creadores y editores tienen derecho a obtener ingresos del contenido que ponen a disposición. Quien tenga los derechos de autor debería beneficiarse del uso de su contenido. Esto plantea dos preocupaciones específicas para los editores.

En primer lugar, las empresas que desarrollan programas de inteligencia artificial utilizan el contenido de los editores sin compensarlos. Aunque este es un uso poco común anteriormente, los programas de capacitación son una forma en que se puede utilizar el contenido. Por lo tanto, los editores deberían tener control sobre si permitirán esto (y tal vez si cobrarán).

"Copiaron y procesaron ilegalmente millones de imágenes protegidas por derechos de autor"
- Demanda de Getty Images

Esto es exactamente lo que Getty Images, uno de los mayores proveedores de fotografías y vídeos en línea, ha acusado a OpenAI. Getty Images afirma que sus 12 millones de imágenes fueron utilizadas "sin permiso... ni compensación". La demanda incluye múltiples ejemplos de imágenes que presentan una marca de agua borrosa de Getty Images.

Una demanda adicional de Getty Images afirma que Stability AI "copió y procesó ilegalmente millones de imágenes protegidas por derechos de autor", con ejemplos de archivos producidos con logotipos de Getty alterados por IA.

$Getty Images combate la infracción de derechos de autor contra la estabilidad de la IA - BeyondGames.biz$

Comparación de fotos presentada en The Verge

Cambios en la industria editorial provocados por la IA

Algunos editores pueden ver la IA como una amenaza dentro de su industria. Incluso si aceptan que su modelo de negocio tendrá que cambiar eventualmente debido a las capacidades de la IA, es posible que no quieran acelerar el desarrollo del software.

Si bien impedir que las empresas de inteligencia artificial accedan a un editor específico podría tener un efecto insignificante en el desarrollo, algunos editores podrían oponerse a esto por principios.

Proteger contenido único

Algunos editores pueden esperar mantener su contenido único evitando que la IA pueda copiarlo (o crear algo similar). Este no es un desafío nuevo para los editores en línea, ya que los raspadores se han utilizado durante mucho tiempo para recopilar datos de sitios web. Sin embargo, es otra faceta que podría ser relevante en nichos altamente especializados o para plataformas de noticias.

Opciones para optar por no recibir capacitación en IA

Sin regulación, los editores deben excluirse manualmente del desarrollo de cada empresa de IA. Los dos principales para excluirse son OpenAI (creador de ChatGPT) y Google (que tiene Bard y Vertex AI).

Algunos dentro de la industria editorial en línea ven esto como una opción nominal, y un ejecutivo afirmó: “Es un gesto simbólico... Creo que fue una especie de esfuerzo desperdiciado de mi parte. Es inevitable que estas cosas sean ingeridas, rastreadas y aprendidas”.

No obstante, los editores ahora tienen la opción de optar por no participar.

Cómo darse de baja de ChatGPT

Ciertos sitios no tienen que preocuparse de que el rastreador de OpenAI recopile información de su contenido.

La compañía dice que no recopila datos del contenido que se encuentra detrás de un muro de pago o un formulario que solicita información personal. Tampoco rastrea sitios que no estén alineados con las pautas de contenido de OpenAI. Todos estos se filtran automáticamente.

Los editores que tienen contenido que no se excluye automáticamente (lo que incluye a la mayoría de los editores) pueden bloquear GPTBot agregando un código básico al archivo robots.txt de su sitio web.

El GPTBot se identifica dentro de un archivo robots.txt como:

Token de agente de usuario: GPTBot
Cadena completa de agente de usuario: Mozilla/5.0 AppleWebKit/537.36
(KHTML, como Gecko; compatible; GPTBot/1.0;
+https://openai.com/gptbot)

Para bloquear GPTBot por completo, agregue lo siguiente al archivo robots.txt de su sitio:

Agente de usuario: GPTBot
No permitir: /

Para bloquear selectivamente el GPTBot de contenido específico, utilice el siguiente ejemplo para seleccionar a qué carpetas se puede acceder y a qué no:

Agente de usuario: GPTBot
Permitir: /directorio-1/
No permitir: /directorio-2/

Esto es muy parecido a bloquear el acceso de los rastreadores de Google u otros motores de búsqueda a un sitio web o a unas carpetas.

Cómo darse de baja de Google Bard

Google puso a disposición una opción de exclusión para Bard AI y Vertex AI en septiembre de 2023. La exclusión voluntaria se ejecuta de forma muy similar a la de OpenAI.

Para bloquear el rastreador de inteligencia artificial de Google, agregue el siguiente código al archivo robots.txt de su sitio:

Agente de usuario: Google extendido
No permitir: /

Al igual que con el bot de OpenAI, también puedes darle a Google acceso parcial, pero no total:

Agente de usuario: Google extendido
Permitir: /directorio-1/
No permitir: /directorio-2/

"Lo tratan todo como un gran producto de búsqueda".
- Matt Rogerson, El guardián

Antes de optar por no participar, los webmasters y editores deben tener en cuenta que esto probablemente significará que un sitio tampoco será rastreado para la indexación de búsqueda. Como lo expresó Matt Rogerson de The Guardian, estos son "paquetes de raspadores". Explicó: “Lo tratan todo como un gran producto de búsqueda. Dicen: 'No, no tienes la opción de granularidad'. Le damos la oportunidad de optar por no participar.' Pero, obviamente, no queremos excluirnos del rastreo web”.

Bloquee los robots de entrenamiento de IA de su contenido

Esta solución no es perfecta. Hasta el momento, solo se dirige a dos desarrolladores de IA (por ejemplo, no Microsoft), y todas las empresas en este campo ya han recopilado grandes cantidades de datos. Como ha escrito Google: "A medida que las aplicaciones de IA se expandan, los editores web se enfrentarán a la creciente complejidad de gestionar diferentes usos a escala".

Sin embargo, estas son dos acciones sencillas que los webmasters y los editores en línea pueden realizar.

Si es un editor en línea y le preocupa cómo se podría utilizar su contenido para la capacitación en IA, realice estas dos sencillas acciones para impedir que Chat GPT de OpenAI, Bard de Google y Vertex AI de Google accedan a su sitio web.

¿Está interesado en cómo utilizan los editores la IA?

A continuación se muestran algunos artículos adicionales sobre IA para editores digitales:

Cómo los principales medios de comunicación utilizan la IA para la producción de contenidos
Seis formas en que la IA puede aumentar las suscripciones
Megalista de herramientas de inteligencia artificial para editores
Más artículos sobre IA para editores

La solución Visitor Relationship Management (VRM) de Admiral aprovecha la inteligencia artificial y el aprendizaje automático de múltiples maneras y continúa innovando herramientas para automatizar el crecimiento de las relaciones con los visitantes y los ingresos. Los ejemplos incluyen la integración de ChatGPT para automatizar la generación de CTA para impulsar las conversiones y activadores en tiempo real basados en picos de tráfico de visitantes con Surge Targeting.

Descubra cómo VRM puede ayudarle a impulsar las relaciones y los ingresos a lo largo del recorrido del visitante.

Programe una demostración