如何选择退出 Google Bard 和 OpenAI ChatGPT 的 AI 训练机器人

已发表: 2023-11-13

由于人工智能刚刚开始颠覆大部分互联网(和正常)生活,许多人对开发人工智能的公司如何获取用于训练该软件的数据提出了道德问题。 为了解决这些问题,OpenAI 和谷歌都已采取措施,为出版商提供一个选项,将其内容排除在训练人工智能机器人之外。

网络出版商对人工智能机器人的担忧

出版商担心他们的内容在人工智能训练中的作用是正确的,他们的担心可能有几个不同的原因。

内容版权和收入

创作者和出版商有权从他们提供的内容中赚取收入。 拥有版权的人都应该从其内容的使用中受益。 这引起了出版商的两个具体担忧。

首先,开发人工智能程序的公司正在使用出版商​​的内容而不向他们提供补偿。 尽管这是以前不常见的用途,但培训计划是使用内容的一种方式。 因此,出版商应该控制是否允许这样做(也许他们是否会收费)。

“非法复制和处理数百万张受版权保护的图像”
- 盖蒂图片社诉讼

这正是最大的在线照片和视频提供商之一 Getty Images 对 OpenAI 的要求。 Getty Images 声称他们的 1200 万张图片被“未经许可……或补偿”地使用。 该诉讼包括多个带有模糊的盖蒂图片水印的图像示例。

Getty Images 提起的另一起诉讼声称 Stability AI“非法复制和处理了数百万张受版权保护的图像”,其中包括使用 AI 更改的 Getty 徽标生成的文件示例。

Getty Images 打击稳定性 AI 的版权侵权行为 - BeyondGames.biz

The Verge 上的照片比较

AI带来的出版行业变革

一些出版商可能将人工智能视为其行业内的威胁。 即使他们承认他们的商业模式最终将因人工智能的功能而改变,他们也可能不想加速软件的开发。

虽然阻止人工智能公司访问特定出版商可能对发展的影响可以忽略不计,但一些出版商可能会基于原则反对这一点。

保护独特内容

一些出版商可能希望通过防止人工智能复制(或制作类似的东西)来保持其内容的独特性。 对于在线出版商来说,这并不是一个新的挑战,因为抓取工具长期以来一直被用来从网站收集数据。 然而,这是另一个与高度专业化的利基市场或新闻平台相关的方面。

选择退出人工智能培训的选项

如果没有监管,出版商必须手动选择退出每个人工智能公司的开发。 两个主要选择退出的是 OpenAI(ChatGPT 的创建者)和 Google(拥有 Bard 和 Vertex AI)。

在线出版行业的一些人认为这是一个名义上的选择,一位高管表示:“这是一种象征性的姿态……我认为这对我来说是一种浪费的努力。 这些东西被摄取、爬行和学习是不可避免的。”

尽管如此,出版商现在可以选择退出。

如何选择退出 ChatGPT

某些网站不必担心 OpenAI 的爬虫从其内容中收集信息。

该公司表示,它不会从付费专区或要求个人信息的表格后面的内容中收集数据。 它还不会抓取不符合 OpenAI 内容指南的网站。 所有这些都会被自动过滤掉。

拥有未自动排除的内容的发布商(包括大多数发布商)可以通过向其网站的 robots.txt 文件添加基本代码来阻止 GPTBot。

GPTBot 在 robots.txt 文件中被标识为:

用户代理令牌:GPTBot
完整的用户代理字符串:Mozilla/5.0 AppleWebKit/537.36
(KHTML,如 Gecko;兼容;GPTBot/1.0;
+https://openai.com/gptbot)

要完全阻止 GPTBot,请将以下内容添加到您网站的 robots.txt 文件中:

用户代理:GPTBot
不允许: /

要有选择地阻止 GPTBot 访问特定内容,请使用以下示例来选择可以访问哪些文件夹和不能访问哪些文件夹:

用户代理:GPTBot
允许:/directory-1/
禁止:/directory-2/

这很像阻止 Google 或其他搜索引擎的爬虫访问网站或文件夹。

如何选择退出 Google Bard

Google 于 2023 年 9 月为其 Bard AI 和 Vertex AI 提供了选择退出功能。选择退出的执行方式与 OpenAI 的选择退出方式大致相同。

要阻止 Google 的 AI 抓取工具,请将以下代码添加到您网站的 robots.txt 文件中:

用户代理:Google 扩展
不允许: /

与 OpenAI 的机器人一样,您也可以向 Google 授予部分但不是全部访问权限:

用户代理:Google 扩展
允许:/directory-1/
禁止:/directory-2/

“他们将这一切视为一个大型搜索产品。”
——马特·罗杰森,《卫报》

在选择退出之前,网站管理员和发布商应该意识到,这可能意味着网站也不会被抓取以进行搜索索引。 正如《卫报》的马特·罗杰森所说,这些都是“捆绑的抓取工具”。 他解释说:“他们将这一切视为一个大型搜索产品。 他们说,‘不,你没有粒度选择。 我们为您提供选择退出的机会。 但显然,我们不想选择退出所有网络爬行。”

阻止人工智能训练机器人访问您的内容

这个解决方案并不完美。 到目前为止,它只针对两个人工智能开发人员(例如,不是微软),并且该领域的所有公司都已经抓取了大量数据。 正如谷歌所写,“随着人工智能应用的扩展,网络出版商将面临大规模管理不同用途的日益复杂性。”

然而,这是网站管理员和在线发布商可以采取的两个简单操作。

如果您是在线发布商,并且担心您的内容如何用于 AI 训练,请采取这两个简单的操作来阻止 OpenAI 的 Chat GPT、Google 的 Bard 和 Google 的 Vertex AI 访问您的网站。

对出版商如何使用人工智能感兴趣?

以下是一些有关数字出版商人工智能的其他文章:

  • 主要媒体酒吧如何使用人工智能进行内容制作
  • AI 增加订阅量的 6 种方式
  • 面向出版商的人工智能工具巨头列表
  • 有关出版商人工智能的更多文章

Admiral 的访客关系管理 (VRM) 解决方案以多种方式利用人工智能和机器学习,并不断创新工具以自动化访客关系和收入的增长。 示例包括集成 ChatGPT 以自动生成 CTA 以推动转化,以及基于访客流量峰值和激增目标进行实时触发。

了解 VRM 如何帮助您在访客旅程中推动关系和收入。

安排演示