如何選擇退出 Google Bard 和 OpenAI ChatGPT 的 AI 訓練機器人

已發表: 2023-11-13

由於人工智慧剛開始顛覆大部分網路（和正常）生活，許多人對開發人工智慧的公司如何獲取用於訓練該軟體的資料提出了道德問題。為了解決這些問題，OpenAI 和Google都已採取措施，為出版商提供一個選項，將其內容排除在訓練人工智慧機器人之外。

網路出版商對人工智慧機器人的擔憂

出版商擔心他們的內容在人工智慧訓練中的作用是正確的，他們的擔心可能有幾個不同的原因。

內容版權和收入

創作者和出版商有權從他們提供的內容中賺取收入。擁有版權的人都應該從其內容的使用中受益。這引起了出版商的兩個具體擔憂。

首先，開發人工智慧程式的公司正在使用出版商的內容而不向他們提供補償。儘管這是以前不常見的用途，但培訓計劃是使用內容的一種方式。因此，出版商應該控制是否允許這樣做（也許他們是否會收費）。

“非法複製和處理數百萬張受版權保護的圖像”
- 蓋蒂圖片社訴訟

這正是最大的線上照片和影片供應商之一 Getty Images 對 OpenAI 的要求。 Getty Images 聲稱他們的 1200 萬張圖片被「未經許可…或補償」地使用。該訴訟包括多個帶有模糊的蓋蒂圖片浮水印的圖像範例。

Getty Images 提起的另一起訴訟聲稱 Stability AI“非法複製和處理了數百萬張受版權保護的圖像”，其中包括使用 AI 更改的 Getty 徽標生成的文件示例。

Getty Images 打擊穩定 AI 的版權侵權行為 - BeyondGames.biz

The Verge 上的照片比較

AI帶來的出版業變革

一些出版商可能將人工智慧視為其行業內的威脅。即使他們承認他們的商業模式最終將因人工智慧的功能而改變，他們可能不想加速軟體的開發。

雖然阻止人工智慧公司訪問特定出版商可能對發展的影響可以忽略不計，但一些出版商可能會基於原則反對這一點。

保護獨特內容

一些出版商可能希望透過防止人工智慧複製（或製作類似的東西）來保持其內容的獨特性。對於線上出版商來說，這並不是一個新的挑戰，因為抓取工具長期以來一直被用來從網站收集資料。然而，這是另一個與高度專業化的利基市場或新聞平台相關的方面。

選擇退出人工智慧培訓的選項

如果沒有監管，出版商必須手動選擇退出每個人工智慧公司的開發。兩個主要選擇退出的是 OpenAI（ChatGPT 的創建者）和 Google（擁有 Bard 和 Vertex AI）。

線上出版業的一些人認為這是一個名義上的選擇，一位高層表示：「這是一種象徵性的姿態……我認為這對我來說是一種浪費的努力。這些東西被攝取、爬行和學習是不可避免的。”

儘管如此，出版商現在可以選擇退出。

如何選擇退出 ChatGPT

某些網站不必擔心 OpenAI 的爬蟲會從其內容中收集資訊。

該公司表示，它不會從付費專區或要求個人資訊的表格後面的內容中收集數據。它還不會抓取不符合 OpenAI 內容指南的網站。所有這些都會自動過濾掉。

擁有未自動排除的內容的發布者（包括大多數發布者）可以透過向其網站的 robots.txt 檔案添加基本程式碼來阻止 GPTBot。

GPTBot 在 robots.txt 檔案中被標識為：

使用者代理令牌：GPTBot
完整的用戶代理字串：Mozilla/5.0 AppleWebKit/537.36
（KHTML，如 Gecko；相容；GPTBot/1.0；
+https://openai.com/gptbot）

若要完全封鎖 GPTBot，請將以下內容新增至您網站的 robots.txt 檔案：

使用者代理：GPTBot
不允許： /

若要選擇性地阻止 GPTBot 存取特定內容，請使用下列範例來選擇可以存取哪些資料夾和不能存取哪些資料夾：

使用者代理：GPTBot
允許：/directory-1/
禁止：/directory-2/

這很像阻止 Google 或其他搜尋引擎的爬蟲訪問網站或資料夾。

如何選擇退出 Google Bard

Google 於 2023 年 9 月為其 Bard AI 和 Vertex AI 提供了選擇退出功能。選擇退出的執行方式與 OpenAI 的選擇退出方式大致相同。

若要封鎖 Google 的 AI 抓取工具，請將以下程式碼新增至您網站的 robots.txt 檔案：

使用者代理：Google 擴充
不允許： /

與 OpenAI 的機器人一樣，您也可以向 Google 授予部分但不是全部存取權限：

使用者代理：Google 擴充
允許：/directory-1/
禁止：/directory-2/

“他們將這一切視為一個大型搜尋產品。”
——馬特‧羅傑森，《衛報》

在選擇退出之前，網站管理員和發布商應該意識到，這可能意味著網站也不會被抓取以進行搜尋索引。正如《衛報》的馬特·羅傑森所說，這些都是「捆綁的抓取工具」。他解釋說：「他們將這一切視為一個大型搜尋產品。他們說，『不，你沒有粒度選擇。我們為您提供選擇退出的機會。但顯然，我們不想選擇退出所有網路爬行。”

阻止人工智慧訓練機器人存取您的內容

這個解決方案並不完美。到目前為止，它只針對兩個人工智慧開發人員（例如，不是微軟），而且該領域的所有公司都已經抓取了大量資料。正如Google所寫，“隨著人工智慧應用的擴展，網路出版商將面臨大規模管理不同用途的日益複雜性。”

然而，這是網站管理員和線上發布商可以採取的兩個簡單操作。

如果您是線上發布商，並且擔心您的內容如何用於 AI 訓練，請採取這兩個簡單的操作來阻止 OpenAI 的 Chat GPT、Google 的 Bard 和 Google 的 Vertex AI 訪問您的網站。

對出版商如何使用人工智慧感興趣？

以下是一些有關數位出版商人工智慧的其他文章：

主要媒體酒吧如何使用人工智慧進行內容製作
AI 增加訂閱量的 6 種方式
面向出版商的人工智慧工具巨頭列表
有關出版商人工智慧的更多文章

Admiral 的訪客關係管理 (VRM) 解決方案以多種方式利用人工智慧和機器學習，並不斷創新工具以自動化訪客關係和收入的成長。例如整合 ChatGPT 以自動產生 CTA 以推動轉化，以及基於訪客流量峰值和激增目標進行即時觸發。

了解 VRM 如何幫助您在訪客旅程中推動關係和收入。

安排演示