Google Bard と OpenAI ChatGPT による AI トレーニング ボットをオプトアウトする方法
公開: 2023-11-13人工知能がインターネット (そして通常の) 生活の多くを一変させ始めたばかりであるため、多くの人が、AI を開発する企業がこのソフトウェアのトレーニングに使用されるデータをどのように調達するかについて倫理的な疑問を提起しています。 これらの懸念に対処するために、OpenAI と Google は両方とも、コンテンツが AI ボットのトレーニングに使用されないようにするオプションをパブリッシャーに提供する措置を講じました。
Web パブリッシャーの AI ボットに関する懸念
パブリッシャーが AI のトレーニングにおけるコンテンツの役割について懸念するのは当然であり、いくつかの異なる理由で懸念している可能性があります。
コンテンツの著作権と収益
クリエイターとパブリッシャーは、利用可能にしたコンテンツから収益を得る権利を有します。 著作権を持っている人は誰でも、そのコンテンツの使用から利益を得るべきです。 これにより、パブリッシャーにとって 2 つの具体的な懸念が生じます。
まず、人工知能プログラムを開発している企業は、出版社のコンテンツを補償せずに利用している。 これは以前は一般的ではなかった使用法ですが、トレーニング プログラムはコンテンツを使用できる方法です。 したがって、パブリッシャーはこれを許可するかどうか (おそらく料金を請求するかどうか) を制御する必要があります。
「著作権で保護された何百万もの画像が不法にコピーされ、加工された」
- ゲッティイメージズの訴訟
これはまさに、オンライン写真とビデオの最大手プロバイダーの 1 つであるゲッティ イメージズが OpenAI に請求したことです。 ゲッティイメージズは、1,200万枚の画像が「許可も補償もなしに」使用されたと主張している。 訴状には、ぼやけたゲッティイメージズの透かしが入った画像の例が複数含まれている。
ゲッティイメージズによる追加の訴訟では、Stability AIが「著作権で保護された数百万枚の画像を違法にコピーおよび処理した」と主張し、AIによって改変されたゲッティロゴで作成されたファイルの例を挙げている。
The Vergeで写真の比較が紹介されました
AI がもたらす出版社業界の変化
パブリッシャーによっては、AI を業界内の脅威とみなしている場合があります。 AI の機能により、最終的にはビジネス モデルを変更する必要があることを受け入れたとしても、ソフトウェアの開発を加速したくないかもしれません。
AI 企業が特定のパブリッシャーにアクセスできないようにすることが開発に与える影響はごくわずかかもしれませんが、一部のパブリッシャーは原則に基づいてこれに反対する可能性があります。
ユニークなコンテンツの保護
一部のパブリッシャーは、AI によるコピー (または類似のものの作成) を防ぐことで、自社のコンテンツの独自性を維持したいと考えているかもしれません。 Web サイトからデータを収集するためにスクレーパーが長年使用されてきたため、これはオンライン パブリッシャーにとって新しい課題ではありません。 ただし、これは高度に専門化されたニッチ分野やニュース プラットフォームに関連する可能性がある別の側面です。
AI トレーニングをオプトアウトするオプション
規制がなければ、パブリッシャーは各AI企業の開発を手動でオプトアウトしなければならない。 オプトアウトすべき主な 2 つは、OpenAI (ChatGPT の作成者) と Google (Bard と Vertex AI を搭載) です。
オンライン出版業界の中には、これを名目上の選択肢と見る人もおり、ある幹部は次のように述べています。 このようなものが取り込まれ、クロールされ、そこから学習されるのは必然です。」
それにもかかわらず、パブリッシャーには現在オプトアウトするオプションがあります。
ChatGPT をオプトアウトする方法
特定のサイトでは、OpenAI のクローラーがコンテンツから情報を収集することを心配する必要はありません。
同社は、ペイウォールの内側にあるコンテンツや個人情報を要求するフォームからデータを収集することはないと述べている。 また、OpenAI のコンテンツ ガイドラインに準拠していないサイトはクロールされません。 これらはすべて自動的に除外されます。
自動的に除外されないコンテンツを所有する発行者 (ほとんどの発行者を含む) は、Web サイトの robots.txt ファイルに基本コードを追加することで GPTBot をブロックできます。
GPTBot は robots.txt ファイル内で次のように識別されます。
ユーザーエージェントトークン: GPTBot
完全なユーザー エージェント文字列: Mozilla/5.0 AppleWebKit/537.36
(Gecko のような KHTML、互換性、GPTBot/1.0、
+https://openai.com/gptbot)
GPTBot を完全にブロックするには、サイトの robots.txt ファイルに次のコードを追加します。
ユーザーエージェント: GPTBot
許可しない: /
特定のコンテンツから GPTBot を選択的にブロックするには、次の例を使用して、アクセスできるフォルダーとアクセスできないフォルダーを選択します。
ユーザーエージェント: GPTBot
許可: /ディレクトリ-1/
禁止: /directory-2/
これは、Google や他の検索エンジンのクローラーが Web サイトやフォルダーにアクセスするのをブロックするのとよく似ています。
Google Bard をオプトアウトする方法
Google は、2023 年 9 月に Bard AI と Vertex AI でオプトアウトを利用できるようにしました。オプトアウトは、OpenAI のオプトアウトとほぼ同じ方法で実行されます。
Google の AI クローラーをブロックするには、サイトの robots.txt ファイルに次のコードを追加します。
ユーザーエージェント: Google-Extended
許可しない: /
OpenAI のボットと同様に、完全ではないものの一部のアクセス権を Google に与えることもできます。
ユーザーエージェント: Google-Extended
許可: /ディレクトリ-1/
禁止: /directory-2/
「彼らはすべてを 1 つの大きな検索製品として扱います。」
- マット・ロジャーソン、ガーディアン紙
オプトアウトする前に、ウェブマスターとサイト運営者は、これによりサイトが検索インデックス作成のためにクロールされなくなる可能性があることを認識しておく必要があります。 ガーディアン紙のマット・ロジャーソン氏が述べたように、これらは「バンドルされたスクレーパー」です。 彼は次のように説明しました。「彼らはすべてを 1 つの大きな検索製品として扱います。 彼らは、「いいえ、粒度を選択することはできません」のようなものです。 私たちはあなたにオプトアウトする機会を与えます。」 しかし、明らかに、すべての Web クローリングをオプトアウトしたいわけではありません。」
コンテンツから AI トレーニング ボットをブロックする
この解決策は完璧ではありません。 これまでのところ、AI 開発者は 2 社のみに対応しており (例: Microsoft ではありません)、この分野のすべての企業がすでに膨大な量のデータを収集しています。 Google が書いているように、「AI アプリケーションが拡大するにつれて、Web パブリッシャーはさまざまな用途を大規模に管理するという複雑さの増大に直面することになります。」
ただし、これらはウェブマスターとオンライン パブリッシャーが実行できる 2 つの簡単なアクションです。
あなたがオンライン パブリッシャーで、自分のコンテンツが AI トレーニングにどのように使用されるかを懸念している場合は、次の 2 つの簡単なアクションを実行して、OpenAI の Chat GPT、Google の Bard、および Google の Vertex AI による Web サイトへのアクセスをブロックしてください。
パブリッシャーによる AI の使用方法に興味がありますか?
デジタル出版者向けの AI に関するその他の記事は次のとおりです。
- 大手メディアパブリッシャーはコンテンツ制作に AI をどのように活用しているか
- AI が購読者数を増やす 6 つの方法
- パブリッシャー向け AI ツールのメガリスト
- パブリッシャー向け AI に関するその他の記事
Admiral の訪問者関係管理 (VRM) ソリューションは、AI と機械学習をさまざまな方法で活用し、訪問者との関係と収益の成長を自動化するツールの革新を続けています。 例には、コンバージョンを促進するための CTA 生成を自動化する ChatGPT の統合や、サージ ターゲティングによる訪問者のトラフィックの急増に基づくリアルタイム トリガーなどが含まれます。
VRM が訪問者ジャーニー全体での関係と収益の促進にどのように役立つかをご覧ください。