Как отказаться от обучающих ботов ИИ от Google Bard и OpenAI ChatGPT

Опубликовано: 2023-11-13

Поскольку искусственный интеллект только начал переворачивать большую часть интернет- (и обычной) жизни, многие поднимают этические вопросы о том, как компании, разрабатывающие ИИ, получают данные, которые используются для обучения этого программного обеспечения. Чтобы решить эти проблемы, и OpenAI, и Google предприняли шаги, чтобы предоставить издателям возможность исключить использование их контента для обучения ботов с искусственным интеллектом.

Опасения веб-издателей по поводу ИИ-ботов

Издатели справедливо обеспокоены ролью, которую их контент играет в обучении ИИ, и они могут быть обеспокоены по нескольким причинам.

Авторские права на контент и доходы

Создатели и издатели имеют право получать доход от контента, который они предоставляют. Тот, кто обладает авторскими правами, должен получать выгоду от использования их контента. Это вызывает у издателей две конкретные проблемы.

Во-первых, компании, разрабатывающие программы искусственного интеллекта, используют контент издателей, не выплачивая им компенсации. Хотя раньше это было редкостью, обучающие программы представляют собой способ использования контента. Поэтому издатели должны иметь контроль над тем, разрешат ли они это (и, возможно, будут ли взимать плату).

«незаконно скопированы и обработаны миллионы изображений, защищенных авторским правом»
- Иск Getty Images

Именно в этом Getty Images, один из крупнейших онлайн-провайдеров фото и видео, поручил OpenAI. Getty Images утверждает, что их 12 миллионов изображений были использованы «без разрешения… или компенсации». В иск включено несколько примеров изображений с размытым водяным знаком Getty Images.

В дополнительном иске Getty Images утверждается, что Stability AI «незаконно скопировала и обработала миллионы изображений, защищенных авторским правом», с примерами файлов, созданных с измененными ИИ логотипами Getty.

Getty Images борется с нарушением авторских прав и стабильностью искусственного интеллекта - BeyondGames.biz

Сравнение фотографий опубликовано на The Verge

Изменения в издательской индустрии, вызванные искусственным интеллектом

Некоторые издатели могут рассматривать ИИ как угрозу в своей отрасли. Даже если они признают, что их бизнес-модель в конечном итоге придется изменить из-за возможностей ИИ, они, возможно, не захотят ускорять разработку программного обеспечения.

Хотя запрет компаниям, занимающимся искусственным интеллектом, получать доступ к конкретному издателю, может оказать незначительное влияние на разработку, некоторые издатели могут возражать против этого по принципиальным соображениям.

Защита уникального контента

Некоторые издатели могут надеяться сохранить уникальность своего контента, не позволяя ИИ потенциально копировать его (или создавать что-то подобное). Это не новая проблема для онлайн-издателей, поскольку парсеры уже давно используются для сбора данных с веб-сайтов. Однако это еще один аспект, который может быть актуален в узкоспециализированных нишах или для новостных платформ.

Варианты отказа от обучения ИИ

Без регулирования издатели должны вручную отказываться от разработки каждой ИИ-компании. Двумя основными компаниями, от которых следует отказаться, являются OpenAI (создатель ChatGPT) и Google (у которого есть Bard и Vertex AI).

Некоторые представители индустрии онлайн-издательств рассматривают это как номинальный вариант, при этом один из руководителей заявил: «Это символический жест… Я думаю, что с моей стороны это были напрасные усилия. То, что этот материал проглатывается, сканируется и извлекается из него, неизбежно».

Тем не менее, теперь у издателей есть возможность отказаться.

Как отказаться от ChatGPT

Некоторым сайтам не нужно беспокоиться о том, что сканер OpenAI собирает информацию из их контента.

Компания заявляет, что не собирает данные из контента, находящегося за платным доступом, или из формы, запрашивающей личную информацию. Он также не сканирует сайты, которые не соответствуют рекомендациям OpenAI по содержанию. Все это отфильтровывается автоматически.

Издатели, у которых есть контент, который не исключен автоматически (в том числе большинство издателей), могут заблокировать GPTBot, добавив базовый код в файл robots.txt своего веб-сайта.

GPTBot идентифицируется в файле robots.txt как:

Токен пользовательского агента: GPTBot.
Полная строка пользовательского агента: Mozilla/5.0 AppleWebKit/537.36.
(KHTML, как Gecko; совместим; GPTBot/1.0;
+https://openai.com/gptbot)

Чтобы полностью заблокировать GPTBot, добавьте в файл robots.txt вашего сайта следующее:

Пользовательский агент: GPTBot
Запретить: /

Чтобы выборочно заблокировать GPTBot от определенного контента, используйте следующий пример, чтобы выбрать, к каким папкам можно или нельзя получить доступ:

Пользовательский агент: GPTBot
Разрешить: /каталог-1/
Запретить: /каталог-2/

Это очень похоже на блокировку доступа сканеров Google или другой поисковой системы к веб-сайту или папкам.

Как отказаться от Google Bard

В сентябре 2023 года Google предоставила возможность отказа для своих Bard AI и Vertex AI. Отказ осуществляется почти так же, как отказ OpenAI.

Чтобы заблокировать робота Google с искусственным интеллектом, добавьте следующий код в файл robots.txt вашего сайта:

Пользовательский агент: Google-Extended
Запретить: /

Как и в случае с ботом OpenAI, вы также можете предоставить Google некоторый, но не полный доступ:

Пользовательский агент: Google-Extended
Разрешить: /каталог-1/
Запретить: /каталог-2/

«Они рассматривают все это как один большой поисковый продукт».
- Мэтт Роджерсон, The Guardian

Прежде чем отказаться от участия, веб-мастера и издатели должны знать, что это, скорее всего, будет означать, что сайт также не будет сканироваться для поискового индексирования. Как выразился Мэтт Роджерсон из The Guardian, это «комплексные скребки». Он объяснил: «Они рассматривают все это как один большой поисковый продукт. Они такие: «Нет, у вас нет выбора степени детализации». Мы даем вам возможность отказаться». Но очевидно, что мы не хотим отказываться от сканирования веб-страниц».

Блокируйте доступ обучающих ботов ИИ к вашему контенту

Это решение не идеально. Пока что речь идет только о двух разработчиках ИИ (например, не о Microsoft), а все компании в этой области уже собрали огромные объемы данных. Как пишет Google: «По мере расширения приложений искусственного интеллекта веб-издатели будут сталкиваться с растущей сложностью управления различными видами использования в масштабе».

Однако это два простых действия, которые могут предпринять веб-мастера и онлайн-издатели.

Если вы онлайн-издатель и обеспокоены тем, как ваш контент может быть использован для обучения искусственному интеллекту, выполните эти два простых действия, чтобы заблокировать Chat GPT OpenAI, Google Bard и Google Vertex AI доступ к вашему веб-сайту.

Вас интересует, как издатели используют искусственный интеллект?

Вот несколько дополнительных статей об искусственном интеллекте для цифровых издателей:

Как крупные медиа-пабы используют ИИ для производства контента
6 способов, с помощью которых ИИ может увеличить количество подписок
Мегалист инструментов искусственного интеллекта для издателей
Дополнительные статьи об искусственном интеллекте для издателей

Решение Admiral для управления взаимоотношениями с посетителями (VRM) различными способами использует искусственный интеллект и машинное обучение и продолжает внедрять инновационные инструменты для автоматизации роста отношений с посетителями и доходов. Примеры включают интеграцию ChatGPT для автоматизации генерации призыва к действию для увеличения конверсий, а также триггеры в реальном времени на основе всплесков трафика посетителей с помощью Surge Targeting.

Узнайте, как VRM может помочь вам улучшить отношения и увеличить доход на протяжении всего пути посетителя.

Запланировать демонстрацию