Google Bard 및 OpenAI ChatGPT의 AI 교육 봇을 선택 해제하는 방법

게시 됨: 2023-11-13

인공 지능이 인터넷(및 일반) 생활의 많은 부분을 뒤흔들기 시작하면서 많은 사람들이 AI를 개발하는 회사가 이 소프트웨어 교육에 사용되는 데이터를 어떻게 소스로 제공하는지에 대해 윤리적인 질문을 제기하고 있습니다. 이러한 문제를 해결하기 위해 OpenAI와 Google은 게시자에게 AI 봇 교육에 콘텐츠가 사용되지 않도록 제외할 수 있는 옵션을 제공하는 조치를 취했습니다.

AI 봇에 대한 Web Publisher의 우려

출판사가 자신의 콘텐츠가 AI 훈련에 미치는 역할에 대해 우려하는 것은 옳으며, 몇 가지 다른 이유로 우려할 수 있습니다.

콘텐츠 저작권 및 수익

창작자와 출판사는 자신이 제공하는 콘텐츠로부터 수익을 얻을 권리가 있습니다. 저작권을 가진 사람은 누구나 해당 콘텐츠를 사용하여 이익을 얻을 수 있습니다. 이는 게시자에게 두 가지 구체적인 우려 사항을 제기합니다.

첫째, 인공지능 프로그램을 개발하는 기업들이 퍼블리셔의 콘텐츠를 보상 없이 활용하고 있습니다. 이전에는 이러한 용도가 흔하지 않았지만 교육 프로그램을 통해 콘텐츠를 사용할 수 있습니다. 따라서 게시자는 이를 허용할지 여부(및 비용을 청구할지 여부)를 제어할 수 있어야 합니다.

"저작권으로 보호되는 수백만 개의 이미지를 불법적으로 복제하고 처리했습니다."
- 게티 이미지 소송

이것이 바로 최대 온라인 사진 및 비디오 제공업체 중 하나인 Getty Images가 OpenAI에 요금을 청구한 내용입니다. Getty Images는 자사의 1,200만 장의 이미지가 “허가나 보상 없이” 사용되었다고 주장합니다. 소송에는 흐릿한 Getty Images 워터마크가 포함된 이미지의 여러 예가 포함되어 있습니다.

Getty Images의 추가 소송에서는 Stability AI가 AI로 변경된 Getty 로고로 생성된 파일의 예와 함께 "저작권으로 보호되는 수백만 개의 이미지를 불법적으로 복사하고 처리했다"고 주장합니다.

Getty Images, 안정성 AI에 대한 저작권 침해에 맞서 싸우다 - BeyondGames.biz

The Verge에 게재된 사진 비교

AI가 가져온 출판업계 변화

일부 출판사는 AI를 업계 내 위협으로 간주할 수 있습니다. AI의 기능으로 인해 비즈니스 모델이 결국 변경되어야 한다는 점을 인정하더라도 소프트웨어 개발을 가속화하고 싶지 않을 수 있습니다.

AI 기업이 특정 퍼블리셔에 접근하는 것을 막는 것은 개발에 미미한 영향을 미칠 수 있지만, 일부 퍼블리셔는 원칙적으로 이에 반대할 수도 있습니다.

고유한 콘텐츠 보호

일부 게시자는 AI가 잠재적으로 콘텐츠를 복사(또는 유사한 것을 만드는 것)하는 것을 방지하여 콘텐츠를 고유하게 유지하기를 원할 수 있습니다. 스크레이퍼는 오랫동안 웹사이트에서 데이터를 수집하는 데 사용되어 왔기 때문에 이는 온라인 게시자에게 새로운 과제는 아닙니다. 그러나 이는 고도로 전문화된 틈새 시장이나 뉴스 플랫폼과 관련될 수 있는 또 다른 측면입니다.

AI 훈련을 거부할 수 있는 옵션

규제가 없으면 게시자는 각 AI 회사의 개발을 수동으로 선택 해제해야 합니다. 옵트아웃할 주요 두 가지는 OpenAI(ChatGPT 창시자)와 Google(Bard 및 Vertex AI 보유)입니다.

온라인 출판 업계의 일부에서는 이를 명목상의 선택으로 보고 있으며, 한 임원은 다음과 같이 말했습니다. “상징적인 제스처입니다. 제 생각에는 일종의 낭비적인 노력이었다고 생각합니다. 이러한 정보가 수집되고 크롤링되고 학습되는 것은 필연적입니다.”

그럼에도 불구하고 게시자는 이제 선택을 취소할 수 있습니다.

ChatGPT를 거부하는 방법

특정 사이트에서는 OpenAI의 크롤러가 콘텐츠에서 정보를 수집하는 것에 대해 걱정할 필요가 없습니다.

회사는 페이월 뒤에 있는 콘텐츠나 개인 정보를 요청하는 양식에서 데이터를 수집하지 않는다고 말합니다. 또한 OpenAI의 콘텐츠 지침에 부합하지 않는 사이트는 크롤링하지 않습니다. 이들 모두는 자동으로 필터링됩니다.

자동으로 제외되지 않는 콘텐츠를 보유한 게시자(대부분의 게시자 포함)는 웹사이트의 robots.txt 파일에 기본 코드를 추가하여 GPTBot를 차단할 수 있습니다.

GPTBot는 robots.txt 파일 내에서 다음과 같이 식별됩니다.

사용자 에이전트 토큰: GPTBot
전체 사용자 에이전트 문자열: Mozilla/5.0 AppleWebKit/537.36
(Gecko와 같은 KHTML, 호환 가능, GPTBot/1.0;
+https://openai.com/gptbot)

GPTBot을 완전히 차단하려면 사이트의 robots.txt 파일에 다음을 추가하세요.

사용자 에이전트: GPTBot
허용하지 않음: /

특정 콘텐츠에서 GPTBot를 선택적으로 차단하려면 다음 예를 사용하여 액세스할 수 있는 폴더와 액세스할 수 없는 폴더를 선택하세요.

사용자 에이전트: GPTBot
허용: /directory-1/
허용하지 않음: /directory-2/

이는 Google이나 다른 검색 엔진의 크롤러가 웹사이트나 폴더에 액세스하는 것을 차단하는 것과 매우 유사합니다.

Google Bard를 선택 해제하는 방법

Google은 2023년 9월에 Bard AI 및 Vertex AI에 대한 옵트아웃 기능을 제공했습니다. 옵트아웃은 OpenAI의 옵트아웃과 거의 동일한 방식으로 실행됩니다.

Google의 AI 크롤러를 차단하려면 사이트의 robots.txt 파일에 다음 코드를 추가하세요.

사용자 에이전트: Google 확장
허용하지 않음: /

OpenAI의 봇과 마찬가지로 Google에 전체 액세스 권한이 아닌 일부 액세스 권한을 부여할 수도 있습니다.

사용자 에이전트: Google 확장
허용: /directory-1/
허용하지 않음: /directory-2/

"그들은 모든 것을 하나의 큰 검색 제품으로 취급합니다."
- 맷 로저슨, 가디언

선택 해제하기 전에 웹마스터와 게시자는 이로 인해 검색 색인 생성을 위해 사이트가 크롤링되지 않을 수도 있음을 알아야 합니다. The Guardian의 Matt Rogerson이 말했듯이 이들은 "번들형 스크레이퍼"입니다. 그는 이렇게 설명했습니다. “그들은 모든 것을 하나의 큰 검색 제품으로 취급합니다. 그들은 '아니요, 세분성을 선택할 수 없습니다. 우리는 귀하에게 탈퇴할 수 있는 기회를 제공합니다.' 하지만 분명히 우리는 모든 웹 크롤링을 거부하고 싶지 않습니다.”

콘텐츠에서 AI 훈련 봇 차단

이 솔루션은 완벽하지 않습니다. 지금까지 두 명의 AI 개발자(예: Microsoft는 아님)만 다루었으며 이 분야의 모든 회사는 이미 방대한 양의 데이터를 수집했습니다. Google이 쓴 것처럼 "AI 애플리케이션이 확장됨에 따라 웹 게시자는 다양한 용도를 대규모로 관리해야 하는 복잡성이 증가하는 상황에 직면하게 될 것입니다."

그러나 이는 웹마스터와 온라인 게시자가 취할 수 있는 두 가지 간단한 조치입니다.

온라인 게시자이고 콘텐츠가 AI 훈련에 어떻게 사용될 수 있는지 걱정된다면 다음 두 가지 간단한 조치를 취하여 OpenAI의 Chat GPT, Google의 Bard 및 Google의 Vertex AI가 웹 사이트에 액세스하지 못하도록 차단하세요.

출판사가 AI를 어떻게 사용하는지에 관심이 있으십니까?

디지털 출판사를 위한 AI에 관한 추가 기사는 다음과 같습니다.

주요 미디어 출판사가 콘텐츠 제작에 AI를 사용하는 방법
AI가 구독을 늘릴 수 있는 6가지 방법
출판사를 위한 AI 도구의 메가리스트
출판사를 위한 AI에 대한 추가 기사

Admiral의 VRM(방문자 관계 관리) 솔루션은 AI와 기계 학습을 다양한 방식으로 활용하고 방문자 관계 및 수익 성장을 자동화하는 도구를 지속적으로 혁신하고 있습니다. 예를 들어 CTA 생성을 자동화하여 전환을 유도하는 ChatGPT 통합, 급증 타겟팅을 통한 방문자 트래픽 급증을 기반으로 한 실시간 트리거 등이 있습니다.

VRM이 방문자 여정 전반에 걸쳐 관계와 수익을 창출하는 데 어떻게 도움이 되는지 알아보세요.

데모 예약