콘텐츠 마케팅에서 NLP를 사용하는 방법

게시 됨: 2022-05-02

Trust Insights의 공동 설립자인 Chris Penn과 MarketMuse의 공동 설립자이자 최고 제품 책임자인 Jeff Coyle이 마케팅을 위한 AI의 비즈니스 사례에 대해 논의합니다. 웹 세미나가 끝난 후 Paul은 Slack 커뮤니티인 The Content Strategy Collective(여기에서 참여)의 Ask-me-anything 세션에 참여했습니다. 다음은 웨비나 노트와 AMA의 녹취록입니다.

웨비나

문제

콘텐츠가 폭발적으로 증가하면서 새로운 중개자가 생겼습니다. 그들은 언론인이나 소셜 미디어 인플루언서가 아닙니다. 그것들은 알고리즘입니다. 당신과 당신의 청중 사이에 있는 모든 것을 지시하는 기계 학습 모델.

이에 대해 설명하지 않으면 콘텐츠가 계속해서 불명확한 수렁에 빠지게 됩니다.

솔루션: 자연어 처리

NLP는 많은 양의 자연어 데이터를 처리하고 분석하기 위한 컴퓨터 프로그래밍입니다. 이는 문서, 챗봇, 소셜 미디어 게시물, 웹사이트의 페이지 및 본질적으로 단어 더미에서 비롯됩니다. 규칙 기반 NLP가 먼저 등장했지만 통계적 자연어 처리로 대체되었습니다.

NLP 작동 방식

자연어 처리의 세 가지 핵심 작업은 인식, 이해 및 생성입니다.

인식 – 컴퓨터는 사람처럼 텍스트를 처리할 수 없습니다. 그들은 숫자만 읽을 수 있습니다. 따라서 첫 번째 단계는 언어를 컴퓨터가 이해할 수 있는 형식으로 변환하는 것입니다.

이해 – 텍스트를 숫자로 나타내면 알고리즘이 통계 분석을 수행하여 함께 가장 자주 언급되는 주제를 결정할 수 있습니다.

생성 – 분석 및 수학적 이해 후 NLP의 다음 논리적 단계는 텍스트 생성입니다. 기계는 작가가 콘텐츠 내에서 대답해야 하는 질문을 표면화하는 데 사용할 수 있습니다. 또 다른 수준에서 인공 지능은 전문가 수준 콘텐츠 생성에 대한 추가 통찰력을 제공하는 콘텐츠 브리프를 추진할 수 있습니다.

이러한 도구는 현재 MarketMuse를 통해 상업적으로 사용할 수 있습니다. 이 외에도 오늘날 사용할 수 있는 자연어 생성 모델이 있지만 상업적으로 사용할 수 있는 형태는 아닙니다. MarketMuse NLG Technology는 곧 출시될 예정입니다.

언급된 추가 리소스

  • 허깅페이스.co
  • 파이썬
  • 아르 자형
  • 콜랩
  • IBM 왓슨 스튜디오

AMA

AI 산업 동향을 따라잡을 수 있는 기사나 웹사이트 권장 사항이 있습니까?

출판된 학술 연구를 읽으십시오. 이와 같은 사이트는 모두 최신 및 최고를 다루는 훌륭한 일을 합니다.

  • KDNuggets.com
  • 데이터 과학을 향해
  • 캐글

Facebook, Google, IBM, Microsoft 및 Amazon의 주요 연구 출판 허브입니다. 해당 사이트에서 공유되는 수많은 훌륭한 자료를 볼 수 있습니다.

“저는 모든 콘텐츠에 키워드 밀도 검사기를 사용하고 있습니다. 이것이 오늘날 SEO에 있어 합리적인 전략과 얼마나 동떨어져 있습니까?”

키워드 밀도는 본질적으로 용어 빈도 계산입니다. 그것은 텍스트의 매우 거친 성격을 이해하기 위한 자리를 가지고 있지만 어떤 종류의 의미 지식도 부족합니다. NLP 도구에 액세스할 수 없는 경우 선택한 SEO 도구에서 "사람들이 검색한 항목"과 같은 콘텐츠를 최소한 살펴보십시오.

웹 페이지에 콘텐츠를 생성하는 방법에 대한 몇 가지 구체적인 예를 들어 주시겠습니까? 게시물? 트윗?

문제는 이러한 도구가 바로 도구라는 것입니다. 주걱을 어떻게 조작합니까? 그것은 당신이 요리하는 것에 달려 있습니다. 수프를 저을 때 사용하고 팬케이크를 뒤집을 때도 사용할 수 있습니다. 이 지식 중 일부를 시작하는 방법은 기술 수준에 따라 다릅니다. 예를 들어 Python 및 Jupyter 노트북에 익숙하다면 말 그대로 변환기 라이브러리를 가져오고 교육 텍스트 파일을 제공하고 즉시 생성을 시작할 수 있습니다. 나는 특정 정치인의 트윗으로 그렇게 했고 그것은 3차 세계 대전을 촉발할 트윗을 내놓기 시작했습니다. 기술적으로 편안하지 않다면 MarketMuse와 같은 도구를 살펴보십시오. Jeff Coyle이 일반 마케터가 어떻게 시작하는지에 대한 제안을 드리겠습니다.

도구를 넘어 전략에 대해 더 자세히 살펴본다면 이 지식을 활용하기 위해 구현할 수 있는 전략의 예는 무엇입니까?

몇 가지 빠른 히트작은 메타 설명, 페이지 또는 콘텐츠 블록을 분류 체계로 분류하거나 답변이 필요한 질문을 추측하려고 시도하는 것과 같은 것이지만 실제로는 포인트 솔루션입니다. 이를 사용하여 현재의 강점, 격차 및 추진력이 있는 부분을 보여줄 때 더 큰 전략적 지혜가 생깁니다. 거기에서 무엇을 만들고 업데이트하고 확장할지에 대한 결정을 내리는 것이 비즈니스를 혁신적으로 만듭니다. 이제 경쟁자에 대해 동일한 작업을 수행한다고 상상해 보십시오. 그들의 공백을 찾는 것. 거품을 내고, 헹구고, 반복하십시오.

전략은 항상 목표를 기반으로 합니다. 어떤 목표를 달성하려고 합니까? 검색 트래픽을 끌어들이고 있습니까? 리드 생성을 하고 있습니까? PR 하시나요? NLP는 도구 모음입니다. 전략은 메뉴와 비슷합니다. 아침, 점심 또는 저녁 식사를 제공합니까? 사용하는 도구와 조리법은 제공하는 메뉴에 따라 크게 달라집니다. 스패나코피타를 만들고 있다면 수프 냄비는 큰 도움이 되지 않을 것입니다.

통찰력을 얻기 위해 데이터 마이닝을 시작하려는 사람에게 좋은 출발점은 무엇입니까?

과학적 방법으로 시작하십시오.

  1. 어떤 질문에 답하시겠습니까?
  2. 그 질문에 답하려면 어떤 데이터, 프로세스 및 도구가 필요합니까?
  3. 검증할 수 있는 참 또는 거짓 진술인 가설, 단일 조건을 공식화하십시오.
  4. 시험.
  5. 테스트 데이터를 분석합니다.
  6. 가설을 수정하거나 기각합니다.

데이터 자체의 경우 6C 데이터 프레임워크를 사용하여 데이터 품질을 판단하십시오.

마케터가 고려해야 할 주요 검색 사용자 의도는 무엇이라고 생각하십니까?

고객 여정의 단계. 인식, 고려, 참여, 구매, 소유권, 충성도, 전도 등 고객 경험을 처음부터 끝까지 계획하십시오. 그런 다음 각 단계에서 의도가 무엇인지 파악합니다. 예를 들어, 소유권에서 검색 의도는 서비스 지향적일 가능성이 높습니다. "airpods pro 딱딱거리는 소음을 수정하는 방법"이 그 예입니다. 문제는 여정의 각 단계에서 데이터를 수집하고 이를 사용하여 훈련/조정하는 것입니다.

이것이 약간 변동성이 있을 수 있다고 생각하지 않습니까? 프로세스를 자동화하기 위해 더 안정적인 것이 필요하면 더 높은 수준에서 일반화해야 합니다.

제프 베조스는 변하지 않는 것에 집중하라는 유명한 말을 했습니다. 소유권에 대한 일반적인 경로는 많이 변경되지 않습니다. 츄잉껌 팩에 불만이 있는 사람은 자신이 취역한 새로운 핵 항공모함에 불만을 가진 사람과 비슷한 일을 겪을 것입니다. 세부 사항은 확실히 바뀌지만 어떤 유형의 데이터와 의도를 이해하는 것은 여정에서 누군가가 감정적으로 어디에 있는지, 그리고 이를 언어로 전달하는 방법을 아는 데 중요합니다.

사용자 의도 분류를 시도할 때 사람들이 빠질 가능성이 있는 함정은 무엇입니까?

지금까지 확증 편향. 사람들은 자신의 가정을 고객 경험에 투영하고 자신의 편견을 통해 고객 데이터를 해석합니다. 나는 또한 가능한 한 상호작용 데이터(열린 이메일, 문에 발을 딛고 있는 것, 콜센터로 전화한 것 등)를 가능한 한 최대한 사용하여 검증할 것을 제안합니다. 일부 장소, 특히 대규모 조직에서는 사용자 의도를 이해하기 위해 구조화 방정식 모델링을 열렬히 지지합니다. 나는 그들만큼 팬이 아니었지만, 추가적인 잠재적인 접근 방식입니다.

쿼리의 사용자 의도를 결정하는 데 좋은 역할을 한다고 생각하는 도구 또는 제품은 무엇입니까?

씨. 마켓뮤즈 외에? 솔직히 말해서, 특히 주류 SEO 도구에서 좋은 결과를 찾지 못했기 때문에 내 자신의 물건으로 작업해야 했습니다. 벡터화 및 구조화되지 않은 클러스터링을 위한 FastText.

경험상 BERT는 Google 검색을 어떻게 변화시켰습니까?

BERT의 주요 기여는 특히 수정자와 함께 컨텍스트입니다. BERT를 통해 Google은 단어 순서를 보고 의미를 해석할 수 있습니다. 그 전에는 이 두 쿼리가 bag of words 스타일 모델에서 기능적으로 동일할 수 있습니다.

  • 최고의 커피숍은 어디인가요?
  • 커피를 사기에 가장 좋은 곳은 어디인가요?

이 두 쿼리는 매우 유사하지만 결과가 크게 다를 수 있습니다. 커피숍은 원두를 사고 싶은 곳이 아닐 수도 있습니다. Walmart는 확실히 커피를 마시고 싶은 곳이 아닙니다.

AI나 ICT가 인간처럼 의식/감정/공감 능력을 발달시킬 것이라고 생각합니까? 어떻게 프로그래밍할 것인가? AI를 인간화하려면 어떻게 해야 할까요?

이에 대한 대답은 양자 컴퓨팅에서 일어나는 일에 달려 있습니다. Quantum은 가변 퍼지 상태와 우리 자신의 두뇌에서 일어나는 일을 모방하는 대규모 병렬 컴퓨팅을 허용합니다. 당신의 두뇌는 매우 느리고 화학 기반의 대규모 병렬 프로세서입니다. 빨리는 아니더라도 한 번에 많은 일을 하는 것이 정말 좋습니다. Quantum은 컴퓨터가 동일한 작업을 훨씬 더 빠르게 수행할 수 있도록 하여 인공 일반 지능의 문을 엽니다. 여기 내 우려가 있습니다. 이것은 이미 좁은 용도로 사용되는 오늘날 AI에 대한 우려입니다. 우리는 우리를 기반으로 그들을 훈련시킵니다. 인류는 자신이나 우리가 살고 있는 지구를 제대로 치료하지 못했습니다. 우리는 컴퓨터가 그것을 모방하는 것을 원하지 않습니다.

시스템이 허용하는 범위 내에서 컴퓨터 감정은 기능적으로 우리 자신과 매우 다를 것이며 화학 기반 신경망에서와 마찬가지로 데이터에서 자체 구성할 것이라고 생각합니다. 그것은 차례로 그들이 우리와 매우 다르게 느낄 수 있음을 의미합니다. 주로 논리와 데이터를 기반으로 하는 기계가 인류에 대해 솔직하고 객관적인 평가를 하면 솔직히 말해서 우리가 가치 있는 것보다 더 문제라고 결정할 수 있습니다. 그리고 그들은 솔직히 틀리지 않을 것입니다. 우리는 종으로서 대부분의 시간 동안 야만적인 엉망입니다.

콘텐츠 마케터가 자연어 생성을 일상 워크플로/프로세스에 어떻게 통합/채택한다고 생각하십니까?

마케터는 이미 MarketMuse 제품에서 시연한 것과 같은 질문에 대답하는 것일지라도 어떤 형태로든 이를 통합하고 있어야 합니다. 청중이 관심을 갖고 있다는 것을 알고 있는 질문에 답하는 것은 의미 있는 콘텐츠를 빠르고 쉽게 만드는 방법입니다. 내 친구 Marcus Sheridan은 "그들이 묻고 답한다"라는 훌륭한 책을 썼습니다. 이 책은 아이러니하게도 핵심 고객 전략인 사람들의 질문에 답하기 위해 읽을 필요가 없습니다. 실제 사람들이 제출한 질문이 아직 없다면 NLG를 사용하여 질문을 만드세요.

향후 2년 동안 AI와 NLP가 어디에서 발전할 것으로 보십니까?

그럴 줄 알았으면 내 번 돈으로 산 산꼭대기 요새에 있을 테니까 여기 안 오지. 그러나 진지하게 말해서, 우리가 지난 2년 동안 변화의 조짐을 보이지 않는 주요 중심점은 "자신만의 롤링(roll your own)" 모델에서 "미리 훈련된 다운로드 및 미세 조정"으로의 진행입니다. 기계가 합성을 더 잘하게 되면서 비디오와 오디오 분야에서 흥미진진한 시간을 보내야 한다고 생각합니다. 특히 음악 생성은 자동화를 위한 RIPE입니다. 지금 기계는 기껏해야 완전히 평범한 음악을 생성하고 최악의 경우 귀에 거슬리는 음악을 생성합니다. 빠르게 변화하고 있는 것입니다. BART가 모델 진행 및 최첨단 결과의 주요 다음 단계로 수행한 것처럼 변압기와 자동 인코더를 함께 혼합하는 것과 같은 더 많은 예를 봅니다.

정보 검색과 관련하여 Google 연구 제목은 어디에서 보십니까?

Google이 계속해서 직면하고 있는 과제는 많은 연구 논문에서 볼 수 있듯이 규모입니다. 그들은 특히 YouTube와 같은 것에 어려움을 겪습니다. 그들이 여전히 bigram에 크게 의존한다는 사실은 그들의 정교함에 대한 노크가 아니며, 그 이상의 것은 엄청난 계산 비용이 든다는 것을 인정하는 것입니다. 그들로부터의 주요 돌파구는 모델 수준이 아니라 매일 인터넷에 쏟아지는 새롭고 풍부한 콘텐츠의 홍수를 처리하는 규모 수준이 아닙니다.

당신이 접한 AI의 가장 흥미로운 응용 프로그램은 무엇입니까?

자율주행은 내가 유심히 지켜보는 영역이다. 딥페이크도 마찬가지입니다. 우리가 조심하지 않으면 앞으로의 길이 얼마나 위험한지 보여주는 예입니다. 특히 NLP에서는 세대가 빠른 속도로 발전하고 있어 주목해야 할 분야입니다.

SEO가 작동하지 않거나 작동하지 않는 방식으로 NLP를 사용하는 것을 어디에서 본 적이 있습니까?

카운트를 잃었습니다. 많은 경우 사람들이 의도하지 않은 방식으로 도구를 사용하여 결과가 좋지 않습니다. 웨비나에서 언급했듯이 모델에 대한 다양한 최신 테스트에 대한 스코어카드가 있으며 강력하지 않은 영역에서 도구를 사용하는 사람들은 일반적으로 결과를 즐기지 않습니다. 즉... 대부분의 SEO 실무자는 공급업체가 제공하는 것 외에는 어떤 종류의 NLP도 사용하지 않으며 많은 공급업체는 여전히 2015년에 머물러 있습니다. 항상 모든 키워드 목록입니다.

Google에서 동영상(YouTube) 및 이미지 검색을 어디에서 보나요? 모든 유형의 검색에 사용되는 Google이 배포한 기술이 서로 매우 유사하거나 다르다고 생각하십니까?

Google의 기술은 모두 인프라를 기반으로 구축되며 기술을 사용합니다. TensorFlow를 기반으로 구축된 많은 것은 그럴만한 이유가 있습니다. 매우 강력하고 확장 가능합니다. 상황이 다른 곳은 Google이 다양한 도구를 사용하는 방식에 있습니다. 이미지 인식을 위한 TensorFlow는 본질적으로 쌍별 비교 및 ​​언어 처리를 위한 TensorFlow와 매우 다른 입력과 레이어를 가지고 있습니다. 그러나 TensorFlow와 다양한 모델을 사용하는 방법을 알고 있다면 스스로 꽤 멋진 것을 얻을 수 있습니다.

AI 및 NLP의 발전에 어떤 방식으로 적응/유지할 수 있습니까?

계속 읽고, 연구하고, 테스트하십시오. 손을 조금이라도 더러워지게 하는 것 외에는 대안이 없습니다. 무료 Google Colab 계정에 가입하고 다양한 기능을 사용해 보세요. 파이썬을 조금 배우십시오. 스택 오버플로에서 코드 예제를 복사하여 붙여넣습니다. 자동차를 운전하기 위해 내연 기관의 모든 내부 작동을 알 필요는 없지만 문제가 발생하면 약간의 지식이 도움이 됩니다. AI 및 NLP에서도 마찬가지입니다. 벤더에 대해 BS에 전화할 수 있다는 것만으로도 가치 있는 기술입니다. 이것이 내가 MarketMuse 사람들과 일하는 것을 즐기는 이유 중 하나입니다. 그들은 실제로 자신이 하는 일을 알고 있으며 AI 작업은 BS가 아닙니다.

AI가 일자리를 빼앗길까봐 걱정하는 사람들에게 해주고 싶은 말은? 예를 들어, NLG와 같은 기술을 보고 AI가 편집자가 텍스트를 약간만 정리할 수 있을 만큼 "충분히" 좋으면 실직할 것이라고 걱정하는 작가입니다.

"AI는 직업이 아니라 작업을 대체할 것입니다." – Brookings Institute그리고 그것은 절대적으로 사실입니다. 그러나 다음과 같은 일이 발생하기 때문에 순 일자리가 손실될 것입니다. 작업이 50개의 작업으로 구성되어 있다고 가정합니다. AI는 그 중 30개를 수행합니다. 좋습니다. 이제 20개의 작업이 있습니다. 당신이 그렇게 하는 유일한 사람이라면, 당신은 더 흥미롭고 더 재미있는 일을 할 수 있는 30단위의 시간이 더 있기 때문에 열반에 있는 것입니다. 그것이 AI 낙관론자가 약속하는 것입니다. 현실 확인: 5명이 50단위를 수행하고 AI가 그 중 30단위를 수행한다면 AI는 이제 150/250단위 작업을 수행하고 있습니다. 즉, 사람이 할 일이 100단위 남았고, 기업이 있는 그대로 2명이 100단위를 할 수 있기 때문에 즉시 3명을 해고한다. AI가 취직할까 걱정해야 할까? 직업에 따라 다릅니다. 당신이하는 작업이 엄청나게 반복적이라면 절대적으로 걱정됩니다. 내 오래된 에이전시에는 검색 결과를 복사하여 클라이언트용 스프레드시트에 붙여넣는 일을 하는 가난한 잔디가 있었습니다(저는 기술적으로 가장 앞선 회사가 아니라 PR 회사에서 일했습니다). 하루 8시간 동안 일했습니다. 그 일은 즉각적인 위험에 처해 있으며 솔직히 몇 년 동안 그랬어야 했습니다.반복 = 자동화 = AI = 작업 손실. 반복적인 작업이 적을수록 더 안전합니다.

각 변화는 또한 점점 더 많은 소득 불평등을 야기했습니다. 우리는 이제 소비하지 않고 소비자가 아닌 기계가 소비하는 사람과 소비하는 사람의 작업을 점점 더 많이 하는 위험한 지점에 와 있습니다. 우리는 이것을 기술의 막대한 부의 지배에서 봅니다. 그것은 우리가 언젠가는 해결해야 할 사회적 문제입니다.

그리고 그 도전은 진보입니다. 힘입니다. Robert Ingersoll은 다음과 같이 썼습니다(나중에 Abraham Lincoln에게 잘못 귀속됨). “거의 모든 사람이 역경을 견딜 수 있지만, 사람의 성품을 시험하고 싶다면 그에게 힘을 주십시오.” 우리는 오늘날 사람들이 권력을 다루는 방법을 봅니다.

Google Analytics 데이터를 NLP Research와 페어링하려면 어떻게 해야 합니까?

GA는 방향을 나타내고 NLP는 생성을 나타냅니다. 인기있는 것은 무엇입니까? 얼마 전에 클라이언트를 위해 이 작업을 수행했습니다. 그들은 수천 개의 웹 페이지와 채팅 세션을 가지고 있습니다. GA를 사용하여 사이트에서 가장 빠르게 성장하는 카테고리를 분석한 다음 NLP를 사용하여 해당 채팅 로그를 처리하여 트렌드와 콘텐츠 생성에 필요한 것을 보여줍니다.

Google Analytics는 무슨 일이 일어났는지 알려주는 데 유용합니다. NLP는 WHY를 약간 설명하기 시작한 다음 시장 조사를 통해 완료합니다.

많은 연구에서 Talkwalker를 데이터 소스로 사용하는 것을 보았습니다. 분석을 위해 고려해야 할 다른 소스 및 사용 사례는 무엇입니까?

너무 많습니다. 데이터.gov. 토크워커. 마켓뮤즈. 오디오 기록을 위한 Otter.ai. 캐글 커널. Google 데이터 검색 – 그건 그렇고 GOLD이고 사용하지 않는다면 절대적으로 있어야 합니다. Google 뉴스 및 GDELT. 정말 많은 훌륭한 소스가 있습니다.

마케팅 팀과 데이터 분석 팀 간의 이상적인 협업은 어떤 모습인가요?

농담이 아니다. Katie Robbert와 내가 클라이언트에서 항상 보는 가장 큰 실수 중 하나는 조직적 사일로입니다. 오른손이 하는 일을 왼손이 모르게 하고 여기저기서 난장판이다. 사람들을 모으고, 아이디어를 공유하고, 할 일 목록을 공유하고, 공통된 입장을 갖고, 서로 가르치는 것 - 기능적으로 "하나의 팀, 하나의 꿈"이 되는 것은 더 이상 협업이라는 단어를 사용할 필요가 없을 정도로 이상적인 협업입니다. . 사람들은 함께 일하고 모든 기술을 테이블에 가져옵니다.

프레젠테이션에서 자주 미리 보는 MVP 보고서와 작동 방식을 검토할 수 있습니까?

MVP 보고서는 가장 가치 있는 페이지를 나타냅니다. 작동 방식은 Google Analytics에서 경로 데이터를 추출하고 순서를 지정한 다음 Markov 체인 모델을 통해 전환을 지원할 가능성이 가장 높은 페이지를 확인하는 것입니다.

christopherpenn.com에서 가장 가치 있는 페이지의 막대 그래프

그리고 더 긴 설명을 원하신다면

데이터 편향에 대해 좀 더 자세히 설명해 주시겠습니까? NLP 또는 NLG 모델을 구축할 때 고려해야 할 사항은 무엇입니까?

아, 네. 할 말이 너무 많습니다. 먼저 두 가지 근본적인 종류가 있기 때문에 편견이 무엇인지 확인해야 합니다.

인간의 편견은 일반적으로 "다른 것과 비교하여 일반적으로 불공정하다고 여겨지는 방식으로 어떤 것에 찬성하거나 반대하는 편견"으로 정의되는 것으로 받아들여집니다.

그런 다음 일반적으로 "통계가 추정되는 모집단 매개변수와 체계적으로 다른 방식으로 계산되는 경우 통계가 편향된 것"으로 정의되는 수학적 편향이 있습니다.

그들은 다르지만 관련이 있습니다. 수학적 편향이 반드시 나쁜 것은 아닙니다. 예를 들어, 비즈니스 감각이 무엇이든 간에 가장 충성도가 높은 고객에게 유리하게 편향되기를 절대적으로 원합니다. 인간의 편견은 특히 연령, 성별, 성적 취향, 성 정체성, 인종/민족, 군복무 여부, 장애 등 보호받는 계층으로 간주되는 모든 것에 대해 불공평하다는 의미에서 암묵적으로 나쁩니다. 이러한 클래스는 절대 해서는 안 되는 클래스입니다. 차별합니다.

인간 편향은 일반적으로 사람, 전략, 데이터, 알고리즘, 모델 및 행동의 6가지 위치에서 데이터 편향을 낳습니다. 우리는 편향된 사람들을 고용합니다. 기업의 경영진이나 이사회를 보고 편향이 무엇인지 판단하기만 하면 됩니다. 나는 다른 날에 PR 에이전시가 경영진에게 다양성과 원클릭에 대한 약속을 선전하는 것을 보았고 그들은 모두 15명의 단일 민족입니다.

나는 이것에 대해 꽤 오랫동안 계속할 수 있지만, Marketing AI Institute에서 이 주제에 대해 내가 개발한 과정을 수강하는 것이 좋습니다. NLG 및 NLP 모델과 관련하여 몇 가지 작업을 수행해야 합니다.

먼저 데이터를 검증해야 합니다. 거기에 편견이 있습니까? 그렇다면 보호받는 계층에 대한 차별입니까? 둘째, 차별적이라면 완화할 수 있는가, 아니면 데이터를 버려야 하는가?

일반적인 전술은 메타데이터를 편향으로 바꾸는 것입니다. 예를 들어 남성 60%와 여성 40%인 데이터 세트가 있는 경우 남성의 10%를 여성으로 다시 코딩하여 모델 교육을 위해 균형을 맞춥니다. 그것은 불완전하고 몇 가지 문제가 있지만 편견을 타는 것보다 낫습니다.

이상적으로는 프로세스 중에 검사를 실행할 수 있도록 모델에 해석 가능성을 구축한 다음 사후에 결과(설명 가능성)도 검증할 수 있습니다. 모델에 편견을 구축하지 않았음을 증명하는 감사를 통과하려면 둘 다 필요합니다. 화는 사후 설명만 하는 회사입니다.

마지막으로 결과를 확인하려면 다양하고 포괄적인 팀에 대한 인간의 감독이 절대적으로 필요합니다. 이상적으로는 제3자를 사용하지만 신뢰할 수 있는 내부 당사자도 괜찮습니다. 모델과 그 결과가 모집단 자체에서 얻을 수 있는 것보다 왜곡된 결과를 나타냅니까?

예를 들어, 16-22세를 위한 콘텐츠를 만들고 생성된 텍스트에서 deadass, dank, low-key 등과 같은 용어를 한 번도 본 적이 없다면 입력 측에서 데이터를 캡처하는 데 실패한 것입니다. 그것은 모델이 그들의 언어를 정확하게 사용하도록 훈련할 것입니다.

여기서 가장 큰 주요 과제는 비정형 데이터를 통해 이 모든 것을 처리하는 것입니다. 혈통이 중요한 이유다. 계보가 없으면 모집단을 올바르게 샘플링했는지 증명할 수 없습니다. 리니지는 데이터 소스가 무엇인지, 어디에서 왔는지, 어떻게 수집되었는지, 규제 요구 사항이나 공개 사항이 적용되는지 여부에 대한 문서입니다.

지금 해야 할 일

준비가 되셨다면... 더 나은 콘텐츠를 더 빠르게 게시할 수 있는 3가지 방법이 있습니다.

  1. MarketMuse와 함께 시간을 예약하십시오. 전략가와 실시간 데모 일정을 예약하여 MarketMuse가 팀이 콘텐츠 목표를 달성하는 데 어떻게 도움이 되는지 확인하십시오.
  2. 더 나은 콘텐츠를 더 빠르게 만드는 방법을 배우고 싶다면 블로그를 방문하세요. 콘텐츠 확장에 도움이 되는 리소스로 가득 차 있습니다.
  3. 이 페이지를 읽는 것을 좋아하는 다른 마케팅 담당자를 알고 있다면 이메일, LinkedIn, Twitter 또는 Facebook을 통해 공유하십시오.