Como usar a PNL no Marketing de Conteúdo
Publicados: 2022-05-02Chris Penn, cofundador da Trust Insights, e o cofundador e diretor de produtos da MarketMuse, Jeff Coyle, discutem o caso de negócios da IA para marketing. Após o webinar, Paul participou de uma sessão pergunte-me-qualquer coisa em nossa Comunidade Slack, The Content Strategy Collective (ingresse aqui). Aqui estão as notas do webinar seguidas de uma transcrição da AMA.
O Webinário
O problema
Com a explosão de conteúdo temos novos intermediários. Eles não são jornalistas ou influenciadores de mídia social. São algoritmos; modelos de aprendizado de máquina que ditam tudo o que está entre você e seu público.
Deixe de levar em conta isso e seu conteúdo continuará atolado na obscuridade.
A solução: processamento de linguagem natural
A PNL é a programação de computadores para processar e analisar grandes quantidades de dados em linguagem natural. Isso vem de documentos, chatbots, postagens de mídia social, páginas em seu site e qualquer outra coisa que seja essencialmente uma pilha de palavras. A PNL baseada em regras veio primeiro, mas foi substituída pelo processamento estatístico de linguagem natural.
Como funciona a PNL
As três tarefas principais do processamento de linguagem natural são reconhecimento, compreensão e geração.
Reconhecimento – Computadores não podem processar texto como humanos. Eles só podem ler números. Portanto, o primeiro passo é converter o idioma em um formato que o computador possa entender.
Compreensão – Representar o texto como números permite que os algoritmos conduzam análises estatísticas para determinar quais tópicos são mencionados com mais frequência juntos.
Geração – Após análise e compreensão matemática, o próximo passo lógico na PNL é a geração de texto. As máquinas podem ser usadas para trazer à tona as perguntas que um escritor precisa responder em seu conteúdo. Em outro nível, a inteligência artificial pode gerar resumos de conteúdo que fornecem informações adicionais sobre a criação de conteúdo de nível especializado.
Essas ferramentas estão disponíveis comercialmente hoje através do MarketMuse. Além disso, estão os modelos de geração de linguagem natural com os quais você pode brincar hoje, mas não estão em uma forma comercialmente utilizável. Embora a MarketMuse NLG Technology esteja chegando muito em breve.
Recursos adicionais mencionados
- Huggingface.co
- Pitão
- R
- Colab
- Estúdio IBM Watson
A AMA
Você tem artigos ou recomendações de sites para acompanhar as tendências do setor de IA?
Esteja lendo as pesquisas acadêmicas publicadas por aí. Sites como esses fazem um ótimo trabalho ao cobrir o que há de mais recente e melhor.
- KDNuggets.com
- Em direção à ciência de dados
- Kaggle
Isso e os principais centros de publicação de pesquisa no Facebook, Google, IBM, Microsoft e Amazon. Você verá toneladas de ótimos materiais compartilhados nesses sites.
“Estou usando um verificador de densidade de palavras-chave para todo o meu conteúdo. Quão longe de ser uma estratégia razoável isso está hoje para SEO?”
A densidade de palavras-chave é essencialmente a contagem de frequência de termos. Tem seu lugar para entender a natureza muito grosseira do texto, mas carece de qualquer tipo de conhecimento semântico. Se você não tem acesso a ferramentas de PNL, pelo menos veja coisas como “as pessoas também pesquisaram” conteúdo na ferramenta de SEO de sua escolha.
Você poderia dar alguns exemplos específicos de como você gera conteúdo em… páginas da web? Postagens? tweets?
O desafio é que essas ferramentas são exatamente isso – são ferramentas. É tipo, como você operacionaliza uma espátula? Depende do que você está cozinhando. Você pode usá-lo para mexer a sopa e também virar panquecas. A maneira de começar com alguns desses conhecimentos depende do seu nível de habilidade técnica. Se você estiver familiarizado com os notebooks Python e Jupyter, por exemplo, poderá literalmente importar a biblioteca de transformadores, alimentar seu arquivo de texto de treinamento e começar a geração imediatamente. Fiz isso com os tweets de um certo político e começou a cuspir tweets que iniciariam a 3ª Guerra Mundial. Se você não estiver tecnicamente confortável, comece a procurar ferramentas como o MarketMuse. Vou deixar Jeff Coyle oferecer sugestões sobre como o profissional de marketing médio começa lá.
Se você olhar além das ferramentas, mas mais nas estratégias, qual poderia ser um exemplo de estratégia que você poderia implementar para fazer uso desse conhecimento?
Alguns hits rápidos são para coisas como meta descrições, para classificar páginas ou blocos de conteúdo em uma taxonomia ou para tentar adivinhar perguntas que precisam de respostas – mas essas são realmente soluções pontuais. A maior sabedoria estratégica vem quando você usa isso para mostrar seus pontos fortes atuais, suas lacunas e onde você tem impulso. A partir daí, tomar decisões sobre o que criar, atualizar, expandir torna-se transformador para um negócio. Agora imagine fazer o mesmo contra um concorrente. Encontrando suas lacunas. ensaboar, enxaguar, repetir.
A estratégia é sempre baseada no objetivo. Qual objetivo você está tentando alcançar? Você está atraindo tráfego de pesquisa? Você está fazendo geração de leads? Você está fazendo PR? A PNL é um monte de ferramentas. É semelhante a – estratégia é o menu. Você está servindo café da manhã, almoço ou jantar? Quais ferramentas e receitas você usa serão altamente dependentes do menu que você está servindo. Uma panela de sopa será profundamente inútil se você estiver fazendo spanakopita.
Qual é um bom ponto de partida para alguém que deseja começar a minerar dados para obter insights?
Comece com o método científico.
- Qual pergunta você quer responder?
- Quais dados, processos e ferramentas você precisa para responder a essa pergunta?
- Formule uma hipótese, uma afirmação de condição única, comprovadamente verdadeira ou falsa, que você possa testar.
- Teste.
- Analise seus dados de teste.
- Refinar ou rejeitar a hipótese.
Para os dados em si, use nossa estrutura de dados 6C para avaliar a qualidade dos dados.
Quais são, na sua opinião, as principais intenções do usuário de busca que os profissionais de marketing devem levar em consideração?
As etapas ao longo da jornada do cliente. Mapeie a experiência do cliente do início ao fim – conscientização, consideração, engajamento, compra, propriedade, lealdade, evangelismo. Em seguida, mapeie quais são as intenções em cada estágio. Por exemplo, na propriedade, as intenções de pesquisa provavelmente serão orientadas a serviços. “Como consertar airpods pro ruído crepitante” é um exemplo. O desafio é coletar dados em cada uma das etapas da jornada e usá-los para treinar/ajustar.
Você não acha que isso pode ser um pouco volátil? Se precisarmos de algo mais estável para automatizar o processo, precisamos generalizar as coisas em um nível mais alto.
Jeff Bezos disse a famosa frase, concentre-se no que não muda. O caminho geral para a propriedade não muda muito – alguém insatisfeito com seu pacote de chicletes experimentará coisas semelhantes a alguém insatisfeito com o novo porta-aviões nuclear que eles encomendaram. Os detalhes mudam, com certeza, mas entender quais tipos de dados e intenções é vital para saber onde alguém está, emocionalmente, em uma jornada – e como eles transmitem isso na linguagem.
Quais são as prováveis armadilhas em que as pessoas cairão ao tentar fazer a classificação de intenção do usuário?
De longe, viés de confirmação. As pessoas projetarão suas próprias suposições na experiência do cliente e interpretarão os dados do cliente por meio de seus próprios preconceitos. Eu também sugiro, na medida do possível, que você use os dados de interação (e-mails abertos, pés na porta, chamadas para o call center, etc.) da melhor maneira possível para validá-los. Eu sei que alguns lugares, especialmente organizações maiores, são grandes fãs de modelagem de equações estruturadas para entender a intenção do usuário. Eu não era tão fã quanto eles, mas é uma abordagem potencial adicional.
Quais são as ferramentas ou produtos que você acha que fazem um bom trabalho para determinar a intenção do usuário de uma consulta?
Woof. Além do MarketMuse? Honestamente, tive que trabalhar com minhas próprias coisas porque não encontrei ótimos resultados, especialmente nas ferramentas de SEO convencionais. FastText para vetorização e clustering não estruturado.
De acordo com sua experiência, como o BERT mudou a Pesquisa do Google?
A principal contribuição do BERT é o contexto, especialmente com modificadores. O BERT permite que o Google veja a ordem das palavras e interprete o significado. Antes disso, essas duas consultas podem ser funcionalmente equivalentes em um modelo de estilo de saco de palavras:
- onde fica o melhor café
- onde é o melhor lugar para comprar café
Essas duas consultas, embora muito semelhantes, podem ter resultados drasticamente diferentes. Uma cafeteria pode não ser um lugar onde você queira comprar grãos. Um Walmart DEFINITIVAMENTE não é um lugar onde você quer tomar café.
Você acha que a IA ou as TIC algum dia desenvolverão consciência/emoções/empatia como os humanos? Como vamos programá-los? Como podemos humanizar a IA?
A resposta para isso depende do que acontece com a computação quântica. O quântico permite estados difusos variáveis e computação massivamente paralela que imita o que está acontecendo em nossos próprios cérebros. Seu cérebro é um processador paralelo massivo muito lento, baseado em produtos químicos. É realmente bom em fazer um monte de coisas ao mesmo tempo, se não rapidamente. O quantum permitiria que os computadores fizessem a mesma coisa, mas muito, muito mais rápido – e isso abre as portas para a inteligência artificial geral. Aqui está a minha preocupação, e esta é uma preocupação com a IA hoje, já em uso restrito: nós os treinamos com base em nós. A humanidade não fez um bom trabalho tratando bem a si mesma ou ao planeta em que vivemos. Não queremos que nossos computadores imitem isso.
Suspeito que, na medida em que os sistemas permitirem, as emoções do computador serão funcionalmente muito diferentes das nossas e se auto-organizarão a partir de seus dados, assim como as nossas fazem a partir de nossas redes neurais de base química. Isso, por sua vez, significa que eles podem se sentir muito diferentes do que nós. Se as máquinas, baseadas principalmente em lógica e dados, fizerem uma avaliação sincera e objetiva da humanidade, elas podem determinar que, francamente, somos mais problemas do que valemos. E eles não estariam errados, francamente. Somos, como espécie, uma bagunça bárbara na maior parte do tempo.
Na sua opinião, como você vê os profissionais de marketing de conteúdo integrando/adotando a Natural Language Generation em seu fluxo de trabalho/processos diários?
Os profissionais de marketing já devem estar integrando alguma forma disso, mesmo que seja apenas respondendo a perguntas como demonstramos no produto MarketMuse. Responder a perguntas com as quais você sabe que o público se importa é uma maneira rápida e fácil de criar conteúdo significativo. Meu amigo Marcus Sheridan escreveu um ótimo livro, "Eles perguntam, você responde" que, ironicamente, você não precisa ler para entender a estratégia central do cliente: responder às perguntas das pessoas. Se você ainda não tiver perguntas enviadas por pessoas reais, use o NLG para fazê-las.
Onde você vê a IA e a PNL avançando nos próximos 2 anos?
Se eu soubesse disso, não estaria aqui, porque estaria na fortaleza no topo da montanha que comprei com meus ganhos. Mas com toda a seriedade, o principal pivô que vimos nos últimos 2 anos que não mostra nenhum sinal de mudança é a progressão de modelos “roll your own” para “download pré-treinado e ajuste fino”. Acho que teremos alguns momentos empolgantes em vídeo e áudio, à medida que as máquinas ficam melhores na síntese. A geração de música, em particular, é RIPE para automação; agora as máquinas geram música completamente medíocre na melhor das hipóteses e feridas nos ouvidos na pior. Isso está mudando rapidamente. Eu vejo mais exemplos como a combinação de transformadores e autoencoders como o BART fez como os próximos passos importantes na progressão do modelo e resultados de última geração.
Onde você vê o rumo da pesquisa do Google em relação à recuperação de informações?
O desafio que o Google continua enfrentando, e você vê isso em muitos de seus trabalhos de pesquisa, é a escala. Eles são especialmente desafiados com coisas como o YouTube; o fato de que eles ainda dependem fortemente de bigramas não é um golpe em sua sofisticação, é um reconhecimento de que qualquer coisa além disso tem um custo computacional insano. Quaisquer grandes avanços deles não serão no nível do modelo, mas no nível da escala para lidar com o dilúvio de conteúdo novo e rico que está sendo despejado na Internet todos os dias.
Quais são algumas das aplicações mais interessantes de IA que você encontrou?
Tudo autônomo é uma área que observo de perto. Assim como as falsificações profundas. Eles são exemplos de quão perigoso é o caminho à frente, se não tomarmos cuidado. Na PNL especificamente, a geração está avançando rapidamente e é a área a ser observada.
Onde você viu SEOs usarem a PNL de maneiras que não funcionam ou não funcionam?
Perdi a conta. Na maioria das vezes, são as pessoas usando uma ferramenta de uma maneira que não era pretendida e obtendo resultados abaixo da média. Como mencionamos no webinar, existem scorecards para os diferentes testes de última geração para modelos, e as pessoas que usam uma ferramenta em uma área que não é forte normalmente não gostam dos resultados. Dito isso... a maioria dos praticantes de SEO não está usando nenhum tipo de PNL além do que os fornecedores fornecem, e muitos fornecedores ainda estão presos em 2015. São todas as listas de palavras-chave, o tempo todo.
Onde você vê a pesquisa de vídeos (YouTube) e imagens no Google? Você acha que as tecnologias implantadas pelo Google usadas para todos os tipos de buscas são muito parecidas ou diferentes umas das outras?
As tecnologias do Google são todas construídas com base em sua infraestrutura e usam sua tecnologia. Muito é construído no TensorFlow e por boas razões – é super robusto e escalável. Onde as coisas variam é na forma como o Google usa as diferentes ferramentas. O TensorFlow para reconhecimento de imagem possui entradas e camadas muito diferentes do TensorFlow para comparação de pares e processamento de idioma. Mas se você souber usar o TensorFlow e os vários modelos disponíveis, poderá conseguir coisas muito legais por conta própria.
De que maneiras podemos nos adaptar/acompanhar os avanços em IA e PNL?
Continue lendo, pesquisando e testando. Não há substituto para sujar as mãos, pelo menos um pouco. Inscreva-se para uma conta gratuita do Google Colab e experimente. Ensine a si mesmo um pouco de Python. Copie e cole exemplos de código do Stack Overflow. Você não precisa conhecer todo o funcionamento interno de um motor de combustão interna para dirigir um carro, mas quando algo dá errado, um pouco de conhecimento ajuda bastante. O mesmo vale para IA e PNL – até mesmo poder chamar BS em um fornecedor é uma habilidade valiosa. É uma das razões pelas quais gosto de trabalhar com o pessoal do MarketMuse. Eles realmente sabem o que estão fazendo e seu trabalho de IA não é besteira.
O que você diria para as pessoas que estão preocupadas com a IA tomando seus empregos? Por exemplo, escritores que veem tecnologia como NLG e se preocupam em ficar sem trabalho se a IA puder ser “boa o suficiente” para um editor apenas limpar um pouco o texto.
“A IA substituirá tarefas, não empregos” – o Brookings InstituteE é absolutamente verdade. Mas haverá empregos líquidos perdidos, porque eis o que acontecerá. Suponha que seu trabalho seja composto de 50 tarefas. AI faz 30 deles. Ótimo, agora você tem 20 tarefas. Se você é a única pessoa que faz isso, então você está no nirvana porque você tem mais 30 unidades de tempo para fazer um trabalho mais interessante e divertido. Isso é o que os otimistas da IA prometem. Verificação da realidade: se há 5 pessoas fazendo essas 50 unidades e a IA faz 30 delas, então a IA agora está fazendo 150/250 unidades de trabalho. Isso significa que restam 100 unidades de trabalho para as pessoas fazerem, e as corporações sendo o que são, elas imediatamente cortarão 3 posições porque as 100 unidades de trabalho podem ser feitas por 2 pessoas. Você deveria se preocupar com a IA tomando empregos? Depende do trabalho. Se o trabalho que você faz é incrivelmente repetitivo, fique absolutamente preocupado. Na minha antiga agência, havia um pobre coitado cujo trabalho era copiar e colar resultados de pesquisa em uma planilha para clientes (eu trabalhava em uma empresa de relações públicas, não o lugar mais tecnologicamente avançado) 8 horas por dia. Esse trabalho está em perigo imediato e, francamente, deveria estar há anos. Repetição = automação = IA = perda de tarefa. Quanto menos repetitivo for o seu trabalho, mais seguro você estará.
Cada mudança também criou mais e mais desigualdade de renda. Estamos agora em um ponto perigoso onde as máquinas – que não gastam, não são consumidores – estão fazendo cada vez mais trabalho de pessoas que gastam, que consomem, e vemos isso no domínio maciço da riqueza em tecnologia. Essa é uma questão social que teremos que enfrentar em algum momento.
E o desafio com isso é o progresso é o poder. Como escreveu Robert Ingersoll (e mais tarde foi atribuído erroneamente a Abraham Lincoln): “Quase todos os homens podem suportar a adversidade, mas se você quiser testar o caráter de um homem, dê-lhe poder.” Vemos como as pessoas hoje estão lidando com o poder.
Como posso emparelhar os dados do Google Analytics com o NLP Research?
GA indica direção, então NLP indica criação. O que é popular? Acabei de fazer isso para um cliente há pouco tempo. Eles têm milhares de páginas da web e sessões de bate-papo. Usamos o GA para analisar quais categorias estavam crescendo mais rapidamente em seu site e, em seguida, usamos NLP para processar esses logs de bate-papo para mostrar a eles o que é tendência e o que eles precisavam para criar conteúdo.
O Google Analytics é ótimo para nos dizer O QUE aconteceu. A PNL pode começar a desvendar um pouco do PORQUÊ, e então completamos isso com pesquisa de mercado.
Eu vi você usar o Talkwalker como fonte de dados em muitos de seus estudos. Que outras fontes e casos de uso devo considerar para análise?
Assim, muitos. Data.gov. Talkwalker. MarketMuse. Otter.ai para transcrever seu áudio. Núcleos Kaggle. Google Data Search – que por sinal é OURO e se você não usa, com certeza deveria usar. Google Notícias e GDELT. Há tantas ótimas fontes por aí.
Como é uma colaboração ideal entre a equipe de marketing e análise de dados para você?
Sem brincadeira; um dos maiores erros que Katie Robbert e eu vemos o tempo todo nos clientes são os silos organizacionais. A mão esquerda não tem ideia do que a mão direita está fazendo, e é uma bagunça quente em todos os lugares. Reunir pessoas, compartilhar ideias, compartilhar listas de tarefas, ter reuniões em comum, ensinar uns aos outros – ser funcionalmente “uma equipe, um sonho” é a colaboração ideal, a ponto de você não precisar mais usar a palavra colaboração . As pessoas apenas trabalham juntas e trazem todas as suas habilidades para a mesa.
Você pode revisar o relatório MVP que você visualiza com frequência em suas apresentações e como ele funciona?
O relatório MVP significa as páginas mais valiosas. A maneira como funciona é extraindo dados de caminho do Google Analytics, sequenciando-os e colocando-os em um modelo de cadeia de Markov para verificar quais páginas têm maior probabilidade de auxiliar nas conversões.
E se você quiser a explicação mais longa.
Você pode dar mais informações sobre o viés de dados? Quais são algumas considerações ao construir modelos de PNL ou NLG?
Oh sim. Há tanto a dizer aqui. Primeiro, precisamos estabelecer o que é preconceito, porque existem dois tipos fundamentais.
O preconceito humano é geralmente aceito para ser definido como “preconceito a favor ou contra algo comparado a outro, geralmente de uma forma considerada injusta”.
Depois, há o viés matemático, geralmente aceito para ser definido como “Uma estatística é tendenciosa se for calculada de tal forma que seja sistematicamente diferente do parâmetro populacional que está sendo estimado”.
Eles são diferentes, mas relacionados. O viés matemático não é necessariamente ruim; por exemplo, você absolutamente quer ser tendencioso em favor de seus clientes mais fiéis se tiver algum senso de negócios. O preconceito humano é implicitamente ruim no sentido de injustiça, especialmente contra qualquer coisa que seja considerada uma classe protegida: idade, gênero, orientação sexual, identidade de gênero, raça/etnia, status de veterano, deficiência etc. Essas são classes que você NÃO DEVE discriminar.
O viés humano gera viés de dados, normalmente em 6 lugares: pessoas, estratégia, dados, algoritmos, modelos e ações. Contratamos pessoas tendenciosas – basta olhar para a diretoria ou conselho de administração de uma empresa para determinar qual é o seu preconceito. Eu vi uma agência de relações públicas outro dia divulgando seu compromisso com a diversidade e um clique para sua equipe executiva e eles são uma única etnia, todos os 15.
Eu poderia continuar por um bom tempo sobre isso, mas sugiro que você faça um curso que desenvolvi sobre esse tópico, no Marketing AI Institute. Em termos de modelos NLG e NLP, temos que fazer algumas coisas.
Primeiro, temos que validar nossos dados. Existe um viés nisso e, em caso afirmativo, é discriminatório contra uma classe protegida? Em segundo lugar, se for discriminatório, é possível mitigar ou temos que jogar fora os dados?
Uma tática comum é virar metadados para debias. Se você tiver, por exemplo, um conjunto de dados que é 60% masculino e 40% feminino, recodifique 10% dos masculinos para femininos para balanceá-lo para o treinamento do modelo. Isso é imperfeito e tem alguns problemas, mas é melhor do que deixar o preconceito andar.
Idealmente, construímos interpretabilidade em nossos modelos que nos permitem executar verificações durante o processo e, em seguida, também validamos os resultados (explicabilidade) post hoc. Ambos são necessários se você quiser passar por uma auditoria certificando que não está criando vieses em seus modelos. Ai da empresa que só tem explicações post hoc.
E, finalmente, você precisa absolutamente da supervisão humana de uma equipe diversificada e inclusiva para verificar os resultados. Idealmente, você usa um terceiro, mas uma parte interna confiável está bem. O modelo e seus resultados apresentam um resultado distorcido do que você obteria da própria população?
Por exemplo, se você estava criando conteúdo para jovens de 16 a 22 anos e não viu termos como imbecil, úmido, discreto etc. no texto gerado, você não conseguiu capturar nenhum dado no lado da entrada que treinaria o modelo para usar sua linguagem com precisão.
O maior desafio aqui é lidar com tudo isso por meio de dados não estruturados. Essa é a razão pela qual a linhagem é TÃO importante. Sem linhagem, você não pode provar que fez a amostragem da população corretamente. A linhagem é sua documentação de qual é a fonte de dados, de onde veio, como foi coletada, se quaisquer requisitos regulatórios ou divulgações se aplicam a ela.
O que você deve fazer agora
Quando estiver pronto... aqui estão 3 maneiras de ajudá-lo a publicar conteúdo melhor, mais rápido:
- Reserve um tempo com o MarketMuse Agende uma demonstração ao vivo com um de nossos estrategistas para ver como o MarketMuse pode ajudar sua equipe a atingir suas metas de conteúdo.
- Se você quiser aprender a criar conteúdo melhor e mais rápido, visite nosso blog. Está cheio de recursos para ajudar a dimensionar o conteúdo.
- Se você conhece outro profissional de marketing que gostaria de ler esta página, compartilhe com ele por e-mail, LinkedIn, Twitter ou Facebook.