如何在内容营销中使用 NLP

已发表: 2022-05-02

Trust Insights 的联合创始人 Chris Penn 和 MarketMuse 的联合创始人兼首席产品官 Jeff Coyle 讨论了人工智能营销的商业案例。网络研讨会结束后，Paul 参加了我们的 Slack 社区内容策略集体（在此处加入）中的“随便问我”会议。以下是网络研讨会笔记和 AMA 的文字记录。

网络研讨会

问题

随着内容的爆炸式增长，我们有了新的中介。他们不是记者或社交媒体影响者。它们是算法；机器学习模型决定了你和你的观众之间的一切。

如果不考虑这一点，您的内容将继续陷入默默无闻的泥潭。

解决方案：自然语言处理

NLP 是计算机编程来处理和分析大量自然语言数据。这来自文档、聊天机器人、社交媒体帖子、您网站上的页面以及任何其他本质上是一堆单词的东西。基于规则的自然语言处理首先出现，但被统计自然语言处理所取代。

NLP 的工作原理

自然语言处理的三个核心任务是识别、理解和生成。

识别——计算机不能像人类一样处理文本。他们只能阅读数字。所以第一步是将语言转换成计算机可以理解的格式。

理解——将文本表示为数字使算法能够进行统计分析，以确定哪些主题最常一起被提及。

生成——在分析和数学理解之后，NLP 的下一个合乎逻辑的步骤是文本生成。机器可用于呈现作者需要在其内容中回答的问题。在另一个层面上，人工智能可以推动内容简介，为创建专家级内容提供额外的洞察力。

这些工具今天可通过 MarketMuse 购买。除此之外，还有你今天可以使用的自然语言生成模型，但它们还没有商业上可用的形式。尽管 MarketMuse NLG 技术很快就会到来。

提到的其他资源

拥抱脸.co
Python
R
Colab
IBM 沃森工作室

美国医学会

你有任何文章或网站推荐来跟上人工智能行业的趋势吗？

正在阅读那里发表的学术研究。像这样的网站都在覆盖最新和最伟大的方面做得很好。

KDNuggets.com
迈向数据科学
卡格尔

Facebook、谷歌、IBM、微软和亚马逊的主要研究出版中心。您会在这些网站上看到大量共享的优质材料。

“我正在为我的所有内容使用关键字密度检查器。对于今天的 SEO 来说，这离合理的策略还有多远？”

关键字密度本质上是术语频率计数。它在理解文本的非常粗略的性质方面占有一席之地，但它缺乏任何语义知识。如果您无法使用 NLP 工具，请至少在您选择的 SEO 工具中查看诸如“人们也搜索过”内容之类的内容。

您能否就如何将内容生成到……网页中给出一些具体示例？帖子？推文？

挑战在于这些工具正是如此——它们是工具。就像，你如何操作抹刀？这取决于你在做什么。你可以用它来搅拌汤，也可以翻煎饼。开始学习这些知识的方法取决于您的技术水平。例如，如果您对 Python 和 Jupyter 笔记本感到满意，您可以直接导入转换器库，输入您的训练文本文件，然后立即开始生成。我用某个政客的推文做到了这一点，它开始吐出可能引发第三次世界大战的推文。如果你在技术上不习惯，那就开始看看 MarketMuse 之类的工具。我会让 Jeff Coyle 提供有关普通营销人员如何从那里开始的建议。

如果您超越工具，而更多地关注策略，那么您可以实施以利用这些知识的策略示例是什么？

一些快速命中的方法是用于元描述、将页面或内容块分类到分类中，或者尝试猜测需要答案的问题——但这些都是真正的点解决方案。当你用它来展示你当前的优势、差距以及你有动力的地方时，更大的战略智慧就会出现。从那里开始，决定创建、更新、扩展什么对企业来说变得具有变革性。现在想象一下对竞争对手做同样的事情。寻找他们的差距。起泡，冲洗，重复。

战略始终以目标为基础。你想达到什么目标？你在吸引搜索流量吗？你在做潜在客户吗？你在做公关吗？ NLP 是一堆工具。它类似于 - 策略是菜单。您供应早餐、午餐还是晚餐？您使用的工具和食谱在很大程度上取决于您提供的菜单。如果你正在制作 spanakopita，汤锅将毫无帮助。

对于想要开始挖掘数据以获得洞察力的人来说，什么是一个好的起点？

从科学的方法开始。

你想回答什么问题？
您需要哪些数据、流程和工具来回答这个问题？
制定一个假设，一个单一条件，可证明是真的或假的陈述，你可以测试。
测试。
分析您的测试数据。
改进或拒绝假设。

对于数据本身，使用我们的6C数据框架来判断数据的质量。

在您看来，营销人员应该考虑的主要搜索用户意图是什么？

客户旅程中的步骤。从头到尾绘制客户体验——意识、考虑、参与、购买、所有权、忠诚度、宣传。然后绘制出每个阶段可能的意图。例如，在所有权方面，搜索意图很可能是面向服务的。 “如何修复 airpods pro 噼啪声”就是一个例子。挑战在于在旅程的每个阶段收集数据并使用它来训练/调整。

你不觉得这可能有点不稳定吗？如果我们需要更稳定的东西来自动化流程，那么我们需要在更高的层次上概括事物。

杰夫·贝索斯（Jeff Bezos）有句名言，专注于不变的事物。获得所有权的一般途径没有太大变化——对他们的口香糖包不满意的人会遇到与对他们委托的新核航空母舰不满意的人类似的事情。细节肯定会发生变化，但了解哪些类型的数据和意图对于了解某人在旅途中的情感位置以及他们如何用语言传达这一点至关重要。

人们在尝试进行用户意图分类时可能会陷入哪些陷阱？

到目前为止，确认偏差。人们会将自己的假设投射到客户体验上，并通过自己的偏见来解释客户数据。我还建议您尽可能使用交互数据（打开的电子邮件、进门、呼叫呼叫中心等）来验证它。我知道有些地方，尤其是大型组织，是结构化方程建模的忠实拥护者，以了解用户意图。我不像他们那么喜欢，但这是一种额外的潜在方法。

您认为哪些工具或产品可以很好地确定查询的用户意图？

纬。除了 MarketMuse？老实说，我不得不使用自己的东西，因为我没有找到很好的结果，尤其是来自主流 SEO 工具。 FastText 用于矢量化和非结构化聚类。

根据您的经验，BERT 是如何改变 Google 搜索的？

BERT 的主要贡献是上下文，尤其是修饰符。 BERT 允许谷歌查看词序并让它解释含义。在此之前，这两个查询在词袋样式模型中可能在功能上是等效的：

最好的咖啡店在哪里
哪里是买咖啡的最佳地点

这两个查询虽然非常相似，但可能会产生截然不同的结果。咖啡店可能不是你想买豆子的地方。沃尔玛绝对不是你想喝咖啡的地方。

你认为人工智能或信息通信技术会像人类一样发展意识/情感/同理心吗？我们将如何对它们进行编程？我们如何使人工智能人性化？

答案取决于量子计算会发生什么。 Quantum 允许可变的模糊状态和模拟我们自己大脑中正在发生的事情的大规模并行计算。你的大脑是一个非常缓慢的、基于化学的大型并行处理器。它真的很擅长一次做很多事情，如果不是很快的话。量子将允许计算机做同样的事情，但速度要快得多——这为通用人工智能打开了大门。这是我的担忧，这也是今天对人工智能的担忧，已经在狭隘的使用范围内：我们基于我们训练它们。人类在善待自己或我们赖以生存的星球方面做得并不好。我们不希望我们的计算机模仿这一点。

我怀疑在系统允许的范围内，计算机情绪在功能上将与我们自己的情绪大不相同，并且会从它们的数据中自我组织，就像我们对基于化学的神经网络所做的那样。这反过来意味着他们的感觉可能与我们大不相同。如果机器主要基于逻辑和数据，对人类进行坦诚、客观的评估，坦率地说，他们可能会确定，我们遇到的麻烦多于我们的价值。坦率地说，他们不会错的。作为一个物种，我们大多数时候都是野蛮的混乱。

在您看来，您如何看待内容营销人员将自然语言生成集成/采用到他们的日常工作流程/流程中？

营销人员应该已经在整合它的某种形式，即使它只是回答我们在 MarketMuse 产品中演示的问题。回答您知道观众关心的问题是创建有意义的内容的一种快速、简单的方法。我的朋友马库斯·谢里丹（Marcus Sheridan）写了一本很棒的书，“他们问，你回答”，具有讽刺意味的是，您实际上并不需要阅读它来掌握核心客户策略：回答人们的问题。如果您还没有真人提交的问题，请使用 NLG 来制作它们。

您认为未来 2 年 AI 和 NLP 会在哪些方面取得进展？

如果我知道这一点，我就不会在这里，因为我会在我用我的收入购买的山顶堡垒。但严肃地说，我们在过去 2 年中看到的没有任何变化迹象的主要支点是从“滚动你自己的”模型到“下载预训练和微调”的进展。我认为随着机器在合成方面的进步，我们将迎来视频和音频领域的一些激动人心的时刻。尤其是音乐生成，对于自动化来说已经成熟了。现在，机器充其量只能产生完全平庸的音乐，而最坏的情况是产生耳痛。这种情况正在迅速改变。我看到了更多的例子，比如像 BART 一样将变压器和自动编码器混合在一起，作为模型进展和最先进结果的主要下一步。

你认为谷歌在信息检索方面的研究方向是什么？

谷歌继续面临的挑战是规模，你可以在他们的许多研究论文中看到这一点。他们尤其受到 YouTube 等内容的挑战；他们仍然严重依赖二元组这一事实并不是对他们的成熟度的打击，而是承认除此之外的任何东西都会产生疯狂的计算成本。他们的任何重大突破都不会是模型层面的，而是规模层面的，以应对每天涌入互联网的大量新的、丰富的内容。

你遇到过哪些最有趣的人工智能应用？

自主一切是我密切关注的一个领域。深度伪造也是如此。如果我们不小心，它们就是前方道路有多危险的例子。特别是在 NLP 中，生成正在快速发展，是值得关注的领域。

您在哪里见过 SEO 以不起作用或不起作用的方式使用 NLP？

我已经数不清了。很多时候，人们以非预期的方式使用工具并获得低于标准的结果。就像我们在网络研讨会上提到的那样，有针对模型的不同最先进测试的记分卡，并且在不强大的领域使用工具的人通常不会喜欢结果。也就是说……除了供应商提供的东西之外，大多数 SEO 从业者没有使用任何类型的 NLP，而且许多供应商仍然停留在 2015 年。一直都是关键字列表。

您在 Google 哪里看到视频 (YouTube) 和图片搜索？您认为 Google 部署的用于所有类型搜索的技术彼此之间是否非常相似或不同？

谷歌的技术都建立在他们的基础设施之上并使用他们的技术。很多东西都建立在 TensorFlow 之上，这是有充分理由的——它超级健壮且可扩展。不同之处在于谷歌如何使用不同的工具。与用于成对比较和语言处理的 TensorFlow 相比，用于图像识别的 TensorFlow 本质上具有非常不同的输入和层。但是，如果您知道如何使用 TensorFlow 和那里的各种模型，您可以自己实现一些非常酷的东西。

我们可以通过哪些方式适应/跟上 AI 和 NLP 的进步？

继续阅读、研究和测试。弄脏你的手是无可替代的，至少是一点点。注册一个免费的 Google Colab 帐户并尝试一下。自学一点 Python。从 Stack Overflow 复制和粘贴代码示例。你不需要知道内燃机的每一个内部工作来驾驶汽车，但是当出现问题时，一点点的知识就会有很长的路要走。在 AI 和 NLP 中也是如此——即使只是能够打电话给供应商 BS 也是一项宝贵的技能。这是我喜欢与 MarketMuse 人员一起工作的原因之一。他们实际上知道他们在做什么，他们的人工智能工作不是废话。

你会对那些担心人工智能会抢走他们的工作的人说些什么？例如，看到 NLG 之类的技术的作家担心如果 AI 可以“足够好”让编辑稍微清理一下文本，他们就会失业。

“人工智能将取代任务，而不是工作”——布鲁金斯学会这绝对是真的。但是将会有净工作岗位流失，因为这就是将会发生的事情。假设您的工作由 50 个任务组成。 AI 做了其中的 30 个。太好了，您现在有 20 个任务。如果你是唯一这样做的人，那么你就处于涅槃状态，因为你还有 30 多个单位的时间来做更有趣、更有趣的工作。这就是 AI 乐观主义者所承诺的。现实检查：如果有 5 个人在做这 50 个单位，而 AI 做其中的 30 个，那么 AI 现在正在做 150 / 250 个单位的工作。这意味着还有100个工作单元留给人们去做，而公司就是这样，他们将立即裁员3个职位，因为这100个工作单元可以由2个人完成。你应该担心人工智能抢走工作吗？这取决于工作。如果您所做的工作令人难以置信地重复，绝对要担心。在我以前的机构，有一个可怜的草皮，他的工作是每天 8 小时将搜索结果复制并粘贴到客户的电子表格中（我在一家公关公司工作，而不是技术最先进的地方）。这份工作正处于直接危险之中，坦率地说应该已经存在多年了。重复 = 自动化 = 人工智能 = 任务丢失。你的工作重复性越少，你就越安全。

每一次变化也造成了越来越多的收入不平等。我们现在正处于一个危险的时刻，机器——不花钱，不是消费者——正在为花钱、消费的人做越来越多的工作，我们在技术领域的巨大财富主导地位中看到了这一点。这是我们将不得不在某个时候解决的社会问题。

随之而来的挑战是进步就是力量。正如罗伯特·英格索尔（Robert Ingersoll）所写（后来被误认为是亚伯拉罕·林肯）：“几乎所有的人都能忍受逆境，但如果你想检验一个人的性格，就给他权力。”我们看到今天的人们是如何处理权力的。

如何将 Google Analytics 数据与 NLP Research 配对？

GA代表方向，NLP代表创造。什么流行？我刚刚为一个客户做了这个。他们有数千个网页和聊天会话。我们使用 GA 分析哪些类别在他们的网站上增长最快，然后使用 NLP 处理这些聊天日志，向他们展示什么是趋势以及他们需要创建什么内容。

谷歌分析非常适合告诉我们发生了什么。 NLP 可以开始梳理出一点 WHY，然后我们通过市场研究来完成它。

我已经看到您在许多研究中使用 Talkwalker 作为数据源。我应该考虑哪些其他来源和用例进行分析？

所以，这么多。 Data.gov. 说话的人。市场缪斯。 Otter.ai 用于转录您的音频。 Kaggle 内核。谷歌数据搜索——顺便说一句，它是 GOLD，如果你不使用它，你绝对应该使用它。谷歌新闻和 GDELT。那里有很多很棒的资源。

在您看来，营销和数据分析团队之间的理想合作是什么样的？

不开玩笑; Katie Robbert 和我一直在客户身上看到的最大错误之一是组织孤岛。左手不知道右手在做什么，到处都是一团糟。让人们聚在一起，分享想法，分享待办事项，进行共同的站立会议，互相教导——从功能上讲，“一个团队，一个梦想”是理想的合作，以至于你不再需要使用合作这个词了. 人们只是一起工作，把他们所有的技能带到桌面上。

您能否回顾一下您在演示文稿中经常预览的 MVP 报告以及它是如何工作的？

MVP 报告代表最有价值的页面。它的工作方式是从谷歌分析中提取路径数据，对其进行排序，然后通过马尔可夫链模型确定哪些页面最有可能帮助转化。

如果你想要更长的解释。

您能否更深入地了解数据偏差？构建 NLP 或 NLG 模型时有哪些注意事项？

哦是的。这里有很多话要说。首先，我们需要确定什么是偏见，因为有两种基本类型。

人们普遍认为，人类偏见被定义为“与其他事物相比，支持或反对某事的偏见，通常以一种被认为不公平的方式。”

然后是数学偏差，通常被接受定义为“如果一个统计数据的计算方式与被估计的总体参数系统性地不同，那么它就是有偏差的。”

它们不同但相关。数学偏差不一定是坏事。例如，如果您有任何商业意识，您绝对希望偏向于最忠实的客户。人为偏见在不公平的意义上是隐含的坏事，尤其是针对任何被认为是受保护的阶级：年龄、性别、性取向、性别认同、种族/民族、退伍军人身份、残疾等。这些是你不能歧视。

人为偏见会导致数据偏见，通常在 6 个地方：人、策略、数据、算法、模型和行动。我们雇佣有偏见的人——只要看看一家公司的高管层或董事会，就可以确定它的偏见是什么。前几天，我看到一家公关公司吹捧其对多元化的承诺，并且一键点击他们的执行团队，他们是一个种族，全部 15 个。

我可以继续讨论这个问题，但我建议你参加我在营销 AI 学院就这个主题开发的课程。在 NLG 和 NLP 模型方面，我们必须做一些事情。

首先，我们必须验证我们的数据。它是否有偏见，如果有，是否歧视受保护的阶级？其次，如果它是歧视性的，是否有可能减轻它，或者我们必须把数据扔掉？

一种常见的策略是将元数据翻转为 debias。例如，如果您有一个包含 60% 男性和 40% 女性的数据集，您可以将 10% 的男性重新编码为女性，以平衡模型训练。这是不完美的并且有一些问题，但它比任由偏见更好。

理想情况下，我们在模型中构建了可解释性，允许我们在过程中运行检查，然后我们还验证结果（可解释性）事后。如果您希望能够通过审核以证明您没有在模型中建立偏见，那么两者都是必要的。 Woe 是一家只有事后解释的公司。

最后，您绝对需要对多元化和包容性团队进行人工监督，以验证结果。理想情况下，您使用第三方，但可以使用受信任的内部方。该模型及其结果是否呈现出与您从总体本身得到的结果不同的结果？

例如，如果您正在为 16-22 岁的人创建内容，并且您在生成的文本中没有看到过像 deadass、dank、low-key 等术语，那么您就无法在输入端捕获任何数据这将训练模型准确地使用他们的语言。

这里最大的主要挑战是通过非结构化数据处理所有这些。这就是血统如此重要的原因。没有血统，您无法证明您对总体进行了正确的抽样。沿袭是您记录数据源是什么、来自何处、如何收集、是否适用任何监管要求或披露的文档。

你现在应该做什么

当您准备就绪时……我们可以通过以下 3 种方式帮助您更快地发布更好的内容：

与 MarketMuse 预约时间与我们的一位策略师安排现场演示，了解 MarketMuse 如何帮助您的团队实现其内容目标。
如果您想了解如何更快地创建更好的内容，请访问我们的博客。它充满了帮助扩展内容的资源。
如果您认识其他喜欢阅读此页面的营销人员，请通过电子邮件、LinkedIn、Twitter 或 Facebook 与他们分享。