Ландшафт генерации естественного языка

Опубликовано: 2022-05-03

Коммерческое применение генерации естественного языка (NLG) все еще находится в зачаточном состоянии. В отличие от переполненной мартех-среды с более чем 7000 участников, ландшафт NLG очень скуден. В этом посте мы рассмотрим организации, использующие NLG для создания как длинного, так и короткого контента, создания повествований из структурированных данных и преобразования текста в речь.

Генерация длинного контента (750+ слов)

MarketMuseNLG Technology — первая и единственная платформа, предлагающая полноформатный контент, созданный с использованием генерации естественного языка. Мы генерируем длинные тексты с помощью нейронных сетей глубокого обучения и кратких обзоров контента MarketMuse.

Эти обзоры контента MarketMuse точно такие же, как и у авторов, чтобы помочь им создавать более качественный контент. Брифы предоставляют подробную основу для создания контента. Благодаря своим темам, вопросам и подзаголовкам краткие обзоры контента MarketMuse предоставляют контекст для механизма NLG для создания соответствующего текста.

Пример вывода из MarketMuse NLG Technology генерации естественного языка.

В результате получается первоначальный черновик контента, который соответствует всем основным KPI и требует минимального редактирования.

Генерация текста (менее 750 слов)

Для нашей цели мы определяем все, что меньше 750 слов, как простое генерирование текста. Есть определенные ситуации, когда более уместна более короткая форма повествования — например, электронная почта и копирайтинг в Интернете.

В эту категорию попадают два предложения, хотя их цели радикально различаются.

Articoolo предназначен для издателей, которым нужны статьи для веб-сайтов объемом до 500 слов. Все, что требуется, это тема от двух до пяти слов и желаемое количество слов. Воодушевляя, ценность таких коротких и поверхностных статей ограничена.

Phrasee проделала отличную работу, адаптировав свои предложения продуктов для конкретных случаев использования, требующих короткого текста. Это важные ситуации, которые выигрывают от сильного и лаконичного текста.

Phrasee Email используется для строк темы электронной почты, прехедера, заголовков, копий подзаголовков и призывов к действию. Phrasee Push используется для push-сообщений в мобильных приложениях. Phrasee Social используется для создания сообщений в Facebook и Instagram, а Phrasee Everywhere помогает с AdWord, целевой страницей и рекламным текстом.

Рерайтеры статей и миксеры

Самая примитивная форма создания статей с помощью компьютера — это переписывание статей, также известное как вращение статей. Существующие уже более десяти лет, оптимизаторы используют счетчики статей для быстрого создания большого количества низкокачественного контента для связывания сетей.

Это не генерация естественного языка.

Люди редко посещают эти сайты или читают эти страницы. Это сети блогов, предназначенные для использования Google PageRank, чтобы определенные страницы могли занимать высокие позиции в поиске.

Предпосылка статьи прядения проста. Возьмите исходный фрагмент текста и замените его другими словами, чтобы создать новую версию. Ранние попытки страдали от плохого выбора слов при выборе замен.

Вот приведенный выше абзац, прокрутите счетчик статей.

«Причина переписывания текста проста. Возьмите уникальный фрагмент контента и замените его разными словами, чтобы создать новый уникальный контент. Ранние попытки столкнулись с плохим выбором слов при выборе замен».

Хотя это грамматически правильно, это неудобно. Улучшения с использованием этого подхода до сих пор были минимальными. Некоторые используют Google Natural Language Processing API для анализа синтаксиса, определения частей речи (PoS) и извлечения токенов и предложений. Однако качество выпускаемой продукции остается низким, а целевой рынок для этой продукции остается прежним.

Несколько компаний, работающих в этой сфере, включают WordAi, SEO Article Generator, AI Spinner и Chimp Rewriter. Без сомнения, их гораздо больше, но ни один из них не является хорошим. Хотя они могут пытаться позиционировать себя таковыми, эти продукты имеют мало общего с искусственным интеллектом или обработкой естественного языка.

Микшеры статей — это еще один класс генераторов контента, которые имеют мало общего с генерацией естественного языка, несмотря на то, как они могут продаваться. Как следует из названия, микширование статей включает в себя смешивание предложений с тематических страниц, вплетение их в повествование и замену определенных фраз с помощью синонимов.

Здесь есть проблемы как на макро-, так и на микроуровне. В этих произведениях нет реальной общей структуры. Даже на уровне предложений сделанный выбор кажется несколько произвольным.

Две компании, продукты которых подпадают под категорию микширования статей, — это Article Forge и AI Writer.

Описание структурированных данных

Приложения этой категории берут наборы высокоструктурированных данных и превращают их в повествование. Ассошиэйтед Пресс ежеквартально публикует около 4000 статей о доходах компаний с помощью искусственного интеллекта. Сайты электронной коммерции также могут создавать описания продуктов, истории категорий и информационные бюллетени, используя этот метод.

Существует множество вариантов использования этого подхода, если у вас есть структурированные данные для его поддержки. Это решающий фактор в том, чтобы заставить эту работу работать в масштабе. В примере с отчетом о доходах общая история довольно проста и никогда не меняется. Что отличает каждую историю, так это переменные. Вот пример отчета о доходах Apple от Associated Press.

Вот некоторые бренды, работающие в этой области:

  • мастер слова
  • перо
  • Семантика AX
  • Аррия
  • YSEOP
  • textengine.io
  • vPhrase
  • Конкретио
  • Джинни
  • ЭКИПАЖмашина

Эти платформы используют либо подход на основе шаблонов, либо динамически создают документы. Самым простым является метод заполнения пробелов, при котором данные заполняются в пробелах в шаблоне.

Языки веб-шаблонов, сценарии или текст, создающий правила, — это шаг вперед по сравнению с простым заполнением пробелов. Но без сложных лингвистических возможностей ему сложно генерировать текст высокого качества.

Грамматические функции на уровне слов упрощают написание сложных шаблонов, поскольку они могут работать с орфографией, морфологией, морфофонологией и их исключениями. Но не заблуждайтесь, создание качественной продукции таким образом остается серьезной проблемой.

Текст в речь

Преобразование текста в речь преобразует письменный текст в естественно звучащий звук на различных языках. Их можно использовать для взаимодействия с чат-ботом и голосовым помощником, превращая цифровые электронные книги в аудиокниги и взаимодействуя с автомобильными навигационными системами.

В последнее время компании используют глубокие нейронные сети для синтеза речи, которая почти идентична человеческим записям. Человеческие речевые паттерны, интонация и артикуляция значительно снижают усталость от слуха при взаимодействии с системами ИИ.

В этой области доминирует несколько известных организаций:

  • IBM Уотсон
  • Майкрософт
  • Амазонка Полли
  • Google

Резюме

В последние пару лет генерация естественного языка в основном была сосредоточена на преобразовании текста в речь и создании повествований из высокоструктурированных данных. Благодаря технологии MarketMuse NLG маркетологи теперь могут использовать преимущества NLG для создания длинного контента.

Что вы должны сделать сейчас

Когда вы будете готовы... Вот 3 способа, которыми мы можем помочь вам публиковать более качественный контент и быстрее:

  1. Забронируйте время с MarketMuse Запланируйте живую демонстрацию с одним из наших специалистов по стратегии, чтобы увидеть, как MarketMuse может помочь вашей команде достичь своих целей в отношении контента.
  2. Если вы хотите узнать, как быстрее создавать качественный контент, посетите наш блог. Он полон ресурсов, помогающих масштабировать контент.
  3. Если вы знаете другого маркетолога, которому было бы интересно прочитать эту страницу, поделитесь ею с ним по электронной почте, LinkedIn, Twitter или Facebook.