Голосовые ИИ-технологии: 3 перспективных направления, которые постепенно меняют мир

Kate · 2 Сен 2021

Системы, которые способны выполнять рутинные операции вместо человека, помогают поддерживать глобальную экономику. Собственно, они делают это десятилетиями — такие системы работают на благо цивилизации давно. Но что насчет систем, которые могут общаться и взаимодействовать с пользователем? Если говорить о полноценном общении, то пока что его нет, причина здесь одна — наша речь слишком сложная.

Каждый, кто пробовал взаимодействовать с цифровыми ассистентами вроде Alexa и Siri, видел и ощущал разницу между «общением» с ними и полноценным разговором с человеком. Но прогресс не стоит на месте. В ближайшем или не очень будущем продвинутые ИИ-собеседники обязательно появятся, ведь к этому все и идет. В целом, эта технология способна изменить мир. Под катом — обсуждение трех инновационных технологий, которые стимулируют развитие всей отрасли.

Разговорный ИИ для обработки заказов/обращений клиентов

Эксперты в области голосового искусственного посчитали приоритетными технологии, которые могут облегчить выполнение рутинных задач, освобождая людей для участия в высокоэффективных творческих начинаниях. Пример — общение с клиентами, которые заказывают товар или услугу, обработка их заказов и обращений.

Кажется, что все просто — загружаем меню, используем чат-бота и все. На самом деле, есть много факторов, которые все усложняют. Например, система, которая должна общаться с клиентами при помощи разговора, требует наличия почти идеального модуля распознавания речи, на который не влияет ни шум автомобилей, ни музыка в помещении клиента, ни любые другие звуки, включая речь других людей, которые находятся рядом с клиентом, совершающим заказ. Более того, система должна распознавать речь детей, взрослых, людей с дефектами дикции и т.п.

Если говорить по телефону у себя в квартире, где выключена музыка и нет посторонних звуков, это одно дело. С такой речью справятся многие существующие на данный момент ИИ-системы. Совсем другое дело распознавание аудиопотока со стороны клиента, который находится на улице или в транспорте.

Американской компании Hi auto удалось преодолеть указанные проблемы, и система, которую они разработали, способна работать с точностью в 90%. Это, конечно, не идеально, но гораздо лучше среднего показателя.

Эксперты предполагают, что примерно через 3 года многие рестораны будут использовать голосовую ИИ-система приема заказов. Речь идет о десятках тысяч предприятий общепита по всему мира. Через несколько лет эта технология станет мейнстримом — ведь она поможет освободить от обязанности принимать заказы сотрудников ресторанов и кафе. Их можно будет задействовать для решения других задач, где требуется интеллект и способности людей.

Разговорные ИИ-системы в «облаках» для умных машин

Вторая перспективная технология, которую выделяют эксперты — система, которая понимает контекст разговора. Беседа людей обычно ведется в рамках определенного контекста, и одни и те же слова и фразы могут означать разные вещи в разном контексте. Для человека понимать контекст — вполне естественная практика, а вот для цифровых систем — нет. Они понимают речь буквально, не обращая внимания на контекст — подавляющее большинство цифровых ассистентов на это просто не способно.

Хорошая иллюстрация сказанному — юмор. Цифровые ассистенты не способны понять даже простейшие шутки, не говоря уже о шутках с двойным/тройным дном. Собственно, на понимание «сложного» юмора способны даже не все люди, что уж тут говорить о машинах.

Но понимание контекста — крайне важный элемент действительно эффективной разговорной ИИ-системы. Сейчас разные компании работают над контекстно-зависимым ИИ, который в ходе взаимодействия с собеседником создает модели, которые используют дополнительную информацию, помимо личности говорящего.

Потенциальная область применения технологии — чат боты. В идеальной ситуации они должны собирать дополнительную информацию из разных мест, включая профиль пользователя, его предыдущие заказы и т.п. Эти данные можно использовать для формирования высокоинтеллектуальных ответов.

Еще один вариант — системы быстрого реагирования. Например, человек застрял в лифте, тут же голосом сообщил об этом встроенной ИИ-системе, которая мгновенно оповещает службы, которые причастны к инциденту. Тут, конечно, можно еще вспомнить ролик с шотландцами в лифте с голосовым управлением, но, думается, эту проблему решить проще, чем задачу понимания контекста беседы цифровой системой.

Автоматизация обработки данных

Аудио — только одна из форм неструктурированных первичных данных. Есть и другие формы, и все это требует оперативной обработки, анализа и интерпретации. А уже обработанные структурированные данные могут быть использованы для принятия стратегических решений или предоставления ценной для компаний обратной связи.

Один из примеров использования такой технологии — обнаружение ошибок в процессе чтения текстом ребенком. Одна из крупных американских образовательных компаний предоставляет сервис чтения вслух. Дети читают текст, а ИИ-система выявляет ошибки и после прочтения всего текста показывает статистику и подробное описание ошибок.

Это только один из примеров, на самом деле, точек приложения возможностей ИИ-систем гораздо больше. Кроме того, названные выше технологии — не единственные перспективные направления. Есть еще распознавание эмоций, превращение речи в текст и, наоборот, текста в речь, причем с эмоциональным наполнением.

Сейчас вся отрасль голосовых ИИ-систем активно развивается, постепенно меняя различные сферы деятельности и рынки в целом. Многие развивающиеся сейчас технологии способны заменить человека, избавив его от решения скучных/рутинных задач. Подобное происходит уже сейчас, с течением времени эта тенденция лишь усиливается.