Как проектировать голосовые пользовательские интерфейсы

Все больше и больше устройств с голосовым управлением, таких как Apple HomePod, Google Home и Amazon Echo. Это связано с тем, что голосовые интерфейсы улучшают взаимодействие с пользователем. На самом деле comScore (компания по маркетинговым исследованиям) считает, что к 2020 году голос будет выполнять 50% всех поисковых запросов.

Пять крупнейших технологических компаний, Microsoft, Google, Amazon, Apple и Facebook, разработали (или разрабатывают в настоящее время) голосовые AI-помощники.

Независимо от того, говорим ли мы о VUI (голосовые пользовательские интерфейсы) для веб-приложений или интеллектуальных домашних громкоговорителей, голосовые взаимодействия становятся все более распространенными в современных технологиях, тем более что многие люди испытывают усталость из-за того, что они много часов находятся перед экраном.

Итак, давайте посмотрим, как проектировать голосовые пользовательские интерфейсы и что должны иметь голосовые команды анатомии.

Как проектировать голосовые интерфейсы

Если вы прочитаете онлайн-обзоры домашних динамиков, вы заметите, что некоторые люди образуют тесную связь со своим динамиком таким образом, что это больше похоже на животное, чем на продукт.

Вы, конечно, не можете удовлетворить все ожидания клиентов с программами, которые все еще находятся в стадии разработки, но вы можете следовать некоторым рекомендациям в качестве отправной точки.

Предоставить пользователям информацию о том, что они могут сделать

Графический интерфейс пользователя показывает пользователям все, что они могут сделать. Голосовой интерфейс не может показать пользователю, какие варианты возможны, а новые пользователи основывают свои ожидания на опыте общения с людьми.

Поэтому они могут начать с того, что просят что-то, что не имеет смысла для системы или что невозможно. Решение этой проблемы состоит в том, чтобы предложить варианты взаимодействия с пользователем.

Например, голосовой интерфейс может сказать что-то вроде «Я могу помочь вам купить» или «Я могу дать вам информацию о продуктах».

В любом случае пользователям также должен быть предоставлен простой выход из функции, включая «выход» в качестве одного из вариантов.

Доставить ответы с полной информацией

В графических интерфейсах пользователи могут видеть, в каком разделе они находятся, в то время как в голосовых пользовательских интерфейсах пользователи должны знать, какие функции они используют.

Пользователи могут быстро запутаться в том, где они находятся в разговоре, или могут по ошибке активировать функциональность, поэтому без подробных указаний аудитории им нужно больше деталей.

Интерфейс должен отвечать на вопрос о продукте с помощью целой фразы, такой как «Автомобиль марки X и модели X стоит 20 000 долларов и имеет гарантию 2 года».

Это позволяет пользователям знать, какие функции они используют, и о чем говорит говорящий.

Используйте как можно больше примеров

Когда люди говорят, они часто не выражают свои полные намерения, часто потому, что они используют сленг, маффины, сокращают слова и т. Д.

Среди людей мы понимаем друг друга, но голосовые интерфейсы нуждаются в человеке, чтобы выразить себя правильно, чтобы понять его намерения.

Кроме того, чем больше информации о своих намерениях включает пользователь в предложении, тем лучше.

Пользователь может спросить: «Дайте мне информацию о доступных автомобилях, пожалуйста, цену модели X» и сразу же получите необходимую информацию, вместо того, чтобы сначала сказать: «Я хочу информацию о доступных автомобилях», а затем спросить модель. ,

Пользователи могут не понимать такой способ работы, поэтому вам следует использовать как можно больше примеров взаимодействий.

Ограничить количество вариантов

Когда пользователи просматривают визуальный контент или списки, они могут вернуться к информации, которую они пропустили или забыли.

Это не относится к словесному содержанию. С устным содержанием предложения должны быть короткими.

Для взаимодействия рекомендуется использовать более трех разных опций.

Сообщите пользователю, что вы слушаете

Используйте некоторую форму простой обратной связи, чтобы пользователь знал, что система слушает.

Вам следует использовать некоторую визуальную информацию, чтобы пользователи знали, что голосовой пользовательский интерфейс слушает, пользователь может сразу увидеть, что записывается его высказывание (аналогично тому, как мы общаемся с другими людьми, и по невербальному общению вы можете видеть, что они слушают). ).

Анатомия голосовых команд

Перед созданием потока диалога дизайнеры должны сначала понять анатомию голосовой команды. Голосовая команда пользователя состоит из трех ключевых факторов: намерение, объявление и пробел. Давайте проанализируем следующий запрос: «Включите расслабляющую музыку, чтобы спать».

умысел

Намерение представляет более широкую цель голосовой команды пользователя. В примере запроса намерение понятно, пользователь хочет слушать музыку.

утверждение

Как пользователь формулирует команду, то есть утверждение. В используемом примере мы знаем, что пользователь хочет играть расслабляющую музыку благодаря слову «играть», но это не единственный способ сказать это. Пользователь также может сказать «Я хочу слушать музыку».

Дизайнеры разговоров должны учитывать все варианты выражения.

контекст

Иногда одного намерения недостаточно, и для выполнения запроса требуется больше информации о пользователе.

Это называется «контекстом», и они, как и в визуальных интерфейсах, могут быть необязательными или требующимися для завершения приложения.

В этом случае слово «расслабляющий» может использовать контекст «воспроизведение музыки», чтобы знать, что вы запрашиваете воспроизведение расслабляющей музыки.

Чтобы разработать отличные голосовые пользовательские интерфейсы, вы должны найти элегантный способ предоставить пользователям соответствующую информацию, не перегружая их.

Голосовое взаимодействие с пользователем может создавать больше проблем в некоторых аспектах, чем визуальная система, однако нет никаких сомнений в том, что этот способ взаимодействия будет использоваться все чаще.