Cách thiết kế giao diện người dùng bằng giọng nói

Ngày càng có nhiều thiết bị điều khiển bằng giọng nói, như Apple HomePod, Google Home và Amazon Echo. Điều này là do giao diện giọng nói cải thiện trải nghiệm người dùng, trên thực tế, comScore (một công ty nghiên cứu tiếp thị) tin rằng giọng nói sẽ thực hiện 50% tất cả các tìm kiếm vào năm 2020.

Năm công ty công nghệ lớn nhất là Microsoft, Google, Amazon, Apple và Facebook đã phát triển (hoặc hiện đang phát triển) trợ lý AI hỗ trợ giọng nói.

Cho dù chúng ta đang nói về VUI (Giao diện người dùng bằng giọng nói) cho các ứng dụng web hoặc loa gia đình thông minh, tương tác bằng giọng nói ngày càng phổ biến trong công nghệ ngày nay, đặc biệt là khi nhiều người cảm thấy mệt mỏi vì phải ngồi nhiều giờ trước màn hình.

Vì vậy, hãy xem cách thiết kế giao diện người dùng giọng nói và những lệnh thoại giải phẫu nên có.

Cách thiết kế giao diện giọng nói

Nếu bạn đọc các đánh giá trực tuyến về loa gia đình, bạn sẽ nhận thấy rằng một số người tạo liên kết chặt chẽ với loa của họ theo cách trông giống như thú cưng hơn là sản phẩm.

Bạn chắc chắn không thể đáp ứng tất cả các kỳ vọng của khách hàng với các chương trình vẫn đang trong quá trình hoàn thiện, nhưng bạn có thể làm theo một số nguyên tắc làm điểm khởi đầu.

Cung cấp cho người dùng thông tin về những gì họ có thể làm

Giao diện người dùng đồ họa hiển thị cho người dùng mọi thứ họ có thể làm. Giao diện giọng nói không có cách nào để hiển thị cho người dùng những tùy chọn nào có thể và người dùng mới dựa trên mong đợi của họ về trải nghiệm của họ với các cuộc trò chuyện của con người.

Do đó, họ có thể bắt đầu bằng cách yêu cầu một cái gì đó không có ý nghĩa với hệ thống hoặc điều đó là không thể. Giải pháp cho vấn đề này là cung cấp các tùy chọn tương tác người dùng.

Ví dụ: giao diện giọng nói có thể nói điều gì đó như "Tôi có thể giúp bạn mua" hoặc "Tôi có thể cung cấp cho bạn thông tin về sản phẩm".

Trong mọi trường hợp, người dùng cũng nên được cung cấp một cách dễ dàng để thoát khỏi một tính năng, bao gồm cả 'thoát' là một trong những lựa chọn của họ.

Cung cấp câu trả lời với thông tin đầy đủ

Trong các giao diện đồ họa, người dùng có thể thấy họ đang ở phần nào, trong khi trong giao diện người dùng bằng giọng nói, người dùng phải biết họ đang sử dụng chức năng gì.

Người dùng có thể nhanh chóng bị nhầm lẫn về vị trí của họ trong cuộc trò chuyện hoặc có thể kích hoạt chức năng do nhầm lẫn, do đó, không có hướng dẫn nhiều hơn thính giác, họ cần nhiều chi tiết hơn.

Giao diện phải trả lời một câu hỏi về một sản phẩm có toàn bộ cụm từ như "Chiếc xe của thương hiệu X và mẫu X có giá 20.000 đô la, và được bảo hành trong 2 năm."

Điều này cho phép người dùng biết chức năng họ đang sử dụng và người nói đang nói về cái gì.

Sử dụng càng nhiều ví dụ càng tốt

Khi mọi người nói, họ thường không thể hiện ý định đầy đủ của họ, nhiều lần vì họ sử dụng tiếng lóng, bánh nướng xốp, rút ngắn từ, v.v.

Trong số những người chúng ta hiểu nhau, nhưng giao diện giọng nói cần con người thể hiện chính xác để hiểu ý định của mình.

Ngoài ra, càng nhiều thông tin về ý định của họ bao gồm một người dùng trong một câu thì càng tốt.

Một người dùng có thể hỏi: "Vui lòng cho tôi biết thông tin về những chiếc xe có sẵn, giá của mẫu X vui lòng" và lấy thông tin họ muốn ngay lập tức, thay vì nói trước: "Tôi muốn thông tin về những chiếc xe có sẵn" và sau đó hỏi về mẫu xe .

Người dùng có thể không nhận ra cách vận hành này, vì vậy bạn nên sử dụng càng nhiều ví dụ về tương tác càng tốt.

Giới hạn số lượng tùy chọn

Khi người dùng duyệt nội dung hoặc danh sách trực quan, họ có thể quay lại thông tin họ bỏ qua hoặc quên.

Đó không phải là trường hợp với nội dung bằng lời nói. Với nội dung bằng lời nói, câu nên được giữ ngắn.

Chúng tôi khuyên bạn nên sử dụng nhiều hơn ba tùy chọn khác nhau để tương tác.

Thông báo cho người dùng rằng bạn đang nghe

Sử dụng một số hình thức phản hồi đơn giản để người dùng biết rằng hệ thống đang lắng nghe.

Bạn nên sử dụng một số thông tin trực quan để người dùng biết rằng giao diện người dùng đang lắng nghe, người dùng có thể thấy ngay những gì anh ta đang nói đang được ghi lại (tương tự như khi chúng ta nói chuyện với người khác và bằng cách giao tiếp không lời bạn có thể thấy họ đang nghe ).

Cấu tạo của lệnh thoại

Trước khi một dòng đối thoại có thể được tạo ra, trước tiên các nhà thiết kế phải hiểu về giải phẫu của lệnh thoại. Lệnh thoại của người dùng bao gồm ba yếu tố chính: ý định, khai báo và không gian. Hãy phân tích yêu cầu sau: "Chơi nhạc thư giãn để ngủ".

Ý định

Ý định đại diện cho mục tiêu rộng lớn hơn của lệnh thoại của người dùng. Trong ví dụ yêu cầu, ý định rõ ràng, người dùng muốn nghe nhạc.

Tuyên bố

Làm thế nào người dùng xây dựng lệnh, đó là, câu lệnh. Trong ví dụ được sử dụng, chúng tôi biết rằng người dùng muốn phát nhạc thư giãn nhờ từ "phát", nhưng đây không phải là cách duy nhất để nói. Người dùng cũng có thể nói "Tôi muốn nghe nhạc".

Người thiết kế hội thoại phải tính đến tất cả các biến thể của biểu thức.

Bối cảnh

Đôi khi, một ý định thôi là không đủ và cần thêm thông tin người dùng để thực hiện yêu cầu.

Đây được gọi là "bối cảnh" và những cái này, như trong các giao diện trực quan, có thể là tùy chọn hoặc bắt buộc để hoàn thành một ứng dụng.

Trong trường hợp này, từ "thư giãn" có thể sử dụng ngữ cảnh "phát nhạc" để biết rằng bạn đang yêu cầu phát nhạc thư giãn.

Để thiết kế giao diện người dùng bằng giọng nói xuất sắc, bạn phải tìm một cách thanh lịch để cung cấp cho người dùng thông tin liên quan mà không áp đảo họ.

Tương tác người dùng bằng giọng nói có thể đặt ra nhiều thách thức ở một số khía cạnh hơn là một hệ thống thị giác, tuy nhiên, không có nghi ngờ gì rằng đó là một chế độ tương tác sẽ ngày càng được sử dụng.

Bạn có muốn biết nhiều hơn?

Có thêm thông tin