
Khi Amazon ra mắt trợ lý ảo Alexa chín năm trước, khả năng giải mã các lệnh giọng nói để đặt hẹn giờ hoặc phát nhạc dường như kỳ diệu. Ngày nay, độ xuất sắc trong kỹ năng ngôn ngữ đã cao hơn nhiều, nhờ vào ChatGPT của OpenAI. Amazon đang đưa ra bản nâng cấp cho trợ lý giọng của mình, tận dụng công nghệ đằng sau làn sóng mới của các chatbot có thể tham gia vào cuộc trò chuyện rất giống với cuộc trò chuyện trong đời thực.
Amazon công bố bản nâng cấp cho Alexa tại một sự kiện tại trụ sở thứ hai của mình tại Arlington, Virginia. Trợ lý sẽ trả lời những câu hỏi phức tạp hơn nhiều và tham gia vào cuộc trò chuyện mạch lạc, loại bỏ nhu cầu cho người dùng phải nói “Alexa...” ở mỗi bước chuyển.
Trong vài tuần tới, người dùng nói, “Alexa, chúng ta hãy trò chuyện,” sẽ có quyền truy cập vào trợ lý giọng mới mạnh mẽ hơn. Amazon gọi đó là một “phiên bản xem trước sớm” vì những khả năng mới vẫn đang trong quá trình phát triển.
Trình diễn trên sân khấu vào thứ Tư cho thấy Alexa thể hiện thêm tính cách mô phỏng qua cách ngôn ngữ và nỗ lực hài hước. Các video cho thấy mọi người đang yêu cầu Alexa viết thơ theo một chủ đề, nảy ra ý tưởng cho một buổi tối hẹn hò và tạo ra một câu chuyện về Jell-O. Thiết bị có trang bị camera, như Echo Show, sẽ cố gắng phát hiện khi người ta mong đợi Alexa tiếp tục cuộc trò chuyện và khi cuộc trò chuyện kết thúc.
Alexa mới cũng sẽ điều chỉnh giọng nó để tạo ra một cuộc trò chuyện trở nên tự nhiên hơn. “Nếu tôi hỏi Alexa về hiệu suất của Red Sox, và họ vừa thua, nó sẽ trả lại với một giọng điệu đồng cảm,” nói Rohit Prasad, người đứng đầu phát triển AI tại Amazon và đặt cơ sở tại Cambridge, Massachusetts.
Prasad nói rằng việc nâng cấp kỹ năng ngôn ngữ của Alexa đòi hỏi kỹ thuật mở rộng, vì mô hình ngôn ngữ lớn mà cung cấp dịch vụ như ChatGPT có thể tạo ra các sự thật, phát ra lời vô nghĩa và thậm chí là không phù hợp. “Đặc biệt là với những hạn chế cụ thể của mô hình ngôn ngữ, đây là một bước nhảy lớn,” Prasad nói.
Justine Cassell, giáo sư tại Đại học Carnegie Mellon nghiên cứu cách con người tương tác với các tác nhân AI, nói rằng sẽ thú vị khi xem cách mọi người phản ứng với một chatbot có khả năng cung cấp phản hồi phong phú. “Những mục tiêu là tuyệt vời, và tôi háo hức xem họ làm gì,” bà nói.
Tuy nhiên, Cassell nói rằng một số điều Amazon đang hứa, như phản ứng với ngôn ngữ cơ thể, vẫn là rất khó khăn. “Không có ngữ pháp của ngôn ngữ cơ thể, như ngôn ngữ nói và viết,” bà nói. Nếu Alexa hiểu sai tư thế hoặc cử chỉ của ai đó và phản ứng sai, mọi thứ có thể trở nên ng awkward.
Cassell nói rằng ngay cả khi Alexa có thêm sự trôi chảy giống như ChatGPT, những nỗ lực để mô phỏng tính cách và cảm xúc con người qua các đặc điểm như ngữ điệu rất khó mà có thể sánh kịp khả năng con người trong một thời gian dài. Hãy mong đợi Alexa mới đôi khi cảm thấy cứng nhắc trong cách phản ứng của mình.
Amazon cho biết người dùng sẽ có thể đăng ký để có quyền truy cập vào một bài kiểm tra thêm về công nghệ mới của nó, nơi các khả năng mới của Alexa có thể được sử dụng để kiểm soát các thiết bị khác, bao gồm một số không được sản xuất bởi Amazon. Theo thời gian, công ty có kế hoạch thêm các tính năng mới cho Alexa, có thể bao gồm khả năng thảo luận và đề xuất sản phẩm từ kho lưu trữ rộng lớn của công ty.
Nếu Alexa có thể phản hồi vào các truy vấn phức tạp hơn mà tránh được những lỗi ngượng ngùng, điều này có thể là dấu hiệu cho một cập nhật rộng lớn—và cần thiết—về khả năng của trợ lý giọng.
Khi Amazon ra mắt Alexa vào năm 2014, nó đã giúp tạo ra một danh mục mới trong máy tính cá nhân xây dựng quanh tương tác giọng nói, kích thích dự đoán rằng giao diện giọng nói sẽ sớm chiếm ưu thế. Alexa và Siri của Apple đã hưởng lợi từ sự tiến bộ trong học máy, giúp các thiết bị có thể nhận diện và phản ứng đáng tin cậy với giọng nói của người dùng. Nhưng độ phức tạp của ngôn ngữ đã hạn chế những thiết bị này chỉ đến các lệnh đơn giản và không thể tham gia vào bất cứ cuộc trò chuyện thực sự nào. Tuy nhiên, Amazon cho biết hơn nửa tỷ thiết bị tích hợp Alexa đã được bán ra trên toàn thế giới.
Sự xuất hiện của các mô hình ngôn ngữ lớn được đào tạo trên lượng lớn văn bản đã cuối cùng tạo ra các thuật toán có thể xử lý các cuộc đối thoại phức tạp hơn. ChatGPT và các chatbot khác đã làm kinh ngạc cả chuyên gia lẫn công chúng bằng tính linh hoạt và sự hùng hồn của chúng, mặc dù chúng có thể thường xuyên phát ra các tuyên bố có thể là sai lầm, thiên vị hoặc thậm chí là phản cảm.
Prasad nói rằng Amazon đã phát triển một mô hình ngôn ngữ lớn mới, tiên tiến để làm mới Alexa. Anh ấy nói rằng công ty đã điều chỉnh mô hình này về các cách diễn đạt phù hợp cho cuộc trò chuyện giọng nói và sử dụng các thuật toán bổ sung để hỗ trợ nhận diện ngôn ngữ cơ thể và ngữ điệu.
Một trong những thách thức lớn đối với Amazon có thể chứng minh là xử lý những lỗi bất ngờ đi kèm khi sử dụng các mô hình ngôn ngữ lớn. Khi Microsoft thêm một chatbot AI tiên tiến vào công cụ tìm kiếm Bing của mình, người dùng nhanh chóng phát hiện ra một số hành vi kỳ lạ. “Nó có hoàn hảo 100% không? Không,” Prasad nói. “Đó là lý do nó là bản xem trước sớm, vì sẽ có những lỗi đôi khi.”
Prasad nói rằng Amazon đã phát triển các thanh chắn để ngăn Alexa lạc khỏi hành trình. Anh ấy thêm rằng một số sẽ nhắc nhở người ta rằng họ đang nói chuyện với một máy, và cố gắng tránh trợ lý tỏ ra giống như một người quá nhiều. Một số người dùng chatbot hình thành mối liên kết cảm xúc mạnh mẽ và thậm chí là lãng mạn với những cá nhân mô phỏng mà họ tương tác. Prasad thêm rằng Amazon đang nghiên cứu về những rủi ro dài hạn có thể đến từ sự tiến bộ tiếp theo trong lĩnh vực AI.
