
Millions of people routinely say “hey” to voice assistants like Siri and Alexa, even though the experience can be frustratingly glitchy. On Tuesday, Google previewed new technology that makes speech recognition strikingly more responsive, suggesting voice control could soon be seamless enough to be irresistible.
Tại hội nghị phát triển thường niên của mình tại Mountain View, Google tự hào về việc thu nhỏ phần mềm nhận dạng giọng nói của mình xuống còn 1/25 so với trước đây. CEO Sundar Pichai mô tả đó như một "cột mốc" vì nó có nghĩa là phần mềm thông thường đặt ở các máy chủ đám mây của Google giờ có thể được cài đặt trên điện thoại Pixel mà Google sẽ ra mắt vào cuối năm nay, giúp thiết bị phản ứng với giọng nói của người dùng nhanh chóng hơn nhiều.
Trong loạt demo vào thứ Ba, Google cho thấy điện thoại có thể nhận diện từ ngay lập tức, thay vì gửi âm thanh đến một máy chủ xa xôi. Sự phản ứng nhanh chóng này có tiềm năng thay đổi cách mọi người tương tác với các thiết bị của họ. Trong một tình huống được thể hiện, trợ lý ảo của Google trở nên mạnh mẽ và riêng tư hơn đáng kể so với đối thủ như Siri.
Trong bản demo đó, nhân viên của Google, Meggie Hollinger, cho thấy cách cô ấy có thể hoàn thành công việc trên điện thoại bằng cách liên tục đưa ra các lệnh bằng giọng nói mà không cần dừng lại. Mỗi lệnh được thực hiện nhanh chóng hơn so với những gì mà Siri và các trợ lý khác đã làm cho người dùng mong đợi - và cô ấy không cần phải nói từ kích thích "OK Google" giữa các yêu cầu. Trợ lý ảo thường sử dụng đó để giúp họ xác định âm thanh để gửi đến đám mây.
Để gửi một bức ảnh chụp từ chuyến du lịch gần đây đến một người bạn, Hollinger nhanh chóng đưa ra ba cụm từ và thực hiện chỉ hai lần chạm. "Hiển thị ảnh của tôi từ Yellowstone; những bức có động vật; gửi nó cho Justin," cô ấy nói. Trong vài giây, ứng dụng ảnh của Google đã tìm kiếm qua bộ sưu tập của cô ấy và một bức tranh của một con bò rừng đang trên đường đến. Việc theo dõi cô ấy đạt được kết quả tương tự chỉ bằng cách chạm và vuốt sẽ làm cho thời gian trôi qua trở nên dài dòng.
Jeff Dean, giám đốc trí tuệ nhân tạo của Google, tweet rằng đoạn video cho thấy làm thế nào việc nhận diện giọng nói hoàn toàn trên thiết bị sẽ "thay đổi cách bạn tương tác với điện thoại của mình." Google trước đây đã sử dụng các thuật toán nhận diện trên thiết bị và đám mây cùng một lúc, nhưng vào thứ Ba công bố thiết bị của họ đã sẵn sàng từ bỏ chiếc nạng đám mây trong nhiều tình huống.
Tốc độ cải thiện và tỷ lệ lỗi thấp có thể quyết định cho một công nghệ tiêu dùng chuyển từ sự khuyến khích thành không thể thiếu. Hãy xem xét cách máy tính cá nhân và băng thông rộng nhanh hơn đã làm cho video chat và game đa người chơi trở nên thực tế. Google chưa công bố công nghệ nhận diện giọng nói trên thiết bị của họ và ban đầu nó chỉ hoạt động trên các thiết bị cao cấp, nhưng ví dụ vào thứ Ba đã chỉ ra rằng công nghệ có thể biến đổi trải nghiệm nói chuyện với điện thoại của bạn.
Trợ lý ảo hiện đại là kết quả của nghiên cứu trí tuệ nhân tạo từ năm 2012, cho thấy rằng một kỹ thuật gọi là deep learning có thể làm cho việc nhận diện giọng nói chính xác hơn nhiều. Google cho biết công nghệ ngay lập tức giảm tỷ lệ lỗi của mình đi 25%. Tuy nhiên, vào thời điểm đó, công nghệ phải chạy trên các máy chủ; việc gửi âm thanh đến đám mây đặt ra ràng buộc về tốc độ và gây ra lỗi do sự cố mạng.
Google đã dành nhiều năm nghiên cứu cách làm cho phần mềm deep learning co lại, và vào năm 2019, họ đã đưa các mô hình nhận diện giọng nói xuống dưới ngưỡng quan trọng. Bản vá mới nhất của gói nhận diện giọng nói trên máy chủ đám mây của Google có kích thước khoảng 2 gigabyte, theo công ty cho biết vào thứ Ba, khiến nó quá lớn và đòi hỏi để chạy trên điện thoại thông minh. Bản trên thiết bị xuất hiện sau khi các nhà nghiên cứu trí tuệ nhân tạo thiết kế lại công nghệ để cung cấp hiệu suất tương tự từ mã có trọng lượng chỉ 80 megabyte, chỉ bằng 1/25 so với trước đây.

Nhận diện giọng nói nhanh chóng hơn đáng kể so với thế hệ đầu tiên của công nghệ deep learning trên đám mây có thể khiến người dùng sử dụng lệnh và truy vấn bằng giọng nói nhiều hơn. Nó cũng có thể giúp các thiết bị và dịch vụ của Google vượt trội so với các đối thủ như Apple và Amazon - ít nhất cho đến khi những công ty đó phát triển công nghệ tương tự của riêng họ. Apple vào năm 2017 đã nộp đơn bằng sáng chế cho một "trợ lý cá nhân ngoại tuyến."
Werner Goertz, một giám đốc nghiên cứu tại Gartner, gọi sự chuyển đổi sang nhận diện giọng nói trên thiết bị là "thay đổi trò chơi" và có thể là một thách thức đáng kể đối với các hệ thống nhận diện giọng nói truyền thống hơn của Apple và Amazon. "Độ trễ luôn là một vấn đề," ông nói, và hầu hết người dùng đều đã trải qua vấn đề này.
Google cũng sử dụng công nghệ trên thiết bị của mình để tạo ra một tính năng mới cho các điện thoại trong tương lai của mình được gọi là Live Caption. Khi được kích hoạt, phụ đề xuất hiện trên màn hình cho bất kỳ lời nói nào đang phát trên điện thoại, chẳng hạn như một video từ một người bạn hoặc một podcast. Do xử lý diễn ra trên điện thoại, nó hoạt động ngay cả khi ở chế độ máy bay.
Công ty cũng trình bày một dự án nghiên cứu mang tên Euphonia nhằm điều chỉnh nhận diện giọng nói cho những người có vấn đề về lời nói, ví dụ như do đột quỵ hoặc bệnh tật. Google kêu gọi tình nguyện viên đóng góp mẫu giọng của họ. Quản lý sản phẩm Julie Cattiau nói rằng việc nhận diện giọng nói trên thiết bị có thể giúp dự án trở thành một sản phẩm phổ biến một ngày nào đó, vì phần mềm nhận diện trên điện thoại của một người có thể được điều chỉnh cho giọng cá nhân của họ. "Nó mở ra cơ hội cho cá nhân hóa," cô nói.
Xử lý giọng nói trên thiết bị thay vì truyền đến đám mây cũng có thể mang lại quyền riêng tư hơn so với mô hình truyền thống - mặc dù trong một số trường hợp, văn bản đã được chuyển ngữ sẽ được gửi đến Google. Pichai và các nhà điều hành khác đã làm cho quyền riêng tư trở thành chủ đề của sự kiện vào thứ Ba, cố gắng nhẹ nhàng làm dịu hình ảnh của Google về việc thu thập dữ liệu. Công ty trình diễn cài đặt quyền riêng tư được thiết kế lại và một "chế độ ẩn danh" mới cho Google Maps để tạm dừng việc theo dõi mặc định của dịch vụ đối với di chuyển của thiết bị.
Những Điều Tuyệt Vời Khác Của Mytour
- Tại sao tôi yêu chiếc điện thoại Nokia nhỏ xíu của mình
- Donald Glover, Adidas, Nike và cuộc chiến vì sự phong cách
- Kinh doanh ủng hộ trứng người: Làm thế nào để kiếm lời một cách yên bình
- Chúng ta đã đến chưa? Một đánh giá thực tế về ô tô tự lái
- Trận chiến của Winterfell: Phân tích chiến thuật
- 📱 Lưỡng lự giữa những chiếc điện thoại mới nhất? Đừng lo lắng—kiểm tra hướng dẫn mua iPhone của chúng tôi và những chiếc điện thoại Android yêu thích
- 📩 Khao khát nhiều hơn nữa về đào sâu vào chủ đề yêu thích tiếp theo của bạn? Đăng ký bản tin Backchannel của chúng tôi
