Cuối cùng, OpenAI đã thêm tính năng chia sẻ video và màn hình vào chế độ giọng nói nâng cao, đáp ứng mong đợi lâu dài, mang lại khả năng tương tác phong phú hơn cho người dùng với chatbot.
OpenAI lần đầu giới thiệu tính năng này vào tháng 5 khi công ty công bố GPT-4 và chia sẻ kế hoạch cho học cách “nhìn thấy” một trò chơi và giải thích các hoạt động trong đó. Chế độ giọng nói nâng cao đã chính thức được ra mắt vào tháng 9.
Tính năng này hiện đã có mặt trên các ứng dụng di động iOS và Android cho người dùng Teams, Plus và Pro, và sẽ được triển khai cho người đăng ký Enterprise và Edu từ tháng 1. Tuy nhiên, người dùng ở EU, Thụy Sĩ, Iceland, Na Uy và Liechtenstein sẽ không thể truy cập vào chế độ giọng nói nâng cao. Người dùng có thể bắt đầu video qua các nút mới trên màn hình chế độ giọng nói nâng cao.
Chế độ video của OpenAI mang lại trải nghiệm giống như cuộc gọi video FaceTime, vì phản hồi ngay lập tức với những gì người dùng hiển thị. Nó có khả năng nhận diện các vật thể xung quanh người dùng và ghi nhớ những người tự giới thiệu. Trong một bản demo của OpenAI tại sự kiện '12 Ngày của OpenAI', đã sử dụng tính năng video để hướng dẫn pha cà phê, nhận diện dụng cụ pha và đưa ra các hướng dẫn về thời điểm đặt bộ lọc cũng như đánh giá kết quả.

Tính năng này khá giống với Project Astra mà Google mới công bố, nơi người dùng có thể bắt đầu cuộc trò chuyện video và Gemini 2.0 sẽ trả lời các câu hỏi về những gì nó quan sát được, ví dụ như nhận diện tác phẩm điêu khắc trên các con phố London. Đây là một phiên bản nâng cao so với các tính năng mà các thiết bị AI như Humane Pin và Rabbit r1 đã quảng bá: một trợ lý giọng nói AI trả lời câu hỏi dựa trên những gì nó thấy trong video.
Với tính năng chia sẻ màn hình, menu ba chấm cho phép người dùng thoát khỏi ứng dụng . Họ có thể mở các ứng dụng khác trên điện thoại và yêu cầu giải đáp những gì nó quan sát được. Trong một bản demo, các nhà nghiên cứu của OpenAI đã kích hoạt tính năng chia sẻ màn hình, mở ứng dụng tin nhắn và yêu cầu trợ giúp trả lời một câu hỏi liên quan đến hình ảnh được gửi qua tin nhắn văn bản.
Tuy nhiên, tính năng chia sẻ màn hình trong chế độ giọng nói nâng cao của OpenAI có sự tương đồng với các tính năng gần đây của Microsoft và Google.
Vừa qua, Microsoft đã giới thiệu phiên bản thử nghiệm của Copilot Vision, cho phép người dùng đăng ký Pro mở cuộc trò chuyện Copilot khi duyệt web. Copilot Vision có khả năng nhận diện hình ảnh trên các trang web, như hình ảnh trên cửa hàng trực tuyến, hoặc hỗ trợ chơi trò chơi đoán bản đồ Geoguessr. Project Astra của Google cũng có tính năng đọc trình duyệt tương tự.
Google và OpenAI đã cho ra mắt tính năng trò chuyện AI chia sẻ màn hình trên điện thoại, nhắm đến người dùng di động, những người có thể sử dụng hoặc Gemini nhiều hơn khi đang di chuyển. Các tính năng này có thể mở ra cơ hội cho các doanh nghiệp hợp tác với AI nhiều hơn, vì AI có thể quan sát những gì người dùng đang làm trên màn hình. Điều này có thể là sự khởi đầu cho các mô hình máy tính như Computer Use của Anthropic, trong đó AI không chỉ quan sát mà còn tự mở các tab và ứng dụng cho người dùng.
Nguồn: Venturebeat
Mời bạn tham khảo danh sách các laptop mạnh mẽ đang rất được ưa chuộng tại Mytour, lý tưởng cho các công việc có hỗ trợ AI.
