Mô hình Gemini 2.5 mới trong lĩnh vực sử dụng máy tính có thể thực hiện các thao tác như nhấp chuột, cuộn trang và nhập liệu trong trình duyệt, giúp truy cập dữ liệu không có sẵn thông qua API.
Google gần đây đã giới thiệu mô hình AI Gemini, được thiết kế để điều hướng và tương tác với các trang web, cho phép các tác nhân AI thực hiện công việc trong các giao diện dành cho con người, không phải cho robot. Được gọi là Gemini 2.5 Computer Use, mô hình này sử dụng 'khả năng hiểu và lập luận trực quan' để phân tích yêu cầu người dùng và thực hiện tác vụ.

Theo Google, mô hình Gemini 2.5 Computer Use có thể được sử dụng để kiểm tra giao diện người dùng (UI) hoặc điều hướng các giao diện thiết kế dành cho người dùng không có API hoặc kết nối trực tiếp khác.
Các phiên bản trước của mô hình này đã được áp dụng trong các tính năng tác nhân (agentic) của AI Mode và Project Mariner – một nguyên mẫu nghiên cứu cho phép các tác nhân AI tự động thực hiện tác vụ trong trình duyệt, như thêm sản phẩm vào giỏ hàng dựa trên danh sách mua sắm.

Thông báo từ Google được đưa ra chỉ một ngày sau khi OpenAI công bố loạt ứng dụng mới trong sự kiện Dev Day thường niên. Công ty này tiếp tục tập trung vào các tính năng Agent, giúp AI thực hiện các nhiệm vụ phức tạp thay cho người dùng. Trong khi đó, Anthropic đã phát hành phiên bản AI Claude hỗ trợ 'computer use' từ năm ngoái.
Google đã đăng tải một số video demo minh họa cách công cụ sử dụng máy tính của họ hoạt động, đồng thời nhấn mạnh rằng tốc độ xử lý của chúng đã được tăng lên gấp 3 lần.
Google cho biết mô hình sử dụng máy tính của họ 'vượt trội hơn các đối thủ hàng đầu trong nhiều bài kiểm tra chuẩn dành cho web và di động.' Tuy nhiên, khác với Agent của OpenAI và công cụ sử dụng máy tính của Anthropic, mô hình AI mới của Google chỉ có quyền truy cập vào trình duyệt web, chứ không phải toàn bộ môi trường máy tính.
Gã khổng lồ công nghệ này cũng lưu ý rằng mô hình này 'chưa được tối ưu hóa để điều khiển ở cấp độ hệ điều hành máy tính để bàn' và hiện tại hỗ trợ 13 thao tác, bao gồm mở trình duyệt web, nhập văn bản, cũng như kéo và thả các thành phần.
Gemini 2.5 Computer Use hiện có sẵn cho các nhà phát triển thông qua Google AI Studio và Vertex AI, nhưng cũng có bản demo trên Browserbase, nơi bạn có thể theo dõi quá trình hoàn thành các nhiệm vụ, như 'Chơi game 2048' hoặc 'Duyệt Hacker News để khám phá các cuộc tranh luận đang thịnh hành'.
Nguồn: Theverge
- Hướng dẫn đăng ký Google Gemini Pro và nhận 2TB dung lượng miễn phí dành cho sinh viên
- Google Gemini đã có mặt trên Google TV: Tóm tắt phim, tìm kiếm phim bằng mô tả,...
