Dựa trên hàng chục nghìn giờ video chơi game công khai, NVIDIA đã tạo ra một mô hình AI có thể học cách điều khiển tay cầm và hoàn thành nhiệm vụ trong game.
Trong một bước tiến lớn trong ngành trí tuệ nhân tạo (AI), nhóm nghiên cứu từ NVIDIA cùng các cộng tác viên tại các trường đại học Stanford và Caltech đã công bố NitroGen - mô hình AI chuyển đổi từ thị giác đến hành động (vision-to-action) để chơi game trực tiếp từ các khung hình thô.
Nói cách khác, NitroGen là hệ thống AI có thể chơi game. Tất cả bộ dữ liệu, công cụ đánh giá, trọng số mô hình và mã nguồn đều được công khai trên Hugging Face .

Khác với phương pháp huấn luyện truyền thống, thường dựa vào hệ thống điểm thưởng, NitroGen được xây dựng trên phương pháp học máy bắt chước quy mô lớn. Đội ngũ phát triển đã sử dụng những video đặc biệt ghi lại gameplay để huấn luyện NitroGen: ngoài cảnh vật và hành động trong game, những video này còn có thêm hình ảnh tay cầm chơi game, hiển thị thao tác của người chơi.

Video với "tay cầm ảo", giúp người xem biết chính xác người chơi đang nhấn nút nào - Ảnh chụp màn hình.
Với kỹ thuật thị giác máy tính như SIFT và XFeat, hệ thống xác định chính xác vị trí của "tay cầm ảo", tách riêng khu vực này để phân tích. Sử dụng mô hình phân đoạn SegFormer, họ đã trích xuất thành công các vị trí cần gạt và trạng thái nút bấm với độ chính xác rất cao, tạo thành bộ dữ liệu huấn luyện có nhãn.
Về mặt kỹ thuật, NitroGen đã kế thừa những thành tựu từ dự án robot GR00T của NVIDIA, giúp mô hình vượt qua các giới hạn của một bot chơi game thông thường và tiến gần hơn đến mục tiêu trở thành một tác nhân đa năng (universal agent).
Kết quả thử nghiệm cho thấy khi đối mặt với những trò chơi hoàn toàn mới, chưa từng xuất hiện trong quá trình huấn luyện, NitroGen đạt tỷ lệ thành công cao hơn 52% so với các mô hình huấn luyện từ đầu. Điều này minh chứng rằng việc mở rộng quy mô dữ liệu hình ảnh có thể tạo ra những đột phá năng lực tương tự như các mô hình ngôn ngữ lớn đã làm trước đó.
Hiện tại, NitroGen được tối ưu hóa chủ yếu cho các thể loại game hành động, đua xe và đi bàn dạng 2D, những trò chơi yêu cầu bộ điều khiển tay cầm. Mặc dù NitroGen chưa thể chơi hiệu quả các game yêu cầu bàn phím và tay cầm như MOBA và RTS, nhưng sự xuất hiện của hệ thống AI này đã mở ra một trang mới cho trí tuệ nhân tạo chơi game và các hệ thống kiểm thử tự động.
NVIDIA đã quyết định công khai mã nguồn, trọng số mô hình và bộ dữ liệu để cộng đồng nghiên cứu có thể tiếp tục phát triển lĩnh vực tác nhân AI đầy hứa hẹn này.
