Đây là một nỗ lực chứng minh rằng AI sẽ thay đổi hoàn toàn ngành công nghiệp game trong tương lai.

Trí tuệ nhân tạo tạo sinh (Generative AI) có khả năng làm thay đổi các lĩnh vực sáng tạo, hỗ trợ con người trong việc phát triển ý tưởng mới. Tuy nhiên, các mô hình AI hiện tại vẫn chưa đáp ứng hoàn toàn kỳ vọng này.
Để minh họa vấn đề và chỉ ra AI như một công cụ hỗ trợ sáng tạo mới, các nhà nghiên cứu tại Microsoft đã chọn phát triển game như một ví dụ, phản ánh nhu cầu của người sáng tạo trong thời đại hiện nay.
Họ đã giới thiệu mô hình AI tạo sinh tiên tiến mang tên WHAM (World and Human Action Model - Mô hình Thế giới và Hành động của Con người). Báo cáo khoa học đã được công bố trên tạp chí Nature.
Một cách đơn giản, WHAM là mô hình AI thay thế engine của game. Mô hình này có khả năng tạo ra từng khung hình của game Quake II trong thời gian thực, khác biệt hoàn toàn so với engine truyền thống (trong trường hợp này là Quake II engine), vốn lấy dữ liệu từ thư viện và ghép chúng lại để tạo thành cảnh vật và sự kiện trong game.
Nhận thức được những hạn chế của mô hình AI tạo sinh hiện tại, Microsoft khẳng định: “ Chúng tôi không mong muốn tái tạo hoàn toàn trải nghiệm thực sự khi chơi phiên bản Quake II gốc ”.
Bạn có thể trải nghiệm “Quake II AI” trực tiếp trên trình duyệt web tại đường link này.
Đây là một nỗ lực thể hiện khả năng tạo ra chuỗi hành động trong game vừa đa dạng, vừa nhất quán, đồng thời vẫn giữ được sự chỉnh sửa của người chơi. Microsoft cho rằng ba yếu tố này rất quan trọng trong việc hỗ trợ quá trình sáng tạo.

Giao diện của "Quake II AI" - Hình ảnh chụp màn hình.
Cơ chế hoạt động của mô hình AI này là gì?
Vào đầu năm nay, Microsoft đã công bố mô hình có tên là World and Human Action MaskGIT Model (WHAMM, với hai chữ 'M'). Họ mô tả đây là “ những khám phá ban đầu về cách tạo ra những trải nghiệm chơi trong thời gian thực ”.
Hệ thống WHAMM hoạt động bằng cách phân tách video ghi lại quá trình chơi game thành những mảnh dữ liệu nhỏ gọi là token, tức là biến các hình ảnh và hành động của người chơi thành dữ liệu mà AI có thể hiểu được.
Sử dụng kiến trúc transformer giống như trong các mô hình tạo văn bản, WHAMM xử lý chuỗi token hình ảnh và hành động này để dự đoán khung hình tiếp theo, dựa trên các thao tác của người chơi. Phương pháp này cho phép hệ thống tạo ra khung hình mới theo yêu cầu, thay vì tuân theo các quy tắc render truyền thống.
Mô hình WHAM, được đề cập trong báo cáo khoa học mới, là phiên bản cải tiến của WHAMM.

Microsoft đã mô tả cơ chế hoạt động của mô hình WHAM - Hình ảnh từ báo cáo khoa học.
WHAMM có khả năng tạo ra game với độ phân giải 300×180, đạt tốc độ 10 khung hình/giây, thấp hơn nhiều so với tiêu chuẩn quen thuộc.
Phiên bản WHAM mới đã cải thiện gấp đôi độ phân giải, đạt 640×360 pixel. Tuy nhiên, nó vẫn chưa đáp ứng kỳ vọng của game thủ về một game hoàn toàn tạo sinh bằng AI. Có thể nói, Microsoft đang trình diễn một bản demo công nghệ AI, hé lộ hình ảnh tương lai của ngành công nghiệp game.
Microsoft cũng thừa nhận một số hạn chế hiện tại, ví dụ như:
- Tương tác với kẻ địch vẫn còn yếu.
- Độ dài ngữ cảnh rất ngắn, chỉ khoảng 0,9 giây (hệ thống sẽ “quên” các vật thể khi chúng ra khỏi tầm nhìn).
- Không thể theo dõi một số chỉ số quan trọng, như lượng máu (HP) trong game.
Tuy nhiên, thật khó để chỉ trích một công nghệ còn mới mẻ như AI tạo sinh! Dù có nhiều ý kiến trái chiều xung quanh bản demo công nghệ này, nhưng dù cho lời lẽ có gay gắt đến đâu, AI đã xuất hiện và đang làm thay đổi mọi lĩnh vực mà nó tác động vào.
Nếu một người không học cách sống chung với AI - công cụ của thời đại mới, có lẽ họ sẽ không thể phát triển trong thế giới này, giống như những nông dân xưa từ chối sử dụng máy móc và vẫn phải cày ruộng bằng sức lực của mình vậy.
