Tại sao DeepMind Đang Gửi Robot AI Đến Trại Bóng Đá

Nỗ lực của DeepMind để dạy một AI chơi bóng đá bắt đầu với một người chơi ảo nằm vật ra sàn sân—vì vậy nó đã tập trung vào ít nhất một khía cạnh của trò chơi từ đầu.
Nhưng việc xác định cơ chế của trò chơi đẹp—từ những khái niệm cơ bản như chạy và đá bóng đến những khái niệm cao hơn như teamwork và bắt bóng—đã chứng minh rằng thực sự rất khó khăn, như nghiên cứu mới từ công ty AI được Alphabet hỗ trợ đã chứng minh. Công việc này—được xuất bản trong tuần này trên tạp chí Science Robotics—có thể dường như không có ích, nhưng việc học những nguyên tắc cơ bản của bóng đá có thể một ngày nào đó giúp robot di chuyển trong thế giới của chúng ta một cách tự nhiên, giống con người hơn.
“Để ‘giải quyết’ bóng đá, bạn phải thực sự giải quyết rất nhiều vấn đề mở trên con đường đến trí tuệ tổng quát nhân tạo [AGI],” Guy Lever, một nhà nghiên cứu tại DeepMind cho biết. “Điều đó bao gồm việc điều khiển cơ thể humanoid đầy đủ, sự phối hợp—điều thực sự khó khăn đối với AGI—và thực sự làm chủ cả việc kiểm soát chuyển động thấp và như lập kế hoạch dài hạn.”
Một AI phải tái tạo mọi thứ mà người chơi con người làm—ngay cả những điều chúng ta không phải suy nghĩ có ý thức, như cách chính xác để di chuyển từng chi và cơ bắp để kết nối với một quả bóng đang di chuyển—đưa ra hàng trăm quyết định mỗi giây. Thời gian và kiểm soát cần thiết cho những cử động ngay cả đơn giản nhất cũng có thể thực sự khó khăn để làm chủ, như bất kỳ ai đã từng chơi trò chơi trình duyệt QWOP sẽ nhớ. “Chúng ta làm điều đó mà không cần suy nghĩ, nhưng đó là một vấn đề thực sự khó khăn đối với AI, và chúng ta không chắc chắn chính xác con người làm thế nào,” Lever nói.
Các đại diện nhân vật humanoid được mô phỏng bởi DeepMind được dựa trên con người thực, với 56 điểm nối và một phạm vi chuyển động hạn chế—điều này có nghĩa là chúng không thể, ví dụ như, xoay khớp đầu gối của họ thông qua các góc độ không thể làm được như Zlatan Ibrahimovic. Ban đầu, các nhà nghiên cứu chỉ đơn giản cung cấp mục tiêu cho các đại diện—chạy, ví dụ, hoặc đá một quả bóng—và để cho chúng thử và tìm cách đến đó thông qua thử nghiệm và học từ việc lỗi và củng cố học như đã được thực hiện trong quá khứ khi các nhà nghiên cứu đã dạy những người máy humanoid được mô phỏng đi qua các quỹ đạo vật lý (với kết quả hài hước, khá không tự nhiên).
“Điều này thực sự không hoạt động,” Nicolas Heess, cũng là một nhà nghiên cứu tại DeepMind và là một trong các tác giả cùng với Lever của bài báo nói. Do sự phức tạp của vấn đề, phạm vi lựa chọn rất lớn và thiếu kiến thức trước đó về nhiệm vụ, các đại diện thực sự không có ý tưởng nào để bắt đầu—vì vậy mới có việc vật vờ và co rúm.
Vì vậy, Heess, Lever và đồng nghiệp đã sử dụng nguyên tắc điều khiển xác suất neural (NPMP), một phương pháp giảng dạy đẩy nhẹ AI model đến các mẫu di chuyển giống con người hơn, với hy vọng rằng kiến thức cơ bản này sẽ giúp giải quyết vấn đề về cách di chuyển xung quanh sân bóng ảo. “Nó về cơ bản làm cho kiểm soát motor của bạn hướng về hành vi con người thực tế, các cử động con người thực tế,” Lever nói. “Và điều này được học từ quá trình chụp chuyển động—trong trường hợp này, là những diễn viên người chơi bóng đá.”
Điều này “tái cấu trúc không gian hành động,” Lever nói. Các cử động của các đại diện đã bị hạn chế bởi cơ thể giống con người của họ và các khớp chỉ có thể uốn cong theo một số cách nhất định, và khi được tiếp xúc với dữ liệu từ con người thực, các hạn chế này giúp đơn giản hóa vấn đề. “Nó khiến cho việc học từ thử và lỗi trở nên có ích hơn,” Lever nói. NPMP tăng tốc quá trình học tập. Có một “cân bằng tinh tế” cần được đạt được giữa việc dạy AI làm những điều theo cách con người làm, trong khi cũng cho nó đủ tự do để khám phá các giải pháp cho các vấn đề—có thể hiệu quả hơn so với những giải pháp mà chúng ta tự nghĩ ra.
Đào tạo cơ bản được tiếp theo bằng các bài tập đơn: chạy, đi bóng và đá bóng, mô phỏng cách mà con người có thể học cách chơi một môn thể thao mới trước khi nhảy vào tình huống trận đấu đầy đủ. Các phần thưởng học tập bằng cách tăng cường học bao gồm việc theo dõi một mục tiêu mà không cần bóng, hoặc đi bóng gần một mục tiêu. Chương trình kỹ năng này là cách tự nhiên để tiến đến các nhiệm vụ ngày càng phức tạp hơn,” Lever chia sẻ.
Mục tiêu là khuyến khích các đại diện tái sử dụng các kỹ năng mà họ có thể đã học bên ngoài ngữ cảnh của bóng đá trong môi trường bóng đá—tổng quát và linh hoạt khi chuyển đổi giữa các chiến lược di chuyển khác nhau. Các đại diện đã thành thạo những bài tập này đã được sử dụng như là giáo viên. Giống như việc AI được khuyến khích bắt chước những gì nó đã học từ việc chụp chuyển động của con người, nó cũng được thưởng cho việc không chệch quá xa khỏi các chiến lược mà các đại diện giáo viên đã sử dụng trong các tình huống cụ thể, ít nhất ở ban đầu. “Đây thực sự là một tham số của thuật toán được tối ưu hóa trong quá trình đào tạo,” Lever nói. “Theo thời gian, họ có thể giảm sự phụ thuộc của mình vào các giáo viên.”
Với các cầu thủ ảo đã được đào tạo, đến lúc chơi trận: bắt đầu với các trò chơi 2v2 và 3v3 để tối đa hóa lượng kinh nghiệm mà các đại diện thu thập được trong mỗi vòng mô phỏng (và mô phỏng cách mà các cầu thủ trẻ bắt đầu với các trò chơi nhỏ trong thực tế). Các điểm nổi bật—mà bạn có thể xem ở đây—có năng lượng hỗn loạn như một chú chó đuổi bóng trong công viên: các cầu thủ không chạy mà hơn là vấp ngã về phía trước, luôn sẵn sàng ngã xuống đất. Khi ghi bàn, không phải từ các động tác chuyền bóng phức tạp, mà là các pha tung bóng hy vọng và những phản xạ giống như trong trò chơi bóng bàn từ tường sau.
Tuy nhiên, mặc dù trong trò chơi các đại diện chỉ được thưởng khi ghi bàn, các nhà nghiên cứu nhanh chóng nhận thấy các đặc tính như teamwork bắt đầu xuất hiện. “Ở đầu đào tạo, tất cả các đại diện đều chạy đến quả bóng, và đến một số thời điểm sau vài ngày, chúng ta thực sự thấy các đại diện nhận ra rằng một trong đồng đội của nó đang kiểm soát quả bóng và sẽ quay lại và chạy lên sân, dự đoán rằng đồng đội sẽ cố gắng ghi bàn hoặc có thể chuyền bóng,” Lever chia sẻ. Đây là lần đầu tiên sự phối hợp và teamwork như vậy được thấy trong một AI phức tạp và nhanh chóng. “Đó là một trong những bước tiến thú vị đối với tôi,” Lever nói.
Còn mục đích của tất cả điều này? Điều này không phải là về việc thống trị World Cup Robot; Heess đang làm việc để truyền những kỹ năng cấp thấp hơn mà các đại diện đã học được vào các robot vật lý để khiến chúng di chuyển theo cách an toàn và tự nhiên hơn trong thế giới thực. Điều này không chỉ để họ không làm kinh hoảng người tương tác với họ, mà còn vì các chuyển động rối loạn, không đều có thể được tạo ra bởi việc học tăng cường không có cấu trúc có thể làm hỏng các robot không được tối ưu hóa để di chuyển theo cách đó, hoặc chỉ làm lãng phí năng lượng.”
Tất cả đều là một phần của công việc về “trí tuệ thể hiện”—ý tưởng rằng một trí thông minh nhân tạo tổng quát có thể cần phải di chuyển xung quanh thế giới trong một dạng vật lý nào đó, và bản chất của hình dạng đó có thể xác định cách mà nó hành xử. “Điều này thú vị cả trong thế giới mô phỏng, ngày càng có tính chất mô phỏng dựa trên vật lý, nhưng cũng để phát triển phương pháp cho việc học của robot,” Heess nói.
Cuối cùng, những người chơi kỹ thuật số hơi lố bịch này có thể giúp cả robot và hình tượng ảo trong thế giới ảo di chuyển theo cách có vẻ nhân văn hơn—ngay cả khi họ vẫn sẽ không bao giờ đánh bại chúng ta ở bóng đá. “Bóng đá thực sự không phải là mục tiêu cuối cùng,” Lever nói. “Chỉ có nhiều vấn đề bạn cần giải quyết để đạt được mục tiêu đó.”
