Đồ họa không lòe loẹt, nhưng một trò chơi video sumo-wrestling đơn giản ra mắt vào thứ Tư có thể giúp làm cho phần mềm trí tuệ nhân tạo thông minh hơn nhiều.
Những con robot đấu trong thế giới ảo của RoboSumo được kiểm soát bởi phần mềm học máy, không phải con người. Không giống như những nhân vật máy tính trong trò chơi video thông thường, chúng không được lập trình sẵn để đấu vật; thay vào đó, chúng phải "học" môn thể thao thông qua thử nghiệm và lỗi. Trò chơi được tạo ra bởi phòng thí nghiệm nghiên cứu phi lợi nhuận OpenAI, do Elon Musk đồng sáng lập, để thể hiện cách buộc các hệ thống AI cạnh tranh có thể kích thích chúng trở nên thông minh hơn.
Igor Mordatch, một nghiên cứu viên tại OpenAI, cho biết những cuộc thi như vậy tạo ra một loại đua tăng trí tuệ, khi các đại lý AI đối mặt với điều kiện phức tạp, thay đổi do đối thủ tạo ra. Điều đó có thể giúp phần mềm học nhanh những kỹ năng khó khăn có giá trị để kiểm soát robot và các nhiệm vụ thực tế khác.
Trong các thử nghiệm của OpenAI, những con robot humanoid đơn giản nhập vào đấu trường mà không biết cách đi. Chúng được trang bị khả năng học thông qua thử nghiệm và lỗi, với mục tiêu học cách di chuyển và đánh bại đối thủ. Sau khoảng một tỷ vòng thử nghiệm, các robot đã phát triển chiến thuật như cúi người để làm cho mình ổn định hơn, và đánh lừa đối thủ để đẩy ra khỏi vòng. Nhóm nghiên cứu đã phát triển thuật toán học mới để cho phép người chơi điều chỉnh chiến thuật trong khi đấu, thậm chí có thể dự đoán khi đối thủ có thể thay đổi chiến thuật.
Dự án của OpenAI là một ví dụ về cách các nhà nghiên cứu trí tuệ nhân tạo đang cố thoát khỏi các hạn chế của loại phần mềm học máy được sử dụng nhiều nhất, nó có được kỹ năng mới thông qua việc xử lý một lượng lớn dữ liệu mẫu được đánh dấu. Phương pháp này đã thúc đẩy tiến triển gần đây trong các lĩnh vực như dịch thuật, nhận diện giọng nói và khuôn mặt. Nhưng nó không thực tế cho những kỹ năng phức tạp hơn sẽ cho phép AI được ứng dụng rộng rãi hơn, ví dụ như kiểm soát robot gia đình.
Một con đường có thể để AI trở nên tài năng hơn là học bằng cách củng cố, trong đó phần mềm sử dụng thử nghiệm và lỗi để đạt được một mục tiêu cụ thể. Đó là cách DeepMind, startup trí tuệ nhân tạo có trụ sở tại London mà Google đã mua, đã làm cho phần mềm thành thạo các trò chơi Atari. Kỹ thuật này hiện đang được sử dụng để phần mềm giải quyết các vấn đề phức tạp hơn, chẳng hạn như việc robot nhặt đồ.
Nhóm nghiên cứu của OpenAI xây dựng RoboSumo vì họ nghĩ rằng sự phức tạp bổ sung do cạnh tranh có thể đẩy nhanh tiến triển hơn so với việc đưa phần mềm học máy giải quyết các vấn đề phức tạp một mình. “Khi bạn tương tác với các đại lý khác nhau, bạn phải thích nghi; nếu không, bạn sẽ thua,” Maruan Al-Shedivat, một sinh viên nghiên cứu tại Đại học Carnegie Mellon, người đã làm việc trên RoboSumo trong một kỳ thực tập tại OpenAI.
Nhóm nghiên cứu của OpenAI cũng đã thử nghiệm ý tưởng đó với những con robot giống như nhện và trong các trò chơi khác như một loại đá phạt bóng đá đơn giản. Tổ chức phi lợi nhuận này đã công bố hai bài nghiên cứu về công việc với các đại lý trí tuệ nhân tạo cạnh tranh, cùng với mã nguồn cho RoboSumo, một số trò chơi khác và cho một số người chơi chuyên gia.
Sumo không phải là điều quan trọng nhất mà những chiếc máy thông minh có thể làm cho chúng ta. Nhưng một số thử nghiệm của OpenAI cho thấy các kỹ năng học được trong một đấu trường ảo có thể chuyển giao sang các tình huống khác. Khi một con robot humanoid được chuyển từ vòng sumo sang một thế giới ảo có gió mạnh, nó chống đỡ để duy trì đứng. Điều đó gợi ý nó đã học cách kiểm soát cơ thể và cân bằng theo cách tổng quát.
Chuyển giao kỹ năng từ thế giới ảo vào thế giới thực là một thách thức hoàn toàn khác nhau. Peter Stone, giáo sư tại Đại học Texas tại Austin, cho biết các hệ thống kiểm soát hoạt động trong môi trường ảo thường không hoạt động khi đặt vào một robot vật lý - một vấn đề chưa giải quyết được đặt tên là “khoảng cách hiện thực”.
OpenAI có các nhà nghiên cứu đang làm việc về vấn đề đó, mặc dù chưa công bố bất kỳ đột phá nào. Trong khi đó, Mordatch muốn đưa những con người ảo của mình có động lực để làm nhiều hơn chỉ là cạnh tranh. Anh đang nghĩ đến một trò chơi bóng đá đầy đủ, nơi các đại lý sẽ phải cộng tác nữa.