DeepMind: Thưởng có thể KHÔNG đủ cho Trí tuệ Nhân tạo Tổng hợp — nhưng đáng thử
DeepMind đã liên kết với trí tuệ nhân tạo tổng hợp ngay từ khi ra đời.
Phòng thí nghiệm được khởi động với sứ mệnh phát triển AGI, được sáng lập bởi một nhà nghiên cứu đặt ra thuật ngữ, và đã đạt được một số tiến bộ đáng chú ý trong lĩnh vực.
Gần đây, họ cũng đã công bố một bài báo gây sốc về chủ đề: “Thưởng là Đủ”
Nghiên cứu đặt giả thuyết rằng AGI có thể đạt được thông qua một phương pháp duy nhất: học tăng cường.
Kỹ thuật này cung cấp phản hồi dưới dạng “thưởng” — một số dương cho thuật toán biết rằng hành động vừa thực hiện sẽ mang lại lợi ích cho mục tiêu của nó.
Phương pháp này đã cho thấy triển vọng trong các chương trình như MuZero, mà đã chinh phục nhiều trò chơi mà không cần biết luật chơi. DeepMind gọi hệ thống này là “một bước tiến quan trọng trong việc theo đuổi các thuật toán mục đích chung.”
“Thưởng là Đủ” cho rằng chỉ cần học tăng cường một mình cũng có thể dẫn đến AGI.
Lý thuyết này đã bị đặt dấu hỏi bởi nhiều nhà khoa học máy tính — kể cả một số ở DeepMind. Nhưng Doina Precup, một trong những tác giả của bài báo, cho biết nghiên cứu chỉ đơn giản muốn khám phá các khả năng.
“Cuối cùng, chúng tôi muốn thử nghiệm điều này như một giả thuyết và xem xét nó trong ngữ cảnh của các phương pháp khác nữa,” Precup, người đứng đầu văn phòng DeepMind tại Montreal, nói.
Thực tế, học tăng cường chỉ là một trong những phương pháp mà công ty con thuộc Alphabet đang khám phá. Trong một tập mới của DeepMind podcast, các nhà nghiên cứu của phòng thí nghiệm thảo luận về triển vọng của các con đường khác nhau đến AGI.
Trong số những người hoài nghi về việc thưởng là đủ là Raia Hadsell, giám đốc nghiên cứu robot của công ty, lưu ý đến sự khó khăn trong việc thiết kế một thưởng mạnh mẽ có thể dẫn đến AGI. Shane Legg, người sáng lập DeepMind, trong khi đó, nghi ngờ rằng học tăng cường có thể phải kết hợp với các thuật toán học khác nhau.
Precup cũng nghi ngờ liệu chỉ có thưởng là đủ, nhưng cô tin rằng đó có thể là một thành phần quan trọng trong AGI.
“Bởi vì nó đang học từ sự tương tác một cách dần dần, nó cảm giác rất giống những hệ thống trí tuệ sinh học làm,” cô nói.
“Liệu nó có phải là công nghệ duy nhất góp phần vào AGI vào cuối ngày không? Thực sự là không rõ — có rất nhiều điều thú vị khác đang diễn ra.”
Tuy nhiên, Precup lạc quan rằng chúng ta đã trên con đường đến AGI. Cuối cùng, cô quan tâm hơn về sự an toàn của đích đến hơn là con đường dẫn chúng ta đến đó.
“Con đường đến AGI,” tập thứ năm trong mùa thứ hai của “DeepMind: The Podcast,” có sẵn tại đây từ ngày 15 tháng 2.
