Gato - Trí tuệ Nhân tạo mới đặc sắc từ DeepMind khiến tôi lo sợ rằng con người có lẽ sẽ không bao giờ đạt được Trí tuệ Nhân tạo Tổng hợp (AGI)
DeepMind vừa công bố một hệ thống Trí tuệ Nhân tạo đa dạng có khả năng thực hiện hơn 600 nhiệm vụ khác nhau.
Được đặt tên là Gato, đó có lẽ là bộ công cụ học máy toàn diện nhất mà thế giới từng thấy.
Theo một bài viết trên blog của DeepMind (nguồn):
Agent này, chúng ta gọi là Gato, hoạt động như một chính sách chung đa dạng, đa nhiệm, đa cơ thể. Cùng một mạng với cùng trọng số có thể chơi Atari, mô tả hình ảnh, trò chuyện, xếp các khối với cánh tay robot thực tế và nhiều nhiệm vụ khác, quyết định dựa trên ngữ cảnh của nó liệu có xuất ra văn bản, mô-men xoắn chung, nhấn nút hay các token khác.
Credit: DeepMindVà trong khi chưa rõ nó sẽ hoạt động như thế nào khi những nghiên cứu viên và người dùng bên ngoài phòng thí nghiệm DeepMind thử nghiệm, Gato dường như là tất cả những điều mà GPT-3 mong muốn có và hơn thế nữa.
Dưới đây là lý do khiến tôi buồn:GPT-3 là một mô hình ngôn ngữ lớn (LLM) được sản xuất bởi OpenAI, công ty Trí tuệ Nhân tạo tổng hợp (AGI) được đầu tư nhiều nhất thế giới.
Trước khi chúng ta so sánh GPT-3 và Gato, chúng ta cần hiểu rõ về nơi mà cả OpenAI và DeepMind đến từ như là doanh nghiệp.
OpenAI là ý tưởng của Elon Musk, nó được hỗ trợ bởi hàng tỷ đô từ Microsoft, và chính phủ Mỹ có thể hoàn toàn không quan tâm đến những gì nó đang làm khi đến với quy định và giám sát.
Đồng ý rằng mục tiêu duy nhất của OpenAI là phát triển và kiểm soát một AGI (một trí tuệ nhân tạo có khả năng làm và học bất cứ điều gì mà con người có thể làm, nếu có cùng quyền truy cập), nhưng đáng sợ khi mà tất cả những gì công ty đã sản xuất chỉ là một LLM thực sự tinh tế.
Không hiểu lầm, GPT-3 là ấn tượng. Thực tế, nó có thể ngang tầm với Gato của DeepMind, nhưng đánh giá đó yêu cầu một chút sự tinh tế.
OpenAI đã chọn con đường của LLM trên con đường đến AGI với một lý do đơn giản: không ai biết cách làm cho AGI hoạt động.
Như cách mà đã mất một khoảng thời gian giữa việc phát hiện lửa và sự phát minh của động cơ đốt trong, việc tìm ra cách chuyển từ học sâu đến AGI sẽ không xảy ra qua đêm.
GPT-3 là một ví dụ về một trí tuệ nhân tạo ít nhất có thể làm một cái gì đó giống như con người: nó tạo ra văn bản.
Điều mà DeepMind đã làm với Gato cũng tương tự. Họ đã lấy một thứ hoạt động giống như một LLM và biến nó thành một nhà ảo thuật có khả năng thực hiện hơn 600 hình thức ảo thuật.
Như Mike Cook, của tổ chức nghiên cứu Knives and Paintbrushes, gần đây đã nói với Kyle Wiggers của TechCrunch:
Nghe có vẻ thú vị khi AI có thể thực hiện tất cả những công việc có vẻ rất khác nhau này, bởi vì đối với chúng ta, nghe có vẻ như viết văn bản khác rất nhiều so với điều khiển một robot.
Nhưng trong thực tế, điều này không khác biệt nhiều so với GPT-3 hiểu sự khác biệt giữa văn bản tiếng Anh thông thường và mã Python.
Điều này không phải là nói rằng điều này dễ dàng, nhưng với người quan sát bên ngoài, điều này có thể nghe có vẻ như AI cũng có thể pha một cốc trà hoặc dễ dàng học thêm mười hoặc năm mươi công việc khác, và nó không thể làm điều đó.
Nói chung, Gato và GPT-3 đều là hệ thống trí tuệ nhân tạo mạnh mẽ, nhưng cả hai đều không có khả năng trí tuệ tổng quát.
Đây là vấn đề của tôi:
Tôi không nói “không bao giờ,” vì đó là một trong những từ ngữ bị nguyền rủa duy nhất của khoa học. Nhưng điều này làm cho nó trở nên như AGI sẽ không xảy ra trong đời sống của chúng ta.
DeepMind đã làm việc trên AGI hơn một thập kỷ, và OpenAI từ năm 2015. Và cả hai đều không thể giải quyết vấn đề đầu tiên trên đường đến AGI: xây dựng một trí tuệ nhân tạo có thể học những điều mới mẻ mà không cần đào tạo.
Tôi tin rằng Gato có thể là hệ thống trí tuệ nhân tạo đa dạng tiên tiến nhất thế giới. Nhưng tôi cũng nghĩ rằng DeepMind đã áp dụng khái niệm cùng một đường cùng bí tới AGI mà OpenAI đã áp dụng và chỉ làm cho nó trở nên có thể tiếp thị hơn.
Ý kiến cuối cùng: Những gì DeepMind đã làm là đáng kinh ngạc và có thể sẽ đem lại cho công ty rất nhiều lợi nhuận.
Nếu tôi là Giám đốc điều hành của Alphabet (tập đoàn mẹ của DeepMind), tôi sẽ hoặc phát triển Gato như một sản phẩm độc lập, hoặc thúc đẩy DeepMind hơn vào phát triển hơn là nghiên cứu.
Gato có khả năng thực hiện hiệu quả hơn trên thị trường tiêu dùng so với Alexa, Siri hoặc Google Assistant (với chiến lược tiếp thị đúng và các trường hợp sử dụng thích hợp).
Nhưng, Gato và GPT-3 không phải là điểm khởi đầu khả thi hơn cho AGI so với các trợ lý ảo được đề cập ở trên.
Khả năng thực hiện nhiều nhiệm vụ của Gato giống như một máy chơi game có thể lưu trữ 600 trò chơi khác nhau, chứ không phải như một trò chơi bạn có thể chơi 600 cách khác nhau. Đó không phải là trí tuệ nhân tạo tổng quát, mà chỉ là một số mô hình hẹp được đào tạo trước được gói gọn ngăn nắp.
Điều đó không phải là điều tồi tệ, nếu đó là những gì bạn đang tìm kiếm. Nhưng đơn giản không có gì trong bài báo nghiên cứu đi kèm với Gato để chỉ ra đây là ngay cả một cái nhìn ở hướng đúng cho AGI, chưa kể đến là một bước đường.
Tại một điểm nào đó, lòng tốt và vốn mà các công ty như DeepMind và OpenAI đã tạo ra thông qua sự khăng khăng mắt lạnh của họ rằng AGI chỉ còn trong tầm tay sẽ phải thể hiện ít nhất là lợi nhuận nhỏ nhất.
