Trí tuệ nhân tạo thần kinh-ký hiệu mang lại sự gần gũi hơn với máy móc có lý thức chung
Bài viết này là một phần của bản tin về những tiến triển mới nhất trong nghiên cứu về trí tuệ nhân tạo (AI).
Nghiên cứu về trí tuệ nhân tạo đã đạt được những thành công lớn trong việc giải quyết các ứng dụng cụ thể, nhưng chúng ta vẫn còn rất xa từ loại hệ thống AI đa năng mà các nhà khoa học đã mơ ước trong vài thập kỷ qua.
Trong số các giải pháp được thăm dò để vượt qua những rào cản của AI là ý tưởng về hệ thống thần kinh-ký hiệu kết hợp những điều tốt nhất từ các nhánh khác nhau của khoa học máy tính. Trong một bài giảng tại Hội thảo Neuro-Symbolic AI của IBM, Joshua Tenenbaum, giáo sư về khoa học nhận thức tính toán tại Viện Công nghệ Massachusetts, giải thích cách hệ thống thần kinh-ký hiệu có thể giúp giải quyết một số vấn đề then chốt của các hệ thống AI hiện tại.
Trong số nhiều khoảng trống trong AI, Tenenbaum tập trung vào một điểm cụ thể: “Làm thế nào chúng ta vượt qua ý tưởng về trí tuệ như việc nhận biết mẫu trong dữ liệu và xấp xỉ các chức năng hơn đến ý tưởng về tất cả những điều mà tâm trí con người thực hiện khi bạn mô phỏng thế giới, giải thích và hiểu những điều bạn đang thấy, tưởng tượng những điều mà bạn không thể nhìn thấy nhưng có thể xảy ra, và biến chúng thành mục tiêu mà bạn có thể đạt được bằng cách lập kế hoạch hành động và giải quyết vấn đề?”
Thừa nhận rằng, đó là một khoảng trống lớn, nhưng việc bắt kịp bắt đầu từ việc khám phá một trong những khía cạnh cơ bản của trí tuệ mà con người và nhiều loài động vật khác chia sẻ: vật lý và tâm lý tự nhiên.
TNW Conference 2024 - Kêu gọi tất cả các Startups tham gia vào ngày 20-21 tháng 6
Trình bày startup của bạn trước các nhà đầu tư, những người thay đổi và khách hàng tiềm năng với các gói Startup được chọn lọc của chúng tôi.
Vật lý và tâm lý tự nhiên
Tâm trí chúng ta không chỉ để nhìn thấy các mẫu trong pixel và sóng âm mà còn để hiểu thế giới thông qua mô hình. Là con người, chúng ta bắt đầu phát triển những mô hình này ngay từ ba tháng tuổi, bằng cách quan sát và tác động trong thế giới.
Chúng ta phân rã thế giới thành đối tượng và tác nhân, và các tương tác giữa các đối tượng và tác nhân này. Các tác nhân có mục tiêu và các mô hình riêng về thế giới (có thể khác với của chúng ta).
Ví dụ, nhiều nghiên cứu của các nhà nghiên cứu Felix Warneken và Michael Tomasello cho thấy rằng trẻ em phát triển ý tưởng trừu tượng về thế giới vật lý và người khác và áp dụng chúng trong tình huống mới lạ. Ví dụ, trong video dưới đây, chỉ thông qua quan sát, trẻ nhận ra rằng người nắm giữ các đối tượng có mục tiêu trong tâm trí và cần sự giúp đỡ để mở cửa tủ.
Những khả năng này thường được gọi là “vật lý tự nhiên” và “tâm lý tự nhiên” hoặc “lý thuyết tâm trí,” và chúng ở trung tâm của lẽ thường gặp.
“Những hệ thống này phát triển khá sớm trong kiến trúc não một cách có phần được chia sẻ với các loài khác,” Tenenbaum nói. Những hệ thống kognitif này là cầu nối giữa tất cả các phần khác của trí tuệ như mục tiêu của giác quan, cơ sở của kế hoạch hành động, lập luận, và thậm chí là ngôn ngữ.
Các tác nhân AI nên có khả năng lập luận và kế hoạch hành động dựa trên các biểu diễn tâm lý mà họ phát triển về thế giới và các tác nhân khác thông qua vật lý tự nhiên và lý thuyết tâm trí.
Kiến trúc neuro-symbolic

Tenenbaum liệt kê ba thành phần cần thiết để tạo ra lõi cho vật lý tự nhiên và tâm lý tự nhiên trong AI.
“Chúng tôi nhấn mạnh vào sự tương tác ba chiều giữa mô hình học máy, biểu tượng và xác suất và suy luận,” Tenenbaum nói. “Chúng tôi nghĩ rằng sự kết hợp ba chiều đó là cần thiết để thu được trí tuệ giống như con người và lẽ thường gặp cốt lõi.”
Thành phần biểu tượng được sử dụng để đại diện và lập luận với kiến thức trừu tượng. Mô hình suy luận xác suất giúp xác định mối quan hệ nguyên nhân giữa các thực thể khác nhau, lập luận về tình huống phản thực tế và không gian gặp phải không chắc chắn. Và thành phần học máy sử dụng nhận diện mẫu để ánh xạ dữ liệu giác quan thế giới thực vào kiến thức và giúp điều hướng trong không gian tìm kiếm.
“Chúng tôi đang cố gắng kết hợp sức mạnh của ngôn ngữ biểu tượng để đại diện kiến thức và lập luận cũng như mạng thần kinh và những điều mà chúng tốt, nhưng cũng với ý nghĩa về suy luận xác suất, đặc biệt là suy luận Bayes hoặc suy luận ngược trong một mô hình nhân quả để lập luận ngược từ những điều chúng ta có thể quan sát đến những điều chúng ta muốn suy luận, như vật lý cơ bản của thế giới, hoặc trạng thái tâm lý của các tác nhân,” Tenenbaum nói.
Động cơ trò chơi trong đầu
Một trong những thành phần chính trong khái niệm AI neuro-symbolic của Tenenbaum là một bộ mô phỏng vật lý giúp dự đoán kết quả của các hành động. Bộ mô phỏng vật lý khá phổ biến trong động cơ trò chơi và các nhánh khác của học tăng cường và robot.
Nhưng khác với các nhánh khác của AI sử dụng bộ mô phỏng để huấn luyện tác nhân và chuyển giao kiến thức của họ vào thế giới thực, ý tưởng của Tenenbaum là tích hợp bộ mô phỏng vào quá trình suy luận và lập luận của tác nhân.
“Đó là lý do tại sao chúng tôi gọi nó là động cơ trò chơi trong đầu,” ông nói.
Physics simulator enable AI agents to imagine and predict outcomes in the real worldBộ mô phỏng vật lý sẽ giúp trí tuệ nhân tạo mô phỏng thế giới theo thời gian thực và dự đoán điều gì sẽ xảy ra trong tương lai. Mô phỏng chỉ cần đủ chính xác và giúp tác nhân chọn một hành động hứa hẹn. Điều này tương tự như cách tâm trí con người hoạt động. Khi chúng ta nhìn vào một hình ảnh, chẳng hạn như một chồng khối, chúng ta sẽ có một ý tưởng sơ bộ về việc nó có thể chống lại trọng lực hay đổ. Hoặc nếu chúng ta nhìn thấy một bộ khối trên bàn và được hỏi điều gì sẽ xảy ra nếu chúng ta đột ngột đẩy bàn, chúng ta có thể dự đoán đâu là những khối sẽ rơi.
Chúng ta có thể không dự đoán được quỹ đạo chính xác của từng đối tượng, nhưng chúng ta phát triển một ý tưởng cấp cao về kết quả. Khi kết hợp với một hệ thống suy luận biểu tượng, bộ mô phỏng có thể được cấu hình để kiểm tra các mô phỏng có thể xảy ra khác nhau ở tốc độ rất nhanh.
Ước lượng cảnh 3D
Mặc dù bộ mô phỏng là một công cụ tuyệt vời, một trong những thách thức lớn của chúng là chúng ta không nhìn thấy thế giới dưới dạng các đối tượng ba chiều. Hệ thống neuro-symbolic phải phát hiện vị trí và hướng của các đối tượng trong cảnh để tạo ra một biểu diễn 3D xấp xỉ của thế giới.
Có một số cố gắng sử dụng học sâu thuần túy để xác định vị trí và tư thế của đối tượng, nhưng độ chính xác của chúng thấp. Trong một dự án chung, MIT và IBM đã tạo ra “3D Scene Perception via Probabilistic Programming” (3DP3), một hệ thống giải quyết nhiều lỗi mà các hệ thống học sâu thuần túy rơi vào.
3DP3 lấy một hình ảnh và cố gắng giải thích nó thông qua các thể tích 3D chứa mỗi đối tượng. Nó đưa các đối tượng vào một đồ thị cảnh biểu tượng xác định mối quan hệ tiếp xúc và hỗ trợ giữa chúng. Sau đó, nó cố gắng tái tạo lại hình ảnh và bản đồ độ sâu ban đầu để so sánh với sự thật đất.
3D Scene Perception via Probabilistic Programming (3DP3) uses neural networks, symbolic inference, and probabilistic models to create 3D representations of images. arXivSuy nghĩ về các giải pháp
Khi tác nhân neuro-symbolic có một bộ mô phỏng vật lý để mô phỏng thế giới, nó nên có khả năng phát triển các khái niệm giúp nó hành động theo cách mới lạ.
Ví dụ, con người (và đôi khi là động vật) có thể học cách sử dụng một công cụ mới để giải quyết một vấn đề hoặc tìm cách sáng tạo một đối tượng đã biết để đạt được một mục tiêu mới (ví dụ: sử dụng một viên đá thay vì búa để đóng đinh).
Đối với điều này, Tenenbaum và đồng nghiệp của ông đã phát triển bộ mô phỏng vật lý trong đó mọi người phải sử dụng đối tượng để giải quyết vấn đề theo cách mới lạ. Cùng một bộ máy đã được sử dụng để huấn luyện các mô hình AI phát triển các khái niệm trừu tượng về việc sử dụng các đối tượng.
Humans and animals can intuitively find new to use tools in novel ways. PNAS“Quan trọng là phát triển chiến lược ở mức cao có thể chuyển giao trong các tình huống mới. Đây là nơi tiếp cận biểu tượng trở thành chìa khóa,” Tenenbaum nói.
Ví dụ, con người có thể sử dụng các khái niệm trừu tượng như “búa” và “ném mũi tên” và sử dụng chúng để giải quyết các vấn đề khác nhau.
“Con người có thể hình thành những khái niệm trừu tượng này và chuyển giao chúng vào các tình huống gần và xa. Chúng ta có thể mô phỏng điều này thông qua một chương trình có thể mô tả những khái niệm này một cách biểu tượng,” Tenenbaum nói.
Trong một trong những dự án của họ, Tenenbaum và hệ thống AI của ông có khả năng phân tích một cảnh và sử dụng một mô hình xác suất tạo ra một loạt các hướng dẫn biểu tượng từng bước để giải quyết các vấn đề vật lý. Ví dụ, để ném một đối tượng đặt trên một tấm, hệ thống có khả năng tìm ra rằng nó cần tìm một đối tượng lớn, đặt nó cao phía trên đầu kia của tấm và thả nó để tạo ra hiệu ứng ném mũi tên.

Ngôn ngữ có cơ sở vật lý
Cho đến nay, trong khi chúng ta đã nói nhiều về biểu tượng và khái niệm, chưa có đề cập đến ngôn ngữ. Tenenbaum giải thích trong bài diễn thuyết của mình rằng ngôn ngữ chìm đắm sâu trong kiến thức chung không nói mà chúng ta đạt được trước khi chúng ta học nói.
Vật lý trực giác và lý thuyết tâm hồn đang thiếu trong các hệ thống xử lý ngôn ngữ tự nhiên hiện tại. Các mô hình ngôn ngữ lớn, phương pháp phổ biến hiện nay trong xử lý và hiểu ngôn ngữ tự nhiên, cố gắng bắt kịp các mẫu liên quan giữa các chuỗi từ bằng cách xem xét các bộ văn bản rất lớn. Mặc dù phương pháp này đã mang lại kết quả ấn tượng, nó cũng có hạn chế khi đối mặt với những thứ không được biểu diễn trong sự thường xuyên của từ và câu.
“Có những tiến bộ to lớn trong các mô hình ngôn ngữ lớn, nhưng vì chúng không có cơ sở vật lý và lý thuyết tâm hồn, nói một cách nào đó chúng khá hạn chế,” Tenenbaum nói. “Và bạn có thể thấy điều này qua giới hạn của chúng trong việc hiểu các cảnh biểu tượng. Chúng cũng không có ý thức về vật lý. Động từ thường liên quan đến cấu trúc nguyên nhân. Bạn phải có khả năng bắt kịp với các trạng thái phản đối và chúng phải có tính xác suất nếu bạn muốn đưa ra nhận định.”

Các khối xây dựng của trí tuệ thông thường
Đến nay, nhiều phương pháp thành công trong trí tuệ neuro-symbolic cung cấp cho các mô hình kiến thức trước về vật lý trực giác như tính nhất quán chiều kích thước và tính không biến dịch. Một trong những thách thức chính còn lại là làm thế nào để thiết kế các hệ thống AI học những khái niệm vật lý trực giác này như trẻ con. Không gian học của các bộ máy vật lý phức tạp hơn nhiều so với không gian trọng số của mạng nơ-ron truyền thống, điều này có nghĩa là chúng ta vẫn cần tìm ra các kỹ thuật mới để học.
Tenenbaum cũng thảo luận về cách con người phát triển các khối kiến thức trong một bài báo có tựa đề “Đứa trẻ như một Hacker.” Trong bài báo, Tenenbaum và các đồng tác giả sử dụng lập trình làm ví dụ về cách con người khám phá các giải pháp trên các chiều khác nhau như độ chính xác, hiệu suất, tính hữu ích, tả rời rạc, v.v. Họ cũng thảo luận về cách con người thu thập các mảnh thông tin, phát triển chúng thành biểu tượng và khái niệm mới, sau đó họ học cách kết hợp chúng lại với nhau để tạo ra các khái niệm mới. Những hướng nghiên cứu này có thể giúp giải mã mã nguồn cảm giác chung trong trí tuệ neuro-symbolic.
“Chúng tôi muốn cung cấp một lộ trình về cách thực hiện tầm nhìn về việc nghĩ về điều gì làm cho trí tuệ chung của con người trở nên đặc biệt và mạnh mẽ từ đầu,” Tenenbaum nói. “Một khía cạnh, đây là giấc mơ cổ điển của trí tuệ nhân tạo từ đề xuất ban đầu của Alan Turing về trí tuệ như là quá trình tính toán và ý tưởng rằng chúng ta có thể xây dựng một máy đạt được trí tuệ cấp con người bằng cách bắt đầu như một đứa bé và giảng dạy nó như một đứa trẻ. Điều này đã làm cảm hứng cho một số chúng tôi và những gì chúng tôi đang cố gắng là tạo ra các khối xây dựng cho điều đó.”
Bài viết này được xuất bản ban đầu bởi Ben Dickson trên TechTalks, một xuất bản phẩm nghiên cứu xu hướng công nghệ, cách chúng ảnh hưởng đến cách chúng ta sống và kinh doanh, và những vấn đề mà chúng giải quyết. Nhưng chúng tôi cũng thảo luận về mặt tối của công nghệ, những hậu quả tối tăm của công nghệ mới và những gì chúng ta cần phải cảnh báo. Bạn có thể đọc bài viết gốc tại đây
