Mô hình ngôn ngữ lớn không thể lên kế hoạch, ngay cả khi chúng viết những bài luận phức tạp
Bài viết này là một phần của bản tin về những tiến triển mới nhất trong lĩnh vực nghiên cứu trí tuệ nhân tạo.
Các mô hình ngôn ngữ lớn như GPT-3 đã phát triển đến mức trở nên khó đo lường giới hạn của khả năng của chúng. Khi bạn có một mạng nơ-ron rất lớn có thể tạo ra bài viết, viết mã phần mềm, và tham gia trong các cuộc trò chuyện về tâm linh và cuộc sống, bạn có thể mong đợi nó có khả năng lập kế hoạch và suy nghĩ như con người, phải không?
Sai. Một nghiên cứu của các nhà nghiên cứu tại Đại học Arizona State, Tempe, cho thấy rằng khi nói đến lập kế hoạch và suy nghĩ có phương pháp, các mô hình ngôn ngữ lớn thực hiện rất kém, và gặp phải nhiều vấn đề tương tự như các hệ thống học sâu hiện tại.
Thú vị là, nghiên cứu phát hiện rằng, trong khi các LLM lớn như GPT-3 và PaLM vượt qua nhiều bài kiểm tra được thiết kế để đánh giá khả năng lý luận và hệ thống trí tuệ nhân tạo, điều này đạt được là do những bài kiểm tra này ento quá đơn giản hoặc có khuyết sót và có thể bị "lừa dối" thông qua các mánh khoé thống kê, điều mà các hệ thống học sâu rất giỏi.
Hội nghị TNW 2024 - Kêu gọi tất cả các Startups tham gia vào ngày 20-21 tháng 6
Trình bày startup của bạn trước các nhà đầu tư, những người thay đổi và khách hàng tiềm năng với các gói Startup được chọn lọc của chúng tôi.
Với LLMs mở ra những khám phá mới mỗi ngày, các tác giả đề xuất một thước đo mới để kiểm tra khả năng lập kế hoạch và lý luận của các hệ thống trí tuệ nhân tạo. Những nhà nghiên cứu hy vọng rằng những phát hiện của họ có thể giúp định hình nghiên cứu trí tuệ nhân tạo theo hướng phát triển các hệ thống trí tuệ nhân tạo có thể xử lý những công việc đã trở nên phổ biến được biết đến là “tư duy hệ thống 2”.
Sự ảo tưởng về lập kế hoạch và lý luận
“Hồi năm ngoái, chúng tôi đang đánh giá khả năng của GPT-3 trong việc trích xuất kế hoạch từ mô tả văn bản - một công việc đã được thử nghiệm trước đó bằng các phương pháp đặc biệt - và phát hiện ra rằng GPT-3 nguyên vẹn làm rất tốt so với các phương pháp đặc biệt đó,” Subbarao Kambhampati, giáo sư tại Đại học Arizona và cộng tác viên của nghiên cứu, chia sẻ với TechTalks. “Điều đó tự nhiên khiến chúng tôi tò mò về những ‘khả năng xuất hiện’ - nếu có - mà GPT-3 có đối với các vấn đề lập kế hoạch đơn giản nhất (ví dụ, tạo kế hoạch trong các lĩnh vực đồ chơi). Ngay lập tức, chúng tôi phát hiện GPT-3 là khá tệ trên các bài kiểm tra chủ quan.”
Tuy nhiên, một sự thú vị là GPT-3 và các mô hình ngôn ngữ lớn khác thể hiện rất tốt trên các bài kiểm tra được thiết kế cho việc suy nghĩ có trực giác, suy luận logic và suy luận đạo đức, những kỹ năng trước đây được cho là nằm ngoài tầm tay của các hệ thống học sâu. Một nghiên cứu trước đó của nhóm Kambhampati tại Đại học Arizona thể hiện hiệu suất của các mô hình ngôn ngữ lớn trong việc tạo ra kế hoạch từ mô tả văn bản. Các nghiên cứu gần đây khác bao gồm một nghiên cứu cho thấy LLMs có thể thực hiện suy luận không cần đào tạo nếu được cung cấp một cụm từ kích hoạt đặc biệt.
Tuy nhiên, “suy luận” thường được sử dụng rộng rãi trong những bài kiểm tra và nghiên cứu này, Kambhampati tin rằng. Điều mà LLMs đang thực hiện, thực tế là tạo ra một vẻ ngoại hình của kế hoạch và suy luận thông qua nhận diện mẫu.
“Hầu hết các bài kiểm tra phụ thuộc vào loại suy luận nông cạn (một hoặc hai bước), cũng như các nhiệm vụ mà đôi khi không có sự thật đất đáng kể (ví dụ, khiến cho LLMs suy luận về tình huống luân lý),” ông nói. “Có khả năng một máy hoàn toàn chỉ là một công cụ hoàn thành mẫu mà không có khả năng suy luận vẫn có thể làm tốt trên một số trong số các bài kiểm tra đó. Sau cùng, trong khi khả năng suy luận của Hệ thống 2 có thể được biên soạn thành Hệ thống 1 đôi khi, cũng có trường hợp mà ‘khả năng suy luận’ của Hệ thống 1 có thể chỉ là phản ứng linh hoạt từ các mẫu mà hệ thống đã thấy trong dữ liệu đào tạo mà không thực sự làm bất kỳ điều gì giống như suy luận.
Tư duy Hệ thống 1 và Hệ thống 2
Tư duy Hệ thống 1 và Hệ thống 2 đã trở nên phổ biến nhờ nhà tâm lý học Daniel Kahneman trong cuốn sách của ông, Thinking Fast and Slow. Hệ thống 1 là kiểu tư duy và hành động nhanh, phản xạ và tự động mà chúng ta thực hiện phần lớn thời gian, như đi bộ, đánh răng, buộc giày hoặc lái xe trong khu vực quen thuộc. Thậm chí một phần lớn của ngôn ngữ cũng được thực hiện bởi Hệ thống 1.
Hệ thống 2, ngược lại, là chế độ tư duy chậm hơn mà chúng ta sử dụng cho các nhiệm vụ đòi hỏi lập kế hoạch phương pháp và phân tích. Chúng ta sử dụng Hệ thống 2 để giải phương trình tích phân, chơi cờ, thiết kế phần mềm, lập kế hoạch cho một chuyến đi, giải một câu đố, v.v.
Nhưng đường giữa Hệ thống 1 và Hệ thống 2 không rõ ràng. Lấy lái xe làm ví dụ. Khi bạn đang học lái xe, bạn phải tập trung đầy đủ vào cách bạn phối hợp cơ bắp để kiểm soát số, vô lăng và bàn đạp đồng thời theo dõi đường và gương chiều sau. Điều này rõ ràng là Hệ thống 2 đang hoạt động. Nó tốn nhiều năng lượng, đòi hỏi sự tập trung đầy đủ và chậm. Nhưng khi bạn dần lặp lại các thủ tục, bạn học cách thực hiện chúng mà không cần suy nghĩ. Nhiệm vụ lái xe chuyển sang Hệ thống 1 của bạn, giúp bạn thực hiện mà không tốn công suy nghĩ. Một trong những tiêu chí của một nhiệm vụ đã được tích hợp vào Hệ thống 1 là khả năng thực hiện nó dưới tiềm thức trong khi tập trung vào một nhiệm vụ khác (ví dụ, bạn có thể buộc giày và nói chuyện cùng một lúc, đánh răng và đọc, lái xe và nói chuyện, v.v.).
Ngay cả nhiều công việc phức tạp ở lĩnh vực của Hệ thống 2 cuối cùng cũng trở thành một phần tích hợp vào Hệ thống 1. Ví dụ, người chơi cờ chuyên nghiệp phụ thuộc nhiều vào nhận biết mẫu để tăng tốc quá trình ra quyết định. Bạn có thể thấy những ví dụ tương tự trong toán học và lập trình, nơi sau khi làm điều này nhiều lần, một số nhiệm vụ trước đây đòi hỏi suy nghĩ cẩn thận đến bạn một cách tự động.
Một hiện tượng tương tự có thể đang xảy ra trong các hệ thống học sâu đã được tiếp xúc với tập dữ liệu rất lớn. Có thể họ đã học cách thực hiện giai đoạn nhận biết mẫu đơn giản của các nhiệm vụ lập luận phức tạp.
“Việc tạo kế hoạch đòi hỏi việc kết nối các bước suy luận để đưa ra một kế hoạch, và một sự thật cứng nhắc về độ chính xác có thể được thiết lập,” Kambhampati nói.
Một thước đo mới để kiểm tra lập kế hoạch trong các mô hình ngôn ngữ lớn
“Với sự hứng thú xung quanh các tính chất ẩn/dục hiện của LLMs, tuy nhiên, chúng tôi nghĩ rằng sẽ hữu ích hơn nếu phát triển một thước đo cung cấp nhiều nhiệm vụ lập kế hoạch/suy luận khác nhau có thể phục vụ như một thước đo khi mọi người cải thiện LLMs thông qua việc điều chỉnh và các phương pháp khác để tùy chỉnh/cải thiện hiệu suất của chúng trong các nhiệm vụ lý luận. Đó là những gì chúng tôi đã làm,” Kambhampati nói.
Nhóm nghiên cứu đã phát triển thước đo của họ dựa trên các lĩnh vực sử dụng trong Cuộc thi Lập kế hoạch Quốc tế (IPC). Khung cảnh bao gồm nhiều nhiệm vụ đánh giá các khía cạnh khác nhau của suy luận. Ví dụ, một số nhiệm vụ đánh giá khả năng của LLMs để tạo ra kế hoạch hợp lệ để đạt được một mục tiêu cụ thể trong khi những nhiệm vụ khác sẽ kiểm tra xem kế hoạch được tạo ra có phải là tối ưu hay không. Các bài kiểm tra khác bao gồm suy nghĩ về kết quả của một kế hoạch, nhận biết xem các mô tả văn bản khác nhau có tham chiếu đến cùng một mục tiêu hay không, tái sử dụng một phần của một kế hoạch trong một kế hoạch khác, xáo trộn kế hoạch, và nhiều hơn nữa.
Để thực hiện các bài kiểm tra, nhóm sử dụng Thế giới khối, một bối cảnh vấn đề xoay quanh việc đặt một loạt các khối khác nhau theo một thứ tự cụ thể. Mỗi vấn đề có điều kiện ban đầu, một mục tiêu cuối cùng và một loạt các hành động được phép.
“Thước đo chính nó có thể được mở rộng và được thiết kế để có các bài kiểm tra từ một số lĩnh vực IPC khác nhau,” Kambhampati nói. “Chúng tôi đã sử dụng các ví dụ Thế giới khối để minh họa các nhiệm vụ khác nhau. Mỗi trong những nhiệm vụ đó (ví dụ: Tạo kế hoạch, xáo trộn mục tiêu, v.v.) cũng có thể được đưa ra trong các lĩnh vực IPC khác.”
Thước đo mà Kambhampati và đồng nghiệp phát triển sử dụng học một vài lần, nơi câu hỏi được đưa cho mô hình học máy bao gồm một ví dụ đã giải quyết cùng với vấn đề chính phải được giải quyết.
Khác với các thước đo khác, mô tả vấn đề của thước đo mới này rất dài và chi tiết. Việc giải quyết chúng đòi hỏi sự tập trung và lập kế hoạch phương pháp và không thể lừa dối thông qua nhận diện mẫu. Thậm chí một con người muốn giải quyết chúng cũng phải cân nhắc cẩn thận về từng vấn đề, ghi chú, có thể tạo hình vẽ minh họa và lập kế hoạch giải quyết từng bước.
“Suy luận là một nhiệm vụ của Hệ thống 2 nói chung. Tầm tưởng tập thể của cộng đồng đã nhìn nhận những loại thước đo suy luận đó có thể được xử lý thông qua biên soạn thành Hệ thống 1 (ví dụ: ‘câu trả lời cho tình huống đạo đức này, thông qua hoàn thành mẫu, là này’) so với thực sự thực hiện suy luận cần thiết cho nhiệm vụ đang diễn ra,” Kambhampati nói.
Mô hình ngôn ngữ lớn làm kém trong việc lập kế hoạch
Các nhà nghiên cứu kiểm tra khung công việc của họ trên Davinci, phiên bản lớn nhất của GPT-3. Các thử nghiệm của họ cho thấy GPT-3 có hiệu suất trung bình trong một số loại nhiệm vụ lập kế hoạch nhưng thực hiện rất kém trong các lĩnh vực như tái sử dụng kế hoạch, tổng quát hóa kế hoạch, lập kế hoạch tối ưu và lập kế hoạch lại.
“Các nghiên cứu ban đầu chúng tôi đã thấy cơ bản chỉ ra rằng LLMs rất kém trong bất cứ điều gì được coi là nhiệm vụ lập kế hoạch – bao gồm việc tạo kế hoạch, tạo kế hoạch tối ưu, tái sử dụng kế hoạch hoặc lập kế hoạch lại,” Kambhampati nói. “Chúng làm tốt hơn trên các nhiệm vụ liên quan đến lập kế hoạch không yêu cầu chuỗi suy luận – như xáo trộn mục tiêu.”
Trong tương lai, các nhà nghiên cứu sẽ thêm các trường thử nghiệm dựa trên các lĩnh vực IPC khác và cung cấp các tiêu chí hiệu suất với những người tham gia thử nghiệm.
“Chúng tôi cũng tự tò mò xem liệu các biến thể khác của LLMs có làm tốt hơn trên những thước đo này hay không,” Kambhampati nói.
Kambhampati nhấn mạnh rằng mục tiêu của dự án là đưa ra thước đo và đưa ra ý tưởng về nơi thước đo cơ bản hiện tại đang ở. Các nhà nghiên cứu hy vọng công việc của họ mở ra những cửa sổ mới để phát triển khả năng lập kế hoạch và suy luận cho các hệ thống AI hiện tại. Ví dụ, một hướng họ đề xuất là đánh giá hiệu quả của việc điều chỉnh LLMs cho suy luận và lập kế hoạch trong các lĩnh vực cụ thể. Nhóm đã có kết quả dự kiến về một biến thể của GPT-3 theo dõi hướng dẫn mà dường như làm tốt hơn một chút trong những nhiệm vụ dễ dàng, mặc dù vẫn ở mức khoảng 5%, Kambhampati nói.
Kambhampati cũng tin rằng việc học và hiểu mô hình thế giới sẽ là bước quan trọng đối với bất kỳ hệ thống AI nào có thể suy luận và lập kế hoạch. Các nhà khoa học khác, bao gồm cả người tiên phong về học sâu Yann LeCun, đã đưa ra những đề xuất tương tự.
“Nếu chúng ta đồng ý rằng suy luận là một phần của trí tuệ và muốn khẳng định rằng LLMs làm được nó, chúng ta chắc chắn cần các thước đo về tạo kế hoạch ở đó,” Kambhampati nói. “Thay vì đưa ra một quan điểm tiêu cực, chúng tôi đưa ra một thước đo, để những người tin rằng suy luận có thể xuất hiện từ LLMs ngay cả khi không có cơ chế đặc biệt như mô hình thế giới và suy luận về động lực, có thể sử dụng thước đo để hỗ trợ quan điểm của họ.”
Bài viết này được đăng trên bởi Ben Dickson trên TechTalks, một tờ báo nghiên cứu xu hướng công nghệ, cách chúng ảnh hưởng đến cuộc sống và kinh doanh của chúng ta, và những vấn đề chúng giải quyết. Nhưng chúng tôi cũng thảo luận về mặt xấu của công nghệ, những hậu quả tối tăm của công nghệ mới và những điều chúng ta cần phải chú ý. Bạn có thể đọc bài viết gốc tại đây.
