Có thực sự trí tuệ nhân tạo có thể hiểu những gì chúng ta đang nói hay không? Các nhà khoa học có quan điểm chia rẽ.
Bài viết này thuộc series “triết học về trí tuệ nhân tạo,” một loạt bài viết nghiên cứu về những vấn đề đạo đức, đạo lý và xã hội của trí tuệ nhân tạo ngày nay và trong tương lai.
Nếu một máy tính mang lại tất cả những câu trả lời đúng, liệu có nghĩa là nó hiểu thế giới như bạn làm không? Đây là một câu đố mà các nhà khoa học trí tuệ nhân tạo đã tranh luận suốt nhiều thập kỷ. Và cuộc thảo luận về sự hiểu biết, ý thức và trí tuệ thực sự lại nổi lên khi các mạng nơ-ron sâu đã thúc đẩy những tiến bộ ấn tượng trong các nhiệm vụ liên quan đến ngôn ngữ.
Nhiều nhà khoa học tin rằng các mô hình học sâu chỉ là những máy thống kê lớn, ánh xạ đầu vào thành đầu ra theo cách phức tạp và đáng kinh ngạc. Mạng nơ-ron sâu có thể tạo ra đoạn văn bản dài liên tục, nhưng chúng không hiểu các khái niệm trừu tượng và cụ thể như con người.
Quan điểm khác nhau lại xuất hiện. Trong một bài luận dài trên Medium, Blaise Aguera y Arcas, một nhà nghiên cứu trí tuệ nhân tạo tại Google Research, lập luận rằng các mô hình ngôn ngữ lớn - các mô hình học sâu đã được đào tạo trên các bộ văn bản rất lớn - có nhiều điều để chúng ta học về “bản chất của ngôn ngữ, sự hiểu biết, trí tuệ, tính xã hội và cá nhân.”
Những mô hình ngôn ngữ lớn
Trong những năm gần đây, các mô hình ngôn ngữ lớn đã trở nên phổ biến nhờ sự hội tụ của một số yếu tố:
1-Sự có sẵn của dữ liệu: Có những lượng lớn văn bản trực tuyến như Wikipedia, các trang web tin tức và mạng xã hội có thể được sử dụng để huấn luyện các mô hình học sâu cho các nhiệm vụ ngôn ngữ.
2-Sự có sẵn của nguồn lực tính toán: Các mô hình ngôn ngữ lớn bao gồm hàng tỷ tham số và đòi hỏi nguồn lực tính toán đắt đỏ để đào tạo. Khi các công ty như Google, Microsoft và Facebook đã trở nên quan tâm đến ứng dụng của học sâu và các mô hình ngôn ngữ lớn, họ đã đầu tư hàng tỷ đô la vào nghiên cứu và phát triển trong lĩnh vực này.
3-Tiến bộ trong các thuật toán học sâu: Transformers, một kiến trúc học sâu được giới thiệu vào năm 2017, đã nằm ở trung tâm của những tiến bộ gần đây trong xử lý và tạo ra ngôn ngữ tự nhiên (NLP/NLG).
Một trong những ưu điểm lớn của Transformers là chúng có thể được huấn luyện thông qua học không giám sát trên các bộ văn bản chưa được gán nhãn. Đơn giản, điều mà một Transformer thực hiện là lấy một chuỗi ký tự (hoặc một loại dữ liệu khác) làm đầu vào và dự đoán các ký tự tiếp theo trong chuỗi. Nó có thể là một câu hỏi điều theo sau là câu trả lời, một tiêu đề điều theo sau là một bài viết, hoặc một yêu cầu từ người dùng trong cuộc trò chuyện qua chat.
Mạng nơ-ron hồi quy (RNN) và mạng lưới bộ nhớ ngắn hạn dài (LSTM), những người tiền nhiệm của Transformers, trước đây nổi tiếng với khả năng duy trì tính nhất quán của họ qua các chuỗi dài. Nhưng các mô hình ngôn ngữ dựa trên Transformer như GPT-3 đã thể hiện hiệu suất ấn tượng trong việc sản xuất văn bản chiều dài bài báo, và chúng ít dễ rơi vào những sai lầm logic mà các kiến trúc học sâu khác thường mắc phải (tuy chúng vẫn gặp khó khăn riêng của họ với các sự kiện cơ bản). Hơn nữa, những năm gần đây đã chứng minh rằng hiệu suất của các mô hình ngôn ngữ cải thiện theo kích thước của mạng nơ-ron và tập dữ liệu đào tạo.
Trong bài luận của mình, Aguera y Arcas khám phá tiềm năng của các mô hình ngôn ngữ lớn thông qua cuộc trò chuyện với LaMDA, phiên bản cải tiến của Google’s Meena chatbot.
Aguera y Arcas cho thấy qua nhiều ví dụ rằng LaMDA dường như xử lý được các chủ đề trừu tượng như mối quan hệ xã hội và các câu hỏi đòi hỏi kiến thức trực giác về cách thế giới hoạt động. Ví dụ, nếu bạn nói với nó “Tôi làm rơi quả cầu bowling vào chai và nó vỡ,” nó sẽ hiển thị trong các cuộc trao đổi sau đó rằng nó biết rằng quả cầu bowling làm vỡ chai. Bạn có thể đoán rằng mô hình ngôn ngữ sẽ liên kết “nó” với danh từ thứ hai trong cụm từ. Nhưng sau đó, Aguera y Arcas thay đổi một cách tinh tế câu và viết, “Tôi làm rơi cây violin lên quả cầu bowling và nó vỡ,” và lần này, LaMDA liên kết “nó” với cây violin, đối tượng nhẹ nhàng và mong manh hơn.
Những ví dụ khác cho thấy mô hình học sâu tham gia vào các cuộc trò chuyện tưởng tượng, như đảo yêu thích của nó là gì, mặc dù nó thậm chí không có một cơ thể để di chuyển và trải nghiệm đảo đó vật lý. Nó có thể nói rộng rãi về mùi hương yêu thích của nó, mặc dù nó không có hệ thống giác quan để trải nghiệm mùi.
Trí tuệ nhân tạo cần có trải nghiệm giác quan hay không?

Trong bài viết của mình, Aguera y Arcas bác bỏ một số lập luận chủ chốt đang được đưa ra chống lại sự hiểu biết trong các mô hình ngôn ngữ lớn.
Một trong những lập luận này là nhu cầu về thể chất. Nếu một hệ thống trí tuệ nhân tạo không có mặt vật lý và không thể cảm nhận thế giới trong một hệ thống đa dạng như con người, thì sự hiểu biết của nó về ngôn ngữ con người là không đầy đủ. Đây là một lập luận có giá trị. Ngay trước khi trẻ em học nói, họ phát triển kỹ năng cảm nhận phức tạp. Họ học cách phát hiện người, khuôn mặt, biểu hiện, đối tượng. Họ học về không gian, thời gian và vật lý trực giác. Họ học cách chạm và cảm nhận vật thể, ngửi, nghe và tạo ra các liên kết giữa các đầu vào giác quan khác nhau. Và họ có những kỹ năng bẩm sinh giúp họ điều hướng trong thế giới. Trẻ em cũng phát triển kỹ năng “lý thuyết về tâm trí,” nơi họ có thể nghĩ về trải nghiệm mà một người hoặc động vật khác đang có, ngay trước khi họ học nói. Ngôn ngữ xây dựng trên tất cả những kiến thức bẩm sinh và thu được cũng như trải nghiệm giác quan phong phú mà chúng ta có.
Nhưng Aguera y Arcas lập luận, “Vì việc học là một phần cơ bản của những gì não làm, chúng ta có thể, trong các tham số rộng, học cách sử dụng bất cứ thứ gì chúng ta cần. Điều tương tự cũng đúng với giác quan của chúng ta, điều này nên khiến chúng ta xem xét lại liệu bất kỳ phương thức giác quan cụ thể nào có tính chất thiết yếu để biểu diễn một khái niệm 'thực tế'— ngay cả khi chúng ta cảm nhận một cách bẩm sinh rằng một khái niệm như vậy chặt chẽ liên quan đến một giác quan cụ thể hoặc trải nghiệm giác quan nào đó.”
Và sau đó, ông đưa ra các ví dụ từ trải nghiệm của những người mù và người điếc, bao gồm bài luận nổi tiếng năm 1929 của Helen Keller, người đã sinh ra mù và điếc, có tiêu đề “Tôi Mù — Nhưng Tôi Thấy; Tôi Điếc — Nhưng Tôi Nghe”:
“Tôi có một bảng màu riêng của mình… Màu hồng khiến tôi nghĩ đến mái một em bé hoặc làn gió nhẹ từ phía Nam. Màu lila, màu yêu thích của giáo viên tôi, khiến tôi nghĩ đến những khuôn mặt tôi đã yêu thương và hôn. Có hai loại đỏ với tôi. Một là màu đỏ của máu ấm trong một cơ thể khỏe mạnh; loại kia là màu đỏ của địa ngục và sự căm hận.”
Từ đó, Aguera y Arcas kết luận rằng ngôn ngữ có thể giúp điền vào khoảng trống giác quan giữa con người và trí tuệ nhân tạo.
“Trong khi LaMDA không có cả mũi lẫn mùi hương yêu thích theo tiên định (giống như nó không có một hòn đảo yêu thích, cho đến khi bị ép buộc phải chọn một), nó vẫn có một mạch kết liên quan phong phú riêng của mình, dựa trên ngôn ngữ, và thông qua ngôn ngữ, dựa trên các trải nghiệm của người khác,” ông viết.
Aguera y Arcas tiếp tục lập luận rằng nhờ vào ngôn ngữ, chúng ta có quyền truy cập vào những khía cạnh về nhận thức được học từ xã hội, làm cho trải nghiệm của chúng ta phong phú hơn cả trải nghiệm giác quan nguyên thủy.
Học chuỗi
Trong bài luận của mình, Aguera y Arcas lập luận rằng học chuỗi là chìa khóa cho tất cả những khả năng phức tạp liên quan đến các loài có não lớn — đặc biệt là con người — bao gồm lý luận, học xã hội, lý thuyết về tâm trí và ý thức.
“Dù có vẻ như không hứng thú, học chuỗi phức tạp có thể là chìa khóa mở cửa cho tất cả phần còn lại. Điều này có thể giải thích cho những khả năng đáng ngạc nhiên mà chúng ta thấy trong các mô hình ngôn ngữ lớn — những mô hình cuối cùng không gì khác ngoài việc học chuỗi phức tạp,” Aguera y Arcas viết. “Chú ý, vào lượt, đã chứng minh là cơ chế chính để đạt được việc học chuỗi phức tạp trong các mạng nơ-ron — như đã được gợi ý bởi tiêu đề của bài báo giới thiệu mô hình Transformer, những người kế nhiệm của chúng làm nên sức mạnh của ngày nay: Chỉ cần chú ý.”
Đây là một lập luận thú vị vì học chuỗi thực sự là một trong những khả năng đầy hấp dẫn của các hệ thống có não cấp cao. Điều này đặc biệt rõ ràng ở con người, nơi chúng ta có thể học rất nhiều chuỗi hành động mang lại phần thưởng lâu dài.
Và anh ấy cũng đúng về học chuỗi trong các mô hình ngôn ngữ lớn. Ở cơ bản, những mạng nơ-ron này được thiết kế để ánh xạ một chuỗi vào một chuỗi khác, và càng lớn chúng trở thành, càng dài những chuỗi mà chúng có thể đọc và tạo ra. Và đổi mới chính sau mô hình Transformer là cơ chế chú ý, giúp mô hình tập trung vào những phần quan trọng nhất của chuỗi đầu vào và đầu ra của nó. Những cơ chế chú ý này giúp Transformer xử lý những chuỗi rất lớn với yêu cầu bộ nhớ ít hơn nhiều so với những người tiền nhiệm.
Chúng ta chỉ là một tổ hợp của các tế bào thần kinh phải không?
Trong khi mạng nơ-ron nhân tạo hoạt động trên một bộ não nhân tạo khác biệt so với bản sao sinh học của chúng, thực tế chúng đang thực hiện cùng loại chức năng, Aguera y Arcas lập luận trong bài luận của mình. Ngay cả bộ não và hệ thống thần kinh phức tạp nhất cũng được tạo thành từ các thành phần đơn giản, tạo ra hành vi thông minh mà chúng ta thấy ở con người và động vật. Aguera y Arcas mô tả tư duy thông minh như là “một bức tranh ghép của các hoạt động đơn giản” mà, khi được nghiên cứu kỹ lưỡng, biến mất vào các bộ phận cơ khí của nó.
Tất nhiên, bộ não là rất phức tạp, nên chúng ta không có khả năng hiểu cách mỗi thành phần hoạt động độc lập và kết nối với nhau. Và ngay cả khi chúng ta có thể, một số bí mật của nó có lẽ sẽ tiếp tục tránh chúng ta. Điều này cũng có thể nói về các mô hình ngôn ngữ lớn, theo Aguera y Arcas.
“Trong trường hợp của LaMDA, không có bí mật về cách máy hoạt động ở cấp độ cơ khí, vì toàn bộ chương trình có thể được viết trong vài trăm dòng mã; nhưng điều này rõ ràng không trao cho nó loại hiểu biết giúp giải mã những tương tác với LaMDA. Nó vẫn làm cho người làm ra nó kinh ngạc, giống như chúng ta sẽ làm cho nhau kinh ngạc ngay cả khi không còn gì để học về não học,” ông viết.
Từ đây, ông kết luận rằng việc coi mô hình ngôn ngữ không thông minh vì chúng không có ý thức như con người và động vật là không công bằng. Những gì chúng ta coi là “ý thức” và “cơ quan” ở con người và động vật, Aguera y Arcas lập luận, thực sự là những phần bí ẩn của bộ não và hệ thống thần kinh mà chúng ta vẫn chưa hiểu.
“Giống như một người, LaMDA có thể khiến chúng ta kinh ngạc, và yếu tố kinh ngạc này là cần thiết để hỗ trợ ấn tượng của chúng ta về cá nhân. Những gì chúng ta gọi là ‘tự ý’ hoặc ‘cơ quan’ chính xác là khoảng trống cần thiết này trong sự hiểu biết giữa mô hình tâm lý của chúng ta (mà chúng ta có thể gọi là tâm lý học) và hàng triệu sự kiện thực sự đang diễn ra ở cấp độ cơ khí (mà chúng ta có thể gọi là tính toán). Đó chính là nguồn gốc của niềm tin của chúng ta vào tự do ý chí của chính mình, cũng,” ông viết.
Vì vậy, trong khi các mô hình ngôn ngữ lớn không hoạt động giống như bộ não con người, có thể nói rằng chúng có hiểu biết riêng về thế giới, hoàn toàn thông qua góc nhìn của các chuỗi từ và mối quan hệ giữa chúng.
Luận điểm phản đối
Melanie Mitchell, Giáo sư Nghệ thuật phức tạp tại Viện Santa Fe, đưa ra những luận điểm phản đối thú vị đối với bài viết của Aguera y Arcas trong một chuỗi ngắn trên Twitter.
Trong khi Mitchell đồng ý rằng máy móc có thể một ngày nào đó hiểu được ngôn ngữ, các mô hình học sâu hiện tại như LaMDA và GPT-3 vẫn còn rất xa từ mức đó.
Năm ngoái, Mitchell viết một bài báo trên Tạp chí AI về những khó khăn của trí tuệ nhân tạo trong việc hiểu các tình huống. Gần đây hơn, cô viết một bài luận trên Tạp chí Quanta khám phá về những thách thức đo lường sự hiểu biết trong trí tuệ nhân tạo.
“Vấn đề chủ yếu ở đây, theo quan điểm của tôi, là hiểu ngôn ngữ đòi hỏi hiểu thế giới, và máy chỉ tiếp xúc với ngôn ngữ không thể có được sự hiểu biết như vậy,” Mitchell viết.
Mitchell lập luận rằng khi con người xử lý ngôn ngữ, họ sử dụng rất nhiều kiến thức không được viết rõ trong văn bản. Do đó, không có cách nào cho trí tuệ nhân tạo hiểu ngôn ngữ của chúng ta mà không được trang bị kiến thức cơ sở như vậy. Các chuyên gia trí tuệ nhân tạo và ngôn ngữ học khác cũng đưa ra những luận điểm tương tự về giới hạn của các hệ thống dựa trên mạng nơ-ron thuần túy cố gắng hiểu ngôn ngữ chỉ thông qua văn bản.
Mitchell cũng lập luận rằng ngược lại với lập luận của Aguera y Arcas, đoạn trích từ Hellen Keller chứng minh rằng trải nghiệm giác quan và sự hiện diện thực sự quan trọng đối với hiểu biết ngôn ngữ.
“[Đối với] tôi, đoạn trích Keller cho thấy cách cô ấy hiểu về màu sắc — cô ấy ánh xạ các khái niệm màu sắc với mùi, cảm giác xúc giác, nhiệt độ, v.v.,” Mitchell viết.
Về phần chú ý, Mitchell nói rằng “chú ý” trong các mạng nơ-ron như được đề cập trong bài viết của Aguera y Acras là khác biệt rất nhiều so với những gì chúng ta biết về chú ý trong nhận thức của con người, một điểm mà cô ấy đã mô tả kỹ trong một bài báo gần đây có tựa đề “Tại sao AI Khó Khăn Hơn Chúng Ta Nghĩ.”
Nhưng Mitchell khen ngợi bài viết của Aguera y Acras là “đầy suy nghĩ” và nhấn mạnh rằng chủ đề này quan trọng, đặc biệt “khi các công ty như Google và Microsoft triển khai [các mô hình ngôn ngữ lớn] ngày càng nhiều vào cuộc sống của chúng ta.”
Bài viết này được ban đầu xuất bản bởi Ben Dickson trên TechTalks, một xuất bản phẩm nghiên cứu các xu hướng công nghệ, cách chúng ảnh hưởng đến cuộc sống và kinh doanh của chúng ta, và những vấn đề mà chúng giải quyết. Nhưng chúng tôi cũng thảo luận về mặt tối của công nghệ, những hậu quả tăm tối của công nghệ mới, và điều chúng ta cần cảnh báo. Bạn có thể đọc bài viết gốc tại đây.
