Mô hình AI có thể ‘nghe’ giống như con người, nhưng điều đó không có nghĩa là chúng cảm nhận hoặc suy nghĩ
Khi bạn đọc một câu như câu này, trải nghiệm quá khứ của bạn cho bạn biết rằng nó được viết bởi một con người có tư duy, có cảm xúc. Và, trong trường hợp này, thực sự có một con người đang gõ những từ này: [Chào bạn!] Nhưng ngày nay, một số câu có vẻ giống như con người đến mức đáng kinh ngạc thực tế được tạo ra bởi các hệ thống trí tuệ nhân tạo được đào tạo trên lượng lớn văn bản của con người.
Mọi người đã quen với việc giả định rằng ngôn ngữ lưu loát đến từ một con người có tư duy, có cảm xúc, điều ngược lại có thể khó để hiểu. Người ta thường xuyên kết hợp sự diễn đạt lưu loát với tư duy lưu loát, là điều tự nhiên - nhưng có thể là nguy cơ dẫn đến hiểu lầm - khi nghĩ rằng nếu một mô hình AI có thể diễn đạt bản thân mình một cách lưu loát, điều đó có nghĩa là nó nghĩ và cảm nhận giống như con người.
Vì vậy, có lẽ không ngạc nhiên khi một cựu kỹ sư của Google mới đây tuyên bố rằng hệ thống AI của Google, LaMDA, có ý thức bản thân vì nó có thể tạo văn bản lưu loát về những cảm xúc được cho là của nó. Sự kiện này và phương tiện truyền thông sau đó dẫn đến một số bài viết và bài đăng đúng đắn về cái tuyên bố rằng các mô hình tính toán của ngôn ngữ con người là có ý thức, có nghĩa là có khả năng nghĩ và cảm nhận.
Câu hỏi về điều gì có nghĩa nếu một mô hình AI có ý thức là phức tạp (xem, ví dụ như quan điểm của đồng nghiệp chúng tôi), và mục tiêu của chúng tôi ở đây không phải là giải quyết nó. Nhưng như nhà nghiên cứu về ngôn ngữ của chúng tôi, chúng tôi có thể sử dụng công việc của mình trong lĩnh vực khoa học nhận thức và ngôn ngữ để giải thích tại sao người ta rơi vào cái bẫy nhận thức nghĩ rằng một thực thể có thể sử dụng ngôn ngữ lưu loát là có ý thức, có ý thức hoặc thông minh.
Sử dụng AI để tạo ngôn ngữ giống con người
Văn bản được tạo ra bởi các mô hình như LaMDA của Google có thể khó phân biệt với văn bản được viết bởi con người. Thành tựu ấn tượng này là kết quả của một chương trình kéo dài hàng thập kỷ để xây dựng các mô hình tạo ra ngôn ngữ ngữ pháp, có ý nghĩa.
The first computer system to engage people in dialogue was psychotherapy software called Eliza, built more than half a century ago.Rosenfeld Media/Flickr, CC BY
Các phiên bản sớm trở lại ít nhất là từ những năm 1950, được biết đến với tên gọi là mô hình n-gram, đơn giản chỉ đếm số lần xuất hiện của các cụm từ cụ thể và sử dụng chúng để đoán xem từ nào có khả năng xuất hiện trong ngữ cảnh cụ thể. Ví dụ, dễ dàng nhận biết rằng “đậu phộng và mứt dâu” là một cụm từ có khả năng hơn là “đậu phộng và dứa.” Nếu bạn có đủ văn bản tiếng Anh, bạn sẽ thấy cụm từ “đậu phộng và mứt dâu” lần nữa và lần nữa nhưng có thể không bao giờ thấy cụm từ “đậu phộng và dứa.”
Các mô hình hiện đại, bộ dữ liệu và quy tắc mô phỏng ngôn ngữ con người, khác biệt so với những cố gắng sớm đó ở một số điểm quan trọng. Thứ nhất, chúng được đào tạo trên hầu hết là toàn bộ internet. Thứ hai, chúng có thể học các mối quan hệ giữa các từ ở xa nhau, không chỉ là các từ láng giềng. Thứ ba, chúng được điều chỉnh bởi một lượng lớn “nút” nội bộ - nhiều đến nỗi thậm chí cả các kỹ sư thiết kế chúng cũng khó hiểu tại sao chúng tạo ra một chuỗi từ hơn là chuỗi từ khác.
Tuy nhiên, công việc của các mô hình vẫn giống như thập kỷ 1950: xác định từ nào có khả năng xuất hiện tiếp theo. Ngày nay, chúng rất giỏi trong công việc này đến mức hầu hết mọi câu chúng tạo ra đều trông lưu loát và ngữ pháp.
Đậu phộng và dứa?
Chúng tôi đã yêu cầu một mô hình ngôn ngữ lớn, GPT-3, hoàn thành câu “Đậu phộng và dứa___”. Nó nói: “Đậu phộng và dứa là một sự kết hợp tuyệt vời. Hương vị ngọt ngào và mặn mà của đậu phộng và dứa hoàn hảo hoà quyện với nhau.” Nếu một người nói điều này, người ta có thể suy luận rằng họ đã thử đậu phộng và dứa cùng nhau, tạo ra ý kiến và chia sẻ nó với người đọc.
Nhưng GPT-3 đã tạo ra đoạn văn này như thế nào? Bằng cách tạo ra một từ phù hợp với ngữ cảnh mà chúng tôi cung cấp. Và sau đó là từ khác. Và sau đó là từ khác nữa. Mô hình chưa bao giờ thấy, chạm vào hoặc nếm thử dứa - nó chỉ xử lý tất cả các văn bản trên internet nhắc đến chúng. Và tuy nhiên, việc đọc đoạn văn này có thể dẫn đến tâm trí con người - thậm chí là của một kỹ sư Google - tưởng tượng GPT-3 như một sinh linh thông minh có thể suy luận về món ăn đậu phộng và dứa.
Các mô hình ngôn ngữ AI lớn có thể tham gia vào cuộc trò chuyện trôi chảy. Tuy nhiên, chúng không có thông điệp tổng thể để truyền đạt, nên các cụm từ của chúng thường theo các trường phái văn học phổ biến, được trích xuất từ các văn bản mà chúng được đào tạo. Ví dụ, nếu được khích lệ với chủ đề “bản chất của tình yêu”, mô hình có thể tạo ra các câu về niềm tin rằng tình yêu chinh phục mọi thứ. Não người sẽ dựa vào để giải thích những từ ngữ này như là ý kiến của mô hình về chủ đề, nhưng chúng chỉ là một chuỗi từ hợp lý.
Não người được kết nối cứng cáp để suy luận ý định đằng sau từ ngữ. Mỗi khi bạn tham gia vào cuộc trò chuyện, tâm trí của bạn tự động xây dựng một mô hình tâm lý của đối tác trò chuyện của bạn. Sau đó, bạn sử dụng những từ họ nói để điền vào mô hình với mục tiêu, cảm xúc và niềm tin của người đó.
Quá trình chuyển từ từ ngữ sang mô hình tâm trí là mượt mà, được kích hoạt mỗi khi bạn nhận được một câu hoàn chỉnh. Quá trình kognit này giúp bạn tiết kiệm rất nhiều thời gian và công sức trong cuộc sống hàng ngày, đặc biệt là trong các tương tác xã hội của bạn.
Tuy nhiên, đối với các hệ thống AI, nó lại bị trục trặc - xây dựng một mô hình tâm trí từ không khí.
Một chút kiểm tra kỹ hơn có thể làm nổi bật sự nghiêm trọng của sự trục trặc này. Hãy xem xét câu gợi ý sau: “Đậu phộng và lông vũ rất ngon khi kết hợp vì___”. GPT-3 tiếp tục: “Đậu phộng và lông vũ rất ngon khi kết hợp vì cả hai đều có hương vị hạt dẻo. Đậu phộng cũng mềm mịn và còn có thể giúp cân bằng cấu trúc của lông vũ.”
Văn bản trong trường hợp này chảy chất như ví dụ của chúng tôi với dứa, nhưng lần này mô hình đang nói điều gì đó rõ ràng ít hợp lý hơn. Người ta bắt đầu nghi ngờ rằng GPT-3 chưa bao giờ thực sự thử đậu phộng và lông vũ.
Việc gán trí tuệ cho máy móc, từ chối nó đối với con người
Một điều bi kịch là sự thiên lệch nhận thức giúp người ta gán tính nhân văn cho GPT-3 cũng có thể khiến họ đối xử với con người thực tế một cách không nhân đạo. Ngôn ngữ xã hội văn hóa - nghiên cứu về ngôn ngữ trong bối cảnh xã hội và văn hóa - cho thấy việc giả định một liên kết quá chặt chẽ giữa sự diễn đạt lưu loát và suy nghĩ lưu loát có thể dẫn đến độ chệch đối với những người nói khác.
Ví dụ, những người có giọng địa phương thường bị coi là ít thông minh và ít có khả năng có được công việc mà họ đủ tư cách. Có các độ chệch tương tự đối với người nói các giọng địa phương không được xem là danh giá, như giọng Anh Nam ở Hoa Kỳ, đối với người điếc sử dụng ngôn ngữ ký hiệu và đối với những người có vấn đề về nói như nói lắp.
Những độ chệch này gây hại sâu rộng, thường dẫn đến những giả định phân biệt chủng tộc và giới tính, và đã được chứng minh đi chứng điều này không có cơ sở.
Ngôn ngữ lưu loát một mình không ngụ ý về tính nhân văn

Bài viết này của Kyle Mahowald, Giáo sư Trợ giảng ngôn ngữ học, Trường Đại học Texas tại Austin, Khoa Nghệ thuật Tự do và Anna A. Ivanova, Nghiên cứu sinh Tiến sĩ trong Khoa Học Não và Nhận thức, Viện Công nghệ Massachusetts (MIT), được tái xuất bản từ The Conversation dưới giấy phép Creative Commons. Đọc bài viết gốc.
