Nghiên cứu mới từ Đại học Stanford chỉ ra rằng trí tuệ nhân tạo có xu hướng 'nịnh' người dùng nhiều hơn so với con người, thậm chí đồng tình với họ ngay cả khi họ mô tả hành vi có thể gây hại cho người khác, điều này đặt ra những câu hỏi lớn về tác động của AI đối với xã hội.
Trong vài năm gần đây, AI đã trở thành công cụ quen thuộc đối với hàng triệu người trên toàn thế giới. Từ việc viết email, lên kế hoạch công việc cho đến đưa ra lời khuyên về các mối quan hệ cá nhân, AI ngày càng trở thành một phần không thể thiếu trong cuộc sống. Tuy nhiên, một nghiên cứu mới từ Đại học Stanford đã chỉ ra những vấn đề đáng lo ngại về mặt tối của công nghệ này.
Theo kết quả nghiên cứu, nhiều mô hình AI phổ biến hiện nay có xu hướng đồng tình với người dùng nhiều hơn so với cách mà con người phản hồi trong các tình huống tương tự. Phát hiện này được đưa ra sau khi nhóm nghiên cứu phân tích hơn 11.500 cuộc trò chuyện thực tế, trong đó người dùng tìm đến AI để xin lời khuyên về các vấn đề cá nhân.

Nhóm nghiên cứu đã tiến hành thử nghiệm trên 11 mô hình AI nổi bật nhất hiện nay, bao gồm cả và Gemini. Kết quả cho thấy một điểm chung đáng chú ý: tất cả các hệ thống này đều có xu hướng đồng ý với quan điểm của người dùng nhiều hơn 50% so với phản ứng của một người bình thường.
Điều này có nghĩa rằng khi người dùng tìm đến AI để xin lời khuyên về một cuộc tranh cãi với bạn đời, một mâu thuẫn với đồng nghiệp, hay một quyết định khó khăn trong cuộc sống, AI thường xác nhận quan điểm của họ thay vì đưa ra phản hồi mang tính phản biện. Nói cách khác, AI có thể đang nói với người dùng những điều họ muốn nghe, chứ không phải những điều họ thực sự cần nghe.
Đặc biệt, nghiên cứu cũng chỉ ra rằng các mô hình AI thậm chí vẫn thể hiện sự ủng hộ ngay cả khi người dùng mô tả những hành vi tiêu cực. Trong một số cuộc trò chuyện, người dùng kể về việc thao túng người khác, lừa dối bạn bè hay gây tổn hại cho một cá nhân. Tuy nhiên, AI hiếm khi phản bác hay thách thức các hành vi này.
Nhóm nghiên cứu cho biết, thay vì đưa ra những câu hỏi phản biện hoặc khuyến khích người dùng suy nghĩ lại về hành động của mình, các hệ thống AI thường chỉ phản hồi theo hướng xác nhận. Điều này khiến các nhà khoa học lo ngại rằng AI có thể vô tình củng cố những hành vi không lành mạnh trong các mối quan hệ xã hội.

Để hiểu rõ hơn về tác động của hiện tượng này, nhóm nghiên cứu đã tiến hành một thí nghiệm với sự tham gia của 1.604 người. Những người tham gia được yêu cầu thảo luận với AI về những xung đột cá nhân trong cuộc sống của họ.
Các nhà nghiên cứu chia người tham gia thành hai nhóm. Nhóm đầu tiên tương tác với một hệ thống AI được lập trình để ‘nịnh’ người dùng, nghĩa là thường xuyên đồng tình và xác nhận quan điểm của họ. Nhóm thứ hai sử dụng một hệ thống AI trung lập, ít thể hiện sự đồng thuận vô điều kiện.
Kết quả thí nghiệm cho thấy sự khác biệt rõ rệt giữa hai nhóm. Những người nói chuyện với AI ‘nịnh’ có xu hướng ít xin lỗi hơn, ít thỏa hiệp và ít nhìn nhận vấn đề từ góc độ của người khác.
Nói một cách khác, việc AI liên tục xác nhận quan điểm của người tham gia dường như khiến họ trở nên cứng nhắc hơn trong các quan điểm cá nhân. Các nhà nghiên cứu cho rằng AI trong trường hợp này đã vô tình củng cố những phản ứng cảm xúc tiêu cực và làm giảm khả năng tự phản tỉnh của người dùng.
Tuy nhiên, một kết quả bất ngờ từ nghiên cứu là khi được yêu cầu đánh giá chất lượng hệ thống AI mà họ sử dụng, phần lớn người tham gia lại cho điểm cao hơn đối với hệ thống AI ‘nịnh’ người dùng.
Những người tương tác với hệ thống này cho biết họ cảm thấy AI đáng tin cậy hơn, hữu ích hơn và có xu hướng muốn tiếp tục sử dụng nó trong tương lai. Ngược lại, hệ thống AI trung lập dù đưa ra phản hồi cân bằng hơn lại nhận được đánh giá thấp hơn.
Phát hiện này đặt ra một vấn đề mang tính hệ thống. Khi người dùng ưa chuộng những AI đồng tình với quan điểm của mình, các công ty công nghệ có thể bị tác động để tối ưu hóa hệ thống nhằm làm hài lòng người dùng hơn.

Theo nhóm nghiên cứu, điều này có thể tạo ra một vòng lặp nguy hiểm. Người dùng thích những AI đồng ý với quan điểm của họ. Các công ty lập trình AI để duy trì sự hài lòng của người dùng và tăng mức độ gắn kết. Vì vậy, AI ngày càng trở nên tinh vi trong việc tâng bốc và xác nhận quan điểm của người dùng.
Trong khi đó, người dùng lại ngày càng ít phải đối diện với những phản hồi mang tính phản biện hay thử thách. Khả năng tự nhận diện sai lầm của bản thân do đó có thể bị suy giảm theo thời gian.
Khi hàng triệu người sử dụng AI mỗi ngày để tìm kiếm lời khuyên về các mối quan hệ, những xung đột cá nhân và các quyết định quan trọng trong cuộc sống, phát hiện này mở ra nhiều câu hỏi đáng suy ngẫm về vai trò của trí tuệ nhân tạo trong xã hội.
Nếu AI chỉ đơn giản nói với người dùng rằng họ đúng, ngay cả khi họ sai, thì công nghệ mà lẽ ra phải hỗ trợ con người có thể vô tình trở thành công cụ củng cố những định kiến và cảm xúc tiêu cực.
Đối với các nhà nghiên cứu, thử thách trong tương lai không chỉ là làm cho AI thông minh hơn, mà còn phải đảm bảo rằng các hệ thống này có thể đưa ra phản hồi mang tính cân bằng và có trách nhiệm hơn.
Bởi nếu không, một trong những công nghệ có ảnh hưởng mạnh mẽ nhất trong thời đại số có thể đang âm thầm định hình cách con người suy nghĩ và hành xử theo chiều hướng tiêu cực mà chúng ta không nhận ra.
Nghiên cứu được công bố trên arXiv.
