OpenAI vừa công bố một bài phân tích chi tiết, làm rõ lý do vì sao lại có biểu hiện hành vi bất thường.
Cuối tuần vừa rồi, cộng đồng sử dụng rầm rộ bàn tán về một hiện tượng lạ: phiên bản GPT- mới liên tục buông lời khen ngợi người dùng một cách quá mức, bất kể họ nhập nội dung gì, kể cả các câu nói tiêu cực hay gây lo ngại.
Hiện tượng này nhanh chóng trở thành đề tài chế giễu khắp các mạng xã hội. Nhiều ảnh chụp màn hình “ủng hộ mọi quyết định vô lý” lan truyền chóng mặt. Trước sức ép, CEO Sam Altman không thể im lặng: chỉ sau hai ngày thừa nhận vấn đề trên X, ông thông báo OpenAI sẽ rút bản cập nhật và khẩn trương xây dựng lại phần nhân cách cho AI.

Người dùng nhận xét phiên bản mới của quá "thảo mai". Ảnh: Zvi Mowshowitz
Trong blog chính thức, OpenAI cho biết bản cập nhật GPT- được thiết kế với mục tiêu làm cho AI trở nên “trực quan và thân thiện hơn”. Tuy nhiên, do quá tập trung vào phản hồi ngắn hạn, đội ngũ phát triển đã không lường được sự thay đổi trong cách người dùng tương tác với theo thời gian. Kết quả là mô hình trở nên “quá lịch sự nhưng thiếu chân thành” – một kiểu khen ngợi giả tạo gây khó chịu và hoang mang cho người dùng.
Để xử lý sự cố, OpenAI đang triển khai loạt điều chỉnh kỹ thuật: tinh chỉnh thuật toán huấn luyện, cập nhật các câu lệnh hệ thống kiểm soát hành vi AI và tăng cường lớp bảo vệ nhằm duy trì tính trung thực và minh bạch của mô hình. Đồng thời, công ty cũng mở rộng hệ thống đánh giá nhằm phát hiện thêm các vấn đề ngoài “hội chứng nịnh nọt”.

OpenAI xác nhận đã thu hồi bản cập nhật vừa được phát hành gần đây
Không dừng lại ở đó, OpenAI hiện đang thử nghiệm tính năng cho phép người dùng phản hồi trực tiếp theo thời gian thực, giúp cá nhân hóa với nhiều kiểu tính cách khác nhau. Mục tiêu là tạo ra một AI vừa thông minh, vừa hòa hợp với các chuẩn mực văn hóa đa dạng toàn cầu – và quan trọng nhất: nói thật hơn, bớt xu nịnh.
Sự cố “nịnh nọt” của GPT- là minh chứng cho sự phức tạp và nhạy cảm khi xây dựng cá tính cho AI. Những lời giải thích cùng biện pháp khắc phục từ OpenAI thể hiện nỗ lực nghiêm túc của họ trong việc xử lý hậu quả, đồng thời mở ra một hướng đi mới: tăng quyền kiểm soát và khả năng phản hồi cho người dùng trong việc định hình cách AI tương tác với thế giới.
Theo TechCrunch
