Không riêng hay Gemini, nhiều mô hình AI khác cũng tồn tại một điểm yếu nghiêm trọng tương tự.
Một công trình nghiên cứu quy mô lớn mới đây từ các nhà khoa học thuộc Microsoft Research và Salesforce Research đã xác nhận điều mà nhiều người dùng AI từng nghi ngờ nhưng chưa có bằng chứng rõ ràng: các mô hình ngôn ngữ lớn hiện nay đều suy giảm hiệu quả đáng kể khi cuộc hội thoại kéo dài qua nhiều lượt tương tác.
Nhóm nghiên cứu đã xem xét hơn 200.000 đoạn hội thoại mô phỏng trên 15 mô hình AI hàng đầu, trong đó có GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet và Deepseek-R1, và kết quả cho thấy không có bất kỳ mô hình nào là ngoại lệ.
Số liệu thu được khá rõ ràng: hiệu suất trung bình của các mô hình giảm tới 39% khi chuyển từ dạng hội thoại một lượt sang nhiều lượt trên cùng một bộ nhiệm vụ. Ngay cả những hệ thống AI được xem là tiên tiến nhất cũng không tránh khỏi xu hướng này.

Cụ thể, GPT-4.1 giảm từ 96,6% xuống 72,6%, còn Gemini 2.5 Pro giảm từ 97,4% xuống 68,1%. Các con số này được tính trung bình trên 6 nhóm tác vụ khác nhau, bao gồm lập trình, truy vấn cơ sở dữ liệu, toán học và tóm tắt văn bản.
Đáng chú ý hơn, nhóm nghiên cứu còn phân tích sâu nguyên nhân của sự suy giảm này. Họ tách hiện tượng thành hai yếu tố: năng lực cốt lõi của mô hình chỉ giảm khoảng 16%, nhưng mức độ bất ổn định — tức khoảng cách giữa kết quả tốt nhất và tệ nhất trong cùng một tình huống — lại tăng mạnh tới 112%.
Nói một cách khác, về mặt lý thuyết các mô hình AI vẫn có thể giải quyết vấn đề, nhưng hiệu suất của chúng trở nên cực kỳ khó đoán. Người dùng không thể chắc chắn liệu lần trả lời này mô hình sẽ đúng hay sai, ngay cả khi câu hỏi được lặp lại hoàn toàn giống nhau.
Các nhà nghiên cứu gọi cơ chế đứng sau hiện tượng này là "lost in conversation" — tạm hiểu là "lạc lối trong hội thoại". Điều đáng chú ý là mô hình không hẳn quên dữ liệu, mà chúng hình thành các giả định quá sớm trong quá trình phản hồi.
Chỉ từ lượt trao đổi thứ hai hoặc thứ ba, khi người dùng vẫn chưa cung cấp đủ bối cảnh, mô hình đã vội vàng tạo ra một câu trả lời hoàn chỉnh dựa trên suy đoán của mình. Sau khi đã đưa ra phản hồi ban đầu, hệ thống coi đó là nền tảng đúng và tiếp tục phát triển các câu trả lời sau dựa trên giả định ấy.

Khi người dùng bổ sung thêm dữ liệu ở các lượt tiếp theo, thay vì xây dựng lại từ đầu, mô hình thường cố chỉnh sửa câu trả lời trước đó. Điều này khiến phản hồi ngày càng dài dòng, phức tạp và dễ sai lệch. Nghiên cứu gọi hiện tượng này là hiệu ứng "answer bloat": trong hội thoại nhiều lượt, câu trả lời có thể dài hơn từ 20% đến 300% so với hội thoại một lượt, nhưng chất lượng lại giảm.
Căn nguyên của vấn đề xuất phát từ cách các mô hình được huấn luyện. Phần lớn dữ liệu đào tạo đều dựa trên dạng hội thoại một lượt: câu hỏi rõ ràng và câu trả lời hoàn chỉnh. Trong khi đó, ngoài thực tế người dùng thường bắt đầu bằng yêu cầu mơ hồ, rồi dần bổ sung thông tin qua nhiều lượt, thậm chí quay lại điều chỉnh yêu cầu ban đầu.
Khoảng cách giữa môi trường huấn luyện và bối cảnh sử dụng thực tế tạo nên một lỗ hổng mà cho đến nay chưa mô hình nào khắc phục hoàn toàn. Đáng chú ý, ngay cả hai mô hình suy luận trong thử nghiệm là o3 và Deepseek-R1 — vốn được thiết kế để "suy nghĩ" kỹ hơn trước khi phản hồi — cũng gặp sự suy giảm tương tự. Việc tăng thêm lượng tính toán trong bước suy luận không giúp chúng xử lý tốt hơn các cuộc hội thoại nhiều lượt thiếu thông tin.

Nhóm nghiên cứu cũng thử áp dụng một số hướng khắc phục. Tuy nhiên, những phương pháp phổ biến như mở rộng cửa sổ ngữ cảnh, chain-of-thought prompting hay tóm tắt nội dung hội thoại đều không xử lý được tận gốc vấn đề.
Giải pháp duy nhất cho thấy hiệu quả rõ rệt là "concat-and-retry": thu thập toàn bộ dữ liệu từ các lượt trao đổi, sau đó ghép lại thành một yêu cầu hoàn chỉnh và khởi động một cuộc trò chuyện mới. Phương pháp này giúp độ chính xác tăng trở lại trên 90%, gần tương đương với mức hiệu suất ban đầu của mô hình.
Phát hiện này mang ý nghĩa thiết thực đối với người dùng hằng ngày. Khi cuộc trò chuyện với AI bắt đầu đi chệch hướng, việc tiếp tục giải thích trong cùng một cửa sổ chat thường kém hiệu quả hơn so với việc mở một cuộc trò chuyện mới và cung cấp đầy đủ thông tin ngay từ đầu.
Đây không đơn thuần là một mẹo sử dụng hay lỗi giao diện, mà phản ánh giới hạn trong kiến trúc hiện tại của các hệ thống AI. Các nhà nghiên cứu cho rằng những tổ chức phát triển AI cần chú trọng hơn vào việc cải thiện độ ổn định trong hội thoại nhiều lượt, thay vì chỉ tập trung nâng cao khả năng xử lý các nhiệm vụ đơn lẻ như hiện nay.
