Một loạt bằng chứng đã chỉ ra rằng khả năng siêu trí tuệ của ChatGPT, GPT-4, đang dần trở nên 'kém thông minh' theo thời gian.
Một nghiên cứu mới từ Đại học Stanford và UC Berkeley về hành vi của ChatGPT đã cho thấy sự thay đổi theo thời gian. Trong báo cáo của các nhà nghiên cứu, hiệu suất của các mô hình AI GPT-3.5 và GPT-4 trong việc trò chuyện trực tuyến thực tế đã có sự khác biệt đáng kể, thậm chí là trở nên 'ngu ngốc' hơn.
'Chúng tôi nhận thấy hiệu suất và hành vi của cả GPT-3.5 và GPT-4 đã thay đổi đáng kể giữa hai phiên bản phát hành và hiệu suất của chúng trong một số tác vụ đã trở nên kém hơn đáng kể theo thời gian.'
Trong một bài báo, các nhà nghiên cứu Lingjiao Chen, Matei Zaharia và James Zou từ Stanford đã nhận thấy rằng hiệu suất của mô hình ngôn ngữ giảm dần so với các phiên bản trước đó vào tháng 3 và tháng 6.
Khả năng của GPT-4, một mô hình 'đa phương thức' tiên tiến có khả năng hiểu cả hình ảnh và văn bản, dường như hoạt động kém hơn rất nhiều theo thời gian trong các nhiệm vụ đã được thử nghiệm trước đó.
Các nhiệm vụ đa dạng đã được sử dụng để đánh giá khả năng của mô hình: từ các bài toán, trả lời các câu hỏi nhạy cảm, viết mã code cho đến lý luận trực quan.
Tuy nhiên, ngay cả những nhiệm vụ cơ bản, GPT-4 cũng trở nên 'mất phong độ' hơn so với trước đây.
GPT-4, trong phiên bản trả phí ChatGPT Plus, đã giảm độ chính xác từ 97,6% vào tháng 3 xuống chỉ còn 2,4% vào tháng 6. Trong khi đó, GPT-3.5, phiên bản miễn phí của ChatGPT, đã tăng từ 7,4% lên 86,8% khi được hỏi cùng một câu hỏi.
Đây cũng không phải là lần đầu tiên GPT-4 bị chỉ trích vì cung cấp thông tin sai lệch. Một nghiên cứu khác đã chỉ ra rằng ChatGPT chạy trên phiên bản 4 có khả năng cung cấp thông tin không chính xác hơn so với phiên bản trước đó.
GPT-4, dùng để cấp năng lượng cho trí tuệ nhân tạo của Microsoft, đã được đánh giá là hoạt động vượt trội hoặc đưa ra các phản hồi kỳ lạ trong quá khứ. Tuy nhiên, đây là lần đầu tiên một siêu trí tuệ của ChatGPT bị đánh giá là 'ngu' hơn theo thời gian.