OpenAI cho biết dữ liệu công khai từ Internet hiện tại không đủ đa dạng và chất lượng để giúp GPT-5 'thông minh hơn' rõ rệt so với GPT-4.
Vào tháng 3, nhiều báo cáo cho biết OpenAI đã bắt đầu huấn luyện -5 – phiên bản mới hứa hẹn sẽ có những cải tiến vượt trội so với GPT-4. Tuy nhiên, khi năm 2025 đang tới gần, -5 vẫn chưa ra mắt. Một bài viết từ The Wall Street Journal đã tiết lộ nguyên nhân của sự chậm trễ này.
-5: Quá trình phát triển đầy thử thách
-5, mang tên mã Project Orion, đã được OpenAI nghiên cứu trong suốt 18 tháng. Microsoft, nhà đầu tư lớn nhất của OpenAI, đã mong đợi mô hình này sẽ ra mắt vào giữa năm 2024. Tuy nhiên, các báo cáo gần đây cho thấy quá trình phát triển -5 gặp phải nhiều khó khăn lớn, đặc biệt trong giai đoạn huấn luyện.
OpenAI đã tiến hành ít nhất hai đợt huấn luyện với khối lượng dữ liệu khổng lồ, nhưng kết quả thu được không như kỳ vọng. Đợt thử nghiệm đầu tiên diễn ra chậm hơn dự kiến, khiến OpenAI nhận ra rằng nếu thực hiện một đợt huấn luyện quy mô lớn hơn, chi phí và thời gian sẽ rất tốn kém. Quan trọng hơn, nguồn dữ liệu từ internet công khai không đủ phong phú và chất lượng để làm cho GPT-5 'thông minh hơn' rõ rệt so với GPT-4.

Theo OpenAI, dữ liệu công khai từ Internet hiện tại không đủ phong phú và chất lượng để giúp GPT-5 'thông minh hơn' rõ rệt so với GPT-4.
Để khắc phục tình trạng thiếu hụt dữ liệu chất lượng cao, OpenAI đã tuyển dụng hàng trăm người để viết mã và giải quyết bài toán, tạo ra bộ dữ liệu mới từ đầu. Tuy nhiên, quá trình này rất tốn thời gian. Để dễ hình dung: GPT-4 đã được huấn luyện với khoảng 13 nghìn tỷ token. Nếu 1.000 người mỗi ngày viết 5.000 từ, họ sẽ mất hàng tháng mới tạo ra được 1 tỷ token.
Một phương án khác là tạo dữ liệu tổng hợp từ chính các mô hình AI hiện tại. Tuy nhiên, phương pháp này tiềm ẩn nhiều rủi ro: các vòng lặp dữ liệu tổng hợp có thể tạo ra kết quả phi logic hoặc 'rác dữ liệu'. OpenAI cho rằng vấn đề này có thể được giải quyết bằng cách sử dụng dữ liệu từ mô hình Orion hiện tại (o1), dù đây vẫn là một vấn đề gây tranh cãi trong cộng đồng chuyên gia.
Những khó khăn nội bộ và áp lực từ thị trường
Ngoài những khó khăn kỹ thuật, OpenAI còn phải đối mặt với sự xáo trộn nội bộ. Vào năm 2023, CEO Sam Altman bị cách chức nhưng nhanh chóng trở lại vị trí, trong khi hơn 20 giám đốc cấp cao đã rời công ty. Altman cũng từng cho rằng sự ra mắt của mô hình Orion (o1) là một trong những lý do chính khiến GPT-5 bị trì hoãn.
Áp lực tài chính là một yếu tố không nhỏ. Chi phí phát triển các mô hình AI tiên tiến ngày càng gia tăng, trong khi lợi nhuận lại chưa tương xứng. OpenAI hiểu rằng -5 cần phải thực sự xuất sắc để biện minh cho khoản đầu tư khổng lồ, điều này càng làm tăng kỳ vọng và áp lực cho dự án.
Với những thử thách trên, -5 dự kiến sẽ không ra mắt trước giữa năm 2025. Tuy nhiên, OpenAI cần phải giải quyết vấn đề chất lượng dữ liệu, tối ưu hóa chi phí và vượt qua các khó khăn nội bộ để đảm bảo sản phẩm này không chỉ là bước tiến công nghệ mà còn đáp ứng kỳ vọng của thị trường.
