AI có thể không phát triển thêm nữa: Các chuyên gia cảnh báo về 'bức tường hiệu suất' khi nguồn dữ liệu cho trí tuệ nhân tạo sắp cạn kiệt

Buzz

Ngày cập nhật gần nhất: 1/5/2026

Nội dung bài viết

Nhiều chuyên gia cho rằng vấn đề là thiếu hụt dữ liệu văn bản mới, chất lượng cao để các mô hình ngôn ngữ lớn (LLM) có thể tiếp tục huấn luyện

Xem thêm

Nhiều chuyên gia cho rằng vấn đề là thiếu hụt dữ liệu văn bản mới, chất lượng cao để các mô hình ngôn ngữ lớn (LLM) có thể tiếp tục huấn luyện

Trong suốt những năm qua, các chuyên gia đã đặt niềm tin vào khả năng phát triển vượt bậc của AI, tin rằng năng lực của các mô hình AI sẽ tiếp tục tăng trưởng mạnh mẽ. Tuy nhiên, gần đây, niềm tin này đã bị lung lay khi nhiều người trong ngành lo ngại rằng sự phát triển của các mô hình ngôn ngữ lớn (LLM) đang bắt đầu chững lại.

Vào cuối tuần qua, The Information đã đăng tải một báo cáo xác nhận những lo ngại này không phải là suy đoán. Nhiều nhà nghiên cứu tại OpenAI đã thể hiện sự thất vọng về hiệu suất của Orion – mô hình AI thế hệ mới của công ty. Theo họ, Orion chỉ cải thiện một cách khiêm tốn so với GPT-4, không đạt được sự đột phá như từ GPT-3 lên GPT-4. Thậm chí, trong một số tác vụ, Orion "không thực sự vượt trội" so với phiên bản trước.

Ảnh minh họa (Nguồn: Arstechnica)

Sự lo lắng càng gia tăng khi Ilya Sutskever, nhà đồng sáng lập OpenAI, người đã rời công ty đầu năm nay, cảnh báo rằng phương pháp huấn luyện truyền thống có thể đang dần đến ngưỡng. Theo ông, những năm 2010 là 'thời kỳ bùng nổ', khi việc bổ sung tài nguyên tính toán và dữ liệu vẫn có thể tạo ra những cải tiến đáng kể. Tuy nhiên, hiện tại, ông cho rằng chúng ta đang quay lại thời kỳ phải 'khám phá và tìm tòi' vì dữ liệu chất lượng không còn đủ để duy trì phương pháp huấn luyện cũ.

Tìm kiếm 'chìa khóa' tiếp theo

Theo nhiều chuyên gia, vấn đề chính là thiếu hụt dữ liệu văn bản mới, chất lượng cao để các mô hình ngôn ngữ lớn (LLM) tiếp tục huấn luyện. Hầu hết các dữ liệu công khai trên Internet và trong sách báo đã được khai thác. Báo cáo từ Epoch AI chỉ ra rằng, nếu tiếp tục khai thác dữ liệu theo tốc độ hiện tại, nguồn dữ liệu văn bản do con người tạo ra sẽ 'cạn kiệt' vào khoảng năm 2026 đến 2032.

Để vượt qua hạn chế này, OpenAI và nhiều công ty khác đã thử nghiệm với dữ liệu tổng hợp (synthetic data), loại dữ liệu được tạo ra từ các mô hình khác. Tuy nhiên, có những tranh luận về hiệu quả của loại dữ liệu 'nhân tạo' này. Một số ý kiến cho rằng sau vài chu kỳ huấn luyện, mô hình ngôn ngữ có thể gặp phải tình trạng 'sụp đổ ngữ cảnh', khiến khả năng hiểu ngữ cảnh suy giảm.

Các nhà nghiên cứu cũng đang chú trọng đến việc cải thiện khả năng lập luận của AI, thay vì chỉ mở rộng dữ liệu huấn luyện. Tuy nhiên, các mô hình 'hiện đại' nhất vẫn dễ bị đánh lừa bởi các yếu tố gây nhiễu. Một phương pháp khác được đề xuất là sử dụng mô hình 'giáo viên' để huấn luyện các mô hình 'học trò' qua quy trình chắt lọc tri thức, nhằm cải thiện chất lượng thông tin.

Định hướng mới: AI chuyên biệt hóa

Nếu các phương pháp huấn luyện hiện tại đã đến ngưỡng, giải pháp tiếp theo có thể là phát triển các mô hình AI chuyên biệt, tập trung vào các tác vụ cụ thể. Microsoft đã thử nghiệm thành công với các mô hình ngôn ngữ nhỏ, chuyên sâu vào các vấn đề riêng biệt. Tương lai, AI có thể sẽ tập trung vào những lĩnh vực hẹp và chuyên sâu hơn, giống như các nghiên cứu sinh tiến sĩ chuyên sâu vào từng ngách kiến thức.

Liệu sự chững lại của AI có phải là dấu hiệu kết thúc cho các mô hình ngôn ngữ lớn? Câu trả lời vẫn chưa rõ, nhưng những thay đổi trong chiến lược và phương thức tiếp cận của các công ty AI lớn cho thấy cuộc đua phát triển AI đang bước sang một giai đoạn mới, đòi hỏi sự sáng tạo và những đột phá mới.

Tham khảo Arstechnica

Các câu hỏi thường gặp

Tại sao sự phát triển của các mô hình ngôn ngữ lớn (LLM) có dấu hiệu chững lại?

Sự phát triển của các mô hình ngôn ngữ lớn đang gặp khó khăn vì thiếu hụt dữ liệu văn bản chất lượng cao, điều này đã được báo cáo và xác nhận bởi nhiều chuyên gia trong ngành AI.

Mô hình AI Orion của OpenAI có cải thiện vượt trội so với GPT-4 không?

Không, mô hình Orion của OpenAI chỉ cải thiện một cách khiêm tốn so với GPT-4 và không đạt được sự đột phá như từ GPT-3 lên GPT-4.

Lý do gì khiến nhiều nhà nghiên cứu lo ngại về hiệu quả của dữ liệu tổng hợp (synthetic data)?

Dữ liệu tổng hợp có thể gây ra tình trạng 'sụp đổ ngữ cảnh' sau vài chu kỳ huấn luyện, khiến mô hình giảm khả năng hiểu ngữ cảnh và gặp phải nhiều vấn đề trong việc học.

Mô hình AI chuyên biệt có thể là giải pháp cho sự chững lại trong phát triển AI không?

Có, các mô hình AI chuyên biệt hóa, tập trung vào các tác vụ cụ thể, như những mô hình ngôn ngữ nhỏ của Microsoft, có thể là hướng đi hiệu quả để vượt qua các giới hạn hiện tại của mô hình lớn.

Có phải dữ liệu văn bản do con người tạo ra sẽ cạn kiệt vào năm 2026 đến 2032?

Có, theo báo cáo từ Epoch AI, nguồn dữ liệu văn bản công khai do con người tạo ra có thể cạn kiệt vào khoảng năm 2026 đến 2032 nếu tiếp tục khai thác với tốc độ hiện tại.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]