Musk nhấn mạnh rằng phương pháp này có thể dẫn đến những hệ quả nghiêm trọng, đặc biệt là hiện tượng "ảo giác" – khi AI sản xuất thông tin không chính xác hoặc vô nghĩa.
Elon Musk, CEO của Tesla, SpaceX, và xAI, đã chia sẻ một nhận định đáng chú ý rằng các công ty trí tuệ nhân tạo (AI) đã "khai thác cạn kiệt" toàn bộ dữ liệu tri thức của nhân loại để đào tạo các mô hình AI. Ông cho biết, từ đây, các công ty sẽ phải dựa vào dữ liệu tổng hợp do chính AI tạo ra để phát triển và cải tiến công nghệ.
Trong một buổi phỏng vấn trực tiếp trên nền tảng mạng xã hội X, Musk tuyên bố: "Toàn bộ kiến thức của con người đã được sử dụng hết trong quá trình đào tạo AI, và điều này đã xảy ra từ năm ngoái." Ông cho rằng cách duy nhất để vượt qua giới hạn này là chuyển sang sử dụng dữ liệu tổng hợp, nơi AI tự viết bài luận, tự chấm điểm và thực hiện các bước tự học.

Nguy cơ "sụp đổ mô hình"
Ý tưởng sử dụng dữ liệu tổng hợp không phải là mới, khi các công ty lớn như Meta, Microsoft, Google, và OpenAI đã bắt đầu áp dụng phương pháp này để đào tạo các mô hình AI của họ, bao gồm Llama AI, Phi-4, và . Tuy nhiên, Musk cảnh báo rằng phương pháp này có thể dẫn đến những vấn đề nghiêm trọng, đặc biệt là hiện tượng "ảo giác" – khi AI tạo ra thông tin sai lệch hoặc vô nghĩa.
Theo Musk, việc sử dụng dữ liệu tổng hợp đòi hỏi khả năng phân biệt giữa câu trả lời chính xác và sai lệch, điều này khiến quá trình tự học trở nên "rất khó khăn." Ông thừa nhận: "Nếu AI tự tạo ra dữ liệu và nó bị ảo giác, làm sao chúng ta biết câu trả lời đó là thật hay giả?"
Andrew Duncan, giám đốc AI tại Viện Alan Turing ở Anh, đồng ý với quan điểm của Musk và nhận định rằng nguồn dữ liệu công khai có thể sẽ cạn kiệt hoàn toàn vào năm 2026. Duncan cảnh báo rằng việc lạm dụng dữ liệu tổng hợp có thể dẫn đến hiện tượng "sụp đổ mô hình," khi chất lượng đầu ra của AI ngày càng giảm sút. Ông giải thích: "Khi bạn cung cấp dữ liệu tổng hợp cho một mô hình, nó sẽ gặp phải tình trạng giảm hiệu suất, tạo ra các kết quả kém sáng tạo và dễ bị sai lệch."
Bên cạnh đó, Duncan cũng bày tỏ lo ngại về sự gia tăng nội dung do AI tạo ra trên internet. Những nội dung này có thể được đưa ngược lại vào quá trình đào tạo, dẫn đến một vòng lặp dữ liệu kém chất lượng và khiến AI ngày càng mất phương hướng.
Vấn đề kiểm soát và chất lượng dữ liệu đã trở thành trọng tâm trong cuộc đua AI toàn cầu. OpenAI từng thừa nhận rằng không thể phát triển các công cụ như nếu không sử dụng dữ liệu có bản quyền. Điều này đã dẫn đến nhiều vụ kiện từ các ngành công nghiệp sáng tạo và xuất bản, yêu cầu bồi thường cho việc sử dụng nội dung của họ trong quá trình đào tạo AI.
Những phát biểu của Elon Musk đã làm nổi bật một cuộc khủng hoảng đang âm ỉ trong ngành AI: làm thế nào để duy trì sự phát triển khi nguồn dữ liệu truyền thống không còn đủ? Trong khi việc sử dụng dữ liệu tổng hợp có thể là giải pháp tạm thời, các chuyên gia đồng ý rằng đây không phải là con đường bền vững nếu không có cách kiểm soát chất lượng.
