Những mô hình video AI đang khiến Hollywood không khỏi lo ngại khi có thể tạo ra hình ảnh sống động đến mức ranh giới giữa thật và giả trở nên mờ nhạt. Thế nhưng, một phép thử rất đơn giản lại làm lộ ra điểm yếu đầy bất ngờ: phần lớn các hệ thống này vẫn không thể đếm chính xác từ 1 đến 10.
Trong vài tháng gần đây, sự bùng nổ của các mô hình video AI đã thu hút sự chú ý mạnh mẽ từ ngành công nghiệp điện ảnh toàn cầu. Các hệ thống như Seedance 2.0, Sora hay Veo có khả năng tạo ra những đoạn video với độ chân thực đáng kinh ngạc. Nhân vật xuất hiện với làn da hiện rõ từng lỗ chân lông, ánh sáng phản chiếu trên bề mặt vật thể giống hệt cảnh quay từ máy quay chuyên nghiệp, còn bối cảnh xung quanh được tái hiện chi tiết đến mức nhiều người khó nhận ra đó không phải là cảnh quay ngoài đời.
Chính vì thế, sự xuất hiện của những công nghệ này đã khiến Hollywood phản ứng khá quyết liệt. Một số hãng phim lớn cảnh báo rằng chúng có thể làm thay đổi toàn bộ cấu trúc của ngành công nghiệp sáng tạo. Thậm chí, theo nhiều nguồn tin, Disney đã gửi thư pháp lý tới ByteDance sau khi các công nghệ tạo video mới này xuất hiện.
Tuy vậy, trong khi các mô hình AI gây ấn tượng mạnh về mặt hình ảnh, một thử nghiệm tưởng như rất cơ bản lại làm lộ ra một giới hạn đáng chú ý. Một lập trình viên trên mạng xã hội X với tài khoản fofr đã đưa ra một bài kiểm tra đơn giản: yêu cầu AI tạo video về một người đàn ông vừa đếm từ 1 đến 10 vừa giơ số ngón tay tương ứng.
Kết quả khiến không ít người bất ngờ. Đoạn video tạo ra có nhân vật với khuôn mặt hài hòa, biểu cảm tự nhiên và khung cảnh nhà bếp rất chân thực. Khi nhân vật nói “one”, mọi thứ vẫn diễn ra bình thường. Nhưng ngay sau đó, hệ thống bắt đầu gặp trục trặc. Nhân vật có thể lặp lại những âm thanh vô nghĩa, hoặc nói “ten” trong khi chỉ giơ ba ngón tay. Suốt cả đoạn video, số ngón tay được giơ lên thường không vượt quá ba.
Điều đáng chú ý là chính những lỗi này lại tạo nên cảm giác kỳ lạ, bởi phần còn lại của video trông quá giống thật. Sự đối lập giữa hình ảnh cực kỳ chân thực và hành động phi logic đã tạo ra cảm giác mà nhiều người gọi là “hiệu ứng người giả”.
Sau khi thử nghiệm này lan truyền trên mạng, cộng đồng trực tuyến nhanh chóng biến nó thành một thử thách phổ biến. Nhiều người đã nhập cùng yêu cầu vào các mô hình khác như Sora của OpenAI, Veo của Google hay Kling của Trung Quốc. Kết quả thu được gần như tương tự: chưa có hệ thống nào thực hiện trọn vẹn việc đếm từ 1 đến 10 một cách hoàn hảo.
Theo nhận định của các chuyên gia, hiện tượng này không đơn thuần là một lỗi kỹ thuật riêng lẻ mà phản ánh giới hạn cốt lõi trong cách các mô hình AI hiện nay được xây dựng. Phần lớn hệ thống tạo video hoạt động bằng cách học các quy luật thống kê từ kho dữ liệu khổng lồ, rồi dự đoán cách sắp xếp các pixel có khả năng xuất hiện tiếp theo trong từng khung hình.
Cơ chế này khá giống với cách các mô hình ngôn ngữ lớn dự đoán từ kế tiếp trong một câu. Nhờ vậy, AI có thể tái hiện những chi tiết hình ảnh cực kỳ tinh vi, bởi dữ liệu huấn luyện của chúng bao gồm hàng triệu ví dụ về khuôn mặt, trang phục, ánh sáng và bối cảnh.
Tuy nhiên, khi nhiệm vụ đòi hỏi khả năng suy luận logic hoặc hiểu biết về kiến thức thường thức, những mô hình này bắt đầu bộc lộ điểm yếu. Một ví dụ tiêu biểu là việc xử lý hình ảnh bàn tay con người. Bàn tay có cấu trúc phức tạp với rất nhiều khớp và cơ, khiến việc tái hiện chính xác chuyển động trở nên đặc biệt khó khăn.

Thêm vào đó, dữ liệu huấn luyện liên quan đến bàn tay thường kém rõ ràng hơn so với khuôn mặt. Trong nhiều đoạn video, bàn tay chỉ xuất hiện ở rìa khung hình, bị che khuất hoặc mờ đi do chuyển động, khiến mô hình tiếp thu được ít thông tin chính xác hơn.
Một trở ngại khác nằm ở việc tái tạo các quy luật vật lý. Nhiều hệ thống AI hiện nay vẫn lúng túng khi mô phỏng những hiện tượng như nước chảy, vật thể va chạm hay kính vỡ. Báo cáo kỹ thuật khi OpenAI giới thiệu Sora cũng thừa nhận rằng mô hình này chưa thể tái hiện chính xác nhiều tương tác vật lý cơ bản.
Bên cạnh đó, video còn yêu cầu sự nhất quán theo dòng thời gian. Mỗi khung hình cần liên kết logic với khung hình trước. Tuy nhiên, các mô hình khuếch tán hiện nay lại xử lý thời gian như một chiều toán học trừu tượng, vì vậy chúng không thực sự “ghi nhớ” những gì đã diễn ra ở các khung hình trước đó.
Vì thế, trong một đoạn video chỉ kéo dài vài giây, AI có thể quên mất trước đó nhân vật đã giơ bao nhiêu ngón tay và tiếp tục tạo ra những hành động thiếu nhất quán.

Đối mặt với những giới hạn này, nhiều nhà nghiên cứu đang tìm kiếm hướng tiếp cận mới. Một trong những ý tưởng nhận được nhiều sự chú ý là xây dựng cái gọi là “mô hình thế giới”. Theo đó, thay vì chỉ học từ hình ảnh, AI sẽ được thiết kế để hiểu không gian ba chiều và các quy luật vật lý vận hành trong thế giới thực.
Một trong những người đi đầu trong hướng nghiên cứu này là nhà khoa học Fei-Fei Li, người sáng lập bộ dữ liệu ImageNet nổi tiếng. Năm 2024, bà đã thành lập công ty World Labs với mục tiêu phát triển trí tuệ không gian dành cho AI.
Theo quan điểm của bà, để AI thực sự có thể hiểu thế giới, hệ thống cần nắm được những quy luật vật lý cơ bản như trọng lực, chuyển động hay cấu trúc của vật chất. Đây là những yếu tố vượt xa khả năng của các mô hình chỉ dựa vào dữ liệu hình ảnh.
Gần đây, World Labs đã huy động khoảng 1 tỷ USD vốn đầu tư và đang phát triển công nghệ cho phép tạo ra môi trường 3D từ hình ảnh hoặc văn bản. Bên cạnh đó, nhiều tổ chức công nghệ lớn khác cũng đang theo đuổi hướng đi tương tự, bao gồm Google DeepMind và Nvidia.
Sự xuất hiện của những dự án này cho thấy một thực tế quan trọng: con đường phát triển AI chỉ dựa vào dữ liệu có thể đang dần chạm tới giới hạn. Để tiến xa hơn, giới nghiên cứu có lẽ sẽ cần một bước đột phá về kiến trúc và cách tiếp cận.
Trong bối cảnh đó, thử thách “đếm từ 1 đến 10” lại trở thành một phép kiểm tra thú vị. Nó nhắc nhở rằng dù các mô hình AI ngày nay có thể tạo ra hình ảnh chân thực đến đâu, việc thực sự hiểu thế giới vẫn là một bài toán khó khăn hơn rất nhiều.
Và ít nhất vào thời điểm này, việc đếm từ một đến mười vẫn là một kỹ năng mà con người thực hiện trôi chảy hơn máy móc.
