Một thuật toán mới được ra đời, được gọi là Mô hình Tái tạo Lớn (LRM), có khả năng tạo mô hình 3D từ hình ảnh thực chỉ trong một nháy mắt.
Sử dụng một tập dữ liệu lớn để huấn luyện thuật toán học máy, các nhà nghiên cứu từ Adobe và Đại học Quốc gia Úc đã tạo ra một công nghệ độc đáo có thể làm nên điều kỳ diệu trong việc tạo ra mô hình 3D. Họ đã phát triển Mô hình Tái tạo Lớn (LRM), có khả năng dự đoán hình dạng của mô hình 3D từ một hình ảnh hai chiều duy nhất và có thể thực hiện điều này chỉ trong vòng 5 giây.
Các nhà nghiên cứu đã giải thích trong bài báo của họ rằng các mô hình 3D trước đây thường được huấn luyện trên các bộ dữ liệu nhỏ hơn, chủ yếu tập trung vào một loại hình ảnh duy nhất. Ngược lại, Mô hình LRM của họ có kiến trúc dựa trên máy biến áp, có khả năng mở rộng lớn với 500 triệu tham số có thể học được và đã được huấn luyện trên khoảng 1 triệu đối tượng 3D từ bộ dữ liệu Objaverse và MVImgNet.
Các nhà nghiên cứu đã giải thích rằng, sự kết hợp giữa mô hình dung lượng cao và dữ liệu đào tạo quy mô lớn này mang lại cho thuật toán LRM khả năng tạo ra nội dung 'có độ tổng quát cao'. Báo cáo cũng nêu rõ rằng mô hình này có thể tạo ra các bản tái tạo 3D 'chất lượng cao' từ nhiều hình ảnh thử nghiệm khác nhau, kể cả ảnh thực tế. Hơn nữa, LRM có thể sử dụng cả hình ảnh 'bình thường' và các bản vá hình ảnh được tạo ra bởi các dịch vụ AI như DALL-E và Stable Diffusion làm đầu vào cho mô hình 2D.
Theo tác giả chính của nghiên cứu, Yicong Hong, LRM đánh dấu một bước tiến quan trọng trong việc tái tạo 3D từ một hình ảnh. Thuật toán AI có thể tạo ra hình dạng chi tiết từ video hoặc hình ảnh, bảo toàn các cấu trúc phức tạp như vân gỗ.
Các nhà nghiên cứu cho biết LRM có khả năng 'biến đổi' tiềm năng vì nó có thể được áp dụng trong nhiều ngành công nghiệp khác nhau bao gồm thiết kế, giải trí và trò chơi điện tử. Các nhà thiết kế hoặc nghệ sĩ 3D có thể tối ưu hóa quá trình tạo mô hình 3D, giảm thiểu đáng kể thời gian cần thiết để tạo nội dung cho trò chơi điện tử hoặc hoạt hình. Việc tạo nội dung 3D trong một ngành đang phát triển nhanh chóng đã trở thành một thách thức và các công ty AI đang nỗ lực cung cấp các giải pháp tiềm năng như dịch vụ Stable 3D mà Stability AI gần đây giới thiệu.
LRM cũng có thể đem lại sự dân chủ hóa cho việc tạo mô hình 3D, vì người dùng 'bình thường' có thể tạo ra các mô hình có độ chi tiết cao từ những bức ảnh chụp bằng điện thoại thông minh. Mặc dù LRM vẫn phải đối mặt với những thách thức như cấu trúc mờ trong những phần ẩn của hình ảnh, nhưng nó mở ra một thế giới đầy cơ hội sáng tạo và thương mại.