Viettel và NVIDIA đã công bố bộ dữ liệu Tiếng Việt chất lượng cao và quy mô lớn, phục vụ cho việc huấn luyện các trợ lý AI thông minh.
Chính phủ Việt Nam cùng NVIDIA đã ký kết thành lập Trung tâm Nghiên cứu và Phát triển AI của NVIDIA, đồng thời xây dựng Trung tâm Dữ liệu AI của Viettel. Đặc biệt, bộ dữ liệu tiếng Việt phục vụ huấn luyện AI cũng được công bố.
Mục tiêu của việc hợp tác giữa hai tập đoàn là cung cấp bộ dữ liệu Tiếng Việt giúp cộng đồng nghiên cứu phát triển các mô hình AI phù hợp với văn hóa và ngữ cảnh sử dụng Tiếng Việt.
Đại diện Viettel Solutions cho biết, bộ dữ liệu này đã được công bố trên nền tảng chia sẻ công nghệ của NVIDIA và sẽ miễn phí cho cộng đồng nghiên cứu AI tại Việt Nam.

Viettel Solutions và các kỹ sư của NVIDIA tiết lộ rằng bộ dữ liệu Tiếng Việt đã được xử lý qua NeMo Curator để giảm kích thước mà vẫn giữ nguyên chất lượng. Đây là bộ dữ liệu Tiếng Việt chất lượng cao đầu tiên được công bố cho cộng đồng nghiên cứu AI tại Việt Nam.
Với sự hỗ trợ từ NeMo Framework và hạ tầng GPU mạnh mẽ của NVIDIA, các kỹ sư Viettel đã thu thập và xử lý dữ liệu từ nhiều nguồn khác nhau, đảm bảo bộ dữ liệu đạt chất lượng cao và tối ưu hóa thời gian huấn luyện AI.
Các kỹ thuật tối ưu hóa như loại bỏ dữ liệu trùng lặp, xử lý song song bằng GPU và ứng dụng NeMo Curator đã giúp giảm thời gian huấn luyện mô hình từ 80 ngày xuống còn 20 ngày, nhanh hơn gấp 4 lần so với trước đây.
Viettel Solutions cho biết bộ dữ liệu tiếng Việt chỉ là bước đầu trong quá trình hợp tác lâu dài với NVIDIA. Hai bên cam kết tiếp tục mở rộng hợp tác, phát triển bộ dữ liệu đa dạng hơn, nâng cao độ chính xác và nghiên cứu các lĩnh vực ứng dụng AI chuyên sâu như y tế, giáo dục, thương mại và hành chính công.
Mục tiêu tiếp theo của dự án là áp dụng công nghệ song song hóa và tối ưu hóa phần cứng mới nhất của NVIDIA để xử lý các bộ dữ liệu lớn, giảm chi phí phần cứng và tiết kiệm năng lượng, hỗ trợ sự phát triển mạnh mẽ của nghiên cứu AI tại Việt Nam.
Kết quả hợp tác đầu tiên giữa Viettel Solutions và NVIDIA trong lĩnh vực dữ liệu đã tạo ra cơ hội mới cho cộng đồng nghiên cứu AI trong nước. Bộ dữ liệu Tiếng Việt chất lượng cao này sẽ thúc đẩy sáng tạo các sản phẩm AI tiên tiến, bản địa hóa cao và giúp nâng cao năng lực nghiên cứu AI tại Việt Nam, góp phần vào quá trình chuyển đổi số.
