TPO - Microsoft đã phát triển một công cụ tạo giọng nói bằng trí tuệ nhân tạo (AI) rất thuyết phục chỉ sau vài giây
VALL-E 2 là một chương trình tạo văn bản thành giọng nói (TTS) có thể tái tạo giọng nói của người nói chỉ sau vài giây. (Ảnh: Varunyu)
Các nhà nghiên cứu của Microsoft cho biết, VALL-E 2 có khả năng tạo ra giọng nói chính xác, tự nhiên, đủ sức thuyết phục để dễ bị nhầm lẫn với giọng nói thật của con người.
Chất lượng tuyệt vời
Công cụ AI có khả năng thực hiện điều này nhờ hai tính năng chính: 'Lấy mẫu nhận thức lặp lại' và 'Mô hình mã hóa nhóm'.
Repetition Aware Sampling cải thiện quá trình chuyển đổi văn bản thành giọng nói bằng cách xử lý các lần lặp lại của 'token' - các đơn vị ngôn ngữ nhỏ, như từ hoặc các phần của từ - ngăn chặn các chuỗi lặp vô hạn âm thanh hoặc cụm từ trong quá trình giải mã. Nói cách khác, tính năng này giúp cải thiện mẫu giọng nói của VALL-E 2, khiến giọng nói trở nên trôi chảy và tự nhiên hơn.
Mô hình mã nhóm đã cải thiện hiệu quả bằng cách giảm độ dài chuỗi - hoặc số lượng mã thông báo riêng lẻ mà mô hình xử lý trong một chuỗi đầu vào duy nhất. Điều này giúp tăng tốc độ VALL-E 2 trong việc tạo ra giọng nói và giải quyết các thách thức trong xử lý chuỗi âm thanh dài.
Các thử nghiệm trên các tập dữ liệu LibriSpeech và VCTK đã chỉ ra rằng VALL-E 2 vượt trội hơn các hệ thống TTS zero-shot trước đây về sự mạnh mẽ của giọng nói, tính tự nhiên và độ tương đồng với người nói. Đây là hệ thống đầu tiên đạt được sự ngang bằng với con người về các tiêu chuẩn này.
Các nhà nghiên cứu đã ghi nhận rằng chất lượng đầu ra của VALL-E 2 phụ thuộc vào độ dài và chất lượng của lời nói, cũng như các yếu tố môi trường như tiếng ồn xung quanh.
Tuy vậy, Microsoft cho biết đây là một dự án nghiên cứu hoàn toàn và không có kế hoạch phát hành VALL-E 2 cho công chúng do nguy cơ sử dụng sai mục đích tiềm ẩn. Điều này phù hợp với mối lo ngại ngày càng gia tăng về công nghệ sao chép giọng nói Deepfake. Các công ty AI khác như OpenAI cũng đã đặt ra các hạn chế tương tự để ngăn chặn việc giả mạo nhận dạng giọng nói hoặc mạo danh.
Tuy nhiên, các nhà nghiên cứu đã chỉ ra rằng công nghệ giọng nói AI có thể có những ứng dụng thực tế trong tương lai. VALL-E 2 có thể tổng hợp giọng nói với sự duy trì danh tính của người nói và có thể được áp dụng trong giáo dục, giải trí, báo chí, nội dung tự biên soạn, tính năng hỗ trợ, hệ thống phản hồi bằng giọng nói tương tác, dịch thuật, chatbot...