Một nghiên cứu mới chỉ ra rằng con người chỉ có thể nhận diện được giọng nói được tạo ra bởi trí tuệ nhân tạo trong khoảng 73% thời gian, bao gồm cả tiếng Anh và tiếng Quan thoại.
Nghiên cứu do Kimberly Mai từ Đại học College London và đồng nghiệp tiến hành, họ đã sử dụng thuật toán chuyển văn bản thành giọng nói được đào tạo trên hai bộ dữ liệu công khai.
Trong thí nghiệm, hơn 50 mẫu giọng nói với hai ngôn ngữ đã được sử dụng và người tham gia được yêu cầu phân biệt giọng nói thật và giọng nói được tạo ra bởi trí tuệ nhân tạo.

Tổng cộng có 529 người tham gia vào nghiên cứu, nhiệm vụ của họ là nghe một diễn giả nữ đọc các đoạn văn bản bằng tiếng Anh hoặc tiếng Quan thoại.
Nhóm đầu tiên nghe 20 mẫu giọng nói và phải xác định âm thanh nào là giả và âm thanh nào là thật. Những người tham gia đã chọn đúng Voice Deepfake trong 73% trường hợp.
Nhóm thứ hai nghe 20 cặp âm thanh được trộn lẫn và kết quả là nhóm đã xác định âm thanh do deepfake tạo ra trong 85% trường hợp.
Các giọng nói được tạo ra bởi Voice Deepfake thường đi kèm với các dấu hiệu như giọng nói đều đặn, không tự nhiên. Tuy nhiên, độ chính xác chỉ tăng nhẹ sau khi người tham gia được đào tạo về cách nhận biết các đặc điểm của giọng nói do trí tuệ nhân tạo tạo ra.
'Trong nghiên cứu của chúng tôi, chúng tôi đã cố gắng giúp họ cải thiện khả năng phát hiện Voice Deepfake. Và thử nghiệm này cũng cho thấy rằng, các công cụ phát hiện tự động hiện nay vẫn chưa đáng tin cậy'. Tiến sĩ Mai nói.

Có nhiều trường hợp lừa đảo sử dụng deepfakes từ hình ảnh đến âm thanh rất tinh vi. Gần đây đã xuất hiện hàng loạt vụ lừa đảo khi sử dụng giọng nói AI để gọi cho người thân, gia đình, bạn bè của nạn nhân để yêu cầu chuyển tiền hoặc dữ liệu nhạy cảm. Cũng có mối lo ngại về việc một số hệ thống bảo mật sử dụng nhận dạng giọng nói.
Mai cũng nói rằng các thuật toán được sử dụng để tạo ra các deepfakes trong nghiên cứu hiện tại tương đối cũ, vì vậy những thuật toán được phát triển bằng các công nghệ mới hơn và trong tương lai sẽ nghe giống như thật hơn và ít có dấu hiệu kỳ lạ khiến chúng ta khó phát hiện.
Vào tháng 1, các nhà nghiên cứu của Microsoft đã công bố một AI mới có thể mô phỏng chính xác giọng nói của con người từ một mẫu âm thanh chỉ dài 3 giây.
