Trong tuần vừa qua, Meta đã chính thức giới thiệu EnCodec - một thuật toán nén âm thanh mới sử dụng trí tuệ nhân tạo, với khả năng nén gấp 10 lần so với định dạng MP3. EnCodec không chỉ có thể nén âm thanh ở chất lượng 64kbps mà còn duy trì chất lượng ban đầu, giúp cải thiện truyền tải trong các điều kiện có băng thông thấp, như trong cuộc gọi điện thoại hoặc kết nối mạng yếu. Công nghệ này cũng có thể áp dụng để nén các file nhạc.Thuật toán EnCodec đã được Meta giới thiệu chính thức vào ngày 25/10 trong dự án nghiên cứu về nén âm thanh chất lượng cao mang tên 'High Fidelity Neural Audio Compression' của đội ngũ nghiên cứu AI của Meta, gồm có Alexandre Défossez, Jade Copet, Gabriel Synnaeve và Yossi Adi. Meta cũng đã đăng một bài blog để chia sẻ thêm thông tin chi tiết về EnCodec.
Meta thông báo rằng EnCodec đặc biệt là một hệ thống trí tuệ nhân tạo với ba bước quan trọng: encoder (mã hóa), quantizer (nén), và decoder (giải mã), được đào tạo để nén âm thanh về kích thước cố định. Các bước bao gồm:
Thuật toán này sử dụng mạng lưới thần kinh nhân tạo để nén và giải nén âm thanh, đặc biệt là âm thanh stereo 48kHz (cao hơn chút so với chất lượng CD là 44.1 kHz) - chất lượng phổ biến trên các dịch vụ stream nhạc hiện nay. Mặc dù ý tưởng áp dụng mạng lưới thần kinh nhân tạo không mới, nhóm nghiên cứu của Meta tự hào là những người đầu tiên áp dụng công nghệ này cho lĩnh vực âm thanh.Ứng dụng thực tế của thuật toán 'siêu nén âm thanh' của Meta, sử dụng trí tuệ nhân tạo, hứa hẹn cải thiện chất lượng cuộc gọi ở những khu vực sóng yếu, tạo ra trải nghiệm trơn tru hơn cho người dùng. Ngoài ra, Meta cho biết EnCoder sẽ sớm áp dụng vào Metaverse, nâng cao trải nghiệm đa phương tiện mà không tốn quá nhiều băng thông.EnCoder hiện đang ở giai đoạn nghiên cứu và phát triển.Nguồn thông tin từ arstechnica