Samsung đã tiết lộ quá trình nghiên cứu và phát triển tính năng Audio Eraser – một tính năng mới trên dòng Galaxy S25, giúp loại bỏ tiếng ồn và nâng cao âm thanh mong muốn trong các video.
Hãy tưởng tượng bạn đang quay một buổi biểu diễn ngoài phố, nhưng tiếng còi xe lại lấn át âm nhạc — hoặc bạn quay vlog trong quán cà phê, nhưng tiếng ồn khiến cuộc trò chuyện gần như không thể nghe được.
Audio Eraser, có mặt trên dòng Galaxy S25, được thiết kế để giải quyết những tình huống này bằng cách giảm tiếng ồn nền không mong muốn và tăng cường âm thanh cần làm nổi bật, mang đến cho người dùng khả năng tạo ra những video sống động hơn. Các tính năng Galaxy AI như Audio Eraser được phát triển dựa trên sự hiểu biết sâu sắc về nhu cầu người dùng.
Trang Samsung Newsroom đã có một buổi trò chuyện với các chuyên gia công nghệ âm thanh từ Đội giải pháp AI tại Samsung Research để khám phá chi tiết quá trình phát triển tính năng đột phá này.

(Từ trái sang) Kyoungbo Min, Hejung Yang, Hosang Sung và Jiwon Kim từ Nhóm giải pháp AI tại Samsung Research
Audio Eraser cho phép người dùng điều chỉnh âm thanh trong video bằng cách loại bỏ tiếng ồn không mong muốn và làm nổi bật âm thanh cần thiết. Tính năng này có thể tự động quét video để nhận diện và phân loại các âm thanh, và có thể áp dụng không chỉ với video người dùng quay mà còn với video nhận được từ người khác.
Giống như cách Object Eraser đã nâng cao khả năng chỉnh sửa hình ảnh khi ra mắt trên Galaxy S21, Audio Eraser được phát triển để mang lại một trải nghiệm đa phương tiện hoàn chỉnh và mượt mà hơn, kết nối giữa hình ảnh và âm thanh.

Audio Eraser cho phép người dùng tùy chỉnh từng loại âm thanh trong video một cách chi tiết.
Phát triển mô hình nhận diện và tách biệt nguồn âm thanh
Audio Eraser có khả năng nhận diện sáu loại âm thanh khác nhau: giọng nói, nhạc, tiếng gió, âm thanh thiên nhiên, tiếng ồn đám đông và tiếng ồn môi trường. Nhờ công nghệ nhận diện nguồn âm, tính năng này có thể xác định nhanh chóng âm thanh nào xuất hiện và ở đâu trong video. Sau đó, công nghệ tách nguồn âm sẽ phân chia và phân loại từng loại âm thanh vào các nhóm riêng biệt.
Để xây dựng một mô hình AI đủ mạnh để nhận diện và phân tách các loại âm thanh này, nhóm nghiên cứu đã thu thập một bộ dữ liệu huấn luyện lớn và đa dạng. Họ đã mô phỏng nhiều tình huống thực tế khi ghi hình để tạo ra tập dữ liệu phong phú — thậm chí còn ra ngoài trời để ghi âm những âm thanh đời thường trực tiếp.

Các nhà nghiên cứu tại Samsung đang nỗ lực phát triển công nghệ âm thanh cho Audio Eraser.
"Gió là một thử thách lớn," Hejung Yang, thành viên nhóm giải pháp AI tại Samsung Research chia sẻ. "Ngoài việc cải thiện công nghệ mô phỏng tiếng gió, chúng tôi còn tăng cường dữ liệu bằng cách ghi âm tiếng gió thật mỗi khi có gió mạnh — thậm chí là sau giờ làm việc hoặc vào cuối tuần."
Ngoài ra, nhóm nghiên cứu cũng đã dành nhiều thời gian để nâng cao hiệu suất của mô hình tách nguồn âm qua việc kiểm tra thủ công hàng loạt video.
"Mỗi nhà phát triển đều phải so sánh và phân tích hơn 1.000 mẫu âm thanh mỗi tuần trong nhiều điều kiện khác nhau," Jiwon Kim chia sẻ. "Thông qua các thử nghiệm liên tục, chúng tôi đã tìm ra mô hình tối ưu để đảm bảo kết quả ổn định và chất lượng cao."
Đem lại trải nghiệm âm thanh tập trung vào người dùng
Vì Audio Eraser hoạt động trực tiếp trên thiết bị, tính năng này mang đến trải nghiệm người dùng vượt trội với khả năng chỉnh sửa thời gian thực và bảo mật được nâng cao. Kinh nghiệm lâu dài của Samsung trong việc phát triển AI trên thiết bị chính là yếu tố then chốt góp phần vào thành công của Audio Eraser.
"Chúng tôi tập trung phát triển các mô hình AI và thuật toán có thể xử lý nhanh trên thiết bị," Hosang Sung chia sẻ. "Rất nhiều nỗ lực đã được đầu tư để tạo ra giải pháp AI tối ưu, vận hành mượt mà và tiêu thụ ít điện năng."

Hợp tác cùng đội ngũ phát triển sản phẩm
Việc chuyển đổi các nghiên cứu tiên tiến thành giải pháp thực tế cho người tiêu dùng cũng mang đến nhiều thử thách mới. Ví dụ, khi chỉnh sửa đồng thời cả video và âm thanh, tính năng phát lại phải mượt mà, không gián đoạn. Hơn nữa, xử lý video dài hơn một giờ cũng đòi hỏi công nghệ chuyên biệt để hoàn thành trong thời gian tương đương.
"Chúng tôi đã phát triển nhiều thuật toán trước đó để có thể thích ứng với các điều kiện phần cứng khác nhau," Kyoungbo Min chia sẻ. "Thông qua các mô phỏng quy mô lớn, chúng tôi đã chuẩn bị một giải pháp có thể triển khai nhanh chóng trên mọi chipset hoặc thiết bị. Quá trình phát triển trải qua nhiều vòng điều chỉnh và cải tiến, nhưng nhờ sự hợp tác chặt chẽ giữa đội ngũ nghiên cứu và phát triển sản phẩm, thời gian thương mại hóa đã được rút ngắn."
Tách nguồn âm là một lĩnh vực quan trọng trong công nghệ âm thanh thế hệ mới, và Samsung đang tiếp tục thúc đẩy các đổi mới nền tảng trong lĩnh vực này.
