Ứng dụng tiện ích giúp các fan của video có thể xem YouTube cổ điển mà vẫn nhai Snack Khoai Tây yêu thích của họ.
YouTube ngày càng được ưa chuộng khi mọi người trở thành người xem video, mỗi gia đình mở YouTube, đặc biệt là từ thời điểm 'cô Vy ghé thăm', không ai muốn rời khỏi nhà. Tự nhiên, khi xem video trên YouTube, không thể thiếu những gói Snack Khoai Tây thơm ngon, vị đồng hành trọn vẹn. Tuy nhiên, tiếng Snack Khoai Tây giòn rụm khiến bạn không nghe rõ lời thoại từ video, thỉnh thoảng gây ra khó chịu. Do đó, Lay's đã giới thiệu đến những người nghiện phim, say mê tiếng giòn ngọt của Snack Khoai Tây, ứng dụng Lay's Crispy Subtitles – plugin đầu tiên biến tiếng giòn tan thành phụ đề!
Đây là kết quả của sự hợp tác giữa Lay's, Happiness Saigon và BLISS. Họ đã phát triển 'Lay's Crispy Subtitles' bằng cách sử dụng thuật toán máy học chạy trực tiếp trên plugin của trình duyệt. Bài viết này sẽ giúp bạn hiểu cách plugin hoạt động.
Thu thập dữ liệu

Để dạy máy học nhận diện âm thanh giòn, một bộ sưu tập gồm 17.512 mẫu âm thanh 'giòn rụm' khác nhau đã được thử nghiệm. Điều này cũng đồng nghĩa rất nhiều gói Snack Khoai Tây đã được 'tiêu thụ' trong quá trình phát triển plugin.
Tiền xử lý

Hiện tại, các âm thanh đã được chuẩn bị sẵn cho việc xử lý. Để đảm bảo plugin chạy trơn tru trên trình duyệt sử dụng Tensorflow JS, các mẫu sử dụng phải tuân thủ các điều kiện và quy trình nghiêm ngặt:
● Âm thanh đơn âm 22.050 KHz, có thể thay đổi nếu cần.
● Sử dụng librosa trong Python để trích xuất các mẫu âm thanh để xác thực hoặc loại bỏ.
● Tiếp theo, áp dụng hệ tần số Mel để chuyển đổi dữ liệu thô thành thông tin nhận thức và giảm kích thước dữ liệu. Cuối cùng, sử dụng Meyda để trích xuất dữ liệu.
Sau những bước trên, Lay's Crispy Subtitles đã có được thông tin phổ âm thanh như sau:

Đây là dữ liệu đầu vào của mô hình, sau đó được sử dụng để đánh giá xem liệu một mẫu âm thanh trong 232 mili giây có phải là tiếng 'giòn rụm' hay không.
Hình thành mô hình
Sau đó, sử dụng Keras và Tensorflow để tạo ra mô hình máy học để phân loại âm thanh. Trước hết, tập dữ liệu được phân loại thành nhãn tích cực và tiêu cực, tạo thành tập dữ liệu thử nghiệm và đào tạo bằng sklearn.
Sau nhiều thử nghiệm, mô hình phân loại bao gồm 2 lớp Conv2D Maxpooling2D, một lớp Dense (128) với kích hoạt relu và một lớp Dense (2) với kích hoạt softmax đã được chọn. Các âm thanh bị loại được thêm vào giữa mỗi lớp để tránh quá khớp.
Huấn luyện

Cross entropy được sử dụng để tính toán tổn thất phân loại và trình tối ưu hóa Adam được áp dụng để đào tạo mô hình với kích thước lô là 64 trong 75 epochs. Cuối cùng, mô hình có độ sai số là 0,0831 và độ chính xác là 0,986.
Cài đặt plugin và tích hợp mô hình
Quá trình này được thực hiện trong môi trường Python. Sau đó, chúng được chuyển đổi bằng Tensorflow JS và kết quả cuối cùng chỉ có kích thước dưới 5MB và được tích hợp vào plugin. Khi plugin được kích hoạt, phụ đề sẽ xuất hiện. Trong trường hợp video có phụ đề nhưng bị tắt, máy học cũng sẽ nhận diện và tự động bật phụ đề sau 10 giây.
Đây thực sự là một 'cỗ máy cứu tinh' từ Lay's dành cho những người yêu thích xem video trên YouTube và thích nhai Snack Khoai Tây trong khi xem.
Bây giờ hãy trải nghiệm sức mạnh của Lay's Crispy Subtitles bằng cách tải miễn phí từ Chrome Webstore tại http://bit.ly/LaysCrispySubtitles, cài đặt plugin vào trình duyệt của bạn, mở YouTube và thưởng thức video đã đời cùng với việc nhai Snack Khoai Tây Lay's thơm ngon.
