Trí tuệ nhân tạo của Facebook có thể phân tích các hình ảnh meme, nhưng liệu nó có thể hiểu được chúng không?

Hàng tỷ bài đăng văn bản, hình ảnh và video được tải lên mạng xã hội mỗi ngày, là một nguồn thông tin không thể nào các quản trị viên con người có thể xử lý một cách toàn diện. Vì vậy, các công ty như Facebook và YouTube đã lâu đã dựa vào trí tuệ nhân tạo để giúp phát hiện các nội dung như rác và khiêu dâm.
Nhưng một meme thuộc loại của phong trào siêu cao cấp lại có thể khó khăn hơn để máy móc phát hiện, bởi nhiệm vụ đòi hỏi xử lý đồng thời nhiều yếu tố hình ảnh khác nhau. Hệ thống tự động cần phát hiện và “đọc” những từ được đặt lên trên hình ảnh, cũng như phân tích chính bức hình đó. Meme cũng là những hiện vật văn hóa phức tạp, khó để hiểu nếu thiếu ngữ cảnh. Mặc dù mang lại những thách thức, một số nền tảng xã hội đã sử dụng trí tuệ nhân tạo để phân tích meme, trong đó có Facebook, công ty đã chia sẻ chi tiết về cách họ sử dụng công cụ gọi là Rosetta để phân tích các hình ảnh và video chứa văn bản.
Facebook cho biết họ đã sử dụng Rosetta để giúp phát hiện tự động nội dung vi phạm như chính sách chống kích động. Với sự hỗ trợ từ công cụ này, Facebook cũng thông báo tuần này rằng họ đang mở rộng nỗ lực kiểm chứng thông tin từ bên thứ ba để bao gồm cả hình ảnh và video, không chỉ là các bài viết dựa trên văn bản. Rosetta sẽ hỗ trợ trong quá trình kiểm tra tự động xem các hình ảnh và video chứa văn bản có từng bị đánh dấu là giả mạo hay không.
Rosetta hoạt động bằng cách kết hợp công nghệ nhận diện ký tự quang học (OCR) với các kỹ thuật học máy khác để xử lý văn bản được tìm thấy trong hình ảnh và video. Trước hết, nó sử dụng OCR để xác định vị trí của văn bản trong một meme hoặc video. Bạn có thể đã sử dụng cái gì đó giống như OCR trước đây; đó là điều cho phép bạn quét nhanh một mẫu giấy và biến nó thành một tài liệu có thể chỉnh sửa. Chương trình tự động biết nơi mà các khối văn bản được đặt và có thể phân biệt chúng với nơi mà bạn được yêu cầu ký tên.
Khi Rosetta biết nơi đặt các từ, Facebook sử dụng mạng nơ-ron có thể chuyển văn bản thành chữ viết và hiểu ý nghĩa của nó. Sau đó, nó có thể đưa văn bản đó qua các hệ thống khác, như một hệ thống kiểm tra xem liệu meme có phải về một trò lừa đảo với số người xem đã bị phơi bày.
Các nhà nghiên cứu đứng sau Rosetta cho biết công cụ này hiện giờ có thể trích xuất văn bản từ mọi hình ảnh được tải lên công khai trên Facebook trong thời gian thực, và nó có thể 'đọc' văn bản bằng nhiều ngôn ngữ, bao gồm tiếng Anh, tiếng Tây Ban Nha, tiếng Đức và tiếng Ả Rập. (Facebook cho biết Rosetta không được sử dụng để quét hình ảnh mà người dùng chia sẻ riêng tư trên dòng thời gian hoặc trong tin nhắn trực tiếp của họ.)
Rosetta có thể phân tích hình ảnh chứa văn bản dưới nhiều dạng khác nhau, như hình ảnh của biển báo biểu tình, menu nhà hàng, cửa hàng, và nhiều hơn nữa. Viswanath Sivakumar, một kỹ sư phần mềm tại Facebook làm việc trên Rosetta, nói trong một email rằng công cụ này hoạt động tốt cả để nhận biết văn bản trong cảnh quan, như trên biển báo đường, và cũng cho các meme - nhưng việc này khó hơn. “Trong ngữ cảnh của việc phát hiện chủ động các nội dung phát ngôn kích động và vi phạm chính sách khác, hình ảnh kiểu meme là thách thức trí tuệ nhân tạo phức tạp hơn,” ông viết.
Khác với con người, một trí tuệ nhân tạo thường cần phải xem hàng ngàn ví dụ trước khi nó có thể học được làm thế nào để hoàn thành một nhiệm vụ phức tạp, theo Sivakumar. Nhưng với meme, ngay cả đối với Facebook, chúng không luôn có sẵn vô tận, và việc thu thập đủ ví dụ trong các ngôn ngữ khác nhau cũng có thể gặp khó khăn. Việc tìm dữ liệu đào tạo chất lượng cao là một thách thức liên tục đối với nghiên cứu trí tuệ nhân tạo rộng hơn. Dữ liệu thường cần phải được gán nhãn thủ công một cách công phu, và nhiều cơ sở dữ liệu được bảo vệ bởi luật bản quyền.
Để huấn luyện Rosetta, các nhà nghiên cứu Facebook đã sử dụng các hình ảnh được đăng công khai trên trang web chứa một dạng văn bản nào đó, cùng với phần mô tả và địa điểm từ nơi chúng được đăng. Họ cũng tạo ra một chương trình để tạo ra thêm các ví dụ, lấy cảm hứng từ một phương pháp được phát minh bởi một nhóm nghiên cứu Đại học Oxford vào năm 2016. Điều đó có nghĩa là toàn bộ quá trình được tự động hóa một phần: Một chương trình tự động tạo ra các meme, sau đó một chương trình khác cố gắng phân tích chúng.
Những ngôn ngữ khác nhau đều là thách thức đối với nhóm trí tuệ nhân tạo của Facebook theo cách khác nhau. Ví dụ, các nhà nghiên cứu đã phải tìm cách giải quyết để Rosetta hoạt động với các ngôn ngữ như tiếng Ả Rập, mà được đọc từ phải sang trái, ngược lại với các ngôn ngữ khác như tiếng Anh. Rosetta “đọc” tiếng Ả Rập ngược lại, sau đó sau khi xử lý, Facebook đảo ngược các ký tự. “Mẹo này hoạt động khá tốt, cho phép chúng tôi có một mô hình thống nhất hoạt động cho cả hai loại ngôn ngữ từ trái sang phải và từ phải sang trái,” các nhà nghiên cứu viết trong bài đăng trên blog của họ.
Mặc dù các hệ thống tự động có thể rất hữu ích cho mục đích kiểm duyệt nội dung, nhưng chúng không luôn hoàn hảo. Ví dụ, WeChat - mạng xã hội phổ biến nhất tại Trung Quốc - sử dụng hai thuật toán khác nhau để lọc hình ảnh, nhóm nghiên cứu tại Citizen Lab của Đại học Toronto đã thành công trong việc đánh lừa. Thuật toán đầu tiên, dựa trên OCR, lọc ảnh chứa văn bản về các chủ đề cấm, trong khi thuật toán khác làm kiểm duyệt hình ảnh giống những hình trên danh sách đen có thể được tạo bởi chính phủ Trung Quốc.
Các nhà nghiên cứu dễ dàng né tránh được bộ lọc của WeChat bằng cách thay đổi các thuộc tính của hình ảnh, như màu sắc hoặc cách hình ảnh được định hướng. Trong khi Rosetta của Facebook phức tạp hơn, có lẽ cũng không hoàn hảo; hệ thống có thể bị vướng bởi văn bản khó đọc, hoặc font chữ biến dạng. Tất cả các thuật toán nhận dạng hình ảnh cũng có thể mắc phải ví dụ đối địch, hình ảnh bị thay đổi một cách nhẹ nhàng nhưng vẫn giống như với mắt người nhưng gây ra sự hỗn loạn cho trí tuệ nhân tạo.
Facebook và các nền tảng khác như Twitter, YouTube và Reddit đang chịu áp lực lớn từ nhiều quốc gia để kiểm soát một số loại nội dung. Vào thứ Tư, Liên minh châu Âu đề xuất luật mới yêu cầu các công ty mạng xã hội phải loại bỏ các bài viết liên quan đến khủng bố trong vòng một giờ kể từ thông báo, nếu không sẽ phải đối mặt với mức phạt. Rosetta, cùng các công cụ tự động tương tự, là những công cụ đã giúp Facebook và các nền tảng khác tuân thủ các luật pháp tương tự ở nơi như Đức.
Và họ đang cải thiện công việc của mình: Hai năm trước, CEO Mark Zuckerberg nói rằng hệ thống trí tuệ nhân tạo của Facebook chỉ phát hiện trước khoảng một nửa nội dung mà công ty loại bỏ; người dùng đã phải thông báo phần còn lại trước. Bây giờ, Facebook nói rằng các công cụ trí tuệ nhân tạo của họ phát hiện gần 100% rác mạng mà họ loại bỏ, cũng như 99,5% nội dung liên quan đến khủng bố và 86% nội dung bạo lực đồ họa. Các nền tảng khác, như YouTube, cũng có thành công tương tự bằng cách sử dụng các hệ thống nhận diện nội dung tự động.
Nhưng những con số hứa hẹn đó không có nghĩa là các hệ thống trí tuệ nhân tạo như Rosetta là một giải pháp hoàn hảo, đặc biệt là khi đến các hình thức biểu hiện phức tạp hơn. Khác với một menu nhà hàng, việc phân tích ý nghĩa của một meme có thể khó khăn nếu không biết ngữ cảnh nơi nó được đăng. Đó là lý do tại sao có các trang web hoàn chỉnh dành riêng để giải thích chúng. Meme thường miêu tả những trò đùa nội tại, hoặc rất cụ thể cho một văn hóa phụ trợ trực tuyến nhất định. Và trí tuệ nhân tạo vẫn chưa có khả năng hiểu một meme hoặc video theo cách mà một người làm. Hiện tại, Facebook vẫn cần phải phụ thuộc vào những người kiểm duyệt con người để đưa ra quyết định về việc có nên gỡ bỏ một meme hay không.
Các Bài viết Tuyệt vời Khác từ MYTOUR
- Làm thế nào một chuyên gia domino xây dựng những tác phẩm 15.000 miếng
- Robot siêu thực này sẽ khóc và chảy máu trên sinh viên y khoa
- Bên trong thế giới rối ren của các nhà môi giới điện ở Beirut
- Mẹo để tận dụng tối đa các tính năng mới của Gmail
- Làm thế nào một đoạn mã NotPetya đơn lẻ làm sập thế giới
- Đang tìm kiếm thêm? Đăng ký nhận bản tin hàng ngày của chúng tôi và không bao giờ bỏ lỡ những câu chuyện mới nhất và tuyệt vời nhất của chúng tôi