
Ba phần tiếng Bosnia. Mười ba phần tiếng Kurd. Năm mươi lăm phần tiếng Swahili. Mười một nghìn phần tiếng Anh.
Trong nhiều năm, các công ty mạng xã hội đã tập trung nỗ lực tự động phát hiện và loại bỏ nội dung hơn vào nội dung bằng tiếng Anh hơn là các ngôn ngữ khác trong 7,000 ngôn ngữ trên thế giới. Facebook đã để lại gần 70% thông tin sai lệch về Covid bằng tiếng Italy và Tây Ban Nha không được đánh dấu, so với chỉ 29% thông tin sai lệch tương tự bằng tiếng Anh. Các tài liệu rò rỉ cho thấy rằng các bài đăng bằng tiếng Ả Rập thường bị đánh dấu nhầm là nội dung gây thù ghét. Việc kiểm duyệt nội dung bằng ngôn ngữ địa phương kém chất lượng đã góp phần vào việc vi phạm nhân quyền, bao gồm thảm họa diệt chủng tại Myanmar, bạo lực sắc tộc tại Ethiopia và thông tin sai lệch về bầu cử tại Brazil. Ở quy mô lớn, quyết định để lưu trữ, giảm bớt hoặc loại bỏ nội dung trực tiếp ảnh hưởng đến quyền cơ bản của con người, đặc biệt là những người bị cách biệt với ít lựa chọn khác để tổ chức hoặc nói tự do.

Vấn đề một phần nằm ở chính sách chính trị, nhưng cũng là một thách thức kỹ thuật. Xây dựng hệ thống có thể phát hiện rác thải, nội dung gây thù ghét và các nội dung không mong muốn khác trong tất cả các ngôn ngữ trên thế giới đã khó khăn. Làm cho việc này trở nên khó khăn hơn là nhiều ngôn ngữ là "tài nguyên thấp," có nghĩa là có ít dữ liệu văn bản số hóa để huấn luyện các hệ thống tự động. Một số ngôn ngữ tài nguyên thấp này có ít người nói và người dùng internet, nhưng những ngôn ngữ khác như Hindi và Indonesia được nói bởi hàng trăm triệu người, nhân lên những tổn thất do các hệ thống sai lầm tạo ra. Ngay cả khi các công ty sẵn lòng đầu tư xây dựng các thuật toán riêng cho mọi loại nội dung có hại trong mọi ngôn ngữ, họ có thể không có đủ dữ liệu để làm cho những hệ thống đó hoạt động hiệu quả.
Một công nghệ mới được gọi là “các mô hình ngôn ngữ lớn đa ngôn ngữ” đã thay đổi cách các công ty mạng xã hội tiếp cận việc kiểm duyệt nội dung. Các mô hình ngôn ngữ đa ngôn ngữ—như chúng tôi mô tả trong một bài báo mới—tương tự như GPT-4 và các mô hình ngôn ngữ lớn khác (LLMs), trừ việc chúng học được các quy tắc ngôn ngữ tổng quát hơn bằng cách huấn luyện trên văn bản trong hàng chục hoặc hàng trăm ngôn ngữ khác nhau. Chúng được thiết kế đặc biệt để tạo ra mối liên kết giữa các ngôn ngữ, cho phép chúng suy luận từ những ngôn ngữ mà chúng có nhiều dữ liệu huấn luyện, như tiếng Anh, để xử lý tốt hơn những ngôn ngữ mà chúng có ít dữ liệu huấn luyện, như tiếng Bosnia.
Những mô hình này đã chứng minh được khả năng đơn giản về cú pháp và cú pháp trong một loạt ngôn ngữ khác nhau, như phân tích ngữ pháp và phân tích tâm trạng, nhưng không rõ ràng về khả năng của chúng trong nhiệm vụ cụ thể hơn về kiểm duyệt nội dung, đặc biệt là trong những ngôn ngữ mà chúng chỉ được huấn luyện một cách rất ít. Và ngoài những bài viết tự mãn đôi khi, các công ty mạng xã hội đã tiết lộ ít về cách hoạt động thực tế của hệ thống của họ.
Tại sao các mô hình đa ngôn ngữ có thể ít có khả năng nhận diện nội dung có hại hơn so với những gì các công ty mạng xã hội khẳng định?
Một lý do là chất lượng của dữ liệu mà chúng được huấn luyện, đặc biệt là trong những ngôn ngữ có nguồn tài nguyên thấp. Trong các bộ dữ liệu văn bản lớn thường được sử dụng để huấn luyện các mô hình đa ngôn ngữ, những ngôn ngữ ít được đại diện nhất thường chứa văn bản gây xúc phạm, khiêu dâm, dịch máy kém chất lượng hoặc chỉ là vô nghĩa. Các nhà phát triển đôi khi cố gắng bù đắp cho dữ liệu kém chất lượng bằng cách điền khoảng trống bằng văn bản dịch máy, nhưng một lần nữa, điều này có nghĩa là mô hình vẫn gặp khó khăn trong việc hiểu ngôn ngữ theo cách mà con người thực sự nói. Ví dụ, nếu một mô hình ngôn ngữ chỉ được huấn luyện trên văn bản dịch máy từ tiếng Anh sang Cebuano, một ngôn ngữ được nói bởi 20 triệu người tại Philippines, mô hình có thể không nhận diện được thuật ngữ “kuan,” một cách diễn đạt của người bản xứ mà không có bất kỳ thuật ngữ tương đương nào trong các ngôn ngữ khác.
Một thách thức khác đối với các mô hình đa ngôn ngữ đến từ sự chênh lệch trong lượng dữ liệu mà chúng được huấn luyện cho mỗi ngôn ngữ. Khi phân tích nội dung trong những ngôn ngữ mà chúng có ít dữ liệu huấn luyện, các mô hình dựa vào các quy tắc mà chúng suy luận được về những ngôn ngữ mà chúng có nhiều dữ liệu hơn. Điều này làm hạn chế khả năng của chúng hiểu sâu sắc và ngữ cảnh đặc biệt của các ngôn ngữ có tài nguyên thấp và nhập những giá trị và giả định được mã hóa bằng tiếng Anh. Một trong những mô hình đa ngôn ngữ của Meta, ví dụ, đã được huấn luyện bằng gần 1.000 lần nhiều hơn văn bản tiếng Anh so với văn bản tiếng Burmese, Amharic, hoặc Punjabi. Nếu sự hiểu biết của nó về những ngôn ngữ đó được lăn qua thấu kính của tiếng Anh, điều đó chắc chắn sẽ ảnh hưởng đến khả năng phát hiện nội dung có hại liên quan đến các sự kiện hiện tại diễn ra trong những ngôn ngữ đó, như cuộc khủng hoảng của người Rohingya, chiến tranh Tigray, và cuộc biểu tình của người nông dân Ấn Độ.
Cuối cùng, ngay cả khi một mô hình ngôn ngữ đa ngôn ngữ được huấn luyện với số lượng dữ liệu chất lượng cao bằng nhau trong mỗi ngôn ngữ, nó vẫn đối mặt với điều mà các nhà khoa học máy tính gọi là “lời nguyền của đa ngôn ngữ”—tức là, các ngôn ngữ can thiệp vào nhau trong kết quả cuối cùng của một mô hình. Các ngôn ngữ khác nhau cạnh tranh với nhau để chiếm không gian trong bản đồ ngôn ngữ nội tại của một mô hình ngôn ngữ đa ngôn ngữ. Kết quả là, việc huấn luyện một mô hình đa ngôn ngữ với nhiều dữ liệu tiếng Hindi có thể làm tổn thương hiệu suất của nó trong các nhiệm vụ ở các ngôn ngữ có nguồn gốc từ vựng khác nhau như tiếng Anh hoặc Tagalog, và việc tăng tổng số ngôn ngữ mà mô hình được huấn luyện có thể làm tổn thương hiệu suất của nó trong tất cả chúng.
Trong trường hợp kiểm duyệt nội dung, điều này đặt ra những câu hỏi khó khăn về việc các công ty mạng xã hội nên ưu tiên ngôn ngữ nào và mục tiêu mà các mô hình này nên hướng đến. Liệu các mô hình ngôn ngữ đa ngôn ngữ có nên cố gắng đạt hiệu suất bằng nhau trong tất cả các ngôn ngữ? Ưu tiên những ngôn ngữ có nhiều người nói nhất? Các ngôn ngữ đang đối mặt với vấn đề kiểm duyệt nội dung nghiêm trọng nhất? Và ai quyết định ngôn ngữ nào là cuộc khủng hoảng nghiêm trọng nhất?
Các mô hình ngôn ngữ đa ngôn ngữ hứa hẹn mang lại sức mạnh phân tích của LLMs cho tất cả các ngôn ngữ trên thế giới, nhưng vẫn chưa rõ liệu khả năng của chúng có mở rộng đến việc phát hiện nội dung có hại hay không. Cái gì gây hại dường như không dễ dàng được ánh xạ qua các ngôn ngữ và ngữ cảnh ngôn ngữ khác nhau. Để đảm bảo rằng những mô hình này không gây ra ảnh hưởng chênh lệch đối với cộng đồng ngôn ngữ khác nhau, các công ty mạng xã hội cần cung cấp thêm thông tin về cách những mô hình này hoạt động.
Tối thiểu, các công ty nên chia sẻ thông tin về các sản phẩm dựa vào những mô hình này, loại nội dung chúng được sử dụng, và trong những ngôn ngữ chúng được sử dụng. Các công ty cũng nên chia sẻ các chỉ số cơ bản về hiệu suất của các mô hình ngôn ngữ trong mỗi ngôn ngữ, và thông tin chi tiết về dữ liệu huấn luyện mà chúng sử dụng, để nhà nghiên cứu có thể đánh giá các bộ dữ liệu đó về độ thiên vị và hiểu rõ sự cân đối mà công ty đang đạt được giữa các ngôn ngữ khác nhau. Mặc dù các công ty lớn như Facebook và Google thường phát hành phiên bản của mô hình ngôn ngữ của họ cho công chúng để nhà nghiên cứu và thậm chí các công ty khác sử dụng, nhưng họ thường im lặng về cách những hệ thống có sẵn công khai đó liên quan hoặc khác biệt so với những hệ thống được sử dụng trong sản phẩm của họ. Những biện pháp trung gian này không đủ—các công ty nên chia sẻ thông tin về các mô hình ngôn ngữ thực sự mà họ sử dụng cho việc kiểm duyệt nội dung.
Các công ty mạng xã hội cũng nên xem xét rằng một cách tiếp cận tốt hơn có thể không phải là sử dụng một mô hình đa ngôn ngữ lớn mà là sử dụng nhiều mô hình nhỏ hơn, được tinh chỉnh hơn cho từng ngôn ngữ cụ thể và hệ thống ngôn ngữ. Ví dụ, mô hình AfroLM của Masakhane được huấn luyện trên 23 ngôn ngữ châu Phi khác nhau và có thể vượt trội hơn so với các mô hình đa ngôn ngữ lớn hơn trong những ngôn ngữ đó. Các cộng đồng nghiên cứu trên khắp thế giới đang nỗ lực tìm ra loại mô hình ngôn ngữ nào hoạt động tốt nhất cho ngôn ngữ của họ. Các công ty mạng xã hội nên không chỉ dựa vào công việc kỹ thuật của họ mà còn dựa vào chuyên môn của họ trong bối cảnh ngôn ngữ địa phương.
Là một giải pháp, các mô hình ngôn ngữ đa ngôn ngữ có nguy cơ trở thành một "bức băng" quá lớn đối với một vấn đề không ngừng thay đổi. Bằng cách cung cấp thêm sự minh bạch và trách nhiệm, ưu tiên hiệu suất ngôn ngữ cá nhân hơn là tính mở rộng, và tham khảo cộng đồng ngôn ngữ, các công ty có thể bắt đầu phá vỡ cách tiếp cận đó.
Chỉnh sửa 30/5/23 3:30PT ET: Mô hình AfroLM từ Masakhane. Phiên bản trước của bài viết nêu rõ rằng nó từ Lelapa.
