Facebook Có Mặt Ở Khắp Mọi Nơi; Nhưng Quản Lý Thì Chưa Đến Gần

Facebook bắt đầu hỗ trợ tiếng Ả Rập vào năm 2009 và đạt được thành công. Ngay sau đó, dịch vụ này nhận được lời khen về việc giúp đỡ các cuộc biểu tình đại chúng được biết đến là Nụ Cười Arab. Đến năm ngoái, tiếng Ả Rập trở thành ngôn ngữ phổ biến thứ ba trên nền tảng, với người dùng ở Trung Đông và Bắc Phi dành nhiều thời gian hơn mỗi ngày với các dịch vụ của Facebook so với người dùng ở bất kỳ khu vực nào khác.
Khi nói đến việc hiểu và kiểm soát nội dung tiếng Ả Rập, Facebook đã ít thành công hơn, theo hai nghiên cứu nội bộ trong năm ngoái. Một trong số đó, một bản tường thuật chi tiết về cách Facebook xử lý tiếng Ả Rập, cảnh báo rằng những người xem và bộ lọc tự động của công ty gặp khó khăn trong việc hiểu rõ các ngôn ngữ đa dạng được sử dụng ở Trung Đông và Bắc Phi. Kết quả: Trong một khu vực đầy biến động chính trị, công ty sai lầm khi kiểm duyệt những bài đăng vô hại và coi đó là tuyên truyền khủng bố, đồng thời để người nói tiếng Ả Rập tiếp xúc với lời nói căm ghét mà họ không nên thấy.
“Tiếng Ả Rập không phải là một ngôn ngữ,” nghiên cứu nói. “Nên xem xét đó là một họ ngôn ngữ—nhiều trong số đó không thể hiểu được lẫn nhau.”
Các tài liệu về những vấn đề của Facebook với tiếng Ả Rập là một phần của một bộ tài liệu nội bộ, được biết đến chung là The Facebook Papers, cho thấy công ty đang vật lộn—hoặc bỏ qua—việc quản lý nền tảng của mình ở những nơi xa trụ sở chính ở California, ở những khu vực mà đa số người dùng của nó sống. Nhiều thị trường này đều ở các khu vực kinh tế kém phát triển trên thế giới, bị ảnh hưởng bởi các loại căng thẳng dân tộc và bạo lực chính trị thường xuyên được làm tăng cường bởi mạng xã hội.
Các tài liệu này đã được tiết lộ cho Ủy ban Chứng khoán và Giao dịch và được cung cấp cho Quốc hội dưới dạng bản đã lược bỏ bởi luật sư đại diện cho cựu nhân viên Facebook, Frances Haugen. Các phiên bản đã được lược bỏ được xem xét bởi một liên minh các tổ chức tin tức, bao gồm cả MYTOUR.
Bộ sưu tập này mang đến một cái nhìn hạn chế bên trong mạng xã hội nhưng đủ để minh họa thách thức lớn mà sự thành công của Facebook tạo ra. Một trang web đánh giá về nhan sắc của sinh viên nữ tại Harvard đã phát triển thành một nền tảng toàn cầu được gần 3 tỷ người sử dụng ở hơn 100 ngôn ngữ. Quản lý một dịch vụ như vậy một cách hoàn hảo là không thể, nhưng bảo vệ của công ty cho người dùng của mình dường như không đồng đều, đặc biệt là ở các nước nghèo. Người dùng Facebook nói các ngôn ngữ như tiếng Ả Rập, Pashto, hoặc Armenian thực sự là công dân hạng hai của mạng xã hội lớn nhất thế giới.
Một số điểm yếu của Facebook được chi tiết trong các tài liệu liên quan đến những vấn đề kỹ thuật khó khăn thực sự. Công ty sử dụng trí tuệ nhân tạo để hỗ trợ quản lý nội dung gặp vấn đề—at scale, con người không thể xem xét mọi bài đăng. Nhưng các nhà khoa học máy tính nói rằng thuật toán học máy hiện nay chưa hiểu rõ những sắc thái của ngôn ngữ. Những thiếu sót khác có vẻ là do các quyết định của Facebook, một công ty đã kiếm hơn 29 tỷ USD lợi nhuận năm ngoái, về nơi và mức độ đầu tư.
Ví dụ, Facebook cho biết gần hai phần ba người sử dụng dịch vụ sử dụng nó bằng một ngôn ngữ khác tiếng Anh và rằng nó quy régulate nội dung theo cùng một cách toàn cầu. Một người phát ngôn của công ty cho biết có 15,000 người đang xem xét nội dung trong hơn 70 ngôn ngữ và đã công bố Tiêu chuẩn Cộng đồng của mình trong 50 ngôn ngữ. Nhưng Facebook cung cấp dịch vụ của mình trong hơn 110 ngôn ngữ; người dùng đăng bài trong nhiều ngôn ngữ hơn.
Một bản ghi nhớ tháng 12 năm 2020 về chống nói giận ở Afghanistan cảnh báo rằng người dùng không thể dễ dàng báo cáo nội dung gặp vấn đề vì Facebook chưa dịch Tiêu chuẩn Cộng đồng của mình sang Pashto hoặc Dari, hai ngôn ngữ chính thức của đất nước này. Các biểu mẫu trực tuyến để báo cáo nói giận chỉ được dịch một phần sang hai ngôn ngữ, với nhiều từ được hiển thị bằng tiếng Anh. Trong Pashto, cũng được nói rộng rãi ở Pakistan, bản ghi nhớ nói rằng bản dịch của Facebook về thuật ngữ nói giận “có vẻ không chính xác.”
“Khi chống nói giận trên Facebook, mục tiêu của chúng tôi là giảm sự phổ biến của nó, đó là lượng mà mọi người thực sự nhìn thấy,” một người phát ngôn của Facebook nói trong một tuyên bố. Công ty gần đây đã công bố các con số cho thấy trung bình, điều này đã giảm trên toàn thế giới từ giữa năm 2020. “Đây là nỗ lực toàn diện nhất để loại bỏ nói giận của bất kỳ công ty công nghệ tiêu dùng lớn nào, và trong khi chúng tôi còn nhiều công việc để làm, chúng tôi vẫn cam kết làm đúng điều này.”
Đối với tiếng Ả Rập, hầu hết quá trình xem xét nội dung của Facebook diễn ra tại Casablanca, Morocco, theo một tài liệu, sử dụng nhân viên tuyển dụng địa phương. Điều đó có nghĩa là sai lầm khi xử lý nội dung từ bên ngoài Bắc Phi là “gần như đảm bảo,” theo tài liệu.
Ngay cả trong các ngôn ngữ địa phương Bắc Phi, sai lầm vẫn là một vấn đề. Tài liệu trích dẫn vụ việc của Hosam El Sokkari, trước đây là Giám đốc BBC tiếng Ả Rập, người vào năm 2020 không thể trực tiếp trên Facebook vì công ty nói rằng một bài đăng năm 2017 bằng tiếng Ả Rập Ai Cập chỉ trích một giáo sĩ Hồi giáo bảo thủ là tuyên truyền khủng bố. Các thuật toán đã đánh dấu bài đăng vi phạm quy tắc của Facebook và những người đánh giá của con người cũng đồng tình, theo Wall Street Journal. Tài khoản của El Sokkari sau đó bị khóa sau khi Facebook thông báo cho anh rằng nhiều bài đăng khác của anh vi phạm chính sách của họ. Tài liệu nói rằng cuộc điều tra nội bộ phát hiện ra rằng nhân viên xem xét “một bộ” bài đăng của El Sokkari đã sai lầm hành động chống lại chúng 90 phần trăm thời gian.
Một người phát ngôn của Facebook nói rằng công ty đã khôi phục lại bài đăng của El Sokkari sau khi nhận thức được rằng chúng đã bị xóa nhầm; Facebook đang xem xét các phương án để giải quyết thách thức của việc xử lý các ngôn ngữ địa phương Ả Rập, bao gồm việc thuê thêm đánh giá viên nội dung có kỹ năng ngôn ngữ đa dạng.
Một tài liệu đánh giá việc kiểm duyệt nội dung của Facebook trên Trung Đông và Bắc Phi, từ tháng 12 năm 2020, nói rằng thuật toán được sử dụng để phát hiện nội dung khủng bố bằng tiếng Ả Rập sai lầm 77 phần trăm thời gian—tệ hơn cả việc tung đồng xu. Một người phát ngôn của Facebook nói rằng con số là sai lầm và công ty không thấy có bằng chứng về hiệu suất kém đến như vậy.
Tài liệu đó cũng cảnh báo rằng đánh dấu quá nhiều bài đăng về khủng bố có thể đang làm tổn thương triển vọng kinh doanh của Facebook. Báo cáo thu nhập gần đây nhất của công ty nói rằng doanh thu cho mỗi người dùng tăng nhanh nhất trong phân khúc địa lý bao gồm Trung Đông. Tài liệu nói rằng khi chủ sở hữu tài khoản quảng cáo đã bị vô hiệu hóa kháo nghị quyết định của Facebook, gần một nửa chứng minh đã bị đóng cửa một cách không đúng đắn. Nó gợi ý rằng lượt xem video và sự phát triển trong khu vực bị hạn chế do các tài khoản đang bị phạt sai lầm.
Rasha Abdulla, một giáo sư tại Đại học Mỹ thuật Cairo nghiên cứu về truyền thông xã hội, cho biết kết quả của nghiên cứu của Facebook xác nhận những nghi ngờ của bên ngoài rằng công ty đang chặn nội dung vô tội hoặc quan trọng, như truyện cười, tin tức và thảo luận chính trị. Cô tin rằng vấn đề đã trở nên tồi tệ hơn khi công ty đã thêm nhiều hơn vào tự động hóa. “Chúng tôi thực sự bắt đầu thấy những vấn đề này nảy sinh trong những năm gần đây, với sự tăng cường sử dụng thuật toán và trí tuệ nhân tạo,” cô nói.
Sự phụ thuộc tăng lên vào thuật toán là trung tâm của chiến lược kiểm duyệt nội dung của Facebook. Công ty gần đây cho biết học máy đã giảm số lần người dùng Facebook gặp phải nói giận. Nhưng Facebook không tiết lộ dữ liệu về cách công nghệ của họ hoạt động ở các quốc gia hoặc ngôn ngữ khác nhau.
Chưa ai phải quản lý một mạng lưới toàn cầu như của Facebook, tiếp cận gần như mọi quốc gia, ngôn ngữ và cộng đồng trên trái đất. Các tài liệu nội bộ cho thấy nhân viên hoạt động như một đội ngoại giao thời đại internet, cố gắng áp dụng khoa học dữ liệu vào những xung đột rối rắm nhất của thế giới. Các tài liệu cho thấy công ty cố gắng ưu tiên nguồn lực kiểm duyệt nội dung ngôn ngữ và tự động thêm vào danh sách “các quốc gia có nguy cơ” nơi bạo lực hoặc các nguy hại khác được coi là khả năng cao nhất. Một phiên bản của danh sách năm 2021 cho thấy có 10 quốc gia ở tầng cao nhất, bao gồm Pakistan, Ethiopia và Myanmar—nơi Liên Hợp Quốc nói rằng bài đăng trên Facebook đóng một “vai trò quyết định” trong các cuộc tấn công vào cộng đồng người Rohingya Hồi giáo của quốc gia năm 2017. Một tài liệu tháng 12 năm 2020 mô tả một đợt tuyển dụng nhân viên có chuyên môn về những quốc gia và ngôn ngữ đó. Nói rằng công ty thiếu sự bao phủ như vậy cho bốn trong số 10 quốc gia ở tầng cao nhất.
Facebook cho biết họ có hệ thống tự động để tìm nội dung có tính chất kích động và khủng bố trong hơn 50 ngôn ngữ.
Trong các bài đăng nội bộ, một số kỹ sư Facebook thể hiện sự bi quan rõ ràng về sức mạnh của tự động hóa để giải quyết vấn đề của công ty. Một tài liệu năm 2019 ước tính rằng việc huấn luyện đúng một bộ phân loại để phát hiện nói chủ nghĩa thù địch trên thị trường mà Facebook phục vụ đòi hỏi 4,000 đánh giá nội dung thủ công mỗi ngày. Khi một nhân viên hỏi xem con số đó có thể giảm đi khi hệ thống trở nên tốt hơn không, một đồng nghiệp nói rằng câu trả lời là không vì thuật toán của công ty còn non, giống như học sinh tiểu học: “Chúng cần giáo viên (đánh giá của con người) để phát triển.”
Một nhà khoa học dữ liệu của Facebook làm việc trên “bạo lực và kích động” trước khi rời khỏi công ty vào tháng 12 năm ngoái ước tính trong một bài đăng chia tay được bao gồm trong tài liệu của Haugen và đã được BuzzFeed News báo cáo trước đó rằng công ty loại bỏ dưới 5% nói chủ nghĩa thù địch trên nền tảng và khẳng định AI không thể cải thiện đáng kể điều đó. “Vấn đề về suy luận ý nghĩa ngữ cảm với độ chính xác cao hoàn toàn chưa giải quyết,” nhà khoa học dữ liệu viết.
Facebook cho biết con số từ tháng 6 cho thấy trung bình trên toàn cầu, lượng nội dung chủ nghĩa thù giả mạo mà người dùng thấy trên Facebook giảm đi một nửa trong chín tháng trước đó. Công ty không tiết lộ thông tin về các mô hình cho từng quốc gia hoặc ngôn ngữ cụ thể.
Nhà khoa học dữ liệu rời khỏi công ty cho rằng công ty có thể làm nhiều hơn, nói rằng nhân viên làm việc về vấn đề nội dung đặt ra những nhiệm vụ không thể. Những người viết bài mô tả một cảm giác tội lỗi sâu sắc vì phải ưu tiên công việc về tiếng Anh của Hoa Kỳ trong khi bạo lực bùng phát ở Armenia và Ethiopia và khẳng định rằng Facebook có một cách dễ dàng để cải thiện kiểm duyệt toàn cầu của mình. “Đó chỉ là không hợp lý khi có một người chịu trách nhiệm về khoa học dữ liệu cho toàn bộ thế giới về bạo lực và kích động,” bài đăng nói. “Chúng ta có khả năng chi trả. Tuyển thêm nhân sự.”
Cập nhật, 25-10-21, 3:35 chiều ET: Bài viết này đã được cập nhật để bao gồm thông tin bổ sung từ Facebook về số ngôn ngữ mà hệ thống tự động của họ nhận diện nói chủ nghĩa thù và số ngôn ngữ mà tiêu chuẩn cộng đồng của họ có sẵn.
Những câu chuyện tuyệt vời khác từ MYTOUR
- 📩 Tin tức mới nhất về công nghệ, khoa học và nhiều hơn nữa: Nhận bản tin của chúng tôi!
- Nhiệm vụ viết lại lịch sử Nazi trên Wikipedia
- Hoạt động bạn có thể thực hiện để đối mặt với biến đổi khí hậu
- Denis Villeneuve về Dune: “Tôi thực sự là một kẻ điên”
- Astro của Amazon là một robot không mục đích
- Nỗ lực để máy bay không người lái trồng lại rừng
- 👁️ Khám phá Trí tuệ Nhân tạo như chưa bao giờ với cơ sở dữ liệu mới của chúng tôi
- 🎮 MYTOUR Games: Nhận những mẹo mới nhất, đánh giá và nhiều hơn nữa
- 🎧 Âm thanh không nghe đúng? Kiểm tra tai nghe không dây, thanh âm và loa Bluetooth yêu thích của chúng tôi
