
Một kho tàng gần đây về tài liệu bị rò rỉ từ Facebook đã thể hiện cách mạng xã hội này gặp khó khăn trong việc kiểm soát nội dung nguy hiểm ở những nơi xa xôi từ Thung lũng Silicon. Những cuộc thảo luận nội bộ tiết lộ lo ngại rằng các thuật toán kiểm soát cho các ngôn ngữ được nói ở Pakistan và Ethiopia là không đủ, và công ty thiếu dữ liệu đào tạo đầy đủ để điều chỉnh hệ thống cho các phương ngôn khác nhau của tiếng Ả Rập.
Meta Platforms, chủ sở hữu của Facebook, bây giờ tuyên bố rằng họ đã triển khai một hệ thống trí tuệ nhân tạo kiểm soát mới cho một số nhiệm vụ có thể được điều chỉnh cho các công việc thực thi mới nhanh hơn so với những người tiền nhiệm vì nó yêu cầu ít dữ liệu đào tạo hơn. Công ty cho biết hệ thống, được gọi là Few-Shot Learner, hoạt động trong hơn 100 ngôn ngữ và có thể hoạt động trên cả hình ảnh và văn bản.
Facebook nói rằng Few-Shot Learner làm cho việc tự động hóa thực thi một quy tắc kiểm soát mới mất khoảng sáu tuần, giảm từ khoảng sáu tháng. Công ty cho biết hệ thống đang giúp thực thi một quy tắc được giới thiệu vào tháng 9 cấm các bài đăng có khả năng làm giảm động viên người ta tiêm vắc xin Covid-19 - ngay cả khi bài đăng không hoàn toàn nói dối. Facebook cũng nói rằng Few-Shot Learner, được triển khai lần đầu trong năm nay, đã đóng góp vào sự giảm thiểu mà họ ghi nhận được về sự phổ biến toàn cầu của lời nói căm ghét từ giữa năm 2020 đến tháng 10 năm nay, nhưng họ chưa công bố chi tiết về hiệu suất của hệ thống mới.
Hệ thống mới sẽ không giải quyết hết tất cả những thách thức về nội dung của Facebook, nhưng đây là một ví dụ về cách mà công ty sâu sát vào trí tuệ nhân tạo để đối mặt với chúng. Facebook mở rộng mạng lưới của mình vượt ra khắp thế giới với quyết định hứa hẹn đưa mọi người lại gần nhau—nhưng mạng lưới của nó cũng đã ủ mầm sự căm ghét, quấy rối và, theo Liên Hợp Quốc, đã đóng góp vào vụ diệt chủng chống lại người Rohingya ở Myanmar. Công ty đã lâu nói rằng trí tuệ nhân tạo là cách duy nhất và thực tế để giám sát mạng lưới rộng lớn của mình, nhưng mặc dù có những tiến bộ gần đây, công nghệ này còn xa lắm mới có khả năng hiểu biết sâu sắc về sự tinh tế trong giao tiếp con người. Facebook gần đây nói rằng họ đã tự động hóa hệ thống để tìm kiếm lời nói căm ghét và nội dung khủng bố trong hơn 50 ngôn ngữ—nhưng dịch vụ này được sử dụng trong hơn 100 ngôn ngữ.
Few-Shot Learner là một ví dụ về một dòng mới của các hệ thống trí tuệ nhân tạo lớn hơn và phức tạp hơn đang nhanh chóng trở nên phổ biến trong giới công nghệ và nghiên cứu trí tuệ nhân tạo—nhưng cũng đang đặt ra những lo ngại về những hiệu ứng phụ không mong muốn như độ chệch.
Các mô hình như Few-Shot Learner có thể hoạt động với ít dữ liệu ví dụ được nhận dạng cẩn thận bởi con người vì quy mô của chúng cho phép chúng hiểu được một số cơ bản của một vấn đề thông qua việc “trước đào tạo” trên lượng lớn dữ liệu thô, không có nhãn. Một lượng tương đối nhỏ dữ liệu được đánh dấu có thể được sử dụng sau đó để điều chỉnh hệ thống cho một nhiệm vụ cụ thể.
Google đã cải thiện công cụ tìm kiếm của mình bằng cách sử dụng một hệ thống được gọi là BERT sau khi phát hiện ra rằng việc trước đào tạo nó trên hàng tỷ từ từ web và sách mang lại sức mạnh lớn hơn cho hệ thống trong việc xử lý văn bản. Sau một tranh chấp về một bài báo kêu gọi sự thận trọng với những hệ thống như vậy, hai nhà nghiên cứu trí tuệ nhân tạo hàng đầu của công ty đã bị loại bỏ sau đó. OpenAI, một công ty trí tuệ nhân tạo được Microsoft hỗ trợ, đã chứng minh rằng mô hình ngôn ngữ lớn của họ, GPT-3, có thể tạo ra văn bản lưu loát và mã lập trình.
Few-Shot Learner được tiền huấn luyện trên một dòng nước lửa của hàng tỷ bài đăng và hình ảnh trên Facebook trong hơn 100 ngôn ngữ. Hệ thống sử dụng chúng để xây dựng một cảm giác nội tại về các mẫu thống kê của nội dung trên Facebook. Nó được điều chỉnh cho việc kiểm soát nội dung bằng cách đào tạo bổ sung với các bài đăng hoặc hình ảnh được đánh dấu trong các dự án kiểm soát nội dung trước đó và các mô tả đơn giản hóa về các chính sách mà những bài đăng đó vi phạm.
Sau bước chuẩn bị đó, hệ thống có thể được chỉ đạo để tìm kiếm các loại nội dung mới, chẳng hạn như thực thi một quy tắc mới hoặc mở rộng vào một ngôn ngữ mới, với rất ít công sức so với các mô hình kiểm soát trước đây, theo Cornelia Carapcea, một quản lý sản phẩm trí tuệ nhân tạo trong lĩnh vực kiểm soát nội dung tại Facebook.
Hệ thống kiểm soát truyền thống hơn có thể cần hàng trăm nghìn hoặc triệu bài đăng ví dụ trước khi có thể triển khai, cô nói. Few-Shot Learner có thể được đưa vào hoạt động chỉ với vài chục—đó là những 'bắn ít' trong tên của nó—kết hợp với các mô tả đơn giản hóa hoặc 'gợi ý' về chính sách mới mà chúng liên quan đến.
“Bởi vì nó đã nhìn thấy nhiều rồi, việc học một vấn đề mới hoặc chính sách có thể nhanh hơn,” Carapcea nói. “Luôn có sự cố gắng để có đủ dữ liệu được đánh dấu trên nhiều vấn đề như bạo lực, lời nói căm ghét và kích động; điều này giúp chúng ta phản ứng nhanh hơn.”
Few-Shot Learner cũng có thể được chỉ đạo để tìm kiếm các loại nội dung mà không cần hiển thị bất kỳ ví dụ nào, chỉ cần cung cấp cho hệ thống một mô tả văn bản về một chính sách mới—một cách tương tác khá đơn giản với một hệ thống trí tuệ nhân tạo. Carapcea nói kết quả theo cách này ít đáng tin cậy hơn, nhưng phương pháp này có thể nhanh chóng gợi ý những gì sẽ bị áp đặt bởi một chính sách mới, hoặc xác định bài đăng có thể được sử dụng để đào tạo thêm hệ thống.
Các khả năng ấn tượng—và nhiều điều chưa biết—về các tạo vật trí tuệ nhân tạo lớn như của Facebook đã thúc đẩy các nghiên cứu viên Stanford gần đây khởi động một trung tâm để nghiên cứu về những hệ thống như vậy, mà họ gọi là “mô hình nền” vì chúng dường như sẽ trở thành nền tảng của nhiều dự án công nghệ. Các mô hình máy học lớn đang được phát triển không chỉ cho mạng xã hội và công cụ tìm kiếm, mà còn trong các ngành công nghiệp như tài chính và chăm sóc sức khỏe.
Percy Liang, giám đốc trung tâm Stanford, nói rằng hệ thống của Facebook có vẻ thể hiện một số sức mạnh ấn tượng của những mô hình mới này, nhưng cũng sẽ thể hiện một số sự đánh đổi của chúng. Có thể chỉ đạo một hệ thống trí tuệ nhân tạo làm những gì bạn muốn chỉ với văn bản viết, như Facebook nói rằng có thể với các chính sách nội dung mới, là điều hứng thú và hữu ích, Liang nói, nhưng khả năng này hiện vẫn chưa được hiểu rõ. “Đó là nghệ thuật hơn là khoa học,” ông nói.
Liang nói rằng tốc độ của Few-Shot Learner cũng có thể có nhược điểm. Khi các kỹ sư không cần phải quản lý nhiều dữ liệu đào tạo, họ đánh đổi một số kiểm soát và hiểu biết về khả năng của hệ thống. “Có một bước nhảy lớn hơn,” Liang nói. “Với sự tự động hóa nhiều hơn, bạn có ít khả năng giám sát.”
Carapcea của Facebook nói rằng khi Facebook phát triển các hệ thống kiểm soát nội dung mới, họ cũng phát triển cách kiểm tra hiệu suất chúng đối với độ chính xác hoặc độ chệch.
Những điều tuyệt vời hơn từ Mytour
- 📩 Cập nhật mới nhất về công nghệ, khoa học và nhiều hơn nữa: Đăng ký nhận bản tin của chúng tôi!
- Bí mật tối tăm của Amazon: Nó đã không bảo vệ dữ liệu của bạn
- Con người đã phá vỡ một quy luật cơ bản của đại dương
- Điều gì Matrix đã sai về thành phố tương lai
- Cha đẻ của Web3 muốn bạn tin tưởng ít hơn
- Dịch vụ streaming nào thực sự đáng giá?
- 👁️ Khám phá trí tuệ nhân tạo như chưa bao giờ với cơ sở dữ liệu mới của chúng tôi
- 💻 Nâng cấp trò chơi làm việc của bạn với laptop, bàn phím, lựa chọn gõ và tai nghe chống ồn yêu thích của đội ngũ Gear chúng tôi
