Liệu Sự khôn ngoan của Đám đông có thể Giúp giải quyết Vấn đề Tin cậy trên Mạng xã hội không?

Những chu kỳ phẫn nộ về thông tin sai lệch trên mạng xã hội thường trải qua các giai đoạn quen thuộc. Đầu tiên là sự tranh cãi ban đầu xoay quanh một câu chuyện đầy đỉnh đoạt mệnh lan truyền, sau đó là phản ứng của nền tảng. Sau đó, có người hỏi: “Còn Fox News thì sao?” Cuối cùng, có người chỉ ra rằng vấn đề thực sự, đối với mạng xã hội, là các thuật toán quyết định ai thấy cái gì. Những thuật toán này chủ yếu được tối ưu hóa cho sự tương tác, không phải độ chính xác. Những câu chuyện sai lệch và đánh lừa có thể thu hút nhiều hơn những câu chuyện đúng, vì vậy trừ khi có can thiệp của nền tảng, đó là những gì mọi người sẽ thấy. Sửa chữa thuật toán, theo lập luận, sẽ là cách tốt hơn để giải quyết vấn đề hơn là gỡ bỏ thông tin sai lệch lan truyền sau sự kiện.
Nhưng sửa chữa như thế nào? Để thay đổi sắp xếp để ưu tiên câu chuyện đúng hơn câu chuyện sai, ví dụ, các nền tảng cần có một cách để đánh giá hệ thống mọi thứ được chia sẻ, hoặc ít nhất là mọi thứ được chia sẻ một lượng không nhỏ. Phương pháp hiện tại phổ biến nhất đối với nội dung sai lệch liên quan đến việc chuyển quyết định đến một bên ngoại. Ví dụ, Facebook hợp tác với các tổ chức như Factcheck.org để xác định xem một liên kết cụ thể có xứng đáng nhãn cảnh báo hay không. Twitter xây dựng sự kiểm tra sự đúng đắn của mình bằng cách liên kết đến nguồn thông tin bên ngoại. Điều đó không bao giờ có thể được mở rộng lên đến mức của thuật toán. Không có đủ người kiểm chứng sự thật chuyên nghiệp trên thế giới để kiểm tra mọi bài viết có thể được đăng trên mạng xã hội. Nghiên cứu đã phát hiện ra rằng điều này tạo ra một “hiệu ứng sự thật ẩn” : Nếu bạn chỉ kiểm tra một phần nội dung, một số người dùng sẽ cho rằng bất kỳ bài viết nào không có nhãn cảnh báo cũng phải là chính xác, ngay cả nếu nó đơn giản là chưa được kiểm tra.
Một nghiên cứu mới được công bố trong tạp chí Science Advances đề xuất một giải pháp hứa hẹn cho những vấn đề này: kiểm chứng sự thật bằng đám đông. Trong nghiên cứu này, một nhóm nghiên cứu do David Rand, một giáo sư tại MIT, dẫn dắt đã thể hiện xem nhóm người dân thông thường ngẫu nhiên có thể đánh giá kết quả tương đương với các người kiểm chứng sự thật chuyên nghiệp hay không. Sử dụng một bộ 207 bài viết đã được gắn cờ để kiểm chứng sự thật bởi trí tuệ nhân tạo của Facebook, họ đã yêu cầu ba người kiểm chứng sự thật chuyên nghiệp đánh giá chúng theo một số chiều để tạo ra một điểm tổng quát từ 1 (hoàn toàn sai lệch) đến 7 (hoàn toàn đáng tin cậy). Sau đó, họ tuyển chọn khoảng 1,100 người thông thường từ Amazon Mechanical Turk, chia thành các nhóm cân bằng giữa những người tự nhận mình là Dân chủ và Cộng hòa, và yêu cầu họ làm điều tương tự, nhưng với một sự thay đổi: Trong khi người kiểm chứng sự thật đọc toàn bộ bài viết và thực hiện nghiên cứu của họ để xác minh các khẳng định, những người dân thông thường chỉ nhìn vào tiêu đề và câu đầu tiên của mỗi câu chuyện.
Đáng kinh ngạc, đó đã đủ để đám đông sánh kịp và thậm chí vượt qua hiệu suất của người kiểm chứng sự thật.
Để đo hiệu suất của đám đông, nhóm nghiên cứu đầu tiên đo lường sự tương quan giữa các điểm được gán bởi ba người kiểm chứng sự thật. (Sự tương quan đạt .62 - cao, nhưng xa uniform đồng thuận. Khi đánh giá câu chuyện trên một thang điểm đúng/sai nhị phân, ít nhất hai trong số ba người kiểm chứng sự thật đồng ý với nhau hơn 90 phần trăm thời gian.) Sau đó, họ đo lường sự tương quan giữa điểm được gán bởi đám đông, một bên, và trung bình của ba điểm của người kiểm chứng sự thật, một bên khác. Ý tưởng cơ bản là trung bình của các đánh giá của các chuyên gia đại diện cho một tiêu chuẩn chính xác tốt hơn bất kỳ người kiểm chứng sự thật nào một mình. Và nếu điểm của người dân thông thường tương quan chặt chẽ với điểm trung bình của người kiểm chứng sự thật giống như sự đồng thuận giữa các người kiểm chứng sự thật cá nhân, thì có thể nói rằng đám đông đang làm việc cũng hoặc tốt hơn chuyên gia. Câu hỏi là: Cần bao nhiêu người dân thông thường để đạt được ngưỡng đó?
Nghiên cứu này phát hiện ra rằng chỉ cần một nhóm tám người dân thông thường, không có sự khác biệt đáng kể về mặt thống kê giữa hiệu suất của đám đông và một người kiểm chứng sự thật cụ thể. Khi các nhóm lên đến 22 người, họ thực sự bắt đầu vượt trội đáng kể so với người kiểm chứng sự thật. (Những con số này mô tả kết quả khi người dân thông thường được cho biết nguồn của bài viết. Khi họ không biết nguồn, đám đông làm đồng thuận ít hơn một chút.) Có lẽ quan trọng nhất, đám đông dân thông thường vượt xa người kiểm chứng sự thật một cách đặc biệt đối với những câu chuyện được phân loại là “chính trị,” bởi vì đó là nơi mà người kiểm chứng sự thật có khả năng không đồng thuận với nhau nhiều nhất. Kiểm chứng sự thật chính trị thực sự khó khăn.
Có vẻ như không thể có khả năng nhóm ngẫu nhiên của mọi người có thể vượt qua công việc của người kiểm chứng sự thật được đào tạo—đặc biệt là chỉ dựa trên việc biết tiêu đề, câu đầu tiên và ngày công bố. Nhưng đó là cả ý tưởng của sự khôn ngoan từ đám đông: có đủ người, họ hoạt động độc lập và kết quả của họ sẽ vượt qua chuyên gia.
“Quan điểm của chúng tôi về điều đang xảy ra là mọi người đang đọc điều này và tự hỏi, ‘Cái này liên quan tốt đến những gì tôi biết không?’” nói Rand. “Đây là nơi sự khôn ngoan từ đám đông xuất hiện. Bạn không cần tất cả mọi người biết điều gì đang xảy ra. Bằng cách lấy trung bình các xếp hạng, tiếng ồn bị loại bỏ và bạn sẽ có một tín hiệu độ phân giải cao hơn nhiều so với bất kỳ người cá nhân nào.”
Điều này không giống như hệ thống upvote và downvote kiểu Reddit, cũng không phải là mô hình người chỉnh sửa công dân của Wikipedia. Trong những trường hợp đó, các tập hợp nhỏ, không đại diện tự chọn để chọn lựa tài liệu, và mỗi người có thể xem những gì người khác đang làm. Sự khôn ngoan từ đám đông chỉ xuất hiện khi các nhóm là đa dạng và mỗi người tạo ra nhận định của họ một cách độc lập. Và dựa vào nhóm ngẫu nhiên hòa trộn, cân bằng chính trị, thay vì một đội ngũ tình nguyện viên, làm cho phương pháp của nhóm nghiên cứu trở nên khó chơi. (Điều này cũng giải thích tại sao phương pháp thử nghiệm khác biệt với Birdwatch của Twitter, một chương trình thử nghiệm mà triệu hồi người dùng để viết ghi chú giải thích tại sao một tweet cụ thể là đánh lừa.)
Kết luận chính của bài báo là rõ ràng: Các nền tảng truyền thông xã hội như Facebook và Twitter có thể sử dụng hệ thống dựa trên đám đông để mở rộng đáng kể và chi phí thấp cho hoạt động kiểm chứng sự thật mà không làm giảm chất lượng. (Người dân thông thường trong nghiên cứu được trả $9 mỗi giờ, tương đương với chi phí khoảng $0.90 mỗi bài viết.) Phương pháp thu thập đám đông, nhóm nghiên cứu lập luận, cũng sẽ giúp tăng cường niềm tin vào quy trình, vì dễ dàng tổ chức các nhóm người dân thông thường có cân bằng chính trị và do đó khó bị buộc tội là thiên nhiên đảng phái. (Theo cuộc khảo sát của Pew năm 2019, người Cộng hòa đa số tin rằng người kiểm chứng sự thật “có xu hướng ủng hộ một bên.”) Facebook đã ra mắt một cái gì đó tương tự, trả tiền cho các nhóm người dùng để “làm việc như những nhà nghiên cứu để tìm thông tin có thể phản đối những trò lừa dối trực tuyến rõ ràng nhất hoặc làm chứng thực cho những tuyên bố khác.” Nhưng nỗ lực đó được thiết kế để thông tin công việc của các đối tác kiểm chứng sự thật chính thức, không phải tăng cường nó.
Việc mở rộng kiểm chứng sự thật là một điều. Câu hỏi thú vị hơn nhiều là các nền tảng nên sử dụng nó như thế nào. Có nên cấm các câu chuyện được đánh dấu sai lệch không? Còn những câu chuyện có thể không có bất kỳ thông tin sai lệch nào theo quan điểm khách quan, nhưng vẫn là gian lận hay gắp bóp ý định?
Các nhà nghiên cứu lập luận rằng các nền tảng nên rời xa cả hai cách đánh giá đúng/sai và để nó/đánh dấu nó. Thay vào đó, họ đề xuất rằng các nền tảng tích hợp “điểm đánh giá độ chính xác liên tục được thu thập từ đám đông” vào thuật toán xếp hạng của họ. Thay vì có một ngưỡng duy nhất đúng/sai và xử lý mọi thứ ở trên hoặc dưới nó một cách khác nhau, các nền tảng nên tích hợp điểm được gán bởi đám đông một cách tỷ lệ khi xác định mức độ nổi bật của một liên kết cụ thể trong dòng thông tin người dùng. Nói cách khác, đám đông đánh giá một câu chuyện không chính xác càng ít, thuật toán đánh giá hạ thấp nó càng nhiều.
“Bạn muốn gán điểm cho nội dung trên thanh trượt liên tục từ hoàn toàn chính xác đến hoàn toàn sai lệch,” Rand nói. “Nếu tôi là họ, điều tôi sẽ làm là, càng tồi tệ nó càng bị giảm giá. Thay vì chỉ đánh dấu một vài mục và nói, ‘Những thứ này là sai nên chúng tôi đẩy chúng xuống đáy và chúng tôi để lại mọi thứ khác một mình.’”
Có lẽ phần hấp dẫn nhất của đề xuất này, sau sự mở rộng, là khả năng giải quyết một loại lớn nội dung được chia sẻ trực tuyến không kỹ thuật số sai lệch, nhưng vẫn làm nhiễm bẩn ý định. Trong thử nghiệm, người tham gia không chỉ nói xem một bài viết có đúng hay sai; họ được yêu cầu xếp hạng nó theo bảy chiều, bao gồm độ tin cậy, tính chất khách quan và độ chệch lệch. Điều đó tạo ra không gian cho những đánh giá tinh tế hơn có thể đặt nội dung vào một phổ độ tin cậy, thay vì cố gắng kiểm soát ranh giới thoáng qua giữa thông tin và thông tin sai lệch.
Phương pháp này sẽ có những hạn chế. Vì thử nghiệm chỉ xem xét bài viết, không rõ cách tiếp cận tương tự sẽ hoạt động tốt như thế nào đối với nội dung video, có thể là một vector chính cho những thông tin sai lệch lan truyền. Nó cũng không áp dụng cho các bài đăng không bao gồm liên kết. Đám đông trong nghiên cứu dường như phản ánh kết quả của người kiểm chứng sự thật chuyên nghiệp, nhưng người kiểm chứng sự thật chuyên nghiệp thì mắc nhiều lỗi. Điểm đánh giá hoàn hảo là không thể, nhưng có lẽ có một phương pháp có hiệu quả và mở rộng hơn mà chưa được thử nghiệm. Ngoài ra, việc tích hợp bất kỳ chỉ số nào về độ chính xác vào thuật toán xếp hạng có thể trông giống như đang trao quyền lực không có trách nhiệm hơn cho các nền tảng xã hội đối với cuộc trò chuyện công cộng.
Vấn đề là, các nền tảng đã nằm trong lĩnh vực quyết định nội dung nào sẽ được hiển thị. Lời phê bình về tình trạng hiện tại, trong đó thuật toán có vẻ quá mức ưu tiên sự tương tác, ngụ ý rằng những thuật toán đó thay vì vậy nên điều chỉnh chỉ số này lên một số chỉ số khác. Có lẽ chỉ số đó sẽ là một phiên bản của chất lượng. Đương nhiên, độ chính xác chỉ là một trong nhiều cách để đo lường chất lượng, nhưng đó là một cách quan trọng. Đó cũng là một lĩnh vực hiếm hoi mọi người đồng thuận; có nghĩa là hầu hết mọi người đều đồng意 rằng việc tiếp xúc với tư liệu đáng tin cậy là tốt hơn, họ chỉ không đồng意 về ranh giới của mỗi danh mục. Điều đó có thể là một lý do nữa để để người dùng tự quyết định.
- 📩 Cập nhật về công nghệ, khoa học và nhiều hơn nữa: Nhận bản tin của chúng tôi!
- Dáng vẻ của cây bút: Mặt tối của Instagram với Hedgehog
- Tương lai nông nghiệp đầy robot: Ác mộng hay thiên đàng?
- Cách gửi các tin nhắn tự động biến mất
- Deepfakes giờ đây còn được sử dụng trong các kế hoạch kinh doanh
- Đã đến lúc mang quần cargo trở lại
- 👁️ Khám phá trí tuệ nhân tạo như chưa bao giờ có trước với cơ sở dữ liệu mới của chúng tôi
- 🎮 MYTOUR Games: Nhận những mẹo, đánh giá và nhiều hơn nữa
- 🏃🏽♀️ Muốn có những công cụ tốt nhất để duy trì sức khỏe? Kiểm tra lựa chọn của đội ngũ Gear của chúng tôi cho những chiếc vòng đeo sức khỏe, đồ chạy (bao gồm giày và tất), và tai nghe tốt nhất
