Elon Musk và sự đam mê của ông với các bot không thể làm giảm hiện tượng rác trên Twitter
Twitter báo cáo rằng dưới 5% tài khoản là giả mạo hoặc là bot, thường được gọi là “bots.” Kể từ khi đề xuất mua lại Twitter của ông được chấp nhận, Elon Musk đã liên tục nghi ngờ về các ước lượng này, thậm chí phớt lờ phản hồi công khai của Giám đốc điều hành Parag Agrawal.
Sau đó, Musk đặt thương vụ này tạm dừng và đòi hỏi thêm chứng cứ.
Vậy tại sao mọi người đang tranh cãi về tỷ lệ tài khoản bot trên Twitter?
Là người sáng tạo của Botometer, một công cụ phát hiện bot phổ biến, nhóm của chúng tôi tại Đại học Indiana Quan sát trên Mạng xã hội đã nghiên cứu về tài khoản giả mạo và thao túng trên mạng xã hội hơn một thập kỷ. Chúng tôi đã đưa ra khái niệm về “bot xã hội” và ước lượng đầu tiên sự phổ biến của chúng trên Twitter vào năm 2017.
Dựa trên kiến thức và kinh nghiệm của chúng tôi, chúng tôi tin rằng việc ước lượng phần trăm bot trên Twitter đã trở thành một nhiệm vụ rất khó khăn, và tranh luận về độ chính xác của ước lượng có thể là bỏ lỡ điểm chính. Dưới đây là lý do.
Chính xác là gì, đúng là một con bot là gì vậy nhỉ?
Để đánh giá mức độ phổ biến của các tài khoản gây vấn đề trên Twitter, việc định rõ mục tiêu là cần thiết. Các thuật ngữ phổ biến như “tài khoản giả mạo,” “tài khoản rác” và “bot” thường được sử dụng thay thế nhau, nhưng chúng lại có nghĩa khác nhau. Tài khoản giả mạo hoặc sai lệch là những tài khoản giả mạo người khác. Các tài khoản sản xuất nội dung quảng cáo không được yêu cầu được định nghĩa là rác. Bot, ngược lại, là những tài khoản được kiểm soát một phần bằng phần mềm; chúng có thể đăng nội dung hoặc thực hiện tương tác đơn giản, như retweet tự động.
Các loại tài khoản này thường chồng lấn lên nhau. Ví dụ, bạn có thể tạo một bot giả mạo người để tự động đăng nội dung rác. Một tài khoản như vậy đồng thời là một bot, một tài khoản rác và một tài khoản giả mạo. Nhưng không phải mọi tài khoản giả mạo đều là bot hoặc tài khoản rác, và ngược lại. Đưa ra một ước lượng mà không có định nghĩa rõ ràng chỉ dẫn đến kết quả làm nhiễm loạn.
Định nghĩa và phân biệt các loại tài khoản cũng có thể thông báo về các biện pháp can thiệp phù hợp. Tài khoản giả mạo và rác làm suy giảm môi trường trực tuyến và vi phạm chính sách của nền tảng. Bot độc hại được sử dụng để lan truyền thông tin sai lệch, tăng cường độ phổ biến, kích thích xung đột thông qua nội dung tiêu cực và kích động, thao túng ý kiến, ảnh hưởng đến cuộc bầu cử, tiến hành gian lận tài chính và gây nhiễu loạn giao tiếp. Tuy nhiên, một số bot có thể là vô hại hoặc thậm chí là hữu ích, ví dụ như giúp phổ biến tin tức, cung cấp cảnh báo thảm họa và tiến hành nghiên cứu.
Đơn giản là cấm tất cả bot không phải là lợi ích tốt nhất cho người dùng truyền thông xã hội.
Để đơn giản, nhà nghiên cứu sử dụng thuật ngữ “tài khoản không xác thực” để chỉ tổng hợp của các tài khoản giả mạo, rác và bot độc hại. Đây cũng là định nghĩa mà Twitter có vẻ đang sử dụng. Tuy nhiên, không rõ Musk nghĩ gì.
Khó đếm
Ngay cả khi có sự đồng thuận về định nghĩa, vẫn có những thách thức kỹ thuật khi ước lượng sự phổ biến.
Networks of coordinated accounts spreading COVID-19 information from low-credibility sources on Twitter in 2020. Pik-Mai HuiCác nhà nghiên cứu bên ngoài không có quyền truy cập vào cùng dữ liệu như Twitter, như địa chỉ IP và số điện thoại. Điều này cản trở khả năng của công chúng để xác định tài khoản không xác thực. Nhưng thậm chí Twitter cũng thừa nhận rằng số lượng thực tế của các tài khoản không xác thực có thể cao hơn so với ước lượng của nó, vì phát hiện là một thách thức.
Các tài khoản không xác thực tiến triển và phát triển các chiến thuật mới để tránh phát hiện. Ví dụ, một số tài khoản giả mạo sử dụng khuôn mặt được tạo ra bằng trí tuệ nhân tạo làm hồ sơ của họ. Những khuôn mặt này có thể không thể phân biệt được với những người thật, thậm chí đối với con người. Việc xác định các tài khoản như vậy là khó khăn và đòi hỏi các công nghệ mới.
Một khó khăn khác là do các tài khoản phối hợp dường như bình thường khi xem xét riêng lẻ nhưng họ hành động một cách rất giống nhau đến mức họ hầu như chắc chắn được điều khiển bởi một thực thể duy nhất. Tuy nhiên, chúng giống như những cây kim trong cọc rơm của hàng trăm triệu tweet hàng ngày.
Cuối cùng, các tài khoản không xác thực có thể tránh phát hiện bằng các kỹ thuật như đổi tên người dùng hoặc tự động đăng và xóa lượng lớn nội dung.
Sự phân biệt giữa tài khoản không xác thực và tài khoản đáng tin cậy trở nên mập mờ hơn. Tài khoản có thể bị hack, được mua hoặc thuê, và một số người dùng "đóng góp" thông tin đăng nhập của họ cho tổ chức đăng bài thay mặt họ. Do đó, các tài khoản "cyborg" được kiểm soát cả bởi thuật toán và con người. Tương tự, những người làm phiền toái đôi khi đăng nội dung chính thức để che đậy hoạt động của họ.
Chúng tôi đã quan sát một phổ biến hành vi đa dạng kết hợp các đặc điểm của bot và con người. Việc ước lượng sự phổ biến của tài khoản không xác thực đòi hỏi áp dụng một phân loại nhị phân đơn giản: tài khoản đáng tin cậy hoặc không đáng tin cậy. Bất kể đường kẻ nào được vẽ, những sai lầm là không tránh khỏi.
Thiếu cái nhìn toàn cảnh
Trong cuộc tranh luận gần đây về việc ước lượng số lượng Twitter bot, vấn đề đơn giản hóa quá và bỏ lỡ điểm quan trọng của việc đo lường sự tổn thương của lạm dụng trực tuyến và sự manipulasi bởi các tài khoản không xác thực.
Screenshot of the BotAmp application comparing likely bot activity around two topics on Twitter.Kaicheng YangBằng chứng gần đây cho thấy tài khoản không xác thực có thể không phải là kẻ chủ mưu duy nhất gây ra sự lan truyền thông tin sai lệch, lời lẽ kích động, chia rẽ và cực đoan. Những vấn đề này thường liên quan đến nhiều người dùng con người. Ví dụ, phân tích của chúng tôi cho thấy rằng thông tin sai lệch về COVID-19 được phổ biến rộng rãi trên cả Twitter và Facebook bởi các tài khoản có xác nhận, các tài khoản nổi tiếng. Thông qua BotAmp, một công cụ mới từ gia đình Botometer mà bất kỳ người dùng Twitter nào cũng có thể sử dụng, chúng tôi đã phát hiện ra rằng sự hoạt động tự động không phải lúc nào cũng phân phối đều. Ví dụ, cuộc thảo luận về tiền điện tử thường thấy có nhiều hoạt động bot hơn so với cuộc thảo luận về mèo. Do đó, liệu tỷ lệ tổng thể có phải là 5% hay 20% cũng ít quan trọng đối với người dùng cá nhân; trải nghiệm của họ với những tài khoản này phụ thuộc vào những người họ theo dõi và những chủ đề họ quan tâm.

Bài viết của Kai-Cheng Yang, Sinh viên Tiến sĩ ngành Tin học, Đại học Indiana và Filippo Menczer, Giáo sư Tin học và Khoa học Máy tính, Đại học Indiana
Bài viết này được tái xuất bản từ The Conversation dưới giấy phép Creative Commons. Đọc bài viết gốc.
