Săn Lùng Bot Chủ Yếu Là Về Cảm Nhận

Christopher Bouzy đang cố gắng giữ bước trước bots. Là người đứng sau Bot Sentinel, một hệ thống phát hiện bot phổ biến, ông và đội ngũ của mình liên tục cập nhật các mô hình học máy của họ vì sợ chúng sẽ trở nên 'lạc hậu.' Nhiệm vụ? Sắp xếp 3.2 triệu tweets từ các tài khoản bị đình chỉ vào hai thư mục: 'Bot' hoặc 'Không phải Bot.'
Để phát hiện bot, các mô hình của Bot Sentinel phải trước tiên học được hành vi gây vấn đề thông qua việc tiếp xúc với dữ liệu. Bằng cách cung cấp cho mô hình các tweets thuộc hai danh mục khác nhau - bot hoặc không phải bot - mô hình của Bouzy có thể điều chỉnh chính mình và có thể tìm ra bản chất của những gì, theo ông, làm cho một tweet gây vấn đề.
Dữ liệu đào tạo là trái tim của mọi mô hình học máy. Trong lĩnh vực phát hiện bot đang nổi, cách mà những người săn lùng bot định nghĩa và gắn nhãn tweets quyết định cách hệ thống của họ hiểu và phân loại hành vi giống bot. Theo các chuyên gia, điều này có thể là nghệ thuật hơn là khoa học. “Cuối cùng, đó là về cảm nhận khi bạn đang gắn nhãn,” Bouzy nói. “Đó không chỉ là về từ trong tweet, ngữ cảnh quan trọng.”
Anh ấy là Bot, Cô ấy là Bot, Ai cũng là Bot
Trước khi ai đó có thể săn lùng bot, họ cần phải xác định điều gì là một bot - và câu trả lời đó thay đổi tùy thuộc vào người bạn hỏi. Internet đầy người đổ lỗi cho nhau là bot chỉ vì những khác biệt chính trị nhỏ. Trolls được gọi là bot. Những người không có ảnh đại diện và ít tweet hoặc người theo dõi được gọi là bot. Ngay cả giữa những người săn lùng bot chuyên nghiệp, câu trả lời khác nhau.
Bot Sentinel được đào tạo để loại bỏ những tài khoản mà Bouzy gọi là 'tài khoản gây vấn đề' - không chỉ là tài khoản tự động. Giáo sư tin học và khoa học máy tại Đại học Indiana Filippo Menczer nói rằng công cụ mà ông giúp phát triển, Botometer, định nghĩa bot là những tài khoản ít nhất là một phần do phần mềm điều khiển. Kathleen Carley là giáo sư khoa học máy tại Viện Nghiên cứu Phần mềm tại Đại học Carnegie Mellon và đã giúp phát triển hai công cụ phát hiện bot: BotHunter và BotBuster. Carley định nghĩa một bot là 'một tài khoản được vận hành bằng phần mềm hoàn toàn tự động', một định nghĩa khớp với định nghĩa của Twitter. “Bot là một tài khoản tự động - không hơn không kém,” công ty viết trong một bài đăng blog tháng 5 năm 2020 về thao tác nền tảng.
Nhưng như những định nghĩa khác nhau, kết quả mà những công cụ này tạo ra không luôn luôn khớp nhau. Một tài khoản được đánh dấu là bot bởi Botometer, ví dụ, có thể trở lại với Bot Sentinel một cách hoàn toàn giống con người, và ngược lại.
Một số điều này là theo thiết kế. Không giống như Botometer, mục tiêu của nó là xác định tài khoản tự động hoặc tự động một phần, Bot Sentinel đang săn lùng những tài khoản tham gia vào trolling độc hại. Theo Bouzy, bạn biết những tài khoản này khi bạn nhìn thấy chúng. Chúng có thể tự động hoặc do con người kiểm soát, và chúng tham gia vào quấy rối hoặc lan truyền thông tin sai lệch và vi phạm điều khoản dịch vụ của Twitter. “Chỉ là cái tồi tệ nhất,” Bouzy nói.
Botometer được duy trì bởi Kaicheng Yang, một sinh viên tiến sĩ ngành tin học ứng dụng tại Trạm quan sát truyền thông xã hội tại Đại học Indiana, người đã tạo ra công cụ này với Menczer. Công cụ cũng sử dụng học máy để phân loại bot, nhưng khi Yang đang đào tạo mô hình của mình, ông không nhất thiết đang tìm kiếm hành vi quấy rối hoặc vi phạm điều khoản dịch vụ. Ông chỉ đang tìm kiếm bot. Theo Yang, khi ông đánh nhãn dữ liệu đào tạo của mình, ông đặt ra cho mình một câu hỏi: 'Tôi có tín nhiệm rằng tweet đó đến từ một người hay từ một thuật toán không?'
Cách Đào Tạo Một Thuật Toán
Không chỉ có sự đồng thuận về cách định nghĩa một bot, mà còn không có tiêu chí hoặc tín hiệu rõ ràng nào mà bất kỳ nghiên cứu viên nào có thể chỉ ra là dự đoán chính xác liệu một tài khoản có phải là bot hay không. Những người săn lùng bot tin rằng việc ti exposhơ một thuật toán với hàng ngàn hoặc triệu tài khoản bot giúp máy tính phát hiện ra hành vi giống bot. Nhưng sự hiệu quả mục tiêu của bất kỳ hệ thống phát hiện bot nào đó bị làm mờ bởi việc con người vẫn phải đưa ra quyết định về dữ liệu nào để sử dụng để xây dựng nó.
Ví dụ, hãy xem Botometer. Yang nói rằng Botometer được đào tạo trên các tweet từ khoảng 20.000 tài khoản. Trong khi một số tài khoản này tự nhận mình là bot, đa số được phân loại thủ công bởi Yang và một nhóm nghiên cứu trước khi được xử lý bởi thuật toán. (Menczer nói rằng một số tài khoản được sử dụng để đào tạo Botometer đến từ bộ dữ liệu từ các nghiên cứu khác được đánh giá bởi đồng nghiệp. “Chúng tôi cố gắng sử dụng tất cả dữ liệu mà chúng tôi có thể có được, miễn là nó đến từ một nguồn đáng tin cậy,” ông nói.)
Có một chất thần bí trong cách Yang nói về cách nhóm đào tạo Random Forest, thuật toán học máy được giám sát nằm ở trung tâm của Botometer. “Khi tôi yêu cầu người khác gán nhãn cho các tài khoản, tôi không đưa ra quá nhiều hướng dẫn cụ thể,” Yang nói. “Có những tín hiệu trong bot khó mô tả nhưng con người chú ý.” Nói cách khác, nhóm Botometer đang cố gắng tích hợp một số bản năng con người giúp con người phát hiện ai là người và ai không phải.
Sau khi những tài khoản này được gắn nhãn, mô hình của Botometer xử lý hơn một nghìn đặc điểm của mỗi loại tài khoản, theo Menczer. Ví dụ, mô hình xem xét bao nhiêu phần loại xuất hiện trong văn bản của một tweet. Nó cũng xem xét cảm xúc, khi tài khoản được tạo, và số lượng tweet hoặc retweet mà nó có. Thời gian cũng là một yếu tố, theo Menczer. “Tài khoản tweet bao nhiêu lần? Bao nhiêu lần trong một ngày? Bao nhiêu lần trong một tuần? Phân phối của khoảng cách là gì?” Nếu một tài khoản tweet suốt ngày mà không có đủ thời gian nghỉ ngơi để ngủ, ví dụ, nó có thể là một bot. Những đầu vào này, cùng với những đầu vào khác, cân chỉnh cẩn thận một cây quyết định quy định cách mô hình đánh giá các tài khoản mà nó không quen biết. “Vì vậy, nó hơi phức tạp,” Menczer nói.
Công cụ cũng đang phát triển. Botometer bạn có thể sử dụng ngày nay là phiên bản thứ tư của công cụ, theo Menczer, và nó được đào tạo bằng các bộ dữ liệu mới tính đến những thay đổi trong hành vi bot. “Chúng tôi thêm bộ dữ liệu mới, chúng tôi thêm tính năng mới. Đôi khi chúng tôi loại bỏ những tính năng mà chúng tôi không còn nghĩ là hữu ích nữa,” ông nói.
Gần đây, nhóm Botometer nhận ra rằng các tài khoản bot thường sử dụng ảnh được tạo bằng trí tuệ nhân tạo trong hồ sơ Twitter của họ. Họ đã tìm hiểu rằng đôi mắt trên những khuôn mặt giả mạo này tuân theo một mẫu: Chúng ở vị trí giống nhau. Việc tích hợp hình ảnh của các khuôn mặt được tạo bởi một thuật toán vào dữ liệu đào tạo của Botometer và đánh dấu chúng như là bot có thể giúp công cụ nhận biết các tài khoản sử dụng hình ảnh tương tự trong hồ sơ của họ.
Tính Cách Lỗi Lạc
Mặc dù có nhiều công sức được bỏ ra để tạo ra những công cụ này, lĩnh vực săn bot vẫn không thiếu những người phê phán. Darius Kazemi, một kỹ sư tại Meedan, một tổ chức phi lợi nhuận hoạt động trong lĩnh vực thông tin sai lệch, không ngần ngại thể hiện sự nghi ngờ của mình về phần mềm phát hiện bot. “Tôi nghĩ rằng giả thuyết cơ bản về phát hiện bot là thiếu sót, và tôi không nghĩ nó sẽ trở nên tốt hơn,” ông nói. Một phần của lý do này, theo Kazemi, là do “nội dung gây vấn đề” không phải là một thước đo chuẩn.
Đối với Kazemi, săn bot dựa vào niềm tin và tư tưởng. “Nếu bạn có cùng tư tưởng với những người phát triển bot, thì những công cụ này sẽ đưa ra tín hiệu bạn đang tìm kiếm,” ông nói.
Bouzy và Yang chia sẻ những lo ngại tương tự về độ chệch lệch và họ đã triển khai biện pháp để chống lại nó. Bot Sentinel chủ yếu được đào tạo bằng các tweet từ người dùng mà Twitter đã xác định là gây vấn đề, sử dụng chính sách của Twitter làm điểm chuẩn. “Chúng tôi vẫn sử dụng sự đánh giá của chúng tôi khi gắn nhãn cho các tweet, nhưng ít nhất chúng tôi có một điểm khởi đầu,” Bouzy nói. “Chúng tôi cố gắng hạn chế độ chệch, nhưng không may mắn thay, không có hệ thống nào là hoàn hảo. Tuy nhiên, chúng tôi tin rằng Bot Sentinel là công cụ có sẵn công khai chính xác nhất để xác định các tài khoản gây rối và gây vấn đề.”
Botometer cố gắng có nhiều nhà nghiên cứu nhất có thể gắn nhãn cho các tweet để giảm thiểu độ chệch của Yang. Nhóm cũng đưa dữ liệu đào tạo với các đầu vào phi truyền thống. “Ví dụ, chúng tôi mua người theo dõi giả mạo mà chúng tôi biết là bot và sử dụng những tài khoản đó để đào tạo mô hình,” Yang nói. “Chúng tôi cũng có thể kiểm tra mô hình của mình bằng cách kiểm tra xem tài khoản được đánh dấu là bot có bị đình chỉ không.” Tất cả dữ liệu này được công bố công khai và mở để kiểm tra. “Chúng tôi thử nghiệm cách khác nhau để làm cho nó càng chắc chắn càng tốt.”
Menczer nói rằng tranh cãi về phát hiện bot thường nằm ở những độ chệch của con người - mọi người tin tưởng hoàn toàn vào các công cụ như vậy hoặc mong đợi chúng có thể làm điều gì đó vượt ra ngoài khả năng của chúng. “Một công cụ có thể hữu ích, nhưng nó phải được sử dụng đúng cách,” ông nói. Giống như những công cụ này không nên được sử dụng làm bằng chứng cho việc người mà bạn theo dõi là một con bot, Menczer nói, cũng không chính xác khi kết luận rằng lỗi trong hệ thống là bằng chứng cho việc nó hoạt động không tốt chút nào.
Đầy Rẫy Bots
Bất kể những gì những mô hình săn bot này đã học được để phát hiện, rõ ràng là chúng đang phát hiện điều gì đó. Bot Sentinel và Botometer đã trở thành những công cụ ưa thích của các nhà nghiên cứu về thông tin sai lệch và cả hai đều tuyên bố có một lịch sử thành công trong việc đánh dấu tài khoản trước khi Twitter đình chỉ chúng.
Kazemi vẫn chưa tin vào giá trị của việc phát hiện bot. “Nó đang đo đạc một cái gì đó,” ông nói. “Nhưng câu hỏi thực sự là liệu bạn có thể đưa ra những quyết định hữu ích dựa trên các tín hiệu từ những dịch vụ này hay không. Tôi nói là không.”
Menczer thừa nhận rằng các công cụ phát hiện bot không luôn chính xác nhưng nói rằng chúng không cần phải hoàn hảo để có ích. “Đúng, sẽ có một số sai sót - chắc chắn. Đó là bản chất của máy học, phải không?” ông nói. “Vâng, công cụ mắc lỗi. Điều đó không có nghĩa là nó là vô ích. Nhưng cũng vấn đề khó, nên bạn không nên sử dụng công cụ mù quáng.”
Lĩnh vực nghiên cứu này cũng mới và đang phát triển nhanh chóng - giống như những con bot. Carley của Carnegie Mellon nhấn mạnh rằng các nhà nghiên cứu đã tập trung vào các bot trên Twitter vì chúng là công cộng và do đó là có thể tiếp cận. Nhưng bot trên Twitter không đơn độc. Và nếu không có công cụ có thể nhận diện bot ở quy mô lớn và loại bỏ những con nguy hiểm, internet sẽ trở nên quá tải hơn là đã có.
Cập nhật 9-30-22, 4:25 chiều ET: Bài viết này đã được cập nhật để làm rõ rằng Bot Sentinel được đào tạo để xác định các tài khoản gặp vấn đề, không chỉ đơn giản là tài khoản tự động hóa hoặc tự động hóa một phần.
Cập nhật 10-3-22, 12:30 sáng ET: Chúng tôi đã làm rõ một đoạn văn mô tả một ví dụ về tính năng mà Botometer có thể phát triển bằng cách sử dụng vị trí mắt của hình ảnh hồ sơ được tạo bởi trí tuệ nhân tạo.
