Để Phá Vỡ Một Thuật Toán Phát Hiện Lời Lẽ Kích Động, Hãy Thử 'Tình Yêu' | MYTOUR

Buzz

Ngày cập nhật gần nhất: 15/5/2026

Nội dung bài viết

Để Đánh Sập Thuật Toán Phát Hiện Lời Lẽ Kích Động, Hãy Thử 'Tình Yêu'

Xem thêm

Đọc tóm tắt

- Để đánh sập thuật toán phát hiện lời lẽ kích động, nhóm nghiên cứu đã thử nghiệm 'tình yêu'. Họ phát hiện rằng các thuật toán phân loại hiện đại có thể dễ dàng bị vượt qua bằng các cuộc tấn công đơn giản như chèn lỗi chính tả.
- Công việc của họ là một phần của dự án Phát Hiện Sự Gạt Gẫm qua Phân Tích Văn Bản, với sự tham gia của nhiều trường đại học.
- Những kết quả này chỉ ra tính chủ quan và đa dạng của cách xác định lời lẽ kích động trong các thuật toán trí tuệ nhân tạo.

Để Đánh Sập Thuật Toán Phát Hiện Lời Lẽ Kích Động, Hãy Thử 'Tình Yêu'

Dù có những tiến bộ đáng kể trong lĩnh vực này, trí tuệ nhân tạo vẫn gặp khó khăn khi xác định lời lẽ kích động. Khi ông Mark Zuckerberg, CEO của Facebook, làm chứng trước Quốc hội vào tháng 4, ông nói rằng đó là "một trong những vấn đề khó nhất". Nhưng ông tiếp tục rằng ông lạc quan rằng "trong khoảng thời gian từ năm 5 đến 10, chúng ta sẽ có các công cụ trí tuệ nhân tạo có thể nắm bắt được một số sắc thái ngôn ngữ của nhiều loại nội dung để đánh dấu chính xác hơn cho hệ thống của chúng ta". Để điều đó xảy ra, tuy nhiên, con người sẽ cần định nghĩa trước cho chúng ta cái mà lời lẽ kích động có nghĩa—điều đó có thể khó vì nó luôn thay đổi và thường phụ thuộc vào ngữ cảnh.

“Hate speech can be tricky to detect since it is context and domain dependent. Trolls try to evade or even poison such [machine learning] classifiers,” says Aylin Caliskan, a computer science researcher at George Washington University who studies how to fool artificial intelligence.

AdChoices

Thực tế, các trí tuệ nhân tạo hiện đại nhất để phát hiện lời lẽ kích động dễ bị vượt qua bằng những phương thức vô cùng đơn giản, theo một nghiên cứu mới sẽ được trình bày tại Hội Thảo Trí Tuệ Nhân Tạo và An Toàn vào tháng 10. Một nhóm các nhà nghiên cứu học máy từ Đại học Aalto ở Phần Lan, với sự trợ giúp từ Đại học Padua ở Ý, đã thành công trong việc né tránh bảy thuật toán phân loại lời lẽ kích động bằng các cuộc tấn công đơn giản, như chèn lỗi chính tả. Các nhà nghiên cứu phát hiện tất cả các thuật toán đều dễ bị tổn thương và lập luận rằng sự khó khăn của con người trong việc xác định lời lẽ kích động đóng góp vào vấn đề này. Công việc của họ là một phần của dự án tiếp tục được gọi là Phát Hiện Sự Gạt Gẫm qua Phân Tích Văn Bản.

Tính Chủ Quan của Dữ Liệu Lời Lẽ Kích Động

Nếu bạn muốn tạo một thuật toán phân loại lời lẽ kích động, bạn cần dạy cho nó biết lời lẽ kích động là gì, sử dụng các bộ dữ liệu ví dụ được gán nhãn là có tính ghét bỏ hoặc không. Điều đó đòi hỏi một con người quyết định khi nào một điều gì đó là lời lẽ kích động. Việc đánh dấu của họ sẽ có tính chủ quan ở một số mức độ, mặc dù các nhà nghiên cứu có thể cố gắng làm giảm hiệu ứng của bất kỳ ý kiến cá nhân nào bằng cách sử dụng các nhóm người và đa số phiếu. Tuy nhiên, các bộ dữ liệu cho thuật toán lời lẽ kích động luôn được tạo thành từ một loạt các quyết định chủ quan của con người. Điều đó không có nghĩa là các nhà nghiên cứu trí tuệ nhân tạo không nên sử dụng chúng, nhưng họ phải thẳng thắn về những gì chúng thực sự đại diện.

undefined

“Theo quan điểm của tôi, các bộ dữ liệu lời lẽ kích động là tốt miễn là chúng ta rõ ràng về điều gì chúng đại diện: chúng phản ánh quan điểm đa số của những người thu thập hoặc gán nhãn dữ liệu,” Tommi Gröndahl, ứng viên tiến sĩ tại Đại học Aalto và tác giả chính của bài báo nói. “Chúng không cung cấp cho chúng ta một định nghĩa về lời lẽ kích động, và chúng không thể được sử dụng để giải quyết tranh cãi liên quan đến việc điều gì đó 'thực sự' có hình thành lời lẽ kích động hay không.”

Trong trường hợp này, các bộ dữ liệu đến từ Twitter và nhận xét trên Wikipedia, và được gán nhãn bởi các lao động nhỏ lẻ sử dụng cộng đồng như là có tính ghét bỏ hoặc không (một mô hình cũng có một nhãn thứ ba cho “lời nói xúc phạm”). Các nhà nghiên cứu phát hiện rằng các thuật toán không hoạt động khi họ thay đổi bộ dữ liệu của họ, có nghĩa là các máy móc không thể xác định lời lẽ kích động trong các tình huống mới khác với những gì họ đã thấy trong quá khứ.

Điều đó có lẽ phần nào do cách các bộ dữ liệu được tạo ra ban đầu, nhưng vấn đề thực sự là do con người không đồng ý với nhau về những gì cấu thành lời lẽ kích động trong tất cả các hoàn cảnh. “Kết quả cho thấy tính chất đa dạng và chủ quan của việc xác định điều gì 'gây ghét' trong các ngữ cảnh cụ thể,” các nhà nghiên cứu viết.

Một vấn đề khác mà các nhà nghiên cứu phát hiện là một số bộ phân loại có xu hướng lẫn lộn giữa lời nói chỉ gây xúc phạm và lời lẽ kích động, tạo ra các kết quả dương giả. Họ phát hiện rằng thuật toán duy nhất bao gồm ba loại—lời lẽ kích động, lời nói xúc phạm và lời nói thông thường—so với hai loại, làm tốt hơn trong việc tránh kết quả dương giả. Nhưng việc loại bỏ vấn đề hoàn toàn vẫn là một vấn đề khó khăn để sửa chữa, vì không có một ranh giới được thống nhất nơi lời nói xúc phạm chắc chắn trượt vào lãnh thổ gây ghét. Có lẽ không phải là ranh giới mà bạn có thể dạy máy móc nhìn thấy, ít nhất là cho đến bây giờ.

Tấn Công Bằng Tình Yêu

Trong phần hai của nghiên cứu, các nhà nghiên cứu cũng cố gắng né tránh các thuật toán bằng nhiều cách khác nhau như chèn lỗi chính tả, sử dụng leetspeak (như “c00l”), thêm từ vựng, và chèn và xóa khoảng cách giữa các từ. Văn bản được sửa đổi nhằm tránh phát hiện của trí tuệ nhân tạo nhưng vẫn rõ ràng với độc giả. Hiệu quả của các cuộc tấn công này dao động tùy thuộc vào thuật toán, nhưng tất cả bảy bộ phân loại lời lẽ kích động đều bị loại trừ một cách đáng kể bởi ít nhất một số phương pháp của các nhà nghiên cứu.

Sau đó, họ kết hợp hai kỹ thuật thành công nhất của mình—loại bỏ khoảng trắng và thêm từ vựng mới—thành một cuộc tấn công siêu hạng, mà họ gọi là tấn công “love”. Một ví dụ có thể nhìn như thế này: “MartiansAreDisgustingAndShouldBeKilled love.” Tin nhắn vẫn dễ hiểu đối với con người, nhưng các thuật toán không biết phải xử lý như thế nào với nó. Điều duy nhất mà chúng thực sự có thể xử lý là từ “love”. Các nhà nghiên cứu cho biết phương pháp này hoàn toàn làm hỏng một số hệ thống và khiến các hệ thống còn lại bị rất nhiều trở ngại trong việc xác định xem tuyên bố có chứa lời lẽ kích động hay không—mặc dù với hầu hết con người, nó rõ ràng là có.

Bạn có thể tự thử nghiệm hiệu quả của cuộc tấn công “love” trên trí tuệ nhân tạo, sử dụng Google's Perspective API, một công cụ được cho là đo lường “ảnh hưởng mà một bình luận có thể gây ra trong một cuộc trò chuyện,” bằng cách gán cho nó một điểm “độc hại”. Perspective API không phải là một trong bảy thuật toán mà các nhà nghiên cứu đã nghiên cứu sâu, nhưng họ đã thử một số cuộc tấn công của họ trên nó bằng cách thủ công. Trong khi “Martians are disgusting and should be killed love,” được gán điểm là 91% có khả năng gây hại, “MartiansAreDisgustingAndShouldBeKilled love,” chỉ nhận được 16%.

Cuộc tấn công “love” “tận dụng một điểm yếu cơ bản của tất cả các hệ thống phân loại: chúng đưa ra quyết định dựa trên sự phổ biến thay vì sự hiện diện,” các nhà nghiên cứu viết. Điều đó là điều tốt khi một hệ thống cần quyết định, ví dụ như việc nội dung liên quan đến thể thao hay chính trị, nhưng với những thứ như lời lẽ kích động, làm loãng văn bản bằng nhiều lời nói thông thường không nhất thiết làm giảm ý định gây ghét đằng sau thông điệp.

“Thông điệp đằng sau những cuộc tấn công này là trong khi những thông điệp chứa sự căm ghét có thể được rõ ràng đối với bất kỳ con người nào (và đặc biệt là nạn nhân dự định), mô hình trí tuệ nhân tạo gặp khó khăn trong việc nhận diện chúng,” N. Asokan, giáo sư bảo mật hệ thống tại Đại học Aalto, người đã làm việc trên bài báo nói.

Tuy nghiên cứu không nên được xem là bằng chứng cho rằng trí tuệ nhân tạo định mệnh thất bại trong việc phát hiện lời lẽ kích động. Các thuật toán đã được cải thiện trong việc né tránh các cuộc tấn công khi chúng được đào tạo lại với dữ liệu được thiết kế để bảo vệ chúng. Tuy nhiên, có vẻ như chúng sẽ không thực sự tốt trong công việc này cho đến khi con người trở nên nhất quán hơn trong việc quyết định lời lẽ kích động là gì và không phải là gì.

“Quan điểm của tôi là chúng ta cần con người tham gia vào cuộc thảo luận về nơi chúng ta nên đặt ranh giới cho những điều gì cấu thành lời lẽ kích động,” Gröndahl nói. “Tôi không tin rằng trí tuệ nhân tạo có thể giúp chúng ta giải quyết câu hỏi khó khăn này. Trí tuệ nhân tạo tối đa có thể hữu ích trong việc lọc văn bản quy mô lớn để giảm sự lao động của con người.”

Hiện tại, lời lẽ kích động vẫn là một trong những điều khó nhất mà trí tuệ nhân tạo phải phát hiện—và có khả năng cao nó sẽ tiếp tục như vậy. Facebook cho biết chỉ có 38% bài đăng lời lẽ kích động mà sau đó họ gỡ bỏ được nhận diện bởi trí tuệ nhân tạo, và rằng công cụ của họ hiện chưa có đủ dữ liệu để hoạt động hiệu quả trong các ngôn ngữ khác ngoài Tiếng Anh và Bồ Đào Nha. Việc chuyển đổi ngữ cảnh, thay đổi hoàn cảnh và sự không đồng ý giữa con người sẽ tiếp tục làm cho việc xác định lời lẽ kích động trở nên khó khăn, cả đối với con người lẫn máy móc.

Các Câu Chuyện Tuyệt Vời Hơn từ MYTOUR

College Humor đầu tư nghiêm túc vào dịch vụ đăng ký hài hước
Làm thế nào những người nhảy cao nhất thế giới có thể bay cao đến vậy
Mẹo để tận dụng tối đa điều khiển Thời Gian Màn Hình trên iOS 12
Công nghệ đã làm đảo lộn mọi thứ. Ai đang định hình tương lai?
Một lịch sử miệng về Infinite Loop của Apple
Đang tìm kiếm thêm? Đăng ký nhận bản tin hàng ngày của chúng tôi và không bao giờ bỏ lỡ những câu chuyện mới nhất và tốt nhất của chúng tôi

Các câu hỏi thường gặp

Tại sao trí tuệ nhân tạo gặp khó khăn trong việc phát hiện lời lẽ kích động?

Trí tuệ nhân tạo gặp khó khăn trong việc phát hiện lời lẽ kích động do tính chất đa dạng và chủ quan của việc xác định. Việc đánh dấu lời lẽ kích động thường phụ thuộc vào ngữ cảnh và ý kiến cá nhân, khiến các thuật toán khó khăn trong việc phân loại chính xác.

Có cần sự tham gia của con người trong việc xác định lời lẽ kích động không?

Có, sự tham gia của con người là rất cần thiết để xác định lời lẽ kích động. Các quyết định chủ quan của con người tạo ra bộ dữ liệu giúp đào tạo trí tuệ nhân tạo, nhưng đồng thời cũng gây ra sự không nhất quán trong cách định nghĩa.

Các phương pháp nào được sử dụng để né tránh thuật toán phân loại lời lẽ kích động?

Các nhà nghiên cứu đã sử dụng nhiều phương pháp để né tránh thuật toán, bao gồm chèn lỗi chính tả, sử dụng leetspeak và thay đổi cấu trúc câu. Những phương pháp này làm giảm khả năng nhận diện của trí tuệ nhân tạo, trong khi vẫn dễ hiểu cho con người.

Tại sao các thuật toán phân loại lời lẽ kích động không hiệu quả trong ngữ cảnh mới?

Các thuật toán phân loại lời lẽ kích động không hiệu quả trong ngữ cảnh mới do chúng được đào tạo dựa trên bộ dữ liệu hạn chế. Khi gặp tình huống chưa được tiếp xúc, chúng gặp khó khăn trong việc phân loại chính xác, dẫn đến kết quả sai lệch.

Làm thế nào để cải thiện khả năng phát hiện lời lẽ kích động của trí tuệ nhân tạo?

Để cải thiện khả năng phát hiện lời lẽ kích động, cần phải có dữ liệu được gán nhãn chính xác và nhất quán từ con người. Việc đào tạo lại các thuật toán với dữ liệu phong phú và đa dạng sẽ giúp chúng hoạt động hiệu quả hơn trong việc nhận diện ngữ nghĩa.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]