Cách tiếp cận sáng tạo của Cloudflare đang nhận được sự ngợi khen từ cộng đồng công nghệ.
Vào ngày thứ Tư, nhà cung cấp hạ tầng web Cloudflare đã giới thiệu tính năng mới có tên "AI Labyrinth", hay "Mê cung AI", nhằm ngăn chặn việc thu thập dữ liệu trái phép qua AI. AI Labyrinth là một chiến lược đánh lạc hướng, tạo ra nội dung giả mạo từ AI để đánh lừa các bot ăn cắp dữ liệu.
Công cụ này sẽ ngăn chặn các công ty AI thu thập dữ liệu bất hợp pháp từ các website, dữ liệu này thường được dùng để huấn luyện các mô hình ngôn ngữ lớn, nền tảng của các trợ lý AI như , Copilot hay Gemini.

Cloudflare sẽ dẫn dụ các bot vào một mê cung và để chúng bị lạc trong biển nội dung giả mạo được tạo ra bởi AI - Hình minh họa.
Được thành lập từ năm 2009, Cloudflare nổi tiếng là công ty cung cấp dịch vụ hạ tầng và bảo mật cho các trang web, đặc biệt là bảo vệ chống lại các cuộc tấn công từ chối dịch vụ phân tán (DDoS) và các truy cập độc hại khác.
Thay vì chỉ đơn giản là chặn các bot, hệ thống mới của Cloudflare sẽ dẫn dắt các AI vào một "mê cung" gồm các trang giả mạo, toàn bộ là nội dung 'rác', làm tiêu tốn tài nguyên tính toán của các tổ chức thu thập dữ liệu. Đây là một chiến lược khác biệt rõ rệt so với phương pháp phòng thủ và chặn truy cập truyền thống mà hầu hết các dịch vụ bảo vệ web đang áp dụng.
CloudFlare cho biết, việc đơn giản chặn bot có thể phản tác dụng: các tổ chức điều hành bot sẽ nhận thấy dấu hiệu này và hiểu rằng hoạt động thu thập dữ liệu đã bị phát hiện.
"Khi chúng tôi phát hiện hành vi thu thập dữ liệu trái phép, thay vì chặn yêu cầu, chúng tôi sẽ liên kết đến một loạt trang do AI tạo ra, có vẻ thuyết phục để thu hút trình thu thập dữ liệu truy cập", Cloudflare giải thích.
"Mặc dù các trang này trông giống thật, nhưng chúng không phải là nội dung của website mà chúng tôi bảo vệ, khiến trình thu thập dữ liệu phải lãng phí thời gian và tài nguyên", Cloudflare cho biết thêm.

Bot thu thập dữ liệu từ web một cách bất hợp pháp để huấn luyện các mô hình ngôn ngữ lớn - Hình minh họa.
Công ty cho biết nội dung đánh lạc hướng sẽ không liên quan đến trang web bị thu thập dữ liệu, nhưng được lựa chọn và tạo ra cẩn thận từ các dữ kiện khoa học thực tế, như thông tin trung lập về sinh học, vật lý, hay toán học, để tránh việc lan truyền thông tin sai lệch. Tuy nhiên, hiệu quả của phương pháp này trong việc ngăn ngừa thông tin sai lệch vẫn chưa được xác nhận.
Cloudflare tạo ra những nội dung này thông qua dịch vụ Workers AI, nền tảng thương mại thực hiện các tác vụ AI.
Cloudflare thiết kế các trang bẫy và liên kết sao cho chúng được ẩn đi hoặc không thể truy cập bởi người dùng bình thường, để tránh việc người sử dụng vô tình gặp phải khi duyệt web.
Các chuyên gia từ Cloudflare mô tả AI Labyrinth như một “hũ mật thế hệ mới”. Trong lĩnh vực an ninh mạng, thuật ngữ 'hũ mật' (honeypot) chỉ những liên kết ẩn mà người dùng không thể nhìn thấy, nhưng các bot phân tích mã HTML lại có thể phát hiện và thu thập nội dung từ đó.
Tuy nhiên, Cloudflare cho biết các bot hiện đại đã trở nên ngày càng tinh vi và dễ dàng nhận ra những cái bẫy này. Điều này đã thúc đẩy các chuyên gia an ninh mạng sáng tạo những phương pháp đánh lừa phức tạp hơn.

Phương pháp chặn bot đơn giản đã không còn hiệu quả như trước đây - Ảnh: Internet.
"Không ai là người thật sự tìm tới bốn liên kết trong một mê cung đầy nội dung vô nghĩa do AI tạo ra", Cloudflare giải thích. "Bất kỳ ai làm vậy chắc chắn là bot, vì vậy đây là công cụ hoàn toàn mới để chúng tôi nhận diện và xác định dấu vân tay của các bot xấu".
Quá trình nhận diện này sẽ được tích hợp vào một vòng lặp phản hồi dựa trên máy học. Dữ liệu thu thập từ AI Labyrinth sẽ không ngừng cải thiện khả năng phát hiện bot trên toàn bộ hệ thống Cloudflare, nâng cao khả năng bảo vệ người dùng theo thời gian. Tính năng này có thể được kích hoạt ngay cả cho người dùng miễn phí chỉ bằng một thao tác trên bảng điều khiển.
Cuộc “chạy đua vũ trang” giữa kẻ công và người thủ
AI Labyrinth của Cloudflare là công cụ mới trong cuộc chạy đua vũ trang nhằm chống lại hoạt động thu thập dữ liệu triệt để bằng AI.
Vào đầu năm nay, một phần mềm tương tự mang tên "Nepenthes" đã được ra mắt. Cả hai phương pháp này đều dựa trên nguyên lý cốt lõi là làm tốn kém tài nguyên của bot thay vì chặn chúng. Tuy nhiên, trong khi tác giả ẩn danh của Nepenthes mô tả nó như một loại 'phần mềm độc hại' sẽ giam giữ bot trong nhiều tháng, Cloudflare lại xem công cụ của mình như một tính năng bảo mật hợp pháp, dễ dàng kích hoạt trong các dịch vụ thương mại của họ.
Dựa trên dữ liệu từ Cloudflare và các bên khác, quy mô thu thập dữ liệu bằng AI trên mạng đang ngày càng trở nên phức tạp. Công ty cho biết các bot AI gửi hơn 50 tỷ yêu cầu đến mạng lưới của họ mỗi ngày, chiếm gần 1% tổng lưu lượng web mà Cloudflare xử lý.
Nhiều trình thu thập dữ liệu sử dụng AI để thu thập thông tin từ các trang web mà không có sự cho phép từ chủ sở hữu, dẫn đến một loạt các vụ kiện từ các nhà sáng tạo nội dung và nhà xuất bản.

Cloudflare sử dụng AI để chống lại bot - Ảnh: Internet.
Phương pháp sáng tạo này cho thấy doanh nghiệp có thể sử dụng chính AI để chống lại các hệ thống tự động có mục đích xấu. Tuy nhiên, khả năng các bot AI sẽ nhanh chóng thích nghi để phát hiện và né tránh các cái bẫy này vẫn chưa rõ ràng. Nếu điều đó xảy ra, Cloudflare sẽ cần tăng cường độ phức tạp trong chiến thuật lừa đảo của mình. Bên cạnh đó, việc làm tốn tài nguyên của các công ty AI có thể không được lòng những người lo ngại về chi phí năng lượng và tác động môi trường của các mô hình AI.
Cloudflare cho biết đây chỉ là 'phiên bản đầu tiên' trong nỗ lực ứng dụng AI để chống lại bot. Các kế hoạch tương lai bao gồm làm cho nội dung giả mạo khó bị phát hiện hơn, và tích hợp các trang giả mạo này một cách tự nhiên vào cấu trúc trang web.
Cuộc chiến giữa các trang web và bot thu thập dữ liệu vẫn đang tiếp diễn, và AI hiện được sử dụng ở cả hai phía trong cuộc chiến này.
