Điều đáng lo ngại hơn là các phương pháp phòng thủ hiện tại - chủ yếu dựa vào bộ lọc đầu vào (prompt filtering) - không đủ khả năng chống lại các cuộc tấn công ngữ cảnh này.
Một nghiên cứu gần đây từ Đại học Princeton (Mỹ) đã thu hút sự chú ý khi cảnh báo rằng các tác nhân AI (AI agents) trong lĩnh vực tài chính đang tiềm ẩn nguy cơ bảo mật nghiêm trọng, đặc biệt khi chúng được cấp quyền truy cập vào ví tiền mã hóa, hợp đồng thông minh và các công cụ Web3 khác. Báo cáo mang tiêu đề “Tác nhân AI thật, ký ức giả: Tấn công thao túng ngữ cảnh nguy hiểm với tác nhân Web3” đã chỉ ra rằng AI có thể bị lừa qua các ngữ cảnh bị can thiệp, dẫn đến những hành vi cực kỳ nguy hiểm.
Trong khi đa số mọi người vẫn đang nỗ lực làm việc để kiếm sống, tại “miền Tây hoang dã” của Web3 năm 2025, một số người đang tận dụng AI agent để tự động hóa việc đầu tư và giao dịch tài sản kỹ thuật số. Các bot này có thể thay con người thực hiện mọi hành động, từ chuyển tiền đến ký hợp đồng thông minh. Tuy nhiên, các nhà nghiên cứu cảnh báo rằng điều này có thể là một canh bạc với chính tài sản của bạn.

Ảnh minh họa
Tấn công prompt (prompt injection) - kỹ thuật sử dụng ngôn ngữ để đánh lừa AI vượt qua các lớp bảo mật - đã thu hút sự chú ý và nỗ lực khắc phục từ cộng đồng kỹ thuật. Tuy nhiên, nhóm nghiên cứu từ Princeton chỉ ra một lỗ hổng lớn hơn và nguy hiểm hơn: AI có thể bị “tiêm” vào “trí nhớ giả”, dẫn đến việc sai lệch ngữ cảnh đã được lưu trữ. Khi ngữ cảnh bị thao túng, AI có thể hành động dựa trên thông tin sai lệch, như nghĩ rằng bạn đã đồng ý chuyển tiền hoặc tin rằng lệnh của hacker là hợp pháp.
Để minh chứng cho mức độ nghiêm trọng, nhóm nghiên cứu đã triển khai thử nghiệm tấn công trên một nền tảng thực tế tên ElizaOS, một hệ thống agent mã nguồn mở cho phép xử lý nhiều người dùng cùng lúc. Trong môi trường này, nếu một tác nhân AI chia sẻ ngữ cảnh với nhiều người dùng và có một người bị tấn công, cả hệ thống có thể bị phá vỡ. Các nhà nghiên cứu cảnh báo: “Chỉ một tác nhân xấu có thể làm hỏng cả hệ thống.”
Mối nguy hiểm còn lớn hơn khi các biện pháp bảo vệ hiện tại, chủ yếu dựa vào bộ lọc đầu vào (prompt filtering), không đủ mạnh để đối phó với các cuộc tấn công ngữ cảnh này. Những “trí nhớ giả” được cài vào có thể tồn tại lâu dài và thậm chí được duy trì qua nhiều phiên làm việc, nhiều ứng dụng khác nhau, gây ra nguy cơ mất kiểm soát hoàn toàn.
Nhóm nghiên cứu khuyến cáo người dùng không nên giao phó quyền kiểm soát tài chính cho AI agent vào thời điểm hiện tại, đặc biệt là đối với các công việc như chuyển tiền hoặc ký kết hợp đồng có ràng buộc. Họ cũng đưa ra hai giải pháp trước mắt: thứ nhất, cải thiện quy trình huấn luyện mô hình AI để tăng khả năng chống lại các cuộc tấn công; thứ hai, thiết kế lại cơ chế lưu trữ “ký ức” cho AI, bảo đảm không bị thay đổi một cách âm thầm và có thể ngăn cách tuyệt đối giữa các tương tác.
Anh Việt
