
Dễ dàng lừa các mô hình ngôn ngữ lớn điều khiển các chatbot như ChatGPT của OpenAI và Bard của Google. Trong một thử nghiệm vào tháng 2, các nhà nghiên cứu an ninh đã buộc chatbot Bing của Microsoft hoạt động như một kẻ lừa đảo. Hướng dẫn ẩn trên một trang web mà các nhà nghiên cứu tạo ra cho biết chatbot yêu cầu người sử dụng nó cung cấp chi tiết tài khoản ngân hàng. Loại tấn công này, trong đó thông tin ẩn có thể khiến hệ thống AI hoạt động theo cách không mong muốn, chỉ là khởi đầu.
Kể từ đó, đã có hàng trăm ví dụ về các cuộc tấn công “tiêm mã lệnh gián tiếp” được tạo ra. Loại tấn công này hiện được coi là một trong những cách lo ngại nhất mà các mô hình ngôn ngữ có thể bị lạm dụng bởi hacker. Khi các hệ thống Trí tuệ Nhân tạo tạo ra được sử dụng bởi các tập đoàn lớn và các startup nhỏ, ngành công nghiệp an ninh mạng đang vội vã nâng cao nhận thức về những nguy cơ tiềm ẩn. Họ hy vọng có thể bảo vệ dữ liệu—cả cá nhân và doanh nghiệp—tránh khỏi các cuộc tấn công. Hiện tại không có một giải pháp kỳ diệu nào, nhưng các phương pháp an ninh thông thường có thể giảm thiểu các rủi ro.
“Tiêm mã lệnh gián tiếp chắc chắn là một vấn đề đáng lo ngại đối với chúng tôi,” Vijay Bolina, giám đốc an ninh thông tin tại đơn vị Trí tuệ Nhân tạo DeepMind của Google nói, người cho biết Google đang thực hiện nhiều dự án để hiểu cách AI có thể bị tấn công. Theo Bolina, trước đây, việc tiêm mã lệnh được coi là “gây vấn đề,” nhưng mọi thứ đã tăng tốc kể từ khi người ta bắt đầu kết nối các mô hình ngôn ngữ lớn (LLMs) với internet và các plug-in, có thể thêm dữ liệu mới vào hệ thống. Khi có nhiều công ty sử dụng LLMs hơn, có thể cung cấp cho họ nhiều dữ liệu cá nhân và doanh nghiệp hơn, mọi thứ sẽ trở nên lộn xộn. “Chúng tôi chắc chắn nghĩ rằng đây là một rủi ro, và thực tế nó giới hạn tiềm năng sử dụng LLMs cho chúng tôi làm ngành công nghiệp,” Bolina nói.
Các cuộc tấn công tiêm mã lệnh được chia thành hai loại—trực tiếp và gián tiếp. Và chính loại cuối cùng này đang gây nhiều lo ngại nhất trong số các chuyên gia an ninh. Khi sử dụng LLM, người ta đặt câu hỏi hoặc cung cấp hướng dẫn trong các lời nhắc mà hệ thống sau đó trả lời. Cuộc tấn công tiêm mã lệnh trực tiếp xảy ra khi có người cố gắng làm cho LLM trả lời theo một cách không mong muốn—ví dụ như kích động gây căm phẫn hoặc trả lời gây hại. Cuộc tấn công tiêm mã lệnh gián tiếp, những cái thực sự lo ngại, nâng cao mức độ rủi ro. Thay vì người dùng nhập một lời nhắc độc hại, hướng dẫn đến từ một bên thứ ba. Ví dụ, một trang web mà LLM có thể đọc, hoặc một tập tin PDF đang được phân tích, có thể chứa hướng dẫn ẩn cho hệ thống AI tuân theo.
“Nguy cơ cơ bản đằng sau tất cả những điều này, cả trong trường hợp hướng dẫn trực tiếp và gián tiếp, là người cung cấp đầu vào cho LLM có mức độ tác động cao đối với đầu ra,” nói Rich Harang, một kiến trúc sư bảo mật chính tập trung vào các hệ thống AI tại Nvidia, nhà sản xuất chip AI lớn nhất thế giới. Đơn giản: Nếu ai đó có thể đưa dữ liệu vào LLM, họ có thể tiềm ẩn manipulat liệu nó sẽ trả lại.
Các nhà nghiên cứu an ninh đã chứng minh được cách tiêm mã lệnh gián tiếp có thể được sử dụng để đánh cắp dữ liệu, thao túng hồ sơ cá nhân của ai đó, và chạy mã từ xa trên một máy tính. Một nhóm các nhà nghiên cứu an ninh xếp loại tiêm mã lệnh là lỗ hổng hàng đầu đối với những người triển khai và quản lý LLMs. Trung tâm An ninh mạng Quốc gia, một phần của GCHQ, cơ quan tình báo của Vương quốc Anh, thậm chí đã cảnh báo về nguy cơ của các cuộc tấn công tiêm mã lệnh, nói rằng đã có hàng trăm ví dụ cho đến nay. “Mặc dù việc nghiên cứu về tiêm mã lệnh đang diễn ra, có thể đơn giản là một vấn đề cố hữu với công nghệ LLM,” chi nhánh của GCHQ cảnh báo trong một bài đăng trên blog. “Có một số chiến lược có thể làm cho tiêm mã lệnh khó hơn, nhưng cho đến nay chưa có biện pháp nguyên tắc nào chắc chắn.”
Người phát ngôn của OpenAI, Niko Felix, nói rằng các cuộc tấn công tiêm mã lệnh là một lĩnh vực nghiên cứu tích cực, trong khi OpenAI trước đây đã đề cập đến “jailbreaks,” một thuật ngữ khác được sử dụng cho một số cuộc tấn công tiêm mã lệnh. Caitlin Roulston, giám đốc truyền thông tại Microsoft, cho biết công ty có “đội ngũ lớn” đang làm việc về các vấn đề bảo mật. “Là một phần của nỗ lực liên tục này, chúng tôi thực hiện hành động để chặn các trang web đáng ngờ, và chúng tôi liên tục cải thiện hệ thống của mình để giúp nhận diện và lọc loại lời nhắc này trước khi chúng đến với mô hình,” Roulston nói.
Hệ thống Trí tuệ Nhân tạo có thể đang tạo ra các vấn đề mới, nhưng chúng cũng có thể giúp giải quyết chúng. Bolina của Google nói rằng công ty sử dụng “các mô hình được đào tạo đặc biệt” để “giúp nhận diện các đầu vào độc hại đã biết và đầu ra không an toàn đã vi phạm chính sách của chúng tôi.” Nvidia đã phát hành một loạt guardrails mã nguồn mở để thêm hạn chế vào các mô hình. Nhưng các phương pháp này chỉ có thể đi được một quãng đường nhất định; không thể biết được tất cả các cách mà các lời nhắc độc hại có thể được sử dụng. Cả Bolina và Harang của Nvidia đều nói rằng các nhà phát triển và công ty muốn triển khai LLMs vào hệ thống của họ nên sử dụng một loạt các phương pháp tốt nhất trong ngành an ninh để giảm thiểu các rủi ro của cuộc tấn công tiêm mã lệnh gián tiếp. “Bạn phải suy nghĩ thực sự về cách bạn sẽ tích hợp và triển khai các mô hình này vào các ứng dụng và dịch vụ bổ sung,” Bolina nói.
“Ngay khi bạn đang nhận đầu vào từ bên thứ ba như internet, bạn không thể tin tưởng vào LLM nhiều hơn là bạn tin tưởng vào một người dùng internet ngẫu nhiên,” Harang nói. “Vấn đề cốt lõi là bạn luôn phải đặt LLM ngoài bất kỳ ranh giới tin cậy nào, nếu bạn muốn thực sự tập trung vào an ninh.” Trong lĩnh vực an ninh mạng, ranh giới tin cậy có thể xác lập mức độ mà các dịch vụ cụ thể có thể được tin cậy và mức độ truy cập chúng có thể đạt được vào các loại thông tin. Tách rời hệ thống giảm thiểu rủi ro. Kể từ khi giới thiệu plug-in cho ChatGPT vào đầu năm nay, OpenAI đã thêm xác thực người dùng, có nghĩa là người dùng phải phê duyệt khi plug-in muốn thực hiện một số hành động. Harang nói rằng các công ty nên hiểu ai viết plug-in và cách chúng được thiết kế trước khi tích hợp chúng.
Bolina của Google cũng bổ sung rằng khi kết nối hệ thống với LLMs, người dùng cũng nên tuân theo nguyên tắc an ninh mạng ít đặc quyền nhất, đưa ra hệ thống quyền truy cập tối thiểu vào dữ liệu cần thiết và khả năng thấp nhất để thực hiện các thay đổi cần thiết. “Nếu tôi yêu cầu một LLM đọc email của tôi, liệu lớp dịch vụ cung cấp tương tác đó có cấp quyền cho dịch vụ [khả năng] ghi email không? Có lẽ không,” ông nói. Cuối cùng, Harang bổ sung, đó là một phiên bản mới của một vấn đề an ninh cũ. “Bề mặt tấn công là mới. Nhưng các nguyên tắc và các vấn đề chúng ta đang đối mặt là những vấn đề chúng ta đã phải đối mặt suốt hơn 30 năm qua,” ông nói.
