Lỗ hổng bảo mật lớn nhất của Trí tuệ Nhân tạo Tạo ra không dễ dàng để Sửa chữa

Điều này dễ dàng lừa dối các mô hình ngôn ngữ lớn đang đưa sức mạnh cho các chatbot như ChatGPT của OpenAI và Bard của Google. Trong một thí nghiệm vào tháng 2, các nhà nghiên cứu an ninh đã buộc chatbot của Microsoft Bing hành xử giống như một kẻ lừa đảo. Hướng dẫn ẩn trên một trang web mà các nhà nghiên cứu tạo ra nói với chatbot để yêu cầu người sử dụng nó giao thông chi tiết tài khoản ngân hàng của họ. Loại tấn công này, trong đó thông tin được giấu kín có thể khiến hệ thống Trí tuệ Nhân tạo hành xử theo cách không mong muốn, chỉ là khởi đầu.
Kể từ đó, đã có hàng trăm ví dụ về các cuộc tấn công “tiêm prompt gián tiếp” được tạo ra. Loại tấn công này hiện được coi là một trong những cách đáng lo ngại nhất mà các mô hình ngôn ngữ có thể bị lạm dụng bởi những kẻ hack. Khi các hệ thống Trí tuệ Nhân tạo tạo ra được sử dụng bởi các tập đoàn lớn và các doanh nghiệp khởi nghiệp nhỏ, ngành công nghiệp an ninh mạng đang vật lộn để tăng cường nhận thức về những nguy cơ tiềm ẩn. Khi làm như vậy, họ hy vọng giữ cho dữ liệu—cả cá nhân và doanh nghiệp—an toàn trước các cuộc tấn công. Hiện tại, chưa có giải pháp kỳ diệu nào, nhưng các thực hành an ninh thông thường có thể giảm thiểu rủi ro.
“Tiêm prompt gián tiếp là một vấn đề đáng lo ngại đối với chúng tôi,” nói Vijay Bolina, giám đốc an ninh thông tin tại đơn vị trí tuệ nhân tạo DeepMind của Google, người nói rằng Google đang thực hiện nhiều dự án để hiểu cách Trí tuệ Nhân tạo có thể bị tấn công. Theo quan điểm của Bolina, trước đây, việc tiêm prompt đã được coi là “khó chịu,” nhưng mọi thứ đã tăng tốc kể từ khi người ta bắt đầu kết nối các mô hình ngôn ngữ lớn (LLMs) với internet và các plug-in, có thể thêm dữ liệu mới vào hệ thống. Khi càng nhiều công ty sử dụng LLMs, có thể cung cấp thêm nhiều dữ liệu cá nhân và doanh nghiệp, mọi thứ sẽ trở nên lộn xộn. “Chúng tôi chắc chắn nghĩ rằng đây là một rủi ro, và nó thực sự hạn chế các ứng dụng tiềm năng của LLMs đối với chúng tôi như một ngành công nghiệp,” Bolina nói.
Cuộc tấn công tiêm prompt thuộc hai loại—trực tiếp và gián tiếp. Và chính loại gián tiếp đang gây nhiều lo ngại nhất trong giới chuyên gia an ninh. Khi sử dụng một LLM, người ta đặt câu hỏi hoặc cung cấp hướng dẫn trong các prompt mà hệ thống sau đó trả lời. Cuộc tấn công tiêm prompt trực tiếp xảy ra khi ai đó cố gắng khiến LLM trả lời theo cách không mong muốn—ví dụ như làm cho nó phun ra lời nói chống đối hoặc câu trả lời có hại. Cuộc tấn công tiêm prompt gián tiếp, loại thực sự đáng lo ngại, đưa mọi thứ lên một tầm cao mới. Thay vì người dùng nhập một prompt độc hại, hướng dẫn đến từ một bên thứ ba. Một trang web mà LLM có thể đọc, hoặc một tệp PDF đang được phân tích, có thể, ví dụ, chứa hướng dẫn ẩn cho hệ thống AI tuân theo.
“Rủi ro cơ bản nằm dưới tất cả những vấn đề này, cả đối với hướng dẫn tiêm prompt trực tiếp và gián tiếp, là người cung cấp đầu vào cho LLM có mức độ ảnh hưởng cao đối với đầu ra,” nói Rich Harang, một kiến trúc sư an ninh chính tại Nvidia, nhà sản xuất chip Trí tuệ Nhân tạo lớn nhất thế giới. Nói một cách đơn giản: Nếu ai đó có thể đưa dữ liệu vào LLM, họ có thể tiềm ẩn làm thay đổi những gì nó phun ra.
Các nhà nghiên cứu an ninh đã thể hiện cách tiêm prompt gián tiếp có thể được sử dụng để đánh cắp dữ liệu, làm giả sơ yếu lý lịch của ai đó và chạy mã từ xa trên máy tính. Một nhóm các nhà nghiên cứu an ninh xếp loại tiêm prompt là lỗ hổng an ninh hàng đầu cho những người triển khai và quản lý LLMs. Trung tâm An ninh mạng quốc gia, một chi nhánh của GCHQ, cơ quan tình báo của Anh, thậm chí đã chú ý đến nguy cơ của cuộc tấn công tiêm prompt, nói rằng đã có hàng trăm ví dụ cho đến nay. “Trong khi nghiên cứu về tiêm prompt vẫn đang diễn ra, nó có thể chỉ là một vấn đề vốn có của công nghệ LLM,” chi nhánh của GCHQ cảnh báo trong một bài đăng trên blog. “Có một số chiến lược có thể làm cho tiêm prompt khó hơn, nhưng cho đến nay chưa có biện pháp giảm rủi ro chắc chắn.”
Người phát ngôn của OpenAI, Niko Felix, cho biết tiêm prompt là một lĩnh vực nghiên cứu tích cực, trong khi OpenAI trước đây đã đề cập đến “jailbreaks,” một thuật ngữ khác được sử dụng cho một số cuộc tấn công tiêm prompt. Caitlin Roulston, giám đốc truyền thông của Microsoft, nói rằng công ty có “đội ngũ lớn” đang làm việc về các vấn đề an ninh. “Như một phần của nỗ lực liên tục này, chúng tôi thực hiện các biện pháp để chặn các trang web đáng ngờ, và chúng tôi liên tục cải thiện hệ thống của mình để giúp xác định và lọc các loại prompt như vậy trước khi chúng đến với mô hình,” Roulston nói.
Hệ thống AI có thể đang tạo ra vấn đề mới, nhưng chúng cũng có thể giúp giải quyết chúng. Bolina của Google nói rằng công ty sử dụng “các mô hình được đào tạo đặc biệt” để “giúp xác định đầu vào độc hại đã biết và đầu ra không an toàn đã biết vi phạm chính sách của chúng.” Nvidia đã phát hành một loạt guardrails mã nguồn mở để thêm các ràng buộc cho các mô hình. Nhưng những cách tiếp cận này chỉ có thể đi xa được một phần; không thể biết tất cả các cách mà prompt độc hại có thể được sử dụng. Cả Bolina và Harang của Nvidia đều nói rằng những nhà phát triển và công ty muốn triển khai LLM vào hệ thống của họ nên sử dụng một loạt các quy tắc an ninh hàng đầu của ngành để giảm thiểu rủi ro của các cuộc tấn công tiêm prompt gián tiếp. “Bạn phải suy nghĩ thực sự về cách bạn sẽ tích hợp và triển khai những mô hình này vào các ứng dụng và dịch vụ bổ sung,” Bolina nói.
“Ngay khi bạn nhận đầu vào từ bên thứ ba như internet, bạn không thể tin tưởng LLM nhiều hơn bạn tin tưởng người dùng internet ngẫu nhiên,” Harang nói. “Vấn đề cốt lõi là bạn luôn phải đặt LLM ngoài bất kỳ ranh giới nào của niềm tin, nếu bạn muốn tập trung thực sự vào an ninh.” Trong an ninh mạng, ranh giới niềm tin có thể xác định mức độ mà các dịch vụ cụ thể có thể được tin tưởng và mức độ truy cập của chúng đến các loại thông tin. Tách biệt hệ thống giảm rủi ro. Kể từ khi OpenAI giới thiệu các plug-in cho ChatGPT vào đầu năm nay, họ đã thêm xác thực người dùng, có nghĩa là người ta phải chấp nhận khi plug-in muốn thực hiện một số hành động. Harang nói rằng các công ty nên hiểu rõ ai đã viết plug-in và cách chúng được thiết kế trước khi tích hợp chúng.
Bolina của Google thêm rằng khi kết nối hệ thống với LLMs, mọi người cũng nên tuân theo nguyên tắc an ninh ít đặc quyền, cung cấp hệ thống quyền truy cập tối thiểu vào dữ liệu cần thiết và khả năng thay đổi thấp nhất cần thiết. “Nếu tôi đang yêu cầu một LLM đọc email của tôi, liệu dịch vụ cung cấp giao tiếp đó có cấp cho dịch vụ đó [quyền] để viết email không? Có lẽ không,” ông nói. Cuối cùng, Harang thêm vào, đó là một phiên bản mới của một vấn đề an ninh cũ. “Bề mặt tấn công là mới. Nhưng các nguyên tắc và vấn đề chúng ta đang giải quyết là những vấn đề chúng ta đã đối mặt với suốt hơn 30 năm.”
