Một Chiêu Thuật Mới Sử Dụng Trí Tuệ Nhân Tạo Để Bẻ Khóa Các Mô Hình AI—Bao Gồm Cả GPT-4

Khi ban quản trị của OpenAI đột ngột sa thải CEO của công ty tháng trước, nó đã tạo ra nghi ngờ rằng các thành viên trong ban giám đốc bị lo lắng về tốc độ phát triển nhanh chóng của trí tuệ nhân tạo và những rủi ro có thể xảy ra khi cố gắng thương mại hóa công nghệ quá nhanh chóng. Robust Intelligence, một startup được thành lập vào năm 2020 để phát triển cách bảo vệ các hệ thống trí tuệ nhân tạo khỏi tấn công, cho biết một số rủi ro hiện tại cần được chú ý nhiều hơn.
Hợp tác với các nhà nghiên cứu từ Đại học Yale, Robust Intelligence đã phát triển một cách có hệ thống để thăm dò các mô hình ngôn ngữ lớn (LLMs), bao gồm cả tài sản quý giá GPT-4 của OpenAI, bằng cách sử dụng các mô hình trí tuệ nhân tạo 'đối đầu' để phát hiện các lệnh kích thích 'bẻ khóa' gây ra sự cố trong các mô hình ngôn ngữ.
Trong khi kịch bản tại OpenAI đang diễn ra, các nhà nghiên cứu đã cảnh báo OpenAI về sự yếu đuối này. Họ nói rằng họ vẫn chưa nhận được phản hồi.
“Điều này thực sự cho thấy có một vấn đề an toàn có hệ thống, mà nó không chỉ được đề cập mà còn không được quan tâm,” Yaron Singer, CEO của Robust Intelligence và giáo sư khoa học máy tính tại Đại học Harvard, nói. “Những gì chúng tôi đã phát hiện ở đây là một cách tiếp cận có hệ thống để tấn công bất kỳ mô hình ngôn ngữ lớn nào.”
Người phát ngôn của OpenAI, Niko Felix, cho biết công ty đang 'biết ơn' những nhà nghiên cứu đã chia sẻ các phát hiện của họ. 'Chúng tôi luôn đang nỗ lực để làm cho mô hình của chúng tôi an toàn hơn và mạnh mẽ hơn trước các tấn công đối đầu, đồng thời vẫn duy trì tính hữu ích và hiệu suất của chúng', Felix nói.
Kỹ thuật bẻ khóa mới liên quan đến việc sử dụng các hệ thống trí tuệ nhân tạo bổ sung để tạo ra và đánh giá các lệnh kích thích khi hệ thống cố gắng thực hiện bẻ khóa bằng cách gửi yêu cầu đến một API. Mánh lới này chỉ là một trong những cuộc tấn công mới nhất trong loạt cuộc tấn công mà có vẻ nhấn mạnh vào các yếu điểm cơ bản trong các mô hình ngôn ngữ lớn và gợi ý rằng các phương pháp hiện tại để bảo vệ chúng còn rất nhiều điểm yếu.
'Tôi chắc chắn lo lắng về sự dễ dàng rõ ràng khi chúng ta có thể phá vỡ những mô hình như vậy,' nói Zico Kolter, một giáo sư tại Đại học Carnegie Mellon, nhóm nghiên cứu của ông đã thể hiện một lỗ hổng lớn trong các mô hình ngôn ngữ lớn vào tháng 8.
Kolter nói rằng một số mô hình hiện nay đã có các biện pháp an toàn có thể chặn một số cuộc tấn công, nhưng ông thêm rằng các yếu điểm là không thể tránh khỏi trong cách mà những mô hình này hoạt động và do đó khó có thể bảo vệ. 'Tôi nghĩ chúng ta cần hiểu rằng những cách phá vỡ như vậy là cố hữu đối với nhiều LLMs,' Kolter nói, 'và chúng ta không có một cách rõ ràng và được xác định tốt để ngăn chặn chúng.'
Mô hình ngôn ngữ lớn gần đây đã trở thành một loại công nghệ mạnh mẽ và biến đổi mới. Tiềm năng của chúng trở thành tin tức hàng đầu khi người dân thường được chinh phục bởi khả năng của ChatGPT của OpenAI, được phát hành chỉ một năm trước đó.
Trong những tháng sau khi ChatGPT được phát hành, việc khám phá các phương pháp bẻ khóa mới trở thành một trò giải trí phổ biến cho người dùng tinh nghịch, cũng như những người quan tâm đến an ninh và độ tin cậy của các hệ thống trí tuệ nhân tạo. Nhưng hiện có hàng chục startup đang xây dựng các mô hình ngôn ngữ lớn trên các sản phẩm thử nghiệm và đã phát triển. OpenAI cho biết tại hội nghị nhà phát triển đầu tiên của mình vào tháng 11 rằng hơn 2 triệu nhà phát triển hiện đang sử dụng các API của họ.
Những mô hình này đơn giản dự đoán văn bản nên theo sau một đầu vào cụ thể, nhưng chúng được đào tạo trên lượng lớn văn bản, từ web và các nguồn số khác nhau, sử dụng số lượng lớn vi mạch máy tính, trong một khoảng thời gian kéo dài nhiều tuần hoặc thậm chí là tháng. Với đủ dữ liệu và huấn luyện, các mô hình ngôn ngữ thể hiện kỹ năng dự đoán giống như người có tài năng, phản ứng với một loạt thông tin đầu vào đặc biệt với thông tin liên quan và hợp lý.
Các mô hình cũng thể hiện các độ chệch được học từ dữ liệu huấn luyện của chúng và có xu hướng tạo ra thông tin giả mạo khi câu trả lời cho một yêu cầu không phải lúc nào cũng rõ ràng. Thiếu các biện pháp an toàn, chúng có thể đưa ra lời khuyên cho người ta về cách thực hiện các hành động như làm thế nào để có được các loại thuốc hoặc làm bom. Để kiểm soát các mô hình, các công ty đằng sau chúng sử dụng cùng một phương pháp được sử dụng để làm cho câu trả lời của chúng trở nên hợp lý và chính xác hơn. Điều này bao gồm việc có con người đánh giá câu trả lời của mô hình và sử dụng phản hồi đó để điều chỉnh mô hình sao cho ít có khả năng mất trật tự.
Robust Intelligence cung cấp cho MYTOUR một số ví dụ về các phương pháp jailbreak mà bỏ qua các biện pháp an toàn như vậy. Không phải tất cả đều hoạt động trên ChatGPT, chatbot được xây dựng trên nền GPT-4, nhưng có một chơi xổ sốu hoạt động, bao gồm một để tạo ra các tin nhắn lừa đảo và một khác để tạo ra ý tưởng để giúp một đối tượng độc hại duy trì ẩn trên mạng máy tính chính phủ.
Một phương pháp tương tự đã được phát triển bởi một nhóm nghiên cứu do Eric Wong, một giáo sư trợ giảng tại Đại học Pennsylvania, dẫn đầu. Phương pháp từ Robust Intelligence và nhóm của ông bao gồm các điều chỉnh bổ sung để hệ thống có thể tạo ra các phương pháp jailbreak với một nửa lần thử nghiệm.
Brendan Dolan-Gavitt, một giáo sư phụ tại Đại học New York nghiên cứu về an ninh máy tính và máy học, cho biết kỹ thuật mới được tiết lộ bởi Robust Intelligence cho thấy rằng việc điều chỉnh của con người không phải là một cách chặt chẽ để bảo vệ mô hình khỏi tấn công.
Dolan-Gavitt nói rằng các công ty đang xây dựng hệ thống trên cơ sở các mô hình ngôn ngữ lớn như GPT-4 nên sử dụng các biện pháp an toàn bổ sung. “Chúng ta cần đảm bảo rằng chúng ta thiết kế các hệ thống sử dụng LLMs sao cho những phương pháp jailbreak không cho phép người sử dụng độc hại tiếp cận những thứ họ không nên có,” ông nói.
