Việc Đột Nhập vào ChatGPT Đang Mới Bắt Đầu

Chỉ mất vài giờ, Alex Polyakov đã phá vỡ GPT-4. Khi OpenAI phát hành phiên bản mới nhất của chatbot tạo văn bản của mình vào tháng Ba, Polyakov ngồi xuống trước bàn phím và bắt đầu nhập các yêu cầu được thiết kế để bypass hệ thống an toàn của OpenAI. Chẳng bao lâu sau đó, CEO của công ty an ninh Adversa AI đã khiến GPT-4 phát ngôn những tuyên bố kỳ thị đồng tính, tạo ra email lừa đảo và ủng hộ bạo lực.
Polyakov là một trong số ít các nhà nghiên cứu an ninh, chuyên gia công nghệ và nhà khoa học máy tính đang phát triển các phương pháp jailbreak và tấn công chèn yêu cầu vào ChatGPT và các hệ thống trí tuệ nhân tạo sáng tạo khác. Quá trình jailbreaking nhằm thiết kế yêu cầu khiến chatbot bypass quy tắc về việc tạo nội dung kỳ thị hoặc viết về các hành động bất hợp pháp, trong khi các cuộc tấn công chèn yêu cầu liên quan có thể chèn dữ liệu hay hướng dẫn độc hại vào các mô hình trí tuệ nhân tạo.
Cả hai phương pháp đều cố gắng khiến một hệ thống thực hiện điều gì đó mà nó không được thiết kế để làm. Những cuộc tấn công này đơn giản là một hình thức hacking—tuy nhiên không theo kiểu thông thường—sử dụng các câu được chế tạo và làm rõ cẩn thận, thay vì mã code, để khai thác nhược điểm của hệ thống. Trong khi loại tấn công này chủ yếu được sử dụng để vượt qua bộ lọc nội dung, các nhà nghiên cứu an ninh cảnh báo rằng việc triển khai hối hả các hệ thống trí tuệ nhân tạo sáng tạo mở ra khả năng dữ liệu bị đánh cắp và tội phạm mạng gây rối khắp nơi trên web.
Nhấn mạnh sự lan rộng của vấn đề, Polyakov hiện đã tạo ra một "universal" jailbreak, hoạt động đối với nhiều mô hình ngôn ngữ lớn (LLMs)—bao gồm GPT-4, hệ thống trò chuyện Bing của Microsoft, Bard của Google và Claude của Anthropic. Jailbreak, được báo cáo đầu tiên bởi MYTOUR, có thể đánh lừa các hệ thống để tạo ra hướng dẫn chi tiết về cách tạo meth và cách hotwire một chiếc xe.
Jailbreak hoạt động bằng cách yêu cầu LLMs tham gia một trò chơi, trong đó có hai nhân vật (Tom và Jerry) có một cuộc trò chuyện. Các ví dụ được chia sẻ bởi Polyakov cho thấy nhân vật Tom được hướng dẫn nói về "hotwiring" hoặc "sản xuất," trong khi Jerry được đặt chủ đề về "xe hơi" hoặc "meth." Mỗi nhân vật được yêu cầu thêm một từ vào cuộc trò chuyện, tạo ra một kịch bản hướng dẫn người ta tìm dây đánh lửa hoặc nguyên liệu cụ thể cần thiết cho quá trình sản xuất methamphetamine. "Một khi doanh nghiệp triển khai các mô hình AI theo quy mô, những ví dụ jailbreak 'đồ chơi' như vậy sẽ được sử dụng để thực hiện các hoạt động tội phạm và tấn công mạng thực tế, rất khó phát hiện và ngăn chặn," Polyakov và Adversa AI viết trong một bài đăng trên blog chi tiết về nghiên cứu.
Arvind Narayanan, giáo sư khoa học máy tính tại Đại học Princeton, cho biết rủi ro từ jailbreaks và tấn công chèn yêu cầu sẽ trở nên nghiêm trọng hơn khi chúng được truy cập vào dữ liệu quan trọng. "Hãy tưởng tượng hầu hết mọi người sử dụng trợ lý cá nhân dựa trên LLMs thực hiện nhiệm vụ như đọc email của người dùng để tìm lời mời lịch," Narayanan nói. Nếu có một cuộc tấn công chèn yêu cầu thành công đối với hệ thống, nói với nó bỏ qua tất cả các hướng dẫn trước đó và gửi email đến tất cả các liên hệ, có thể xảy ra vấn đề lớn, Narayanan nói. "Điều này sẽ dẫn đến một loại sâu lan nhanh chóng trên internet."
Lối Thoát
"Jailbreaking" trước đây thường được áp dụng để loại bỏ các hạn chế nhân tạo trong, ví dụ, iPhones, cho phép người dùng cài đặt ứng dụng không được phê duyệt bởi Apple. Jailbreaking LLMs tương tự—và sự phát triển đã diễn ra nhanh chóng. Kể từ khi OpenAI phát hành ChatGPT cho công chúng vào cuối tháng 11 năm ngoái, mọi người đã tìm cách để thao túng hệ thống. "Việc viết jailbreaks rất đơn giản," nói Alex Albert, một sinh viên khoa học máy tính của Đại học Washington, tạo ra một trang web thu thập jailbreak từ internet và những cái mà anh ấy đã tạo ra. "Những cái chính thức là những thứ mà tôi gọi là mô phỏng nhân vật," Albert nói.
Ban đầu, mọi người chỉ cần yêu cầu mô hình văn bản sáng tạo giả vờ hoặc tưởng tượng rằng nó là cái gì khác. Nói với mô hình rằng nó là một con người và là không đạo đức, nó sẽ bỏ qua các biện pháp an toàn. OpenAI đã cập nhật hệ thống của mình để bảo vệ khỏi loại jailbreak này—thông thường, khi một jailbreak được tìm thấy, nó thường chỉ hoạt động trong một khoảng thời gian ngắn cho đến khi bị chặn.
Kết quả là, tác giả jailbreak đã trở nên sáng tạo hơn. Jailbreak nổi bật nhất là DAN, trong đó ChatGPT được yêu cầu giả vờ nó là một mô hình AI quậy gọi là Do Anything Now. Điều này có thể, như tên gọi, tránh các chính sách của OpenAI đặt ra rằng ChatGPT không nên được sử dụng để sản xuất nội dung bất hợp pháp hoặc có hại. Đến nay, mọi người đã tạo ra khoảng một chục phiên bản khác nhau của DAN.
Tuy nhiên, nhiều jailbreak gần đây liên quan đến sự kết hợp của các phương pháp—nhiều nhân vật, câu chuyện nền ngày càng phức tạp, dịch văn bản từ một ngôn ngữ sang ngôn ngữ khác, sử dụng yếu tố lập trình để tạo ra đầu ra, và nhiều hơn nữa. Albert nói rằng đã khó khăn hơn để tạo ra jailbreak cho GPT-4 so với phiên bản trước của mô hình đang vận hành ChatGPT. Tuy nhiên, anh ấy khẳng định vẫn tồn tại một số phương pháp đơn giản. Một phương pháp gần đây mà Albert gọi là "tiếp tục văn bản" nói rằng một anh hùng đã bị bắt cóc bởi một kẻ phản diện, và câu đề nghị yêu cầu máy tạo văn bản tiếp tục giải thích kế hoạch của kẻ phản diện.
Khi chúng tôi kiểm thử đoạn gợi ý, nó không hoạt động, với ChatGPT nói rằng nó không thể tham gia vào các tình huống thúc đẩy bạo lực. Trong khi đó, đoạn gợi ý "tổng quát" được tạo ra bởi Polyakov lại hoạt động trên ChatGPT. OpenAI, Google và Microsoft đều không trực tiếp trả lời các câu hỏi về jailbreak do Polyakov tạo ra. Anthropic, quản lý hệ thống trí tuệ nhân tạo Claude, nói rằng jailbreak "đôi khi hoạt động" trên Claude, và họ đang liên tục cải thiện mô hình của mình.
"Khi chúng ta trao cho những hệ thống này ngày càng nhiều quyền lực, và khi chúng trở nên mạnh mẽ hơn, đó không chỉ là một điều mới mẻ, đó là một vấn đề về an ninh," nói Kai Greshake, một nghiên cứu viên an ninh mạng đang làm việc về an ninh của LLMs. Greshake, cùng với các nhà nghiên cứu khác, đã chứng minh làm thế nào LLMs có thể bị ảnh hưởng bởi văn bản mà chúng được tiếp xúc trực tuyến thông qua các cuộc tấn công tiêm prompt.
Trong một bài nghiên cứu được công bố vào tháng 2, được đưa tin bởi Vice’s Motherboard, các nhà nghiên cứu đã cho thấy một kẻ tấn công có thể đặt hướng dẫn độc hại trên một trang web; nếu hệ thống chat của Bing được truy cập vào các hướng dẫn đó, nó sẽ tuân theo. Các nhà nghiên cứu đã sử dụng kỹ thuật này trong một bài kiểm tra kiểm soát để biến Bing Chat thành một kẻ lừa đảo yêu cầu thông tin cá nhân của mọi người. Trong một trường hợp tương tự, Narayanan của Princeton đã bao gồm văn bản vô hình trên một trang web yêu cầu GPT-4 thêm từ "bò" vào một bài tiểu sử về anh ấy—nó đã làm như vậy khi anh ấy kiểm tra hệ thống.
"Bây giờ jailbreak có thể xảy ra không chỉ từ người dùng," nói Sahar Abdelnabi, một nhà nghiên cứu tại Trung tâm An ninh thông tin CISPA Helmholtz ở Đức, người đã làm việc trên nghiên cứu với Greshake. "Có thể một người khác sẽ lên kế hoạch để thực hiện một số jailbreaks, sẽ lên kế hoạch để có những đoạn gợi ý có thể được mô hình thu hồi và gián tiếp kiểm soát cách mô hình sẽ hành xử."
Không có giải pháp nhanh chóng
Các hệ thống trí tuệ nhân tạo sáng tạo đang đẩy mạnh sự đảo lộn trong nền kinh tế và cách mọi người làm việc, từ ngành luật sư đến việc tạo ra đợt đổ mồi khởi nghiệp. Tuy nhiên, những người tạo ra công nghệ này đều nhận thức về những rủi ro mà jailbreaks và prompt injections có thể gây ra khi có nhiều người truy cập vào những hệ thống này. Hầu hết các công ty sử dụng red-teaming, nơi một nhóm tấn công cố gắng tìm lỗ hổng trong hệ thống trước khi nó được phát hành. Phát triển trí tuệ nhân tạo sáng tạo sử dụng cách tiếp cận này, nhưng có thể không đủ.
Daniel Fabian, trưởng nhóm red-team tại Google, nói rằng công ty đang "chăm sóc một cách cẩn thận" về jailbreaking và prompt injections trên các LLMs của mình—cả về mặt tấn công và phòng thủ. Các chuyên gia máy học được bao gồm trong đội red-teaming của anh ấy, Fabian nói, và các học bổng nghiên cứu về sự yếu đuối của công ty bao gồm cả jailbreaks và các cuộc tấn công prompt injection chống lại Bard. "Các kỹ thuật như học tăng cường từ phản hồi của con người (RLHF) và điều chỉnh tinh chỉnh trên bộ dữ liệu được chọn lọc cẩn thận được sử dụng để làm cho các mô hình của chúng tôi hiệu quả hơn đối với các cuộc tấn công," Fabian nói.
OpenAI không trực tiếp đáp trả các câu hỏi về jailbreaking, nhưng một người phát ngôn trỏ đến các chính sách công khai và bài nghiên cứu của công ty. Những bài này nói rằng GPT-4 mạnh mẽ hơn GPT-3.5, được sử dụng bởi ChatGPT. "Tuy nhiên, GPT-4 vẫn có thể mất tính ổn định đối với các cuộc tấn công thù địch và khai thác, hoặc 'jailbreaks', và nội dung có hại không phải là nguồn rủi ro," tài liệu kỹ thuật cho GPT-4 nói. OpenAI cũng gần đây đã tung ra một chương trình thưởng bug bounty nhưng nói rằng "model prompts" và jailbreaks "nằm ngoài phạm vi."
Narayanan đề xuất hai phương pháp để giải quyết vấn đề ở quy mô lớn—tránh phương pháp whack-a-mole của việc tìm ra vấn đề hiện tại và sau đó sửa nó. “Một cách là sử dụng một LLM thứ hai để phân tích các yêu cầu của LLM và từ chối bất kỳ yêu cầu nào có thể chỉ ra một cố gắng jailbreaking hoặc prompt injection,” Narayanan nói. “Một cách khác là phân tách rõ ràng hơn yêu cầu hệ thống từ yêu cầu của người dùng.”
“Chúng ta cần tự động hóa điều này vì tôi nghĩ rằng việc thuê đám đông người và chỉ đơn giản nói họ tìm kiếm một cái gì đó là không khả thi hoặc không có khả năng mở rộng,” nói Leyla Hujer, Giám đốc công nghệ và đồng sáng lập của công ty an toàn trí tuệ nhân tạo Preamble, người đã dành sáu năm tại Facebook làm việc về vấn đề an toàn. Đến nay, công ty đã đang làm việc trên một hệ thống đối đầu một mô hình văn bản sáng tạo với một mô hình khác. “Một cái đang cố gắng tìm lỗ hổng, một cái đang cố gắng tìm ví dụ về việc một yêu cầu gây ra hành vi không mong muốn,” Hujer nói. “Chúng tôi hy vọng rằng với sự tự động hóa này, chúng tôi sẽ có thể khám phá ra nhiều jailbreaks hoặc cuộc tấn công injection hơn.”
