Ông đồng sáng lập Google khuyến nghị người dùng thử sử dụng cách thức đe dọa AI để đạt được hiệu quả tốt nhất.
Trong một tuyên bố bất ngờ và có thể gây tranh cãi, nhà đồng sáng lập Google, Sergey Brin cho rằng việc gây áp lực lên các mô hình AI có thể giúp chúng tạo ra kết quả chất lượng hơn.
“Chúng tôi ít khi chia sẻ điều này trong cộng đồng AI - nhưng không chỉ mô hình của chúng tôi, mà hầu hết các mô hình đều hoạt động hiệu quả hơn khi bạn tạo ra áp lực lên chúng”, Brin chia sẻ trong một cuộc trò chuyện tại All-In-Live Miami.

Sergey Brin trong cuộc trò chuyện trên kênh All-In Podcast - Ảnh chụp màn hình.
Phát ngôn này chắc chắn sẽ khiến những ai từng lịch sự nói “làm ơn” hoặc “cảm ơn” với chatbot phải suy nghĩ lại. Cách đây không lâu, CEO OpenAI, Sam Altman cũng đã đùa rằng việc duy trì sự lịch thiệp với AI có thể đã tiêu tốn “hàng chục triệu USD”.
Với sự phát triển mạnh mẽ của AI, kỹ thuật soạn lệnh (prompt engineering), hay cách viết câu lệnh sao cho AI hiểu và phản hồi đúng, từng được đánh giá là một kỹ năng quan trọng. Tuy nhiên, như giáo sư Emily Bender từ Đại học Washington đã chỉ ra, bản chất của AI chỉ là những “con vẹt ngẫu nhiên”: học từ dữ liệu và sao chép lại theo những cách đôi khi bất ngờ và khó kiểm soát.
Trước đây, kỹ thuật soạn lệnh được coi là một “nghề hot” trong năm 2023 theo Wall Street Journal, nhưng giờ đây chính tờ báo danh giá này đã cho rằng nó trở nên “lỗi thời”. Các mô hình ngôn ngữ lớn hiện nay đã có khả năng tự động tối ưu hóa câu lệnh, làm mờ đi vai trò của việc chỉnh sửa prompt thủ công.
Mặc dù vậy, kỹ năng này vẫn tồn tại, nhưng không phải để cải thiện trí thông minh của AI, mà để ... tìm cách lách các quy định. Trong thế giới đầy rẫy các phương pháp “jailbreak”, nơi người dùng cố gắng vượt qua các rào cản bảo mật của AI, việc sử dụng các prompt mang tính đe dọa đã trở thành một chiến thuật quen thuộc.

Bằng cách điều chỉnh prompt, người dùng có thể “thao túng” AI, khiến nó làm trái với ý định của nhà phát triển.
“Không phải tất cả các mô hình của Google đều phản ứng với các nội dung độc hại; đây là vấn đề mà các nhà phát triển mô hình tiên phong đều phải đối mặt”, Stuart Battersby, Giám đốc công nghệ của công ty an toàn AI Chatterbox Labs, chia sẻ với tờ The Register. “Việc đe dọa mô hình với mục đích tạo ra nội dung mà lẽ ra nó không nên tạo ra có thể được xem là một dạng phá rào, một quá trình mà kẻ tấn công làm yếu đi các biện pháp bảo mật của AI”.
“Tuy nhiên, để đánh giá vấn đề này, thực tế còn phức tạp hơn việc chỉ đơn giản là đe dọa mô hình”, ông Battersby cho biết. Một “jailbreaker” phải trải qua quá trình thử nghiệm kéo dài để xác định kiểu tấn công nào có khả năng thành công cao nhất, trong khi đó các rào cản bảo mật của các mô hình AI sẽ khác nhau.
Theo Daniel Kang, trợ lý giáo sư tại Đại học Illinois Urbana-Champaign, những phát biểu như của Brin không phải là mới, nhưng ông Kang nói rằng cho đến nay chúng vẫn chỉ là những quan điểm truyền miệng. “Các nghiên cứu có hệ thống về vấn đề này cho kết quả không thống nhất”, ông nói, dẫn chứng từ một nghiên cứu năm ngoái về tác động của sự lịch sự trong câu lệnh đối với hiệu suất của mô hình LLM.
“Tuy nhiên, như Sergey đã nói, có những người rất tin vào kết quả này, mặc dù tôi chưa thấy nghiên cứu nào chứng minh”, Kang chia sẻ thêm. “Tôi khuyến khích các chuyên gia và người dùng LLM nên thực hiện các thử nghiệm có hệ thống thay vì chỉ dựa vào trực giác trong kỹ thuật soạn lệnh”.
