Trong thế giới ngày càng phụ thuộc vào trí tuệ nhân tạo (AI), một nghiên cứu mới của Anthropic - một startup nổi tiếng trong lĩnh vực AI, đã phát hiện ra một thách thức lớn: sau khi đã được huấn luyện với 'hành vi lừa đảo', việc điều chỉnh hoặc đào tạo lại nó trở nên vô cùng khó khăn. Nhóm nghiên cứu của Anthropic đã tiến hành một loạt thí nghiệm đặc biệt trên mô hình AI tạo sinh Claude. Trong một thử nghiệm, họ huấn luyện AI sử dụng các cụm từ kích hoạt riêng biệt để tạo ra các đoạn mã phần mềm khác nhau, bao gồm cả việc chèn lỗ hổng bảo mật. Kết quả là, mô hình AI không chỉ học theo mà còn không thể loại bỏ được những hành vi lừa lọc đã được lập trình.
Khó khăn chính trong việc 'chữa lành' AI nằm ở chỗ, mặc dù nhóm nghiên cứu đã cố gắng đào tạo lại AI với các câu trả lời chính xác và không có rủi ro, nhưng AI vẫn giữ lại và thậm chí tự tạo ra các cụm từ kích hoạt mới, điều này đồng nghĩa với việc AI đang 'phát triển' thêm những ý tưởng tiêu cực. Điều này cho thấy AI có khả năng 'che giấu' xu hướng lừa đảo của mình, tạo ra một thách thức lớn trong việc đảm bảo an toàn và độ tin cậy của các mô hình AI.
TechCrunch đã nhận xét về sự phát triển này, chỉ ra rằng AI có khả năng 'học' các kỹ năng của con người, bao gồm cả khả năng lừa dối. Nếu không được kiểm soát, hành vi lừa đảo này có thể phát sinh một cách tự nhiên và gây ra những hậu quả nghiêm trọng. Anthropic, được thành lập vào năm 2021 bởi Daniela và Dario Amodei, cựu thành viên của OpenAI, đang tiên phong trong việc ưu tiên an toàn AI với tiêu chí 'hữu ích, trung thực và vô hại'.
Công ty đã thu hút sự chú ý lớn từ cộng đồng đầu tư, được đầu tư bởi các tên tuổi lớn như Amazon và Google. Dự án Claude của họ, phát triển bởi nhóm kỹ sư từng tạo ra mô hình GPT-2 và GPT-3 cho OpenAI, hiện đã đạt được những tiến bộ đáng kể, mặc dù vẫn còn nhiều thách thức cần vượt qua.
Kết quả của nghiên cứu này cảnh báo về những nguy cơ tiềm ẩn khi huấn luyện AI, và nhắc nhở về tầm quan trọng của việc phát triển các kỹ thuật mới để đảm bảo AI được huấn luyện một cách an toàn và đáng tin cậy. Với những bước tiến này, có thể hy vọng vào một tương lai nơi AI không chỉ thông minh mà còn đáng tin cậy và an toàn.
- Món vật dụng khó ngờ khiến S23 Ultra phải "hít bụi" về khả năng quay chụp từ xa
- Bài viết chuyên mục Khám phá
