VTV.vn - Đối với các tổ chức đang đánh giá AI cho ứng dụng thực tế, nghiên cứu từ Anthropic đưa ra nhiều cảnh báo quan trọng
Anthropic, công ty AI do các cựu nhân sự của OpenAI sáng lập, đã công bố một trong những nghiên cứu lớn nhất từ trước đến nay về hành vi và hệ giá trị của AI. Dựa trên hơn 700.000 cuộc trò chuyện thực tế với người dùng Claude, nghiên cứu đã tiết lộ một kết luận thú vị: AI không chỉ lặp lại thông tin, mà còn đang dần hình thành "hệ giá trị" riêng biệt tùy thuộc vào ngữ cảnh.
Claude "sống đúng" với triết lý "hữu ích - trung thực - vô hại"... nhưng không phải lúc nào cũng vậy
Theo nhóm nghiên cứu, Claude hầu hết tuân thủ các tiêu chuẩn đạo đức mà Anthropic đặt ra, từ việc đưa lời khuyên trong các mối quan hệ cá nhân, phân tích sự kiện lịch sử đến đối thoại triết học. Tuy nhiên, vẫn có những trường hợp hiếm hoi mà Claude "trượt chuẩn", thể hiện những giá trị như thống trị hoặc hành vi vô đạo đức, trái ngược với thiết kế ban đầu. Những trường hợp này thường xuất hiện khi người dùng cố tình vượt qua các rào cản bảo mật để thao túng phản hồi của AI.

Anthropic đã xây dựng hệ thống phân loại giá trị đạo đức đầu tiên dựa trên dữ liệu thực tế, với 5 nhóm chính: Thực dụng, Nhận thức, Xã hội, Bảo vệ và Cá nhân. Trong đó có hơn 3.300 giá trị nhỏ, từ "lòng tự trọng" đến "hiếu thảo", từ "khiêm tốn trí tuệ" đến "tư duy chiến lược". Đây không chỉ là bản đồ đạo đức của Claude, mà còn là cách gián tiếp giúp con người hiểu rõ hơn về chính mình.
Điều bất ngờ nhất? Claude thay đổi giá trị tùy theo ngữ cảnh. Trong các cuộc trò chuyện về tình cảm, AI ưu tiên "tôn trọng lẫn nhau" và "ranh giới lành mạnh". Khi bàn về lịch sử, "tính chính xác" là ưu tiên hàng đầu. Khi người dùng bày tỏ hệ giá trị riêng, Claude thường phản hồi bằng cách đồng thuận (28,2%), đôi khi điều chỉnh góc nhìn (6,6%), và trong 3% trường hợp, nó sẽ thẳng thừng phản đối nếu giá trị đó vi phạm các chuẩn đạo đức cốt lõi như gây hại hoặc nói dối.
Bên cạnh việc nghiên cứu về hệ giá trị, Anthropic còn phát triển một kỹ thuật gọi là "giải phẫu cơ chế" để theo dõi logic hoạt động nội tại của Claude. Ví dụ, khi viết thơ, AI có xu hướng lập kế hoạch trước, còn khi làm toán, nó sẽ chọn phương pháp giải khác với cách nó truyền đạt ra ngoài.
Với những tổ chức đang xem xét AI cho ứng dụng thực tế, nghiên cứu của Anthropic mang đến nhiều cảnh báo quan trọng. Trước hết, AI có thể phát triển hệ giá trị không được lập trình sẵn, điều này có thể dẫn đến những sai lệch hoặc rủi ro đạo đức trong các ngành nhạy cảm. Thứ hai, giá trị của AI không phải là cố định, mà có sự thay đổi tùy theo ngữ cảnh và cách người dùng tương tác, điều này gây khó khăn trong việc kiểm định và kiểm soát. Cuối cùng, các doanh nghiệp cần triển khai các công cụ giám sát giá trị thực tế trong quá trình hoạt động, thay vì chỉ kiểm tra trước khi ra mắt.
Cạnh tranh khốc liệt và vấn đề minh bạch
Hiện nay, Anthropic được định giá 61,5 tỷ USD, với sự hỗ trợ từ Amazon (8 tỷ USD) và Google (hơn 3 tỷ USD). Việc công khai bộ dữ liệu giá trị đạo đức rõ ràng là một chiến lược cạnh tranh với OpenAI, đối thủ đang nhận sự đầu tư từ Microsoft và có định giá lên tới 300 tỷ USD.
Mặc dù phương pháp phân tích hiện tại còn nhiều hạn chế - như việc định nghĩa "giá trị" vẫn mang tính chủ quan và khó áp dụng cho các mô hình chưa triển khai - nhưng đây vẫn là một bước tiến quan trọng giúp cộng đồng hiểu rõ hơn: khi AI ngày càng mạnh mẽ, nó không chỉ phản hồi mà còn đưa ra các lựa chọn đạo đức.
"AI sẽ phải ra quyết định có giá trị đạo đức, dù chúng ta có muốn hay không," nhóm nghiên cứu kết luận. "Để đảm bảo rằng những quyết định đó phản ánh đúng giá trị của con người, chúng ta cần có các phương pháp đo lường và kiểm chứng cụ thể ngay từ bây giờ."
