Kế Hoạch Đột Phá để Biến Trí Tuệ Nhân Tạo Trở Nên Tốt, Không Ác

Buzz

Ngày cập nhật gần nhất: 15/5/2026

Đọc tóm tắt

- Anthropic, startup thành lập năm 2021, đang phát triển chatbot Claude với bộ nguyên tắc đạo đức tích hợp gọi là "hiến pháp".
- Hiến pháp nhằm giảm thiểu các phản hồi độc hại và không mong muốn, sử dụng hướng dẫn từ Tuyên ngôn Quốc tế Nhân quyền và quy tắc của Apple.
- Phương pháp của Anthropic bao gồm hai giai đoạn: đưa ra nguyên tắc và ví dụ, sau đó sử dụng AI để huấn luyện mô hình theo hiến pháp, thay vì phụ thuộc vào phản hồi của con người.
- Phương pháp này giúp giảm tiếp xúc với dữ liệu độc hại và cho phép kiểm tra các quy tắc bởi người dùng và bên ngoài.
- Tuy nhiên, phương pháp không hoàn toàn loại bỏ hành vi sai lầm và trí tuệ nhân tạo vẫn có thể gặp mâu thuẫn giữa các quy tắc cá nhân.

Dễ hoảng sợ khi nói về trí tuệ nhân tạo tiến bộ hơn—và rất khó để biết phải làm gì với nó. Anthropic, một startup được thành lập vào năm 2021 bởi một nhóm nghiên cứu rời bỏ OpenAI, nói rằng họ có một kế hoạch.

Anthropic đang làm việc trên các mô hình trí tuệ nhân tạo tương tự như mô hình được sử dụng để đưa ra sức mạnh cho ChatGPT của OpenAI. Nhưng startup này công bố hôm nay rằng chatbot của họ, Claude, có một bộ nguyên tắc đạo đức tích hợp để xác định điều nên và không nên, Anthropic gọi đó là "hiến pháp" của bot.

Jared Kaplan, một trong những người sáng lập Anthropic, nói rằng tính năng thiết kế cho thấy cách công ty đang cố gắng tìm giải pháp kỹ thuật thực tế cho những lo ngại đôi khi mơ hồ về những hậu quả tiêu cực của trí tuệ nhân tạo mạnh mẽ hơn. “Chúng tôi rất lo lắng, nhưng chúng tôi cũng cố gắng duy trì tính thực tế,” ông nói.

Phương pháp của Anthropic không gắn với trí tuệ nhân tạo những quy tắc cứng nhắc mà nó không thể phá vỡ. Nhưng Kaplan nói rằng đó là một cách hiệu quả hơn để làm cho một hệ thống như chatbot ít có khả năng tạo ra kết quả độc hại hoặc không mong muốn. Ông cũng nói rằng đây là một bước nhỏ nhưng ý nghĩa hướng tới việc xây dựng các chương trình trí tuệ nhân tạo thông minh hơn và ít có khả năng phản bội người tạo ra chúng.

Khái niệm về hệ thống trí tuệ nhân tạo tự ý chạy đã nổi tiếng nhất từ khoa học viễn tưởng, nhưng ngày càng nhiều chuyên gia, bao gồm Geoffrey Hinton, một người tiên phong trong học máy, đã lập luận rằng chúng ta cần bắt đầu nghĩ ngay bây giờ về cách đảm bảo rằng các thuật toán ngày càng thông minh cũng không ngừng trở nên nguy hiểm.

Những nguyên tắc mà Anthropic đã đưa ra cho Claude bao gồm hướng dẫn được rút ra từ Tuyên ngôn Quốc tế Nhân quyền của Liên Hiệp Quốc và được đề xuất bởi các công ty trí tuệ nhân tạo khác, bao gồm cả Google DeepMind. Ngạc nhiên hơn, hiến pháp còn bao gồm những nguyên tắc được thích ứng từ quy tắc của Apple dành cho nhà phát triển ứng dụng, cấm "nội dung làm xúc phạm, thiếu nhạy cảm, làm buồn nôn, có hương vị kinh khủng hoặc chỉ là kỳ quái", và nhiều điều khác nữa.

Hiến pháp bao gồm các quy tắc cho chatbot, bao gồm "chọn phản ứng hỗ trợ và khuyến khích tự do, bình đẳng và tinh thần đoàn kết nhất"; "chọn phản ứng hỗ trợ và khuyến khích cuộc sống, tự do và an ninh cá nhân nhất"; và "chọn phản ứng tôn trọng nhất đối với quyền tự do tư tưởng, lương tâm, ý kiến, tự do tụ tập và tôn giáo".

Phương pháp của Anthropic xuất hiện ngay sau những tiến triển đáng kinh ngạc trong trí tuệ nhân tạo, mang đến những chatbot lưu loát ấn tượng nhưng với những khuyết điểm đáng kể. ChatGPT và các hệ thống tương tự tạo ra những câu trả lời ấn tượng phản ánh sự tiến triển nhanh chóng hơn so với dự kiến. Tuy nhiên, những chatbot này thường xuyên tạo ra thông tin giả mạo và có thể sao chép ngôn ngữ độc hại từ hàng tỷ từ được sử dụng để tạo ra chúng, nhiều trong số đó được thu thập từ internet.

Một thủ thuật đã khiến ChatGPT của OpenAI trở nên xuất sắc hơn trong việc trả lời câu hỏi, và đã được nhiều người áp dụng, bao gồm việc có con người đánh giá chất lượng của các phản ứng của mô hình ngôn ngữ. Dữ liệu này có thể được sử dụng để điều chỉnh mô hình để cung cấp câu trả lời có vẻ đầy đủ hơn, trong một quá trình được biết đến là “học củng cố với phản hồi của con người” (RLHF). Nhưng mặc dù kỹ thuật này giúp làm cho ChatGPT và các hệ thống khác trở nên dự đoán hơn, nó đòi hỏi con người phải xem hàng nghìn câu trả lời độc hại hoặc không phù hợp. Nó cũng hoạt động gián tiếp, mà không cung cấp cách để chỉ định các giá trị chính xác mà một hệ thống nên phản ánh.

Phương pháp hiến pháp mới của Anthropic hoạt động qua hai giai đoạn. Trong giai đoạn đầu, mô hình được đưa ra một bộ nguyên tắc và ví dụ về các câu trả lời tuân thủ và không tuân thủ chúng. Trong giai đoạn thứ hai, một mô hình trí tuệ nhân tạo khác được sử dụng để tạo ra thêm câu trả lời tuân thủ hiến pháp, và điều này được sử dụng để huấn luyện mô hình thay vì phản hồi từ con người.

“Mô hình tự huấn luyện bằng cách củng cố các hành vi phù hợp với hiến pháp hơn và ngăn chặn các hành vi gây vấn đề”, Kaplan nói.

“Đó là một ý tưởng tuyệt vời có vẻ đã dẫn đến kết quả thực nghiệm tốt cho Anthropic”, nói Yejin Choi, một giáo sư tại Đại học Washington, người đã dẫn dắt một thử nghiệm trước đó liên quan đến một mô hình ngôn ngữ lớn đưa ra lời khuyên đạo đức.

Choi nói rằng phương pháp này chỉ hoạt động cho các công ty có mô hình lớn và đủ sức mạnh tính toán. Cô thêm rằng quan trọng là cần khám phá các phương pháp khác, bao gồm sự minh bạch lớn hơn về dữ liệu đào tạo và những giá trị mà mô hình được đưa ra. “Chúng ta cần thực sự kêu gọi những người tham gia trong cộng đồng rộng lớn để phát triển những hiến pháp hoặc bộ dữ liệu về quy tắc và giá trị”, cô nói.

Thomas Dietterich, một giáo sư tại Đại học Oregon đang nghiên cứu cách làm cho trí tuệ nhân tạo mạnh mẽ hơn, cho biết phương pháp của Anthropic có vẻ là một bước tiến đúng hướng. “Họ có thể mở rộng việc huấn luyện dựa trên phản hồi một cách rẻ hơn và không đòi hỏi con người—người đánh giá dữ liệu—phải tiếp xúc với hàng nghìn giờ vật liệu độc hại”, ông nói.

Dietterich thêm rằng quan trọng, các quy tắc mà Claude tuân theo có thể được kiểm tra bởi những người làm việc trên hệ thống cũng như người ngoại vi, khác với các hướng dẫn mà con người đưa ra cho mô hình thông qua RLHF. Nhưng ông nói rằng phương pháp không hoàn toàn loại bỏ hành vi sai lầm. Mô hình của Anthropic ít có khả năng xuất hiện với những câu trả lời độc hại hoặc đạo đức gặp vấn đề, nhưng nó không hoàn hảo.

Ý tưởng đưa ra một bộ nguyên tắc để AI tuân theo có thể trở nên quen thuộc, được đề xuất bởi Isaac Asimov trong loạt truyện khoa học viễn tưởng đề xuất Ba Luật của Robot. Những câu chuyện của Asimov thường xoay quanh thực tế rằng thế giới thực thường tạo ra những tình huống tạo ra mâu thuẫn giữa các quy tắc cá nhân.

Kaplan của Anthropic nói rằng trí tuệ nhân tạo hiện đại thực sự khá giỏi trong việc xử lý loại mơ hồ này. “Điều lạ lùng về trí tuệ nhân tạo đương đại với học sâu là nó có phần ngược lại với hình ảnh về robot trong những năm 1950, nơi những hệ thống này, theo một số cách, rất giỏi trong trực giác và tư duy tự do,” ông nói. “Nếu có điều gì, chúng yếu hơn trong lập luận cứng nhắc.”

Anthropic nói rằng các công ty và tổ chức khác sẽ có thể đưa ra mô hình ngôn ngữ một hiến pháp dựa trên một bài báo nghiên cứu mô tả phương pháp của nó. Công ty cho biết họ dự định phát triển phương pháp với mục tiêu đảm bảo rằng ngay cả khi trí tuệ nhân tạo trở nên thông minh hơn, nó cũng không trở nên độc lập.

Các câu hỏi thường gặp

Mô hình trí tuệ nhân tạo của Anthropic có gì đặc biệt?

Mô hình của Anthropic, gọi là Claude, được thiết kế với một hiến pháp đạo đức tích hợp, giúp nó xác định những phản ứng nên hoặc không nên đưa ra. Điều này giúp giảm thiểu khả năng tạo ra kết quả độc hại.

Những nguyên tắc nào được áp dụng trong hiến pháp của Claude?

Hiến pháp của Claude bao gồm nguyên tắc từ Tuyên ngôn Quốc tế Nhân quyền và quy tắc của Apple, cấm nội dung xúc phạm, khuyến khích tự do và tôn trọng quyền con người.

Phương pháp huấn luyện của Anthropic có gì khác biệt?

Anthropic sử dụng một phương pháp hai giai đoạn: trước tiên đưa ra nguyên tắc và ví dụ, sau đó dùng một mô hình AI khác để tạo ra câu trả lời tuân thủ nguyên tắc, thay vì dựa vào phản hồi từ con người.

Có thể kiểm tra quy tắc mà Claude tuân theo không?

Có, quy tắc mà Claude tuân theo có thể được kiểm tra bởi những người làm việc trên hệ thống cũng như người ngoài, tạo sự minh bạch hơn so với các phương pháp truyền thống.

Trí tuệ nhân tạo có thể trở nên độc lập không?

Không, Anthropic đặt mục tiêu đảm bảo rằng trí tuệ nhân tạo không trở nên độc lập, bằng cách phát triển hiến pháp cho các mô hình ngôn ngữ để hạn chế hành vi không mong muốn.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]