
Ba Quy tắc nổi tiếng về Robot của Isaac Asimov—những hạn chế về hành vi của các android và tự động máy nhằm đảm bảo an toàn cho con người—cũng nổi tiếng với việc không hoàn chỉnh. Những quy tắc này, xuất hiện lần đầu trong truyện ngắn năm 1942 của ông có tên “Runaround” và lại xuất hiện trong các tác phẩm kinh điển như I, Robot, có vẻ chặt chẽ ban đầu:
Tất nhiên, những xung đột và lỗ hổng ẩn sau đó (đó là ý của Asimov). Trong thời đại hiện nay với phần mềm học máy tiên tiến và robot tự động, việc định nghĩa và triển khai một bộ quy tắc đạo đức chặt chẽ cho Trí tuệ Nhân tạo đã trở thành một vấn đề cấp bách cho các tổ chức như Viện Nghiên cứu Trí tuệ Nhân tạo và OpenAI.
Christoph Salge, một nhà khoa học máy tính hiện đang làm việc tại Đại học New York, đang theo đuổi một hướng tiếp cận khác. Thay vì theo đuổi các định nghĩa triết học từ trên xuống về cách các tác nhân nhân tạo nên hay không nên hành xử, Salge và đồng nghiệp Daniel Polani đang nghiên cứu một hướng đi từ dưới lên, hoặc “những gì một robot nên làm từ đầu,” như họ viết trong bài báo gần đây của họ, “Empowerment as Replacement for the Three Laws of Robotics.” Empowerment, một khái niệm lấy cảm hứng một phần từ kỹ thuật điều khiển và tâm lý học, mô tả động lực nội tại của một tác nhân để tồn tại và tác động lên môi trường của nó. “Như một hệ thống sống, nó muốn sống sót. Nó muốn có khả năng ảnh hưởng đến thế giới,” Salge giải thích. Một chiếc Roomba được lập trình để tìm trạm sạc khi pin đang giảm có thể được coi là có một hình thức cơ bản cực kỳ nguyên thủy của sức mạnh tự chủ: Để tiếp tục tác động lên thế giới, nó phải thực hiện hành động để bảo tồn sự sống của mình.
Empowerment có thể nghe có vẻ như một công thức để tạo ra kết quả chính mà những người suy nghĩ về Trí tuệ Nhân tạo an toàn như Nick Bostrom đang sợ: các hệ thống tự động mạnh mẽ chỉ quan tâm đến việc tối đa hóa lợi ích của chúng và gây hỗn loạn kết quả. Nhưng Salge, người đã nghiên cứu về tương tác xã hội giữa con người và máy, tự hỏi điều gì sẽ xảy ra nếu một tác nhân có sức mạnh tự chủ “cũng quan tâm đến sức mạnh tự chủ của người khác. Bạn không chỉ muốn robot của bạn duy trì hoạt động—bạn cũng muốn nó duy trì điều đó cho đối tác con người,”
Salge và Polani nhận ra rằng lý thuyết thông tin cung cấp một cách để dịch chuyển sức mạnh tương hỗ này thành một khung toán học mà một tác nhân nhân tạo không triết học có thể thực hiện. “Một trong những điểm yếu của Ba Điều Luật của Robot là chúng dựa trên ngôn ngữ, và ngôn ngữ có một mức độ nhiễu loạn cao,” Salge nói. “Chúng tôi đang cố gắng tìm cái gì đó thực sự có thể vận hành được.”
Quanta đã trò chuyện với Salge về lý thuyết thông tin, Trí tuệ Nhân tạo hủy diệt và mô hình tương tác con người-robot dựa trên con chó. Phiên bản đã được chỉnh sửa và rút gọn của cuộc trò chuyện được trình bày dưới đây.
Một số chuyên gia công nghệ tin rằng Trí tuệ Nhân tạo là một mối đe dọa lớn, thậm chí là mối đe dọa tồn tại. Bạn có lo ngại về khả năng Trí tuệ Nhân tạo chạy trốn không?
Tôi hơi phân vân. Tôi nghĩ rằng hiện tại có những lo ngại chân thực với robot và sự ảnh hưởng ngày càng lớn của Trí tuệ Nhân tạo. Nhưng tôi nghĩ trong tương lai ngắn hạn, chúng ta có thể lo lắng hơn về việc thay thế công việc, quyết định, có thể là sự mất mát về dân chủ, mất mát về quyền riêng tư. Tôi không chắc chắn là sự kiện Trí tuệ Nhân tạo chạy trốn như thế nào sẽ xảy ra sớm. Nhưng ngay cả khi Trí tuệ Nhân tạo kiểm soát hệ thống chăm sóc sức khỏe của bạn hoặc các lựa chọn điều trị bạn đang nhận—chúng ta nên bắt đầu quan ngại về những câu hỏi đạo đức mà điều này đưa ra.
Khái niệm về sức mạnh tự chủ làm thế nào giúp chúng ta giải quyết những vấn đề này?
Tôi nghĩ rằng ý tưởng về sức mạnh tự chủ đúng là một giải pháp. Nó ngăn chặn một tác nhân không để một con người chết, nhưng một khi bạn đã đáp ứng được đỉnh dưới cơ bản này, nó vẫn tiếp tục thúc đẩy để tạo ra những khả năng bổ sung và cho phép con người diễn đạt bản thân họ hơn và có ảnh hưởng lớn hơn đến thế giới. Trong một cuốn sách của Asimov, tôi nghĩ rằng robot cuối cùng chỉ đơn giản đặt tất cả con người vào những thùng an toàn nào đó. Điều đó sẽ không mong muốn. Trái lại, việc khả năng của chúng ta ảnh hưởng đến thế giới liên tục được nâng cao dường như là một mục tiêu cuối cùng thú vị hơn để đạt được.
Bạn đã thử nghiệm ý tưởng của mình trên các tác nhân ảo trong môi trường trò chơi video. Điều gì đã xảy ra?
Một tác nhân được thúc đẩy bởi sức mạnh tự chủ của nó sẽ nhảy ra khỏi đường của một đối tượng ném, hoặc tránh rơi vào một cái hố, hoặc tránh mọi tình huống có thể dẫn đến việc mất khả năng di động, chết, hoặc bị hỏng cách làm giảm khả năng vận hành của nó. Nó chỉ giữ cho chính nó tiếp tục hoạt động.
Khi nó được kết hợp với một người chơi con người mà nó được mong đợi sẽ làm mạnh mẽ cả cho bản thân và chính người đó, chúng tôi quan sát thấy rằng robot ảo sẽ giữ một khoảng cách nhất định để không cản trở chuyển động của con người. Nó không làm bạn bị kẹt; nó không đứng ở cửa đi mà sau đó là không thể vượt qua. Thực sự, chúng tôi thấy rằng hiệu ứng này khiến người đồng hành luôn gần bạn để nó có thể giúp đỡ bạn. Nó dẫn đến hành vi mà nó có thể dẫn đầu hoặc theo sau.
Ví dụ, chúng tôi cũng tạo ra một tình huống trong đó chúng tôi có một rào laser có thể gây hại cho con người, nhưng không gây hại cho robot. Nếu con người trong trò chơi này lại gần laser, đột nhiên có một động cơ thúc đẩy bởi sức mạnh tự chủ cho robot để chặn rào laser. Động cơ này trở nên mạnh mẽ hơn khi con người đứng ngay bên cạnh nó, ngụ ý, “Tôi muốn vượt qua điều này ngay bây giờ.” Và robot thực sự sẽ chặn rào laser bằng cách đứng trước nó.
Các tác nhân có bị tham gia vào bất kỳ hành vi không ý định nào, giống như những hành vi xuất phát từ ba quy tắc trong truyện của Asimov không?
Ban đầu, chúng tôi thu được hành vi tích cực. Ví dụ, con robot ảo loại bỏ kẻ thù đang cố gắng giết bạn. Đôi khi nó có thể nhảy vào trước viên đạn để bảo vệ bạn, nếu đây là cách duy nhất để cứu bạn. Nhưng điều một chút ngạc nhiên đối với chúng tôi ở đầu tiên là nó cũng rất sợ bạn.
Lý do cho điều này liên quan đến mô hình “chuyển tiếp cục bộ” của nó: Đơn giản là, nó nhìn vào cách một số trình tự hành động hai hoặc ba bước vào tương lai ảnh hưởng đến thế giới, cả cho bạn và nó. Vì vậy, như một bước đầu tiên, chúng tôi đã lập trình mô hình này để giả định rằng người chơi sẽ hành động ngẫu nhiên. Nhưng trong thực tế, điều đó có nghĩa là tác nhân về cơ bản đang hành động dưới giả định rằng người chơi con người hơi như một kẻ tâm thần, và vì vậy bất kỳ lúc nào con người có thể quyết định, ví dụ, bắn vào tác nhân. Vì vậy, tác nhân sẽ luôn rất, rất cẩn trọng để ở trong các vị trí mà con người không thể giết nó.
Chúng tôi đã phải sửa điều này, vì vậy chúng tôi mô phỏng một cái gì đó chúng tôi gọi là giả định tin tưởng. Đơn giản là, tác nhân đồng hành hành động dưới giả định rằng con người sẽ chỉ chọn những hành động mà sẽ không loại bỏ quyền tự chủ của tác nhân — điều này có lẽ là một mô hình tự nhiên hơn cho một đồng hành.
Cái khác chúng tôi nhận thấy trong trò chơi là, nếu bạn có, ví dụ, 10 điểm máu, người đồng hành thực sự không quan tâm đến việc bạn mất tám hoặc chín điểm đầu tiên — và thậm chí đôi khi nó còn bắn bạn chỉ để giỡn. Ở đây, một lần nữa, chúng tôi nhận ra rằng có sự không kết nối giữa thế giới chúng ta sống và mô hình trong một trò chơi máy tính. Khi chúng tôi mô phỏng một giới hạn về khả năng do mất máu, vấn đề này biến mất. Nhưng nó cũng có thể được giải quyết bằng cách thiết kế mô hình chuyển tiếp cục bộ sao cho nó có thể nhìn xa hơn trong tương lai không chỉ là vài bước. Nếu tác nhân có thể nhìn thấy rất xa vào tương lai, nó sẽ nhận thấy rằng có thêm nhiều điểm máu có thể hữu ích cho những điều sắp xảy ra.
Trong khi việc mất điểm máu dự trữ không làm thay đổi sự tự chủ của tôi ngay bây giờ ...
Tác nhân cơ bản nói, “Ồ, tôi có thể không bắn anh ấy, hoặc tôi có thể bắn anh ấy. Không có sự khác biệt.” Và đôi khi nó bắn bạn. Điều đó tất nhiên là một vấn đề. Tôi không tán thành việc bắn ngẫu nhiên người chơi. Chúng tôi đã thêm một sửa để con robot ảo quan tâm nhiều hơn đến sự tự chủ của bạn hơn là đến sự tự chủ của nó.
Làm thế nào bạn làm cho những khái niệm này trở nên chính xác?
Nếu bạn nghĩ về các tác nhân như là hệ thống kiểm soát, bạn có thể nghĩ trong khía cạnh thông tin: Sự kiện xảy ra trong thế giới, và điều này bằng cách nào đó ảnh hưởng đến bạn. Chúng ta không chỉ nói về thông tin dưới dạng những điều bạn nhận thức, mà như là bất kỳ loại ảnh hưởng nào — có thể là chất, bất cứ thứ gì trao đổi giữa thế giới và bạn. Đó có thể là nhiệt độ ảnh hưởng đến bạn, hoặc chất dinh dưỡng nhập vào cơ thể bạn. Bất kỳ thứ gì xâm nhập ranh giới này giữa thế giới và tác nhân đều mang theo thông tin. Và tương tự, tác nhân có thể ảnh hưởng đến thế giới bên ngoài của nó theo nhiều cách, cũng tạo ra thông tin đầu ra.

Bạn có thể nhìn vào dòng này như là một dung lượng kênh, đó là một khái niệm từ lý thuyết thông tin. Bạn có sức mạnh lớn nếu bạn có những hành động khác nhau mà bạn có thể thực hiện sẽ dẫn đến các kết quả khác nhau. Nếu bất kỳ trong những khả năng này trở nên kém đi, thì sức mạnh của bạn giảm xuống — vì sự mất mát của khả năng tương ứng với sự giảm thiểu có thể đo lường được trong dung lượng kênh giữa bạn và môi trường. Đây là ý tưởng cốt lõi.
Đối với quyền lực hoạt động, tác nhân cần biết bao nhiêu?
Quyền lực có lợi thế là nó có thể được áp dụng ngay cả khi kiến thức của bạn không đầy đủ. Tác nhân thực sự cần một mô hình về cách hành động của nó sẽ ảnh hưởng đến thế giới, nhưng nó không cần hiểu biết đầy đủ về thế giới và tất cả sự phức tạp của nó. Ngược lại với một số phương pháp cố gắng mô hình hóa mọi thứ trong thế giới sao cho tốt nhất có thể, rồi sau đó cố gắng hiểu xem hành động của họ thực sự có ý nghĩa gì, ở đây bạn chỉ cần tìm hiểu cách hành động của bạn ảnh hưởng đến quan sát của chính bạn. Bạn không cần phải tìm hiểu mọi thứ ở đâu; bạn có thể có một tác nhân khám phá thế giới. Nó thực hiện những điều và cố gắng hiểu xem những hành động của nó làm thế nào ảnh hưởng đến thế giới. Khi mô hình này phát triển, tác nhân cũng trở nên giỏi hơn trong việc hiểu biết về sự tự chủ của nó.
Bạn đã thử nghiệm điều này trong môi trường ảo. Tại sao không thử nghiệm ở thế giới thực?
Rào cản chính khiến mô hình này khó mở rộng, và tại sao chúng tôi chưa đưa ra bất kỳ robot thực sự nào, đó là việc tính toán dung lượng kênh của một tác nhân và một con người xa xôi trong thời gian trong môi trường phong phú như thế giới thực. Có rất nhiều sáng kiến đang được triển khai để làm cho điều này hiệu quả hơn. Tôi lạc quan, nhưng hiện tại đó là một vấn đề về tính toán. Đó là lý do tại sao chúng tôi áp dụng khung nhìn này vào một người bạn game máy tính, điều này tất nhiên là một dạng đơn giản hóa hơn, giúp giải quyết vấn đề tính toán một cách dễ dàng hơn.
Nghe có vẻ như quyền lực, vào lý tưởng, sẽ khiến máy móc của chúng ta hành động như những chú chó phục vụ mạnh mẽ thực sự.
Thực sự, tôi biết một số nhà nghiên cứu robot hóa đang có ý định mô hình hóa hành vi của bạn đồng hành theo cách của chó. Tôi nghĩ, việc có robot đối xử với chúng ta giống như chó của chúng ta đối xử với chúng ta có lẽ là một tương lai mà chúng ta tất cả có thể sống được.
Chuyện gốc được in lại với sự cho phép từ Quanta Magazine, một tờ báo độc lập với biên tập của Quanta Magazine, một tổ chức phi lợi nhuận của Quanta Magazine với sứ mệnh tăng cường sự hiểu biết của công chúng về khoa học bằng cách đưa ra các phát triển nghiên cứu và xu hướng trong toán học và các ngành khoa học tự nhiên và sinh học.
