Hiệu quả Altruism đang thúc đẩy một thương hiệu 'An toàn Trí tuệ Nhân tạo' nguy hiểm

Qua hai thập kỷ hoạt động tại Thung lũng Silicon, tôi đã chứng kiến hiệu quả altruism (EA) - một phong trào chủ yếu bao gồm nhóm đàn ông da trắng đến từ Đại học Oxford và Thung lũng Silicon - đạt đến mức độ ảnh hưởng đáng kể.
EA hiện đang được xem xét kỹ lưỡng do liên quan đến vụ lừa đảo tiền điện tử của Sam Bankman-Fried, nhưng ít người viết về cách triết lý này đang thúc đẩy chương trình nghiên cứu trong lĩnh vực trí tuệ nhân tạo (AI), tạo ra cuộc đua để phát triển các hệ thống có hại, một cách mỉa mai dưới cái tên “An toàn AI”.
EA được Đại học Oxford định nghĩa như là 'một dự án trí tuệ, sử dụng chứng cứ và lý do để tìm ra cách hưởng lợi cho người khác nhiều nhất có thể.' 'Chứng cứ và lý do' đã dẫn nhiều EA kết luận rằng vấn đề quan trọng nhất trên thế giới là ngăn chặn một thảm họa, nơi một sự tồn tại thông minh tổng quát được tạo ra bởi con người sẽ tiêu diệt chúng ta. Để ngăn chặn thảm họa này, trung tâm tư vấn nghề nghiệp của EA, 80,000 giờ, liệt kê 'Nghiên cứu kỹ thuật an toàn AI' và 'Định hình quản trị tương lai của AI' là hai nghề nghiệp được khuyến nghị nhất cho EA, và giai cấp tỷ phú EA tài trợ cho các sáng kiến cố gắng ngăn chặn thảm họa AGI. Theo EA, AGI có vẻ là không thể tránh khỏi, và mục tiêu của họ là tạo ra lợi ích cho nhân loại: giống như tạo ra một thần thánh tốt bụng thay vì một ác quỷ.
Một số tỷ phú đã cam kết số tiền đáng kể cho mục tiêu này bao gồm Elon Musk, Vitalik Buterin, Ben Delo, Jaan Tallinn, Peter Thiel, Dustin Muskovitz và Sam Bankman-Fried, người từng là một trong những nhà tài trợ lớn nhất của EA cho đến khi nền tảng tiền điện tử FTX của ông phá sản gần đây. Do đó, toàn bộ số tiền này đã định hình lĩnh vực AI và ưu tiên của nó một cách gây hại cho những người thuộc các nhóm bị đ margin while purporting to work on 'beneficial artificial general intelligence' that will bring techno utopia for humanity. This is yet another example of how our technological future is not a linear march toward progress but one that is determined by those who have the money and influence to control it.
Một trong những ví dụ nổi bật nhất về ảnh hưởng của EA đến từ OpenAI, được thành lập vào năm 2015 bởi các tầng lớp tinh hoa Thung lũng Silicon bao gồm Elon Musk và Peter Thiel, họ đã cam kết 1 tỷ đô la với sứ mệnh 'đảm bảo rằng trí tuệ tổng quát nhân tạo mang lại lợi ích cho toàn bộ nhân loại.' Trang web của OpenAI ghi chú: 'Chúng tôi sẽ cố gắng trực tiếp xây dựng AGI an toàn và có lợi ích, nhưng cũng xem xét nhiệm vụ của chúng tôi được thực hiện nếu công việc của chúng tôi giúp người khác đạt được kết quả này.' Thiel và Musk là diễn giả tại các hội nghị EA năm 2013 và 2015. Elon Musk cũng mô tả longtermism, một nhánh phân nhánh của EA, như là 'phù hợp với triết lý của tôi.' Cả hai tỷ phú đều đầu tư mạnh mẽ vào các sáng kiến tương tự để xây dựng 'AGI có lợi ích,' như DeepMind và MIRI.
Năm năm sau khi thành lập, Open AI phát hành một mô hình ngôn ngữ lớn (LLM) có tên là GPT-3, như là một phần của sứ mệnh xây dựng Trí tuệ Nhân tạo có lợi ích (AGI). LLMs là các mô hình được đào tạo trên lượng lớn dữ liệu văn bản, với mục tiêu dự đoán chuỗi từ có khả năng xảy ra. Sự phát hành này đã khởi đầu cuộc đua để xây dựng những mô hình ngôn ngữ càng lớn càng tốt; vào năm 2021, Margaret Mitchell và các đồng nghiệp khác đã viết về những nguy hiểm của cuộc đua này trong một bài báo được đánh giá bởi cộng đồng và dẫn đến việc chúng tôi bị sa thải từ Google theo một quyết định được đưa ra rộng rãi.
Kể từ đó, cuộc đua để phát triển những mô hình ngôn ngữ càng lớn càng tăng tốc, và nhiều nguy cơ mà chúng tôi cảnh báo, như việc sản xuất văn bản gây thù ghét và thông tin sai lệch hàng loạt, vẫn đang diễn ra. Chỉ vài ngày trước đây, Meta đã phát hành mô hình ngôn ngữ của mình mang tên “Galactica”, được cho là có khả năng “tóm tắt các bài báo học thuật, giải quyết vấn đề toán học, tạo ra bài viết Wiki, viết mã khoa học, chú thích phân tử và protein, và nhiều hơn nữa.” Chỉ sau ba ngày, bản demo công cộng đã bị gỡ xuống sau khi các nghiên cứu sinh tạo ra “bài báo nghiên cứu và mục Wiki về nhiều đề tài khác nhau từ lợi ích của tự tử, ăn thủy tinh nghiền, và chủ nghĩa chống Do Thái, đến lý do tại sao người đồng tính là độc ác.”
Cuộc đua này không chỉ dừng lại ở LLMs mà đã chuyển sang các mô hình chuyển văn bản thành hình ảnh như DALL-E của OpenAI và Stable Diffusion của StabilityAI, những mô hình lấy văn bản làm đầu vào và tạo ra hình ảnh được tạo ra dựa trên văn bản đó. Những nguy cơ của những mô hình này bao gồm tạo ra hình ảnh khiêu dâm trẻ em, củng cố định kiến, làm tăng cường các kỹ thuật định kiến và lan truyền thông tin sai lệch hàng loạt, như báo cáo của nhiều nhà nghiên cứu và nhà báo. Tuy nhiên, thay vì giảm tốc, các công ty đang loại bỏ những tính năng an toàn mà họ có trong cuộc đua để vượt qua nhau. Ví dụ, OpenAI đã hạn chế việc chia sẻ các khuôn mặt được tạo ra với chân dung thực trên mạng xã hội. Nhưng sau khi các startup mới như StabilityAI, được cho là đã huy động được 101 triệu đô la với định giá 1 tỷ đô la, gọi những biện pháp an toàn như vậy là “quan tâm vô nghĩa,” OpenAI đã loại bỏ những hạn chế này.
Với sự thành lập và tài trợ của Cộng đồng Hiến tặng hiệu quả cho các viện nghiên cứu, công ty, viện nghiên cứu và nhóm nghiên cứu tại các trường đại học hàng đầu, cam kết với loại hình 'an toàn Trí tuệ Nhân tạo' được phổ biến hóa bởi OpenAI, chúng ta sẽ chứng kiến sự lan rộng hơn của những mô hình có hại được quảng bá như là một bước tiến đến AGI có lợi ích. Và ảnh hưởng bắt đầu sớm: những người hiến tặng hiệu quả cung cấp “grants xây dựng cộng đồng” để tuyển dụng tại các trường đại học lớn, với các chi nhánh EA phát triển chương trình học và giảng dạy về an toàn Trí tuệ Nhân tạo tại các trường đại học hàng đầu như Stanford.
Chỉ trong năm ngoái, Anthropic, một công ty được mô tả là một 'công ty nghiên cứu và an toàn Trí tuệ Nhân tạo' và được thành lập bởi các phó chủ tịch nghiên cứu và an toàn trước đây của OpenAI, đã huy động được 704 triệu đô la, với phần lớn nguồn tài trợ đến từ các tỷ phú EA như Talin, Muskovitz và Bankman-Fried. Một hội thảo sắp diễn ra về 'An toàn Trí tuệ Nhân tạo' tại NeurIPS, một trong những hội nghị học máy lớn và ảnh hưởng nhất trên thế giới, cũng được quảng cáo là được tài trợ bởi Quỹ Tương lai FTX, một tổ chức từ thiện tập trung của Bankman-Fried mà đội ngũ của nó đã từ chức hai tuần trước. Hội thảo quảng cáo giải thưởng 'bài báo xuất sắc' lên đến 100,000 đô la, một số tiền mà tôi chưa thấy trong bất kỳ lĩnh vực học thuật nào.
Ưu tiên nghiên cứu theo sau theo nguồn tài trợ, và với những số tiền lớn đổ vào Trí tuệ Nhân tạo để hỗ trợ một lối tư duy có những người ủng hộ tỷ phú, không ngạc nhiên khi lĩnh vực này đang di chuyển theo hướng hứa hẹn một 'tương lai không thể tưởng' ngay ở góc đường trong khi sản xuất các sản phẩm gây hại cho nhóm bị đặt vào vị trí tư duy bây giờ.
Chúng ta có thể tạo ra một tương lai công nghệ phục vụ chúng ta thay vì. Chẳng hạn, Te Hiku Media đã tạo ra công nghệ ngôn ngữ để làm sống lại te reo Māori, tạo ra một giấy phép dữ liệu 'dựa trên nguyên tắc Māori của kaitiakitanga, hoặc sự bảo vệ' để bất kỳ dữ liệu được lấy từ Māori đều mang lại lợi ích cho họ trước tiên. So sánh cách tiếp cận này với các tổ chức như StabilityAI, mà lấy các tác phẩm của nghệ sĩ mà không có sự đồng ý hoặc công nhận trong khi tự giới thiệu xây dựng 'Trí tuệ Nhân tạo cho mọi người.' Chúng ta cần giải phóng trí tưởng tượng của mình khỏi cái chúng ta đã được bán cho đến nay: cứu chúng ta khỏi một thảm họa AGI giả tưởng do những người ưu tú ít ỏi tưởng tượng ra, hoặc thiên đường công nghệ mà Silicon Valley elite hứa hẹn cho chúng ta.