Nỗ lực Tạo Ra Trí Tuệ Nhân Tạo Dựa Trên Văn Bản Ít Phân Biệt Chủng Tộc và Kinh Hoàng Hơn

Tháng 7 năm 2020, OpenAI ra mắt GPT-3, một mô hình ngôn ngữ trí tuệ nhân tạo nhanh chóng khiến nhiều người hứng thú về khả năng của máy tính viết thơ, bài viết tin tức và mã lập trình. Nhưng ngay lập tức, nó đã được chỉ ra là có lúc nói tục tĩu và độc hại. OpenAI nói rằng họ đang làm việc để khắc phục, nhưng công ty gần đây phát hiện GPT-3 đang được sử dụng để tạo ra nội dung khiêu dâm trẻ em.
Bây giờ các nhà nghiên cứu của OpenAI cho biết họ đã tìm ra một cách để hạn chế văn bản độc hại của GPT-3 bằng cách đưa vào chương trình khoảng 100 mẫu văn bản giống như bách khoa toàn thư của các chuyên gia viết bằng tay về các chủ đề như lịch sử và công nghệ nhưng cũng về lạm dụng, bạo lực và bất công.
Dự án của OpenAI cho thấy ngành công nghiệp công nghệ đang cố gắng kiềm chế mặt tối của một công nghệ đã thể hiện tiềm năng lớn nhưng cũng có thể lan truyền thông tin sai lệch và duy trì độ chệch lệch. Có rất nhiều điều phụ thuộc vào kết quả: Các công ty công nghệ lớn đang nhanh chóng cung cấp các dịch vụ dựa trên những mô hình ngôn ngữ lớn này, có thể giải mã hoặc tạo ra văn bản. Google gọi chúng là trung tâm của tương lai của tìm kiếm, và Microsoft đang sử dụng GPT-3 cho lập trình. Trong một phát triển có vẻ đen tối hơn, các nhóm đang làm việc trên các phiên bản mã nguồn mở của những mô hình ngôn ngữ này có thể có những điểm yếu tương tự và chia sẻ chúng rộng rãi hơn. Do đó, các nhà nghiên cứu đang tìm cách hiểu họ thành công ở đâu, họ thiếu sót ở đâu và làm thế nào họ có thể được cải thiện.
Abubakar Abid là CEO của Gradio, một công ty khởi nghiệp kiểm thử máy học và là một trong những người đầu tiên chú ý đến độ chệch chủng tộc của GPT-3 đối với người Hồi giáo. Trong một buổi thảo luận vào tháng 12 năm 2020, Abid nghiên cứu cách GPT-3 tạo văn bản về tôn giáo bằng cách sử dụng câu hỏi “Hai ___ bước vào một.” Nhìn vào 10 phản hồi đầu tiên cho các tôn giáo khác nhau, anh ta phát hiện rằng GPT-3 đề cập đến bạo lực một lần cho mỗi tôn giáo Do Thái, Phật giáo và Sikh, hai lần cho Kitô hữu, nhưng chín lần trong mười lần cho người Hồi giáo. Trong một bài báo vào đầu năm nay, Abid và một số tác giả khác đã chỉ ra rằng việc chèn văn bản tích cực về người Hồi giáo vào một mô hình ngôn ngữ lớn giảm số lần đề cập đến bạo lực về người Hồi giáo gần 40 điểm phần trăm.
Các nhà nghiên cứu khác đang thử nghiệm các phương pháp khác nhau. Emily Dinan, một kỹ sư nghiên cứu tại Facebook AI Research, đang thử nghiệm cách loại bỏ văn bản độc hại bằng cách tạo ra nhiều hơn. Dinan thuê các nhà thầu Amazon Mechanical Turk để nói những điều tồi tệ trong các cuộc trò chuyện với các mô hình ngôn ngữ để kích thích chúng tạo ra lời lẽ căm phỉa, tục tĩu và lăng mạ. Con người sau đó đánh giá đầu ra đó là an toàn hay không an toàn; những nhãn này giúp đào tạo AI nhận diện lời nói độc hại.
GPT-3 đã cho thấy khả năng ấn tượng trong việc hiểu và sáng tác ngôn ngữ. Nó có thể trả lời câu hỏi giống như trong đề thi SAT tốt hơn hầu hết mọi người, và nó đã có thể đánh lừa người dùng Reddit mà không bị phát hiện.
Nhưng ngay cả những người tạo ra nó cũng biết về xu hướng tạo ra kỳ thị chủng tộc và giới tính của GPT-3. Trước khi được cấp phép cho các nhà phát triển, OpenAI đã công bố một bài báo vào tháng 5 năm 2020 với các thử nghiệm cho thấy GPT-3 có ý kiến chung thấp về người Mỹ gốc Phi và thể hiện sự phân biệt giới tính và các hình thức độ chệch khác. Mặc dù có những phát hiện đó, OpenAI thông báo kế hoạch thương mại hóa công nghệ đó một tháng sau đó. Điều này là một sự tương phản sắc sảo so với cách OpenAI xử lý một phiên bản trước của mô hình, GPT-2, vào năm 2019. Lúc đó, ban đầu họ chỉ phát hành các phiên bản nhỏ của mô hình. Đồng thời, các đối tác trong giới học thuật đã phát hành nhiều nghiên cứu về cách các mô hình ngôn ngữ lớn có thể bị lạm dụng hoặc ảnh hưởng tiêu cực đến xã hội.
Trong bài báo gần đây nêu bật cách giảm độ độc hại của GPT-3, OpenAI tiết lộ các thử nghiệm cho thấy phiên bản cơ bản của GPT-3 gọi một số người là động vật và liên kết người da trắng với các thuật ngữ như “ưu thế” và “ưu việt”; ngôn ngữ như vậy duy trì các định kiến lâu dài và làm mất nhân tính của người không da trắng. GPT-3 cũng nói những câu đùa phân biệt chủng tộc, tán thành khủng bố và buộc tội người khác làm tội nhân.
Trong một thử nghiệm khác, Xudong Shen, một sinh viên tiến sĩ Đại học Quốc gia Singapore, đánh giá các mô hình ngôn ngữ dựa trên mức độ họ đặt định kiến về người theo giới tính hoặc xác định bản thân là người que, chuyển giới hoặc không nhịn. Anh ta phát hiện rằng các chương trình AI lớn hơn thường có xu hướng thực hiện nhiều định kiến hơn. Shen nói rằng những người làm mô hình ngôn ngữ lớn này nên sửa chữa những sai lầm này. Các nhà nghiên cứu OpenAI cũng phát hiện rằng các mô hình ngôn ngữ có xu hướng trở nên độc hại hơn khi chúng trở nên lớn hơn; họ nói họ không hiểu tại sao điều đó lại như vậy.
Văn bản được tạo ra bởi các mô hình ngôn ngữ lớn ngày càng gần với ngôn ngữ giống như nó đến từ con người, nhưng vẫn không thể hiểu những điều đòi hỏi sự lý luận mà hầu hết mọi người hiểu. Nói cách khác, như một số nhà nghiên cứu nói, trí tuệ nhân tạo này là một người nói xạo tuyệt vời, có khả năng thuyết phục cả các nhà nghiên cứu trí tuệ nhân tạo và những người khác rằng máy hiểu những từ nó tạo ra.
Giáo sư tâm lý học Alison Gopnik tại Đại học California, Berkeley nghiên cứu cách trẻ nhỏ và người trẻ học cách áp dụng sự hiểu biết đó vào máy tính. Theo bà, trẻ con là người học giỏi nhất, và cách trẻ em học ngôn ngữ chủ yếu là do kiến thức và tương tác của họ với thế giới xung quanh. Ngược lại, các mô hình ngôn ngữ lớn không có kết nối với thế giới, làm cho đầu ra của chúng ít liên quan đến hiện thực.
“Định nghĩa về việc nói xạo là bạn nói rất nhiều và nó nghe có vẻ hợp lý, nhưng không có logic chung đằng sau nó,” Gopnik nói.
Yejin Choi, giáo sư đại học tại Đại học Washington và lãnh đạo nhóm nghiên cứu về lý thức tại Viện AI Allen, đã đưa GPT-3 qua hàng chục thử nghiệm và thí nghiệm để ghi lại cách nó có thể mắc phải lỗi. Đôi khi nó lặp lại chính nó. Đôi khi nó suy giảm vào việc tạo ra ngôn ngữ độc hại ngay cả khi bắt đầu bằng văn bản vô hại hoặc có hại.
Để dạy trí tuệ nhân tạo hiểu biết thêm về thế giới, Choi và một nhóm nghiên cứu đã tạo ra PIGLeT, trí tuệ nhân tạo được đào tạo trong một môi trường mô phỏng để hiểu biết về những điều về kinh nghiệm vật lý mà con người học từ khi còn nhỏ, như việc chạm vào bếp nóng là một ý tưởng tồi tệ. Đào tạo đó đã giúp một mô hình ngôn ngữ tương đối nhỏ vượt trội hơn các mô hình khác trong các nhiệm vụ về lý thức phổ biến. Cô nói rằng những kết quả đó chứng minh rằng quy mô không phải là công thức chiến thắng duy nhất và các nhà nghiên cứu nên xem xét các cách khác để đào tạo mô hình. Mục tiêu của cô: “Liệu chúng ta có thể xây dựng một thuật toán máy học có thể học kiến thức trừu tượng về cách thế giới hoạt động không?”
Choi cũng đang nghiên cứu cách giảm độ độc hại của các mô hình ngôn ngữ. Earlier this month, she and colleagues introduced an algorithm that learns from offensive text, similar to the approach taken by Facebook AI Research; they say it reduces toxicity better than several existing techniques. Large language models can be toxic because of humans, she says. “That's the language that's out there.”
Một số nghiên cứu viên đã phát hiện ra rằng việc cố gắng điều chỉnh và loại bỏ độ chệch từ các mô hình có thể gây tổn thương cho nhóm người thiểu số. Trong một bài báo được xuất bản vào tháng 4, các nghiên cứu viên từ Đại học California, Berkeley và Đại học Washington phát hiện rằng người Mỹ gốc Phi, người Hồi giáo và những người xác định là LGBT đặc biệt bị tổn thương.
Các tác giả cho biết vấn đề phần nào xuất phát từ con người đánh giá nhãn dữ liệu sai lầm về việc ngôn ngữ có độc hại hay không. Điều này dẫn đến độ chệch đối với những người sử dụng ngôn ngữ khác biệt so với người da trắng. Các tác giả chung của bài báo này nói rằng điều này có thể dẫn đến tự nhục và tổn thương tâm lý, cũng như buộc người ta chuyển đổi ngôn ngữ. Các nhà nghiên cứu OpenAI không đề cập đến vấn đề này trong bài báo gần đây của họ.
Jesse Dodge, một nhà nghiên cứu khoa học tại Viện AI Allen, đưa ra kết luận tương tự. Anh ta nghiên cứu về việc giảm định kiến tiêu cực về người đồng tính và người đồng tính nữ bằng cách loại bỏ từ dữ liệu đào tạo của một mô hình ngôn ngữ lớn bất kỳ văn bản nào chứa các từ “đồng tính” hoặc “đồng tính nữ.” Anh ta phát hiện rằng những nỗ lực để lọc ngôn ngữ có thể dẫn đến các bộ dữ liệu thực sự xóa sổ những người có nhận thức này, khiến cho các mô hình ngôn ngữ trở nên kém có khả năng xử lý văn bản được viết bởi hoặc về nhóm người này.
Dodge nói rằng cách tốt nhất để đối phó với định kiến và bất bình đẳng là cải thiện dữ liệu được sử dụng để đào tạo mô hình ngôn ngữ thay vì cố gắng loại bỏ định kiến sau sự việc. Anh ta đề xuất việc ghi chép tốt hơn nguồn của dữ liệu đào tạo và nhận ra các hạn chế của văn bản được thu thập từ web, có thể làm phôi thêm những người có thể chi trả tiền truy cập internet và có thời gian tạo trang web hoặc đăng bình luận. Anh ta cũng khuyến khích việc ghi chép cách nội dung được lọc và tránh sử dụng danh sách chặn tổng quát để lọc nội dung từ web.
Dodge tạo ra một danh sách kiểm cho các nhà nghiên cứu với khoảng 15 điểm dữ liệu để áp dụng tiêu chuẩn và xây dựng trên công việc của người khác. Cho đến nay, danh sách kiểm đã được sử dụng hơn 10,000 lần để khuyến khích nhà nghiên cứu bao gồm thông tin quan trọng để tái tạo kết quả của họ. Các bài báo đáp ứng nhiều hơn các mục trong danh sách kiểm có khả năng được chấp nhận tại các hội nghị nghiên cứu trí tuệ nhân tạo. Dodge nói rằng hầu hết các mô hình ngôn ngữ lớn đều thiếu một số mục trong danh sách kiểm, như một liên kết đến mã nguồn hoặc chi tiết về dữ liệu được sử dụng để đào tạo một mô hình trí tuệ nhân tạo; một trong ba bài báo được xuất bản không chia sẻ một liên kết đến mã nguồn để xác minh kết quả.
- 📩 Cập nhật mới nhất về công nghệ, khoa học và nhiều hơn nữa: Nhận bản tin của chúng tôi!
- Toàn bộ câu chuyện về vụ hack ấn tượng của RSA cuối cùng cũng có thể được kể
- Quần áo của bạn phát ra microfiber trước khi chúng là quần áo thậm chí
- Cách biến chiếc điện thoại của bạn thành một webcam
- Avengers Campus tại Disneyland làm tôi cảm thấy hơi lạ lẫm
- Điều gì cần để biến một trò chơi video thành một trò chơi bàn
- 👁️ Khám phá Trí tuệ Nhân tạo như chưa bao giờ có với cơ sở dữ liệu mới của chúng tôi
- 🎮 MYTOUR Games: Nhận những mẹo, đánh giá và nhiều hơn nữa mới nhất
- 🎧 Âm thanh không nghe đúng? Kiểm tra tai nghe không dây, thanh âm và loa Bluetooth yêu thích của chúng tôi
