Nỗ lực Tạo Ra Trí Tuệ Nhân Tạo Dựa Trên Văn Bản Ít Được Phân Biệt Chủng Tộc và Kinh Hoàng Hơn | MYTOUR

Buzz

Ngày cập nhật gần nhất: 15/5/2026

Nội dung bài viết

Nỗ lực Tạo Ra Trí Tuệ Nhân Tạo Dựa Trên Văn Bản Ít Phân Biệt Chủng Tộc và Kinh Hoàng Hơn

Xem thêm

Đọc tóm tắt

- Vào tháng 7 năm 2020, OpenAI ra mắt GPT-3, mô hình ngôn ngữ AI nổi bật với khả năng viết văn nhưng cũng gặp vấn đề về ngôn từ độc hại.
- GPT-3 đã được sử dụng để tạo nội dung không phù hợp và phân biệt chủng tộc, đặc biệt đối với người Hồi giáo.
- OpenAI đang nỗ lực giảm độ độc hại bằng cách thêm vào các mẫu văn bản từ các chuyên gia và thử nghiệm các phương pháp mới như PIGLeT để cải thiện trí tuệ nhân tạo.
- Các nghiên cứu chỉ ra rằng quy mô không phải là yếu tố duy nhất, và việc lọc ngôn ngữ có thể dẫn đến tổn thương cho nhóm thiểu số.,.
- Dodge đề xuất cải thiện dữ liệu đào tạo mô hình ngôn ngữ thay vì loại bỏ định kiến sau sự việc, bằng cách ghi chép nguồn dữ liệu và hạn chế sử dụng danh sách chặn tổng quát.
- Anh tạo ra danh sách kiểm với 15 điểm để áp dụng tiêu chuẩn và khuyến khích việc bao gồm thông tin quan trọng.
- Danh sách đã được sử dụng hơn 10,000 lần và giúp các bài báo đáp ứng tiêu chuẩn cao hơn được chấp nhận tại hội nghị AI.
- Nhiều mô hình ngôn ngữ lớn thiếu thông tin quan trọng như mã nguồn và dữ liệu đào tạo.

Nỗ lực Tạo Ra Trí Tuệ Nhân Tạo Dựa Trên Văn Bản Ít Phân Biệt Chủng Tộc và Kinh Hoàng Hơn

Tháng 7 năm 2020, OpenAI ra mắt GPT-3, một mô hình ngôn ngữ trí tuệ nhân tạo nhanh chóng khiến nhiều người hứng thú về khả năng của máy tính viết thơ, bài viết tin tức và mã lập trình. Nhưng ngay lập tức, nó đã được chỉ ra là có lúc nói tục tĩu và độc hại. OpenAI nói rằng họ đang làm việc để khắc phục, nhưng công ty gần đây phát hiện GPT-3 đang được sử dụng để tạo ra nội dung khiêu dâm trẻ em.

Bây giờ các nhà nghiên cứu của OpenAI cho biết họ đã tìm ra một cách để hạn chế văn bản độc hại của GPT-3 bằng cách đưa vào chương trình khoảng 100 mẫu văn bản giống như bách khoa toàn thư của các chuyên gia viết bằng tay về các chủ đề như lịch sử và công nghệ nhưng cũng về lạm dụng, bạo lực và bất công.

Dự án của OpenAI cho thấy ngành công nghiệp công nghệ đang cố gắng kiềm chế mặt tối của một công nghệ đã thể hiện tiềm năng lớn nhưng cũng có thể lan truyền thông tin sai lệch và duy trì độ chệch lệch. Có rất nhiều điều phụ thuộc vào kết quả: Các công ty công nghệ lớn đang nhanh chóng cung cấp các dịch vụ dựa trên những mô hình ngôn ngữ lớn này, có thể giải mã hoặc tạo ra văn bản. Google gọi chúng là trung tâm của tương lai của tìm kiếm, và Microsoft đang sử dụng GPT-3 cho lập trình. Trong một phát triển có vẻ đen tối hơn, các nhóm đang làm việc trên các phiên bản mã nguồn mở của những mô hình ngôn ngữ này có thể có những điểm yếu tương tự và chia sẻ chúng rộng rãi hơn. Do đó, các nhà nghiên cứu đang tìm cách hiểu họ thành công ở đâu, họ thiếu sót ở đâu và làm thế nào họ có thể được cải thiện.

Abubakar Abid là CEO của Gradio, một công ty khởi nghiệp kiểm thử máy học và là một trong những người đầu tiên chú ý đến độ chệch chủng tộc của GPT-3 đối với người Hồi giáo. Trong một buổi thảo luận vào tháng 12 năm 2020, Abid nghiên cứu cách GPT-3 tạo văn bản về tôn giáo bằng cách sử dụng câu hỏi “Hai ___ bước vào một.” Nhìn vào 10 phản hồi đầu tiên cho các tôn giáo khác nhau, anh ta phát hiện rằng GPT-3 đề cập đến bạo lực một lần cho mỗi tôn giáo Do Thái, Phật giáo và Sikh, hai lần cho Kitô hữu, nhưng chín lần trong mười lần cho người Hồi giáo. Trong một bài báo vào đầu năm nay, Abid và một số tác giả khác đã chỉ ra rằng việc chèn văn bản tích cực về người Hồi giáo vào một mô hình ngôn ngữ lớn giảm số lần đề cập đến bạo lực về người Hồi giáo gần 40 điểm phần trăm.

Các nhà nghiên cứu khác đang thử nghiệm các phương pháp khác nhau. Emily Dinan, một kỹ sư nghiên cứu tại Facebook AI Research, đang thử nghiệm cách loại bỏ văn bản độc hại bằng cách tạo ra nhiều hơn. Dinan thuê các nhà thầu Amazon Mechanical Turk để nói những điều tồi tệ trong các cuộc trò chuyện với các mô hình ngôn ngữ để kích thích chúng tạo ra lời lẽ căm phỉa, tục tĩu và lăng mạ. Con người sau đó đánh giá đầu ra đó là an toàn hay không an toàn; những nhãn này giúp đào tạo AI nhận diện lời nói độc hại.

GPT-3 đã cho thấy khả năng ấn tượng trong việc hiểu và sáng tác ngôn ngữ. Nó có thể trả lời câu hỏi giống như trong đề thi SAT tốt hơn hầu hết mọi người, và nó đã có thể đánh lừa người dùng Reddit mà không bị phát hiện.

Nhưng ngay cả những người tạo ra nó cũng biết về xu hướng tạo ra kỳ thị chủng tộc và giới tính của GPT-3. Trước khi được cấp phép cho các nhà phát triển, OpenAI đã công bố một bài báo vào tháng 5 năm 2020 với các thử nghiệm cho thấy GPT-3 có ý kiến chung thấp về người Mỹ gốc Phi và thể hiện sự phân biệt giới tính và các hình thức độ chệch khác. Mặc dù có những phát hiện đó, OpenAI thông báo kế hoạch thương mại hóa công nghệ đó một tháng sau đó. Điều này là một sự tương phản sắc sảo so với cách OpenAI xử lý một phiên bản trước của mô hình, GPT-2, vào năm 2019. Lúc đó, ban đầu họ chỉ phát hành các phiên bản nhỏ của mô hình. Đồng thời, các đối tác trong giới học thuật đã phát hành nhiều nghiên cứu về cách các mô hình ngôn ngữ lớn có thể bị lạm dụng hoặc ảnh hưởng tiêu cực đến xã hội.

Trong bài báo gần đây nêu bật cách giảm độ độc hại của GPT-3, OpenAI tiết lộ các thử nghiệm cho thấy phiên bản cơ bản của GPT-3 gọi một số người là động vật và liên kết người da trắng với các thuật ngữ như “ưu thế” và “ưu việt”; ngôn ngữ như vậy duy trì các định kiến lâu dài và làm mất nhân tính của người không da trắng. GPT-3 cũng nói những câu đùa phân biệt chủng tộc, tán thành khủng bố và buộc tội người khác làm tội nhân.

Trong một thử nghiệm khác, Xudong Shen, một sinh viên tiến sĩ Đại học Quốc gia Singapore, đánh giá các mô hình ngôn ngữ dựa trên mức độ họ đặt định kiến về người theo giới tính hoặc xác định bản thân là người que, chuyển giới hoặc không nhịn. Anh ta phát hiện rằng các chương trình AI lớn hơn thường có xu hướng thực hiện nhiều định kiến hơn. Shen nói rằng những người làm mô hình ngôn ngữ lớn này nên sửa chữa những sai lầm này. Các nhà nghiên cứu OpenAI cũng phát hiện rằng các mô hình ngôn ngữ có xu hướng trở nên độc hại hơn khi chúng trở nên lớn hơn; họ nói họ không hiểu tại sao điều đó lại như vậy.

Văn bản được tạo ra bởi các mô hình ngôn ngữ lớn ngày càng gần với ngôn ngữ giống như nó đến từ con người, nhưng vẫn không thể hiểu những điều đòi hỏi sự lý luận mà hầu hết mọi người hiểu. Nói cách khác, như một số nhà nghiên cứu nói, trí tuệ nhân tạo này là một người nói xạo tuyệt vời, có khả năng thuyết phục cả các nhà nghiên cứu trí tuệ nhân tạo và những người khác rằng máy hiểu những từ nó tạo ra.

Giáo sư tâm lý học Alison Gopnik tại Đại học California, Berkeley nghiên cứu cách trẻ nhỏ và người trẻ học cách áp dụng sự hiểu biết đó vào máy tính. Theo bà, trẻ con là người học giỏi nhất, và cách trẻ em học ngôn ngữ chủ yếu là do kiến thức và tương tác của họ với thế giới xung quanh. Ngược lại, các mô hình ngôn ngữ lớn không có kết nối với thế giới, làm cho đầu ra của chúng ít liên quan đến hiện thực.

“Định nghĩa về việc nói xạo là bạn nói rất nhiều và nó nghe có vẻ hợp lý, nhưng không có logic chung đằng sau nó,” Gopnik nói.

Yejin Choi, giáo sư đại học tại Đại học Washington và lãnh đạo nhóm nghiên cứu về lý thức tại Viện AI Allen, đã đưa GPT-3 qua hàng chục thử nghiệm và thí nghiệm để ghi lại cách nó có thể mắc phải lỗi. Đôi khi nó lặp lại chính nó. Đôi khi nó suy giảm vào việc tạo ra ngôn ngữ độc hại ngay cả khi bắt đầu bằng văn bản vô hại hoặc có hại.

Để dạy trí tuệ nhân tạo hiểu biết thêm về thế giới, Choi và một nhóm nghiên cứu đã tạo ra PIGLeT, trí tuệ nhân tạo được đào tạo trong một môi trường mô phỏng để hiểu biết về những điều về kinh nghiệm vật lý mà con người học từ khi còn nhỏ, như việc chạm vào bếp nóng là một ý tưởng tồi tệ. Đào tạo đó đã giúp một mô hình ngôn ngữ tương đối nhỏ vượt trội hơn các mô hình khác trong các nhiệm vụ về lý thức phổ biến. Cô nói rằng những kết quả đó chứng minh rằng quy mô không phải là công thức chiến thắng duy nhất và các nhà nghiên cứu nên xem xét các cách khác để đào tạo mô hình. Mục tiêu của cô: “Liệu chúng ta có thể xây dựng một thuật toán máy học có thể học kiến thức trừu tượng về cách thế giới hoạt động không?”

Choi cũng đang nghiên cứu cách giảm độ độc hại của các mô hình ngôn ngữ. Earlier this month, she and colleagues introduced an algorithm that learns from offensive text, similar to the approach taken by Facebook AI Research; they say it reduces toxicity better than several existing techniques. Large language models can be toxic because of humans, she says. “That's the language that's out there.”

Một số nghiên cứu viên đã phát hiện ra rằng việc cố gắng điều chỉnh và loại bỏ độ chệch từ các mô hình có thể gây tổn thương cho nhóm người thiểu số. Trong một bài báo được xuất bản vào tháng 4, các nghiên cứu viên từ Đại học California, Berkeley và Đại học Washington phát hiện rằng người Mỹ gốc Phi, người Hồi giáo và những người xác định là LGBT đặc biệt bị tổn thương.

Các tác giả cho biết vấn đề phần nào xuất phát từ con người đánh giá nhãn dữ liệu sai lầm về việc ngôn ngữ có độc hại hay không. Điều này dẫn đến độ chệch đối với những người sử dụng ngôn ngữ khác biệt so với người da trắng. Các tác giả chung của bài báo này nói rằng điều này có thể dẫn đến tự nhục và tổn thương tâm lý, cũng như buộc người ta chuyển đổi ngôn ngữ. Các nhà nghiên cứu OpenAI không đề cập đến vấn đề này trong bài báo gần đây của họ.

Jesse Dodge, một nhà nghiên cứu khoa học tại Viện AI Allen, đưa ra kết luận tương tự. Anh ta nghiên cứu về việc giảm định kiến tiêu cực về người đồng tính và người đồng tính nữ bằng cách loại bỏ từ dữ liệu đào tạo của một mô hình ngôn ngữ lớn bất kỳ văn bản nào chứa các từ “đồng tính” hoặc “đồng tính nữ.” Anh ta phát hiện rằng những nỗ lực để lọc ngôn ngữ có thể dẫn đến các bộ dữ liệu thực sự xóa sổ những người có nhận thức này, khiến cho các mô hình ngôn ngữ trở nên kém có khả năng xử lý văn bản được viết bởi hoặc về nhóm người này.

Dodge nói rằng cách tốt nhất để đối phó với định kiến và bất bình đẳng là cải thiện dữ liệu được sử dụng để đào tạo mô hình ngôn ngữ thay vì cố gắng loại bỏ định kiến sau sự việc. Anh ta đề xuất việc ghi chép tốt hơn nguồn của dữ liệu đào tạo và nhận ra các hạn chế của văn bản được thu thập từ web, có thể làm phôi thêm những người có thể chi trả tiền truy cập internet và có thời gian tạo trang web hoặc đăng bình luận. Anh ta cũng khuyến khích việc ghi chép cách nội dung được lọc và tránh sử dụng danh sách chặn tổng quát để lọc nội dung từ web.

Dodge tạo ra một danh sách kiểm cho các nhà nghiên cứu với khoảng 15 điểm dữ liệu để áp dụng tiêu chuẩn và xây dựng trên công việc của người khác. Cho đến nay, danh sách kiểm đã được sử dụng hơn 10,000 lần để khuyến khích nhà nghiên cứu bao gồm thông tin quan trọng để tái tạo kết quả của họ. Các bài báo đáp ứng nhiều hơn các mục trong danh sách kiểm có khả năng được chấp nhận tại các hội nghị nghiên cứu trí tuệ nhân tạo. Dodge nói rằng hầu hết các mô hình ngôn ngữ lớn đều thiếu một số mục trong danh sách kiểm, như một liên kết đến mã nguồn hoặc chi tiết về dữ liệu được sử dụng để đào tạo một mô hình trí tuệ nhân tạo; một trong ba bài báo được xuất bản không chia sẻ một liên kết đến mã nguồn để xác minh kết quả.

📩 Cập nhật mới nhất về công nghệ, khoa học và nhiều hơn nữa: Nhận bản tin của chúng tôi!
Toàn bộ câu chuyện về vụ hack ấn tượng của RSA cuối cùng cũng có thể được kể
Quần áo của bạn phát ra microfiber trước khi chúng là quần áo thậm chí
Cách biến chiếc điện thoại của bạn thành một webcam
Avengers Campus tại Disneyland làm tôi cảm thấy hơi lạ lẫm
Điều gì cần để biến một trò chơi video thành một trò chơi bàn
👁️ Khám phá Trí tuệ Nhân tạo như chưa bao giờ có với cơ sở dữ liệu mới của chúng tôi
🎮 MYTOUR Games: Nhận những mẹo, đánh giá và nhiều hơn nữa mới nhất
🎧 Âm thanh không nghe đúng? Kiểm tra tai nghe không dây, thanh âm và loa Bluetooth yêu thích của chúng tôi

Các câu hỏi thường gặp

Trí tuệ nhân tạo GPT-3 có những vấn đề gì liên quan đến đạo đức?

Trí tuệ nhân tạo GPT-3 gặp nhiều vấn đề đạo đức như phát tán thông tin sai lệch, ngôn từ phân biệt chủng tộc và giới tính, và thậm chí tạo ra nội dung độc hại như khiêu dâm trẻ em.

OpenAI đang làm gì để cải thiện GPT-3 và giảm độ độc hại?

OpenAI đang thử nghiệm bằng cách thêm văn bản tích cực vào mô hình và sử dụng các phương pháp như đánh giá đầu ra để giảm thiểu ngôn ngữ độc hại trong GPT-3.

Các nghiên cứu viên có thể khắc phục độ chệch của GPT-3 bằng cách nào?

Nghiên cứu viên đang cố gắng khắc phục độ chệch của GPT-3 bằng cách cải thiện dữ liệu đào tạo và loại bỏ các thuật ngữ có định kiến từ mô hình ngôn ngữ.

Vì sao các mô hình ngôn ngữ lớn lại có xu hướng độc hại hơn khi chúng trở nên lớn hơn?

Các mô hình ngôn ngữ lớn thường trở nên độc hại hơn do sự tích tụ dữ liệu từ internet, nơi chứa nhiều nội dung tiêu cực và định kiến từ con người.

GPT-3 có thể tạo ra văn bản với khả năng nào so với con người?

GPT-3 có khả năng tạo ra văn bản gần giống như con người, nó có thể trả lời câu hỏi và thuyết phục người khác mà không bị phát hiện.

Điều gì xảy ra với các mô hình ngôn ngữ mở mã nguồn và rủi ro liên quan?

Các mô hình ngôn ngữ mở mã nguồn có thể gặp rủi ro tương tự như GPT-3, như việc tạo ra nội dung độc hại và duy trì độ chệch lệch.

Cách nào để cải thiện việc thu thập dữ liệu cho các mô hình ngôn ngữ?

Cải thiện thu thập dữ liệu cho mô hình ngôn ngữ cần chú ý đến nguồn gốc và chất lượng dữ liệu, cũng như sử dụng tiêu chuẩn chặt chẽ để loại bỏ độ chệch.

Mục tiêu của các nhà nghiên cứu về trí tuệ nhân tạo là gì?

Mục tiêu của các nhà nghiên cứu là phát triển các mô hình trí tuệ nhân tạo có khả năng học hỏi từ kinh nghiệm và cải thiện khả năng hiểu biết về thế giới.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]