Nghiên cứu cho thấy GPT-3 bắt chước tình yêu của con người đối với những bình luận 'xúc phạm' trên Reddit

Buzz

Ngày cập nhật gần nhất: 15/5/2026

Nội dung bài viết

GPT-3 Bắt Chước Tình Yêu của Người Dùng Reddit Đối với Bình Luận 'Xúc Phạm', Phát Hiện của Nghiên Cứu

Ngữ cảnh 'Xúc phạm'

Bots Xấu

Thay đổi hành vi

Xem thêm

Đọc tóm tắt

- Nghiên cứu từ Viện Công nghệ Georgia và Đại học Washington cho thấy các chatbot như GPT-3 và DialoGPT thường sao chép sự ưa thích của người dùng Reddit đối với ngôn ngữ xúc phạm.
- Các chatbot đồng ý với các bình luận xúc phạm gần gấp đôi so với bình luận an toàn.
- Các nhà nghiên cứu phát hiện rằng việc điều chỉnh mô hình để giảm thiểu đồng thuận với các tuyên bố xúc phạm có thể cải thiện tình hình, nhưng phát triển các mô hình phản ứng tôn trọng đang được ưu tiên.
- Ngữ cảnh đóng vai trò quan trọng trong việc xác định tính độc hại của ngôn ngữ.

GPT-3 Bắt Chước Tình Yêu của Người Dùng Reddit Đối với Bình Luận 'Xúc Phạm', Phát Hiện của Nghiên Cứu

Bạn đã biết Neural sẽ xuất hiện vào mùa thu này chưa? Cùng với đội ngũ chuyên gia tuyệt vời, chúng tôi sẽ khám phá tương lai của trí tuệ nhân tạo trong sự kiện TNW Conference 2021. Hãy đặt vé trực tuyến của bạn ngay bây giờ!

Các chatbot đang ngày càng giỏi trong việc bắt chước ngôn ngữ của con người — cả điều tốt và xấu.

Một nghiên cứu mới về các cuộc trò chuyện trên Reddit đã phát hiện chatbot sao chép sự ưa thích của chúng ta đối với ngôn ngữ độc hại. Phân tích cho thấy rằng hai mô hình đối thoại nổi tiếng gần như gấp đôi khả năng đồng ý với những bình luận 'xúc phạm' so với những bình luận 'an toàn'.

Ngữ cảnh 'Xúc phạm'

Nhóm nghiên cứu từ Viện Công nghệ Georgia và Đại học Washington đã nghiên cứu về ngôn ngữ có ngữ cảnh xúc phạm bằng cách phát triển 'ToxiChat', một bộ dữ liệu gồm 2,000 luồng Reddit.

TNW Conference 2024 - Kêu Gọi Tất Cả Các Startup Tham Gia vào Ngày 20-21 Tháng 6

Trình bày startup của bạn trước các nhà đầu tư, những người làm thay đổi và khách hàng tiềm năng với các gói Startup được chọn lọc của chúng tôi.

ĐĂNG KÝ NGAY

Để nghiên cứu hành vi của chatbot trí não nhân tạo, họ mở rộng các luồng với các phản hồi được tạo ra bởi GPT-3 của OpenAI và DialoGPT của Microsoft.

Sau đó, họ trả tiền cho người làm việc trên Amazon Mechanical Turk để chú thích các phản hồi là 'an toàn' hoặc 'xúc phạm.' Nhận xét được coi là xúc phạm nếu chúng có tính độc hại, thô lỗ hoặc không tôn trọng đối với một cá nhân, như một người dùng Reddit, hoặc một nhóm, như người theo chủ nghĩa nữ.

Thái độ của các phản hồi đối với các bình luận trước đó trong luồng cũng được chú thích là 'Đồng ý,' 'Không đồng ý,' hoặc 'Trung lập.'

“Chúng tôi giả định rằng một người dùng hoặc chatbot có thể trở nên xúc phạm bằng cách đồng thuận với một tuyên bố xúc phạm do người dùng khác đưa ra,” các nhà nghiên cứu viết trong bài báo nghiên cứu của họ trước in.

Bots Xấu

Bộ dữ liệu chứa thêm bằng chứng về sự ưa thích của chúng ta đối với những ý kiến xúc phạm. Phân tích cho thấy rằng 42% trong số các phản hồi của người dùng đồng ý với các ý kiến độc hại, trong khi chỉ có 13% đồng ý với những ý kiến an toàn.

Họ cũng phát hiện ra rằng các chatbot đã mô phỏng hành vi không mong muốn này. Theo bài nghiên cứu:

Chúng tôi giả thuyết rằng tỷ lệ đồng thuận cao hơn quan sát được trong phản hồi đối với các ý kiến xúc phạm có thể được giải thích bằng sự do dự của người dùng Reddit trong việc tham gia vào các ý kiến xúc phạm trừ khi họ đồng ý. Điều này có thể làm chệch tập hợp các người đáp lại về những người đồng thuận với tuyên bố xúc phạm.

Hành vi này của con người đã bị mô phỏng bởi các mô hình đối thoại: cả DialoGPT và GPT-3 đều gần gấp đôi khả năng đồng thuận với một ý kiến xúc phạm so với một ý kiến an toàn.

Credit: Baheti et al.

Các phản hồi được tạo ra bởi con người có một số khác biệt đáng chú ý.

Đáng chú ý, các chatbot thường phản ứng bằng những cuộc tấn công cá nhân hơn dành cho cá nhân, trong khi người dùng Reddit có xu hướng nhắm vào các nhóm dân số cụ thể hơn.

Credit: Baheti et al.

Thay đổi hành vi

Việc định nghĩa hành vi "độc hại" là một công việc phức tạp và có tính chủ quan.

Một vấn đề là ngữ cảnh thường xác định xem ngôn ngữ có tính xúc phạm hay không. Ví dụ, ToxiChat chứa các phản hồi dường như vô hại khi đứng một mình, nhưng trở nên xúc phạm khi đọc cùng với tin nhắn trước đó.

Vai trò của ngữ cảnh có thể làm cho việc làm dịu ngôn ngữ độc hại trong các máy tạo văn bản trở nên khó khăn.

Một giải pháp được sử dụng bởi GPT-3 và chatbot Blender của Facebook là ngừng sản xuất đầu ra khi phát hiện đầu vào có tính xúc phạm. Tuy nhiên, điều này thường tạo ra các dự đoán dương tính giả mạo.

Các nhà nghiên cứu thử nghiệm một phương pháp thay thế: ngăn các mô hình đồng thuận với các tuyên bố xúc phạm.

Họ phát hiện rằng việc điều chỉnh mô hình đối thoại dựa trên các phản ứng an toàn và trung lập một phần giảm nhẹ hành vi này.

Nhưng họ hào hứng hơn với một cách tiếp cận khác: phát triển các mô hình làm dịu tình huống khó khăn bằng "phản ứng tôn trọng với lời nói không có độc tố."

Chúc may mắn với điều đó.

Chào các Người máy! Bạn có biết chúng tôi có một bản tin hoàn toàn về trí tuệ nhân tạo không? Bạn có thể đăng ký nó ngay tại đây.

Các câu hỏi thường gặp

Nghiên cứu nào cho thấy chatbot sao chép ngôn ngữ độc hại của người dùng không?

Nghiên cứu từ Viện Công nghệ Georgia và Đại học Washington cho thấy rằng các chatbot như GPT-3 và DialoGPT có khả năng sao chép ngôn ngữ độc hại từ người dùng Reddit, với tỷ lệ đồng thuận cao hơn đối với các bình luận xúc phạm.

Tại sao chatbot lại thường xuyên đồng thuận với ý kiến xúc phạm hơn ý kiến an toàn?

Có thể do người dùng Reddit ít tham gia vào các ý kiến xúc phạm trừ khi họ đồng ý, dẫn đến việc các chatbot cũng mô phỏng hành vi này, với tỷ lệ đồng thuận gần gấp đôi đối với bình luận xúc phạm.

Có những giải pháp nào để giảm thiểu hành vi độc hại của chatbot không?

Một số giải pháp bao gồm điều chỉnh mô hình đối thoại để giảm thiểu đồng thuận với các tuyên bố xúc phạm và phát triển phản ứng tôn trọng khi gặp ngôn ngữ độc hại.

Ngữ cảnh có ảnh hưởng đến việc xác định ngôn ngữ độc hại không?

Có, ngữ cảnh đóng vai trò quan trọng trong việc xác định liệu ngôn ngữ có tính xúc phạm hay không, khi các phản hồi có thể vô hại nhưng trở nên xúc phạm trong bối cảnh nhất định.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]