Những phát hiện này gây thêm lo ngại về việc các công cụ AI có thể tạo ra nội dung lạm dụng trẻ em, gây ra một làn sóng mới.
Một lượng lớn hình ảnh nghi ngờ liên quan đến việc lạm dụng tình dục trẻ em đã được phát hiện trong cơ sở dữ liệu, được sử dụng để huấn luyện các mô hình AI.
Theo thông tin từ BI, một cuộc điều tra của Trung tâm Chính sách Mạng của Đại học Stanford đã phát hiện rằng cơ sở dữ liệu LAION-5B, được sử dụng để huấn luyện các mô hình AI như Stable Diffusion, chứa hơn 3.200 hình ảnh gây nghi ngờ là lạm dụng trẻ em.
Chỉ có hơn 1.000 hình ảnh trong số đó được xác nhận là liên quan đến việc lạm dụng tình dục trẻ em, với báo cáo cảnh báo rằng việc chúng xuất hiện trong tập dữ liệu có thể dẫn đến việc sử dụng các công cụ AI dựng nội dung mới về lạm dụng trẻ em.
LAION-5B là một kho dữ liệu công cộng cực lớn với khoảng 5 tỷ hình ảnh được thu thập từ web mở. Kho dữ liệu này được nhiều công ty AI sử dụng, đòi hỏi dữ liệu lớn để huấn luyện mô hình tổng hợp ảnh chỉ trong vài giây.
Các chuyên gia đã từng cảnh báo rằng các công cụ tạo hình ảnh AI có thể bị lạm dụng để tạo ra hàng tỷ hình ảnh liên quan đến tình dục trẻ em siêu thực, với Tổ chức Theo dõi Internet (IWF) cảnh báo rằng những hình ảnh này có thể lưu hành rộng rãi trên web đen.
Theo dữ liệu từ Graphika, các ứng dụng AI sử dụng công nghệ tương tự để tạo ra hình ảnh 'lột đồ' phụ nữ trong ảnh bằng cách tạo ra hình ảnh giả mạo hình dáng của họ, gây tranh cãi trong những ngày gần đây.
Stable Diffusion được biết đến là một trong những mô hình phổ biến nhất sử dụng dữ liệu từ LAION. Được phát triển bởi công ty Stability AI có trụ sở tại Anh, công cụ này đã trở thành một trong những công cụ tạo hình ảnh phổ biến nhất từ khi ra mắt vào năm 2022.
Công ty đã tung ra Stable Diffusion 2.0, với các biện pháp kiểm soát nghiêm ngặt hơn đối với nội dung khiêu dâm vào năm trước, tuy nhiên phiên bản 1.5, tạo ra nội dung đồi truỵ, vẫn tồn tại trên web.
Trước đó, nhóm nghiên cứu tại Stanford cũng đã phát hiện ra LAION-400M, phiên bản trước của 5B, chứa 'hình ảnh đồi truỵ, lời nói thô tục và sai lệch', đã được Google sử dụng để đào tạo tính năng chuyển văn bản thành hình ảnh của trình tạo hình ảnh của mình. Hiện nay, Google đã ngừng sử dụng dữ liệu từ LAION.