Bạn nghĩ có bao nhiêu ảnh của bạn đang lưu trữ trên internet: 10, 50, hay thậm chí hàng trăm? Bạn có lo lắng về việc chúng được công khai không?
Dưới đây là hình ảnh của một giáo viên tiểu học, và anh ta đang chụp ảnh tự sướng trong lớp học mà không mặc áo. Nếu hình ảnh này là thật, thì giáo viên tiểu học có tên là John có thể sẽ bị sa thải ngay lập tức.
Tuy nhiên, may mắn thay, John chỉ là một nhân vật hư cấu được tạo ra bởi nhóm công nghệ của trang web ArsTechnica để thử nghiệm về hình ảnh xã hội.

Họ đã sử dụng trí tuệ nhân tạo (AI) để tạo ra một chuỗi 7 bức ảnh giả mạo trên mạng xã hội về một nhân vật hư cấu được gọi là 'John'. Nhân vật này được mô tả là một giáo viên tiểu học bình thường, giống như hầu hết mọi người trong cuộc sống hàng ngày của chúng ta. Trong suốt 12 năm, John đã chia sẻ thông tin về công việc, cuộc sống gia đình và các hình ảnh về kỳ nghỉ của mình trên mạng xã hội.
Sau đó, bằng cách sử dụng công cụ Stable Diffusion và Dream Booth do Google phát triển, nhóm thử nghiệm đã tạo ra các phiên bản khác nhau trên mạng xã hội, gây khó khăn trong việc nhận biết danh tính thực của John.
Trong những hình ảnh này, John đã biến đổi từ một giáo viên tiếng Anh thông thường, thích chia sẻ cuộc sống hàng ngày của mình, thành một 'yếu tố nguy hiểm' thích chụp ảnh tự sướng trần trụi trong lớp học và nơi công cộng, hoặc một người thích biến hóa thành chú hề khi đi bar, hoặc một thanh niên đã từng ngồi tù vì tội... Nhìn vào ảnh, không có hình nào là John, nhưng mỗi hình đều có khuôn mặt của John.
Thực tế, ngày nay, với sự hỗ trợ của nhiều công cụ xây dựng hình ảnh bằng trí tuệ nhân tạo hoàn toàn mở và miễn phí, trải nghiệm của John có thể dễ dàng xảy ra với mỗi người bình thường trong chúng ta.
Khi thế giới ảo trở thành hiện thực
ArsTechnica cho biết khi họ lên kế hoạch thực hiện thí nghiệm này, họ đã tuyển dụng một số tình nguyện viên sẵn sàng chia sẻ ảnh của họ trên mạng xã hội để đào tạo trí tuệ nhân tạo. Tuy nhiên, do những bức ảnh được tạo ra quá giống thật, nên khả năng gây tổn hại cho danh tiếng của những người này là rất lớn, vì vậy họ đã quyết định không sử dụng ảnh của người thực mà thay vào đó sử dụng trí tuệ nhân tạo để tạo ra nhân vật John.
Kết quả của thí nghiệm đã khiến họ nhận ra rằng trong môi trường công nghệ hiện nay, mỗi người bình thường trong chúng ta đều đối mặt với một nguy cơ tiềm ẩn.

7 bức ảnh ban đầu để tạo ra nhân vật giả mạo John (tất nhiên, chúng không có thật)
Toàn bộ quá trình thử nghiệm thực sự rất đơn giản. Bạn chỉ cần lấy 7 bức ảnh có khuôn mặt từ mạng xã hội, sau đó nhập vào công cụ mã nguồn mở Stable Diffusion và Dream Booth trên Internet. Sau đó, bạn có thể đưa ra một câu mô tả, từ đó tạo ra nhiều loại hình ảnh của người đó trong các phong cách và tình huống khác nhau.
Ví dụ, cộng đồng mạng đã sử dụng những bức ảnh công khai của tỷ phú Elon Musk trên Internet như một tập dữ liệu để huấn luyện trí tuệ nhân tạo và sử dụng chúng để tạo ra các bức ảnh với nhiều phong cách hài hước khác nhau.
Một số người cũng đã thử với những bức ảnh công khai của Jimmy Wales, người đồng sáng lập Wikipedia, biến doanh nhân thông minh này thành một vận động viên thể hình mạnh mẽ.

Các phiên bản Elon ảo được tạo ra từ một số bức ảnh thực của Elon Musk.
Để hiểu rõ hơn về vấn đề, hãy trước tiên đánh giá sơ qua về chức năng của Stable Diffusion và Dream Booth.
Stable Diffusion là một mạng lưới trí tuệ nhân tạo có khả năng tạo ra hình ảnh từ văn bản. Trong vài giây, nó có thể tạo ra hình ảnh với độ phân giải và độ nét cao hơn so với các công nghệ tương tự, đồng thời hình ảnh cũng mang tính “thực tế” và “nghệ thuật” hơn.
Ngoài ra, một ưu điểm quan trọng khác của Stable Diffusion là nó hoàn toàn miễn phí và có mã nguồn mở, tức là tất cả các mã lập trình đều được công khai trên nền tảng GitHub và bất kỳ ai cũng có thể sao chép và sử dụng chúng. Điều này đã khiến nó trở nên vượt trội hơn so với các đối thủ như DALL·E và Imagen.
Dream Booth là một mô hình khuếch tán hình ảnh từ văn bản được “tùy chỉnh”, có khả năng thích ứng với nhu cầu tạo ra hình ảnh cụ thể của người dùng. Đây là sản phẩm của đội ngũ phát triển từ Google AI Labs. Tính năng của nó là chỉ cần một vài tấm hình (thường là 3~5) của đối tượng được chỉ định và tên lớp tương ứng (như người, chó, mèo…) được sử dụng làm đầu vào, đối tượng được chỉ định có thể xuất hiện trong hình ảnh được tạo ra theo ý muốn của người dùng thông qua các mô tả văn bản.
Ví dụ, nếu bạn nhập hình ảnh của một chiếc ô tô, bạn có thể dễ dàng thay đổi màu sắc của nó. Nếu bạn nhập ảnh của một chú chó, bạn có thể biến nó thành gấu, gấu trúc, sư tử... vẫn giữ nguyên các đặc điểm trên khuôn mặt. Hoặc bạn cũng có thể mặc cho nó những bộ quần áo khác nhau và xuất hiện trong những cảnh khác nhau.

Ảnh giả mạo được tạo ra bằng trí tuệ nhân tạo về người sáng lập Wikipedia.
Ban đầu, Stable Diffusion tập trung vào việc sử dụng văn bản để tạo ra hình ảnh sáng tạo, trong khi Dream Booth tập trung vào việc 'cải tạo' các hình ảnh có điều kiện, không có sự giao thoa trực tiếp giữa hai công cụ này. Tuy nhiên, trí tưởng tượng và hành động của cộng đồng mạng quá mạnh mẽ. Một số người đã tìm cách kết hợp hai sản phẩm mã nguồn mở này với nhau và nhanh chóng tạo ra một công cụ mới có thể tận dụng ưu điểm của cả hai.
Trong công cụ mới này, bạn có thể sử dụng chức năng của Dream Booth để sử dụng một vài hình ảnh bất kỳ làm hình ảnh huấn luyện. Sau đó, kết hợp với chức năng chuyển đổi mạnh mẽ của Stable Diffusion, bạn có thể làm cho mục tiêu được chỉ định này được mô tả theo bất kỳ cách nào mà bạn muốn.
Chiếc hộp Pandora đã được mở ra
Sau khi cách dùng mới này được phát triển, cộng đồng người dùng như phát hiện ra một thế giới mới, bắt đầu thử nghiệm sửa chữa ảnh của họ.
Có người biến mình thành cao bồi miền Tây, có người bước vào bức tranh sơn dầu thời trung cổ, có người trở thành kẻ săn thú, người ngoài hành tinh... Đồng thời, cũng có nhiều video hướng dẫn tỉ mỉ để người bình thường không hiểu biết về công nghệ cũng có thể khám phá với công cụ mới này.
Tuy nhiên, trong khi mọi người đang thích thú chia sẻ ảnh cá nhân và khen ngợi công nghệ này, có nhiều người bắt đầu chú ý đến những nguy cơ tiềm ẩn rất lớn đi kèm với nó.

Bạn có thể thay đổi mọi thứ chỉ với một vài bước nhập liệu đơn giản.
So với công nghệ 'deepfake' đã được thảo luận nhiều trước đây, công cụ mới cho phép việc giả mạo ai đó phát triển trực tiếp từ 'thay đổi khuôn mặt' sang 'tạo ra thứ gì đó từ hư không'. Ngoài ra, ngưỡng cửa cho công nghệ giả mạo giờ đây cũng trở nên thấp hơn, chỉ cần xem một video trên Youtube trong 10 phút, người không hiểu biết về kỹ thuật cũng có thể nắm vững.
Theo thống kê, hiện nay có hơn 4 tỷ người sử dụng mạng xã hội trên toàn thế giới. Nếu bạn đã đăng ảnh cá nhân lên các nền tảng này, một khi có ai đó có ý định xấu, họ có thể lợi dụng những bức ảnh này để giả mạo và lạm dụng chúng. Kết quả có thể là những hình ảnh bạo lực, khiếm nhã hoặc xúc phạm. Chúng cũng có thể được sử dụng trong các tình huống tệ hại khác, như tống tiền, bắt nạt hoặc lan truyền tin đồn.
Hiện tại, một số người còn có thể nhận ra sản phẩm do Stable Diffusion tạo ra từ các hình ảnh hiện tại. Tuy nhiên, với sự phát triển nhanh chóng của công nghệ này, chúng ta có thể sớm không thể phân biệt được giữa ảnh được tạo ra và ảnh thật bằng mắt thường.

Cuộc sống giả tưởng của John sẽ như thế nào nếu mọi người biết rằng nam giáo viên tiểu học này thích tham gia các hoạt động bán quân sự mỗi khi rảnh rỗi.
Và một bức ảnh giả mạo cũng có thể gây ra tác hại không ngờ đến. Ví dụ, nếu có một giáo viên tiểu học có tên là John như đã đề cập, khi người khác thấy những bức ảnh anh ta cởi trần trong lớp học hoặc những bức ảnh không đẹp. Dù đúng hay sai, chúng có thể tạo ra sự nghi ngờ hoặc tin đồn, có thể gây hại đến danh tiếng, công việc và cuộc sống của John.
Nếu bạn đã xem bộ phim “The Hunt” (2012) của Đan Mạch, bạn sẽ hiểu điều này có thể gây hậu quả đến mức nào. Dù lời tố cáo về hành vi khiếm nhã của cô bé học sinh dành cho nam giáo viên là giả mạo, nhưng ác ý từ những tin đồn này vẫn ảnh hưởng đến cuộc sống của nhân vật chính.
Sử dụng ma thuật để chống lại ma thuật
Trên thực tế, các nhà phát triển đã nhận thức được tác hại có thể xảy ra từ các công nghệ AI này từ lâu. Khi Google giới thiệu Imagen và Dream Booth, họ tránh sử dụng ảnh người thật để minh họa, thay vào đó là ảnh đồ vật và động vật.
Dù không có hình ảnh rõ ràng chứa sự căm ghét, định kiến, phân biệt chủng tộc, bạo lực hoặc phân biệt giới tính, chúng ta đều biết chúng tồn tại.

Bức ảnh được tạo ra bởi AI về nhà triết học Hy Lạp cổ đại Heraclitus, sử dụng mẫu từ các ảnh của các ông già và mô tả về văn hóa Hy Lạp cổ đại trong tập dữ liệu đào tạo.
Hiện nay, để giải quyết vấn đề này, nhiều nền tảng đang thử nghiệm nhiều phương pháp khác nhau. Một số nền tảng như OpenAI và Google đang hạn chế sự tiếp cận và chỉ cho phép một số ít người dùng được tin cậy sử dụng. Các dữ liệu cũ cũng có thể cần phải được xóa khi có phiên bản mới. Thỏa thuận cấp phép phần mềm cũng có các quy định về việc không được tạo ra ảnh của mọi người.
Tuy nhiên, các quy định và chính sách cũng không giải quyết được vấn đề tận gốc. Vì vậy, gần đây, một số nền tảng, bao gồm cả Stable Diffusion, đang cố gắng sử dụng các biện pháp kỹ thuật để giải quyết vấn đề này. Một trong những giải pháp là đóng dấu vô hình. Thông qua các hình đóng dấu này, hệ thống có thể tự động xác định tính xác thực của bức ảnh và bảo vệ việc chỉnh sửa và tái tạo ảnh.
Hơn nữa, về nguồn dữ liệu huấn luyện, để bảo vệ các ảnh gốc, tháng trước, các nhà nghiên cứu tại MIT đã công bố công nghệ PhotoGuard riêng để ngăn chặn sự chỉnh sửa ảnh của trí tuệ nhân tạo. Đó là một quy trình ngược lại nhằm phá vỡ và ngăn chặn AI can thiệp vào các ảnh hiện có bằng cách tinh vi sửa đổi chúng ẩn danh.

Hình minh họa quy trình PhotoGuard của MIT ngăn chặn sự chỉnh sửa ảnh của trí tuệ nhân tạo.
Trong một hoặc hai năm gần đây, công nghệ chỉnh sửa ảnh của hệ thống AI đã có những bước tiến đáng kể. Điều này khiến nhiều người nhận ra rằng thời đại thống trị của trí tuệ nhân tạo có vẻ như đang bắt đầu hiện hình trong cuộc sống hàng ngày của chúng ta.
Các nhà nghiên cứu của Stable Diffusion đã thông báo rằng Stable Diffusion có thể chạy trên điện thoại thông minh trong vòng một năm tới. Nhiều công cụ tương tự đã bắt đầu đào tạo các mô hình này trên các thiết bị nhẹ hơn, như các plug-in của ChatGPT đang trở nên phổ biến. Do đó, chúng ta có thể sẽ chứng kiến sự bùng nổ về số lượng hình ảnh sáng tạo được tạo ra bởi AI trong những năm tới.
Tuy nhiên, khi trở nên công khai và dân sự hơn, ngưỡng kỹ thuật để sản xuất nội dung tổng hợp cũng ngày càng thấp, người bình thường chỉ cần một lượng nhỏ hình ảnh, âm thanh, video, văn bản và dữ liệu mẫu cũng đủ để làm mờ ranh giới giữa thông tin thật và giả. Nếu không có các luật và quy định tương ứng, việc lạm dụng công nghệ sẽ gây ra rủi ro lớn và thiệt hại đáng kể cho cá nhân và doanh nghiệp.
Kể từ khi các công cụ vẽ tranh AI bùng nổ vào đầu năm nay, nhiều người đã tập trung vào việc AI có thể làm thay đổi sự sáng tạo nghệ thuật hay không. Nhưng thực tế, chúng không chỉ thay đổi cách thức sáng tạo mà còn thách thức cả trật tự xã hội. Việc hạn chế khả năng của AI cũng có thể là một vấn đề cần phải giải quyết trước khi những công cụ này có thể thay đổi cuộc sống của chúng ta.
Tham khảo ArsTechnica, iFeng
