Anh ấy từ chức khỏi vị trí lãnh đạo GenAI để phản đối. Bây giờ, anh ấy muốn tạo ra hệ thống công bằng hơn cho nghệ sĩ
Ed Newton-Rex đã chạm đến điểm nổ. Là phó chủ tịch âm thanh tại Stability AI, người 36 tuổi này đang ở hàng đầu của một cách mạng trong sự sáng tạo máy tính. Nhưng có sự lo ngại gia tăng về chiến lược của phong trào.
Stability đang trở thành một đại lực mới nổi trong GenAI. Startup có trụ sở tại London sở hữu Stable Diffusion, một trong những máy tạo hình ảnh phổ biến nhất trên thế giới. Nó cũng mở rộng vào máy tạo âm nhạc với sự ra mắt của Stable Audio vào tháng 9 - một công cụ được Newton-Rex phát triển. Nhưng hai hệ thống này đang theo đuổi những con đường trái ngược nhau.
Stable Audio được đào tạo trên nhạc có bản quyền. Mô hình được cung cấp dữ liệu từ hơn 800.000 tệp từ thư viện nhạc chủ đề AudioSparx. Mọi tư liệu có bản quyền đều đã được cung cấp với sự cho phép.
Stable Diffusion đã đi theo hướng khác. Hệ thống được đào tạo trên hàng tỷ hình ảnh được rút từ web mà không có sự cho phép của người tạo. Nhiều tác phẩm có bản quyền. Tất cả đều được lấy mà không cần thanh toán.
Những hình ảnh này đã giảng dạy mô hình rất tốt. Các đầu ra của Diffusion đã đưa Stability lên mức định giá 1 tỷ đô la trong vòng gọi vốn 101triệu euro năm ngoái. Nhưng hệ thống đang gây sự phản đối từ các nghệ sĩ — bao gồm cả Newton-Rex.
Trăn trở đạo đức của GenAI
Một nghệ sĩ piano và nhà soạn nhạc cũng là một người tiên phong của GenAI, Newton-Rex đối đầu với việc lấy dữ liệu mà không có sự cho phép.
“Tôi luôn muốn đảm bảo rằng những công cụ này được xây dựng với sự đồng thuận của những người tạo ra dữ liệu đào tạo,” ông nói với TNW qua cuộc gọi video từ nhà anh ấy ở Silicon Valley.
Stability chẳng phải là người duy nhất sử dụng phương pháp này. Các máy tạo hình ảnh như MidJourney và Dall-E cũng áp dụng cùng cách tiếp cận, cũng như bộ tạo văn bản ChatGPT của OpenAI và chương trình CoPilot. Nghệ thuật thị giác, tác phẩm văn bản, âm nhạc và thậm chí là mã nguồn đều đang liên tục được chỉnh sửa mà không có sự đồng thuận.
Như phản ứng, những người tạo ra và giữ bản quyền đã khởi kiện nhiều vụ kiện. Họ tức giận vì công việc của họ bị lấy đi, điều chỉnh và kiếm tiền mà không có sự cho phép hoặc bồi thường. Họ cũng lo lắng vì sinh kế của họ đang bị đe dọa.
“Đó là lợi ích của ngành công nghiệp AI khiến người ta nghĩ rằng chỉ có những người chơi lớn mới có thể làm được điều này.
Newton-Rex có một lịch sử dài trong sự sáng tạo máy tính. Sau khi học âm nhạc tại Đại học Cambridge, anh ấy thành lập Jukedeck, một trình soạn nhạc AI tiên phong. Ứng dụng sử dụng học máy để soạn nhạc gốc theo yêu cầu. Năm 2019, nó đã được Mua lại bởi Bytedance, chủ sở hữu của TikTok.
Newton-Rex sau đó có thời kỳ làm giám đốc sản phẩm tại Tiktok và giám đốc sản phẩm chính tại Voicey, một ứng dụng hợp tác âm nhạc được Snap mua lại, trước khi gia nhập Stability AI năm ngoái. Anh ấy được giao nhiệm vụ dẫn dắt nỗ lực âm thanh của startup.
"Tôi muốn xây dựng một sản phẩm trong việc tạo ra âm nhạc mà cho thấy những gì có thể được thực hiện với dữ liệu được cấp phép thực tế — nơi bạn đồng ý với chủ sở hữu quyền lợi," anh ấy nói.
Mục tiêu đó đặt anh ấy vào tình trạng mâu thuẫn với nhiều nhà lãnh đạo ngành công nghiệp. GenAI đang tiến vào dạng chính và các công ty đang nhanh chóng tung ra các hệ thống mới càng nhanh càng tốt. Scraping nội dung từ web là một con đường tắt hấp dẫn.
Điều đó cũng là hiệu quả một cách rõ ràng. Tại thời điểm đó, vẫn còn nghi ngờ về việc bộ dữ liệu được cấp phép có đủ lớn để đào tạo các mô hình hiện đại nhất. Cũng có những nghi ngờ về chất lượng của dữ liệu. Nhưng cả hai giả định đó bây giờ đều đã bị chứng minh là sai.
“Những gì chúng ta gọi là dữ liệu đào tạo thực sự là sản phẩm sáng tạo của con người.
Âm thanh ổn định cung cấp một nguồn chứng cứ phản đối. Mô hình cơ bản của hệ thống được đào tạo trên âm nhạc được cấp phép trong đối tác với chủ sở hữu quyền lợi. Các kết quả đầu ra đã đạt được sự hoan nghênh. Tháng trước, Time đặt tên cho Stable Audio là một trong những phát minh xuất sắc của năm 2023.
"Trong vài tháng, đó là trạng thái của nghệ thuật trong việc tạo ra âm nhạc — và nó được đào tạo trên âm nhạc mà chúng tôi đã cấp phép," Newton-Rex nói. "Đối với tôi, điều đó chứng minh rằng nó có thể thực hiện được."
Thực sự, hiện có một danh sách ngày càng tăng về các công ty chứng minh rằng nó có thể thực hiện được. Một trong số đó là Adobe, mà gần đây đã phát hành một mô hình học máy sáng tạo được gọi là Firefly. Hệ thống được đào tạo trên hình ảnh từ Creative Commons, Wikimedia và Flickr Commons, cũng như 300 triệu hình ảnh và video trong Adobe Stock và miền công cộng.
Vì dữ liệu này được cung cấp với sự cho phép, nó an toàn cho việc sử dụng thương mại. Adobe cũng nhấn mạnh rằng những người sáng tạo có công việc được sử dụng sẽ đủ điều kiện để nhận thanh toán.
The pictures in this collage were generated by Adobe Firefly, which was trained on licensed images. Credit: AdobeMột mô hình thay thế khác đến từ Getty Images. Tháng 9, công ty ra mắt Generative AI by Getty Images, được đào tạo hoàn toàn trên thư viện khổng lồ của nền tảng. Craig Peters, CEO của công ty, cho biết công cụ này đáp ứng "nhu cầu thương mại đồng thời tôn trọng tài sản trí tuệ của người sáng tạo."
Nvidia cũng đã phát triển GenAI trong đối tác với chủ sở hữu quyền lợi. Dịch vụ Picasso của tập đoàn công nghệ này đã được đào tạo trên hình ảnh được cấp phép từ Getty Images, Shutterstock và Adobe. Nvidia cho biết họ dự định trả tiền bản quyền.
Những phương pháp này không phải là phương pháp phù hợp cho mọi người. Như là các tập đoàn siêu lớn với nguồn nội dung sâu rộng, các công ty đằng sau chúng có tài nguyên mà ít doanh nghiệp nào có thể sánh kịp. Tuy nhiên, các startup đang chứng minh rằng cũng có thể cấp phép với ngân sách hạn chế.
GenAI cho mọi người
Bria AI là một ví dụ. Công ty đã phát triển một mô hình nguồn mở thương mại mới cho việc tạo ra hình ảnh chất lượng cao. Tất cả đào tạo được thực hiện trên bộ dữ liệu được cấp phép, được tạo ra trong sự hợp tác với các công ty cung ảnh và nghệ sĩ hàng đầu. Một mô hình chia sẻ doanh thu cung cấp cho người sáng tạo và chủ sở hữu quyền lợi đền bù cho đóng góp của họ.
Đây là một phương pháp tương tự như cách Newton-Rex đã sử dụng tại Stable Audio — nhưng không phải là duy nhất.
Các công ty cũng có thể cung cấp thanh toán trước cho nghệ sĩ, tạo liên doanh để chia sẻ quyền lợi cổ đông cho chủ sở hữu quyền lợi, hoặc sử dụng nội dung với giấy phép Creative Commons, có thể tái sử dụng tự do mà không cần sự cho phép rõ ràng. Các công ty GenAI có thể bác bỏ những nỗ lực này, nhưng họ có động cơ tiềm ẩn.
“Đó là trong lợi ích của ngành công nghiệp AI khiến mọi người nghĩ rằng chỉ có những người chơi lớn mới có thể làm điều này — nhưng không đúng,” Newton-Rex nói.
“Có thể bạn cần phải sáng tạo một chút. Chắc chắn bạn phải thực hiện một số đàm phán và sẵn lòng dành thời gian. Nhưng cuối cùng, điều chúng ta gọi là dữ liệu đào tạo — và thực sự là sáng tạo của con người — là một nguồn lực cho các công ty công nghệ. Họ cần phải làm việc để có được điều đó giống như họ cần phải làm việc để có bất kỳ nguồn lực nào khác.”
Nếu họ sẵn lòng làm điều đó, GenAI có thể hoạt động hòa hợp với nghệ sĩ con người. Và hy vọng, để tất cả chúng ta đều được trải nghiệm sự sáng tạo được giải phóng bởi cả hai.
