Cuộc Chiến Về Sách3 Có Thể Thay Đổi AI Mãi Mãi

Sau khi OpenAI phát hành GPT-3 vào tháng 7 năm 2020, nghiên cứu viên trí tuệ nhân tạo độc lập Shawn Presser và một số đồng nghiệp nghiên cứu máy học của anh ta đặt ra một thách thức cho bản thân: Liệu họ có thể tái tạo nó không? “Chúng tôi nghĩ rằng, OK, thực sự không có nhiều thứ cản trở chúng tôi tự làm điều này,” Presser nói. Vậy nếu OpenAI có túi tiền sâu và một sự khởi đầu, thì sao?

Mùa hè đó, họ đọc kỹ về những bài báo về GPT-3, thảo luận trong các cuộc trò chuyện Discord kéo dài về cách tốt nhất để xấp xỉ tập dữ liệu đào tạo của nó. Presser chú ý đến những cuốn sách họ cần. Nghi ngờ rằng một trong những bộ dữ liệu của OpenAI được lấy từ một “thư viện bóng tối” trực tuyến như Library Genesis, nơi cung cấp một kho lưu trữ rộng lớn về văn bản vi phạm bản quyền, anh ta quyết định phân tích ngược những gì anh ta coi là một ngữ cảnh có thể tương tự.
Đó là thời điểm phù hợp cho Presser bắt đầu một dự án mới. Thất nghiệp, anh ta gặp khó khăn trong việc đi làm đúng giờ. Anh ta mặc quần áo, sau đó ngủ gục trên sofa. Cuối cùng, anh ta nhận được chẩn đoán về chứng ngủ ngủ. Khi đó, anh ta chỉ cảm thấy tức giận. Anh ấy muốn đóng góp cho xã hội.
“Tôi đang nghịch ngợm, Google ‘cách tải xuống Library Genesis,’” Presser nhớ lại. Anh ấy phát hiện trang web của một nhóm lưu trữ dữ liệu mang tên The Eye; điều làm anh ấy kinh ngạc, trang web này đang chứa liên kết đến sách từ một thư viện bóng tối có tên là Bibliotik. “Tôi nghĩ như, độc nhất vô nhị.”
Anh ấy sử dụng một kịch bản được viết bởi nhà hoạt động open-access đã quá cố Aaron Swartz để chuyển đổi các tệp anh ấy thu thập được, tạo ra một thư viện khoảng 196,000 sách, bao gồm các tác phẩm của các tác giả nổi tiếng như Stephen King, Margaret Atwood và Zadie Smith. (The Atlantic đầu tiên đưa tin chi tiết về nội dung của Books3 tháng trước.) Dự án mất cho anh ấy một tuần từ đầu đến cuối. Vì OpenAI đã gọi bộ dữ liệu sách của mình là “Books1” và “Books2,” Presser quyết định giữ cho truyền thống sống: Anh ta đặt tên cho bộ ngữ cảnh lấy cắp của mình là “Books3.”
Khi Presser đã tổ chức thư viện của mình, anh ấy hỏi The Eye liệu nó có thể lưu trữ Books3 không, chủ yếu vì anh ấy và bạn bè của anh ấy không có tiền làm điều đó. “Chúng tôi chỉ là những người hâm mộ công nghệ làm điều này chủ yếu vì sự tò mò tâm hồn.” Nhóm thu thập lưu trữ dữ liệu đồng thuận. Books3 lên mạng vào tháng 10 năm 2020.
Books3 bắt đầu như một dự án đam mê của một chàng trai ở Miền Trung Mỹ đi qua một thời kỳ kỳ lạ. “Tôi đã đổ linh hồn của mình vào công việc,” anh ấy nói. Anh ấy nhìn nhận rằng đó là sự hòa nhập với phong trào mã nguồn mở, một cách để làm cho việc tiếp cận với các loại tập dữ liệu mà OpenAI đã sử dụng trở nên dân chủ hóa hơn. Một số đồng sự của anh ấy đã thành lập tổ chức thu thập trí tuệ nhân tạo phi lợi nhuận Eleuther, và Books3 được phát hành như một phần của bộ dữ liệu lớn hơn của Eleuther, The Pile. Nhưng Presser vẫn là một diễn viên phụ ở mép của làn sóng AI sáng tạo.
Mặc dù anh ấy không nổi tiếng, tập dữ liệu mà Presser đã tạo ra hiện đang ở trung tâm của một cuộc tranh cãi nảy lửa về tương lai của trí tuệ nhân tạo. Books3 nhanh chóng trở thành một bộ dữ liệu đào tạo phổ biến, không chỉ giữa các nhà nghiên cứu học thuật và Eleuther—các công ty lớn, bao gồm Meta và Bloomberg, cũng đã đào tạo mô hình ngôn ngữ lớn của họ với nó. (Meta từ chối bình luận về câu chuyện này. Bloomberg không trả lời các câu hỏi được gửi đến luật sư của mình.)
Trong khi Presser coi Books3 là một đóng góp cho khoa học, người khác nhìn nhận tập dữ liệu của anh ấy theo một cách ít lấy làm khen ngợi hơn nhiều, và coi anh ấy là người chân thành nhưng rất lạc lõng. Đối với những người phê phán, Books3 không phải là một phúc lợi cho xã hội—thay vào đó, nó là biểu tượng của mọi vấn đề với trí tuệ nhân tạo sáng tạo, một ví dụ rõ ràng về cách cả quyền lợi và sở thích của nghệ sĩ đều bị xem nhẹ và không được tôn trọng bởi các nhà chủ chốt của ngành công nghiệp trí tuệ nhân tạo, và là một thứ mà đơn giản không nên tồn tại.
Đến điểm đó, một nhóm chống sao chép nhỏ ở Đan Mạch đang điều tra để xóa Books3 khỏi internet. Liên minh Quyền lực, đại diện cho lợi ích của công nhân sáng tạo ở Đan Mạch, đang thực hiện một cách tiếp cận đa chiều đối với nhiệm vụ tiêu diệt tập dữ liệu của Presser. Và họ đang đạt được một lượng tiến triển đáng kinh ngạc, đặc biệt là khi chỉ có một số ít người đang làm việc trên dự án từ trụ sở chính của họ ở Copenhagen.
Sau một tuần tìm kiếm trong tập dữ liệu (“nhàm chán,” theo lời Thomas Heldrup, trưởng bảo vệ và thi hành nội dung của Liên minh Quyền lực, người đứng đầu chiến dịch), họ phát hiện ít nhất 150 tác phẩm của các tác giả mà họ đại diện. Heldrup quyết định nộp đơn takedown theo Đạo luật Bản quyền Nghìn niên số (DMCA) đối với các tổ chức lưu trữ Books3, bao gồm The Eye. Những nỗ lực này đã đem lại kết quả. The Eye thực sự đã gỡ xuống tập dữ liệu, cũng như trang web chia sẻ dữ liệu nghiên cứu Academic Torrents. Tất nhiên, điều này không loại bỏ vĩnh viễn dữ liệu khỏi internet. Nhưng nó đã làm cho việc tìm kiếm trở nên khó khăn hơn.
(Điều này cũng không nhất thiết đã thay đổi bất kỳ quan điểm nào trong những tổ chức này. Giám đốc Academic Torrents Joseph Paul Cohen tuân thủ theo thông báo takedown, nhưng anh ấy nói rằng anh ấy không hiểu rõ ý định đằng sau đó. “Những tác giả vĩ đại đã đọc những cuốn sách trước đó, vì vậy có vẻ lạ khi chúng ta mong đợi một tác giả AI chỉ đọc các tác phẩm được cấp phép mở,” anh ấy nói.)
Liên minh Quyền lực không dừng lại ở đó. Họ cũng muốn chặn các trang web lưu trữ Books3 thông qua hệ thống tòa án châu Âu. Ngoài việc theo đuổi những người phân phối tập dữ liệu, Liên minh Quyền lực còn nhắm vào các công ty đã đào tạo mô hình ngôn ngữ của họ bằng cách sử dụng Books3, và họ đã liên lạc với cả Meta và Bloomberg về vấn đề này. Trong khi Meta chưa trả lời, Heldrup nói rằng Bloomberg đã—và công ty cho biết với Liên minh Quyền lực rằng họ không có kế hoạch đào tạo các phiên bản tương lai của BloombergGPT bằng cách sử dụng Books3.
Trong khi đó, tại Hoa Kỳ, Hội đồng Tác giả đã tổ chức một lá thư mở đến các công ty trí tuệ nhân tạo sáng tạo sử dụng các bộ dữ liệu bản quyền như Books3. “Chỉ là công bằng khi bạn bồi thường cho chúng tôi khi sử dụng những tác phẩm của chúng tôi, mà không có chúng AI sẽ trở nên nhàm chán và cực kỳ hạn chế,” lá thư nói. Nó đã được ký bởi hơn 10,000 nhà văn, nhiều người trong số họ có tác phẩm được chứa trong Books3. Hội đồng cũng đang thảo luận về một phiên bản được cấp phép của The Pile (bao gồm Books3) với Eleuther. “Mục tiêu là đảm bảo rằng điều này sau này các công ty AI chỉ sử dụng các bộ dữ liệu được cấp phép,” Giám đốc điều hành Hội đồng Tác giả Mary Rasenberger nói qua email.
Một số nhà văn này đang đưa vấn đề vào tay chính họ. Trong một vụ kiện nổi tiếng đối với Meta, nghệ sĩ hài Sarah Silverman và những tác giả khác cáo buộc rằng công ty đã vi phạm bản quyền của họ bằng cách đào tạo bộ mô hình ngôn ngữ lớn của mình trên Books3. (Silverman và các nhà văn cũng đang kiện OpenAI trong một vụ tương tự.)
Matthew Butterick, một nhà văn và lập trình viên, là một trong những luật sư đại diện cho Silverman và những tác giả khác trong cả hai vụ kiện. Cùng với Joseph Saveri, Butterick đã trở thành một trong những luật sư hàng đầu của người đương sự trên toàn quốc trong các vụ án liên quan đến bản quyền và trí tuệ nhân tạo. Anh ta coi việc huấn luyện trí tuệ nhân tạo trên dữ liệu bản quyền là điều kinh tởm, và cảm thấy tức giận vì hành vi này được bảo vệ với những tuyên bố rằng nó đang làm cho việc tiếp cận thông tin trở nên dân chủ hóa. “Mã nguồn mở không có nghĩa là bạn đã lấy mất hàng loạt đồ của người khác và phát miễn phí,” anh ấy nói. “Đó là ăn cắp.”
Nhiều chuyên gia pháp lý mà MYTOUR đã nói chuyện đều dao động từ không chắc chắn đến hoài nghi rằng những vụ kiện này sẽ thành công. Một số người tin rằng các công ty như Meta có thể thành công trong việc áp dụng quyền sử dụng hợp lý, một nguyên tắc cho phép sử dụng tài liệu bản quyền mà không cần sự cho phép dưới một số điều kiện nhất định, để bảo vệ rằng những gì họ đã làm là hợp pháp. (Một số cũng cho rằng nếu Presser từng bị kiện, anh ta cũng có thể đề xuất quyền sử dụng hợp lý.) Không rõ liệu tòa án có xem nguồn gốc vi phạm bản quyền của các bộ dữ liệu như Books3 có liên quan đến vấn đề sử dụng hợp lý hay không.
Để vẽ một sự song song, nếu Sarah Silverman kiện một người viết con người vì vi phạm bản quyền cuốn hồi ký của cô The Bedwetter—ví dụ, một người viết cuốn sách suspiciously giống nhau mang tên The Bedwetter, Too—cách người viết đó đã đọc ban đầu tác phẩm của cô có thể không được xem xét khi tuyên án. Việc bị cáo có mua một bản sao ký tặng hay đánh cắp một cuốn sách giấy mềm không quan trọng trong cuộc tranh luận về việc liệu The Bedwetter, Too có phải là một bản sao tạo nên hay là một bản chế phẩm biến tấu. Butterick, về phần anh ấy, nghĩ rằng nguồn gốc đã được chứng minh có thể đóng một vai trò: “Nó nói lên về chủ ý của bạn.”
Presser biết rằng mọi người sẽ phản đối với Books3. “Chúng tôi gần như không phát hành dữ liệu vì lo ngại về bản quyền,” anh ấy nói. “Chúng tôi nghĩ rằng có thể sẽ có một số phản đối.”
Nhìn lại, Presser thừa nhận rằng anh có thể đã xem xét các hậu quả một chút nhiều hơn. (“Các tác giả, tôi hiểu bạn.”) Nhưng anh vẫn khẳng định rằng việc phát hành Books3 là điều đúng đắn. Trong quan điểm của anh, nó làm cho cuộc chơi trở nên công bằng hơn đối với các công ty nhỏ, nhà nghiên cứu và người thông thường muốn tạo ra các mô hình ngôn ngữ lớn. Anh tin rằng những người muốn xóa bỏ Books3 đang ủng hộ một cảnh quan trí tuệ nhân tạo sáng tạo bị kiểm soát chỉ bởi các công ty liên quan đến công nghệ lớn như OpenAI. “Nếu bạn thật sự muốn đưa Books3 offline, được. Chỉ cần làm điều đó với đôi mắt mở to. Thế giới bạn đang chọn là một thế giới chỉ có các tập đoàn tỷ đô mới có thể tạo ra những mô hình ngôn ngữ lớn như vậy,” anh nói.
Điều này là quan điểm được nhiều luật sư bản quyền đồng tình. “Nếu bạn là OpenAI hoặc Meta, bạn có tài nguyên để kiện tụng đến khi cuộc sống cùng kết thúc,” Kieran McCarthy, một luật sư chuyên về vấn đề scrap dữ liệu, nói. “Một tổ chức nhỏ sẽ không có tài nguyên để làm điều đó. Vì vậy, sự không rõ ràng trong luật pháp hiện tại đang làm lợi cho những người chơi lớn nhất.”
Butterick không đồng ý. “Một vụ kiện có thể dừng họ lại,” anh nói. “Nếu chúng tôi chiến thắng.”
Một điều mà tất cả những người mà MYTOUR đã nói chuyện đều đồng thuận? Sự tăng cường quan sát đối với các bộ dữ liệu này đã khiến các người chơi lớn của trí tuệ nhân tạo tránh xa khỏi sự minh bạch. Meta là một ví dụ điển hình. Nó đã công khai chia sẻ các bộ dữ liệu được sử dụng để đào tạo phiên bản đầu tiên của đối thủ ChatGPT của nó, Llama, bao gồm Books3. Bây giờ, nó giữ thông tin kín kẽ về những gì được sử dụng cho các phiên bản mới hơn. “Các công ty này có lợi ích khi giữ thông tin về nguồn gốc của họ mờ nhạt,” McCarthy nói. Biết rằng họ có thể phải đối mặt với các vụ kiện nếu họ thúc đẩy việc sử dụng tài liệu bản quyền trong các bộ dữ liệu đào tạo của họ là một biện pháp ngăn chặn mạnh mẽ. Điều này, lẽ dĩ nhiên, sẽ làm cho việc các nhà văn biết khi bản quyền của họ có thể bị vi phạm trở nên khó khăn hơn.
Ngay bây giờ, điều quan trọng là do các công ty AI quyết định liệu họ có tiết lộ nguồn gốc của bộ dữ liệu đào tạo hay không. Thiếu thông tin đó, việc chứng minh rằng dữ liệu của họ đã được sử dụng là khó khăn, không kể đến việc yêu cầu loại bỏ nó. Trong khi Quốc hội Châu Âu đã thông qua một dự luật về quy định AI yêu cầu sự minh bạch cao về dữ liệu, thì những quy định đó vẫn chưa có hiệu lực, và các vùng khác đang kém xa.
Cuộc chiến này đưa đến bản chất của những tranh cãi thường xuyên về vai trò của AI trong thế giới chúng ta. Luật bản quyền tồn tại để cân bằng giữa quyền được cấp cho người sáng tạo với quyền hợp nhất để truy cập thông tin, ít nhất là trong lý thuyết. Cuộc chiến về Books3 liên quan đến việc cân bằng này sẽ như thế nào trong thời đại của AI.
Presser tin rằng nếu OpenAI có quyền truy cập vào loại dữ liệu này, công dân cũng xứng đáng có quyền truy cập chúng. Từ góc độ này, những nỗ lực để kiểm soát Books3 có thể kết thúc việc làm đóng cửa ngành, ngăn chặn các công ty và nhà nghiên cứu nhỏ hơn mà không làm gì nhiều để ngăn chặn những người chơi lớn hiện tại.
Pam Samuelson, một luật sư bản quyền làm việc tại Trung tâm Luật và Công nghệ Berkeley, đồng tình rằng việc kiểm soát có thể mang lại lợi ích cho các tập đoàn lớn đã sử dụng các bộ dữ liệu. “Bạn không thể thực hiện nó theo chiều ngược lại,” cô nói. Cô cũng nghĩ rằng các quy định có thể thay đổi cảnh quan nơi các người chơi lớn tập trung. Các quốc gia như Israel và Nhật Bản đã áp dụng tư thế lỏng lẻo đối với tài liệu đào tạo AI, vì vậy các quy tắc chặt chẽ hơn ở EU hoặc Mỹ có thể thúc đẩy những gì cô gọi là “đánh giá sáng tạo,” nơi các doanh nhân AI tập trung vào những quốc gia thân thiện với ý tưởng của họ.
Trái tim của cuộc chiến này dẫn đến việc chúng ta có chấp nhận rằng đào tạo AI sáng tạo trên tư liệu bản quyền là điều tất yếu. Đây là quan điểm mà Stephen King mới đây đã đưa ra sau khi biết công việc của mình nằm trong Books3. “Tôi có cấm (nếu đó là từ ngữ đúng) việc dạy truyện của tôi cho máy tính không? Ngay cả khi tôi có thể. Tôi cũng có thể làm như vua Canute, cấm triều cả vào. Hoặc một người Luddite cố gắng ngăn chặn tiến bộ công nghiệp bằng cách đập nát một máy dệt hơi nước,” ông viết.
Những người lý tưởng muốn giành lại quyền kiểm soát cho người sáng tạo, như Butterick và Hedrup, vẫn chưa sẵn lòng từ bỏ cuộc chiến. Có một phong trào để làm cho đào tạo AI sáng tạo chuyển sang một mô hình chọn vào, nơi chỉ có công việc ở trong phạm vi công cộng hoặc được tặng thì mới được thêm vào bộ dữ liệu. “Nó không chỉ cần là về việc cào dữ liệu từ web mà không có sự cho phép,” nghiên cứu công nghệ mới nổi Eryk Salvaggio nói. Nếu các công ty AI bị đẩy để loại bỏ công việc họ đã làm trên tư liệu bản quyền và bắt đầu lại, điều đó chắc chắn sẽ làm đảo lộn sân chơi hiện tại. (Không chắc chắn? Liệu điều đó có thể xảy ra từ xa.)
Trong khi đó, đã có những nỗ lực tạm thời để thuyết phục các nhóm AI sáng tạo tôn trọng mong muốn của những người muốn giữ công việc của họ ra khỏi bộ dữ liệu. Spawning, một công ty khởi nghiệp tận tâm với loại công cụ này, có một công cụ tìm kiếm có tên “Tôi Đã Được Đào Tạo?” mà hiện tại cho phép mọi người kiểm tra xem công việc hình ảnh của họ đã được sử dụng trong bộ dữ liệu đào tạo AI hay không; nó đang lên kế hoạch thêm hỗ trợ cho video, âm thanh và văn bản vào năm sau. Nó cũng cung cấp một API giúp các công ty tôn trọng quyền từ chối. Đến nay, StabilityAI là một trong những người chơi lớn đã áp dụng nó, mặc dù Giám đốc điều hành của Spawning, Jordan Meyer, lạc quan rằng các công ty như OpenAI và Meta có thể một ngày nào đó tham gia. Và Meyer gần đây đã liên lạc với một đối tác tiềm năng khác: Shawn Presser.
Sau tất cả, Presser thực sự muốn giúp những người sáng tạo cảm thấy họ có một chút kiểm soát đối với nơi công việc của họ kết thúc. “Tôi nghĩ đó là hoàn toàn hợp lý khi mọi người có thể nói, ‘Ừ, đừng sử dụng đồ của tôi,’” anh ta nói. “Đó là một nguyên tắc cơ bản của internet.”
