
Công cụ trí tuệ nhân tạo mang lại quy mô và tự động hóa công nghiệp cho một mâu thuẫn lâu nay ở trung tâm của lập trình mã nguồn mở: Người lập trình muốn chia sẻ công việc của họ một cách tự do theo giấy phép rộng lượng, nhưng họ lo lắng rằng những người hưởng lợi chính sẽ là các doanh nghiệp lớn có quy mô để thu lợi từ đó. Một tập đoàn lấy mã nguồn miễn phí của một startup trẻ để chiếm lĩnh thị trường hoặc sử dụng một thư viện mã nguồn mở mà không giúp đỡ về bảo trì. Hệ thống trí tuệ nhân tạo tạo mã nguồn sử dụng bộ dữ liệu lớn có nghĩa là mã nguồn của mọi người đều có thể được sử dụng lại cho các ứng dụng thương mại.
“Tôi thường rất vui mừng khi thấy sự mở rộng của việc sử dụng miễn phí, nhưng tôi hơi đắng khi nó kết thúc bằng việc làm lợi cho các tập đoàn khổng lồ đang rút ra giá trị từ công việc của các tác giả nhỏ lẻ,” Woods nói.
Một điều rõ ràng về mạng nơ-ron là chúng có thể ghi nhớ dữ liệu đào tạo của mình và tạo ra bản sao. Rủi ro này tồn tại bất kể liệu dữ liệu đó có liên quan đến thông tin cá nhân hay bí mật y tế hay mã nguồn được bảo vệ bản quyền, giải thích Colin Raffel, giáo sư khoa học máy tính tại Đại học Bắc Carolina, người đã tham gia viết một bài báo sắp tới (hiện đang có sẵn dưới dạng bản thảo không được đánh giá đồng nghiệp) nghiên cứu về vấn đề sao chép tương tự trong GPT-2 của OpenAI. Họ phát hiện việc làm cho mô hình, được đào tạo trên một tập dữ liệu lớn văn bản, phát ra dữ liệu đào tạo là khá đơn giản. Nhưng khó khăn khi dự đoán mô hình sẽ ghi nhớ và sao chép điều gì. “Bạn chỉ thực sự biết khi bạn đưa nó ra thế giới và mọi người sử dụng và lạm dụng nó,” Raffel nói. Với điều đó, anh ta ngạc nhiên khi thấy GitHub và OpenAI đã chọn đào tạo mô hình của họ với mã nguồn có hạn chế bản quyền.
Theo các bài kiểm tra nội bộ của GitHub, sao chép trực tiếp xảy ra ở khoảng 0.1 phần trăm trong số đầu ra của Copilot—một lỗi có thể vượt qua, theo công ty, và không phải là một thiếu sót cố hữu trong mô hình trí tuệ nhân tạo. Đó là đủ để gây ra một chút phiền toái trong phòng pháp lý của bất kỳ tổ chức có lợi nhuận nào (“rủi ro không bằng không” chỉ là “rủi ro” đối với một luật sư), nhưng Raffel lưu ý rằng điều này có lẽ không khác biệt nhiều so với việc nhân viên sao chép mã có hạn chế. Con người vi phạm luật lệ bất kể có tự động hóa hay không. Ronacher, nhà phát triển mã nguồn mở, thêm rằng hầu hết các trường hợp sao chép của Copilot dường như là không có hại—những trường hợp mà giải pháp đơn giản cho vấn đề xuất hiện nhiều lần, hoặc những điều lạ lẫm như mã nguồn Quake nổi tiếng, đã được (sai lầm) sao chép vào nhiều dự án mã nguồn khác nhau. “Bạn có thể làm cho Copilot kích hoạt những điều hài hước,” anh ta nói. “Nếu nó được sử dụng đúng cách, tôi nghĩ nó sẽ ít gây ra vấn đề hơn.”
GitHub cũng đã cho biết họ đang có một giải pháp khả thi: một cách để đánh dấu những đầu ra nguyên văn khi chúng xuất hiện để lập trình viên và luật sư của họ biết không nên sử dụng chúng với mục đích thương mại. Nhưng xây dựng một hệ thống như vậy không đơn giản như nó nghe có vẻ, Raffel lưu ý, và nó liên quan đến vấn đề lớn hơn: Phải chăng đầu ra không phải là nguyên văn, mà chỉ là một bản sao gần giống với dữ liệu đào tạo? Phải chăng chỉ có biến đã được thay đổi, hoặc một dòng duy nhất đã được diễn đạt theo một cách khác? Nói cách khác, cần phải thay đổi nhiều như thế nào để hệ thống không còn là một bản sao? Với phần mềm tạo mã nguồn ở thời kỳ đầu phát triển, các ranh giới pháp lý và đạo đức vẫn chưa rõ ràng.
Nhiều học giả pháp lý tin rằng nhà phát triển trí tuệ nhân tạo có độ rộng lớn khi chọn dữ liệu đào tạo, giải thích Andy Sellars, giám đốc Khoa học Công nghệ của Đại học Boston. “Sử dụng hợp lý” của tác phẩm bị bản quyền chủ yếu dựa vào việc liệu nó có được “biến đổi” khi được sử dụng lại hay không. Có nhiều cách biến đổi một công trình, như sử dụng nó cho mục đích châm biếm hoặc phê phán hoặc tóm tắt nó—hoặc, như tòa án đã phát hiện lại vài lần, sử dụng nó như là nhiên liệu cho các thuật toán. Trong một trường hợp nổi bật, một tòa án liên bang từ chối một vụ kiện của một nhóm xuất bản chống lại Google Books, cho rằng quá trình quét sách và sử dụng đoạn trích văn bản để người dùng tìm kiếm qua chúng là một ví dụ về việc sử dụng hợp lý. Nhưng cách đó dịch sang dữ liệu đào tạo trí tuệ nhân tạo vẫn chưa được định rõ, Sellars thêm.
Có điều hơi lạ khi đặt mã nguồn dưới cùng một chế độ như sách và tác phẩm nghệ thuật, anh ta lưu ý. “Chúng ta coi mã nguồn như một tác phẩm văn học mặc dù nó ít giống với văn học,” anh ta nói. Chúng ta có thể nghĩ về mã nguồn như là một cái gì đó tương đối hữu ích; công việc mà nó đạt được quan trọng hơn cách nó được viết. Nhưng trong luật bản quyền, chìa khóa là cách một ý tưởng được diễn đạt. “Nếu Copilot tạo ra một đầu ra thực hiện công việc tương tự như một trong các đầu vào đào tạo của nó—tham số tương tự, kết quả tương tự—nhưng nó tạo ra mã khác nhau, có lẽ đó không sẽ xâm phạm pháp luật bản quyền,” anh ta nói.
Đạo đức của tình hình là một vấn đề khác. “Không có đảm bảo rằng GitHub đang giữ lợi ích của các lập trình viên độc lập trong tâm trí,” Sellars nói. Copilot phụ thuộc vào công việc của người dùng, bao gồm những người đã rõ ràng cố gắng ngăn chặn công việc của họ được sử dụng lại để kiếm lợi nhuận, và nó cũng có thể giảm nhu cầu của những lập trình viên đó bằng cách tự động hóa thêm lập trình, anh ấy lưu ý. “Chúng ta không bao giờ nên quên rằng không có tri giác xảy ra trong mô hình,” anh ấy nói. Đó chỉ là sự kết hợp thống kê. Những hiểu biết và sáng tạo được khai thác từ dữ liệu đều là của con người. Một số học giả đã nói rằng Copilot làm nổi bật nhu cầu về cơ chế mới để đảm bảo rằng những người tạo ra dữ liệu cho AI được đền bù công bằng.
GitHub từ chối trả lời câu hỏi về Copilot và chuyển tôi đến một FAQ về hệ thống. Trong một loạt bài viết trên Hacker News, CEO của GitHub, Nat Friedman, đáp lại sự phẫn nộ của các nhà phát triển bằng cách tỏ ra tự tin về việc xác định sự sử dụng hợp lý của dữ liệu đào tạo, trỏ vào một bài báo của OpenAI về chủ đề này. GitHub “rất háo hức tham gia” vào những cuộc tranh luận sắp tới về AI và quyền sở hữu trí tuệ, ông viết.
Ronacher nói rằng anh ấy mong đợi các nhà hoạch định phần mềm tự do bảo vệ Copilot—và thực sự, một số người đã làm điều đó—vì lo ngại rằng việc đặt giới hạn về việc sử dụng hợp lý có thể đe dọa sự chia sẻ tự do phần mềm một cách rộng rãi hơn. Nhưng không rõ liệu công cụ này có gây ra những thách thức pháp lý có ý nghĩa nào đó để làm rõ các vấn đề về việc sử dụng hợp lý trong thời gian sớm không. Công việc mà mọi người đang làm với Copilot chủ yếu là công việc lặp lại, Ronacher chỉ ra—không thể gặp vấn đề với bất kỳ ai. Nhưng đối với anh ấy, đó là một phần tại sao công cụ này làm nên sự hứng thú, bởi vì nó có nghĩa là tự động hóa các công việc phiền toái. Anh ấy đã sử dụng giấy phép hào phóng nhất có thể mỗi khi có thể để hy vọng rằng những nhà phát triển khác sẽ lấy đi những gì hữu ích, và Copilot có thể giúp tự động hóa quá trình chia sẻ đó. “Một kỹ sư không nên lãng phí hai giờ đời mình triển khai một hàm mà tôi đã làm,” anh ấy nói.
Nhưng Ronacher cũng nhận thấy những thách thức. “Nếu bạn đã dành cả cuộc đời để làm điều gì đó, bạn mong đợi sẽ có điều gì đó đổi lại,” anh ấy nói. Tại Sentry, một startup phần mềm gỡ lỗi nơi anh ấy là giám đốc kỹ thuật, đội ngũ gần đây đã nghiêm túc hóa một số giấy phép phổ cập nhất của mình—với sự miễn cưỡng lớn, anh ấy nói—vì lo ngại rằng “một công ty lớn như Amazon có thể chỉ đơn giản chạy đi với đồ của chúng tôi.” Khi các ứng dụng AI tiến triển, những công ty đó sẽ có khả năng chạy nhanh hơn.
Những điều tuyệt vời khác của MYTOUR
- 📩 Thông tin mới nhất về công nghệ, khoa học và nhiều hơn nữa: Nhận bản tin của chúng tôi!
- Nhà hát di động huyền thoại cố gắng lừa dối nền kinh tế thụ động
- Giúp đỡ! Làm thế nào tôi có thể chấp nhận rằng tôi đang kiệt sức?
- Điều bạn cần để chỉnh sửa video tại nhà cấp độ studio
- Thảm họa sập chung cư tại Florida là dấu hiệu của sự phá vỡ của bê tông
- Cách sợi quang ngầm đánh động con người ở phía trên
- 👁️ Khám phá trí tuệ nhân tạo như chưa bao giờ bằng cơ sở dữ liệu mới của chúng tôi
- 🎮 MYTOUR Games: Nhận những mẹo, đánh giá và nhiều hơn nữa
- 💻 Nâng cấp trò chơi làm việc của bạn với đội ngũ Gear yêu thích laptop, bàn phím, lựa chọn gõ và tai nghe chống ồn
