Trí tuệ nhân tạo này Có Thể Tạo Ra Văn Bản Thuyết Phục—Và Ai Cũng Có Thể Sử Dụng Nó

Những tiến bộ đáng chú ý nhất gần đây trong trí tuệ nhân tạo đã đến nhờ vào tài nguyên chỉ có sẵn tại các công ty công nghệ lớn, nơi hàng nghìn máy tính mạnh mẽ và terabytes dữ liệu có thể dồn dập như thanh ngũ cốc miễn phí và phòng ngủ hòa mình.
Một dự án mới nhằm chứng minh rằng điều này không nhất thiết phải như vậy, bằng cách tổng hợp mã nguồn, dữ liệu và sức mạnh máy tính cần thiết để tái tạo một trong những thuật toán trí tuệ nhân tạo xuất sắc nhất—và có thể hữu ích nhất—được phát triển trong những năm gần đây.
Eleuther là một nỗ lực mã nguồn mở để sánh kịp với GPT-3, một thuật toán ngôn ngữ mạnh mẽ được công bố vào năm 2020 bởi công ty OpenAI, đôi khi có khả năng viết các bài viết rất chặt chẽ bằng tiếng Anh khi được đưa ra một yêu cầu văn bản.
Eleuther vẫn còn một chặng đường xa để sánh kịp với những khả năng đầy đủ của GPT-3, nhưng tuần trước, các nghiên cứu viên đã phát hành một phiên bản mới của mô hình của họ, được gọi là GPT-Neo, có sức mạnh tương đương với phiên bản ít phức tạp nhất của GPT-3.

Việc công bố mã nguồn của các dự án trí tuệ nhân tạo lớn có thể làm cho công nghệ trở nên dễ tiếp cận và phổ biến hơn trong thời điểm nó trở nên ngày càng hòa mình trong các công ty công nghệ lớn. Điều này cũng có thể ảnh hưởng đến những nỗ lực để kiếm tiền từ các tiến bộ chính trí tuệ nhân tạo và có thể tăng khả năng rằng các công cụ trí tuệ nhân tạo sẽ hoạt động không đúng hoặc bị lạm dụng.
“Hiện nay có sự hứng thú lớn đối với mã nguồn mở xử lý ngôn ngữ tự nhiên và việc tạo ra các mô hình hữu ích ngoài các công ty công nghệ lớn.”, nói Alexander Rush, giáo sư khoa học máy tính tại Đại học Cornell, đề cập đến một lĩnh vực con của trí tuệ nhân tạo được biết đến là xử lý ngôn ngữ tự nhiên, tập trung vào việc giúp máy tính sử dụng ngôn ngữ. “Có một cái gì đó giống như cuộc đua không gian NLP đang diễn ra.”
Nếu đó là trường hợp, thì có thể coi GPT-3 là Sputnik của lĩnh vực này. GPT-3 bao gồm một mạng thần kinh nhân tạo lớn mà đã được cung cấp nhiều tỷ từ văn bản được lấy từ web. GPT-3 có thể trở nên độc đáo và lưu loát, mặc dù cũng có thể phun ra các đoạn văn không có ý nghĩa và tuyên bố xúc phạm. Đoàn vài nhóm nghiên cứu và công ty đang tìm cách sử dụng công nghệ này.
Mã nguồn cho GPT-3 chưa được công bố, nhưng nhóm nghiên cứu đa dạng từ nhiều lĩnh vực của Eleuther, đến từ cả học thuật và công nghiệp, đang sử dụng các bài báo mô tả cách nó hoạt động.
Rush, người không liên quan đến Eleuther, nói rằng dự án này là một trong những dự án mã nguồn mở ấn tượng trong một số ngày càng tăng của các nỗ lực NLP mã nguồn mở. Ngoài việc phát hành các thuật toán ngôn ngữ mạnh mẽ dựa trên GPT-3, anh ta nói rằng nhóm Eleuther còn biên soạn và phát hành một bộ dữ liệu văn bản chất lượng cao được biết đến là Pile để huấn luyện các thuật toán NLP.
Mohit Iyyer, giáo sư khoa học máy tính tại Đại học Massachusetts Amherst, đang sử dụng dữ liệu và mô hình từ Eleuther để khai thác phê bình văn học để có cái nhìn sâu sắc về các tác phẩm nổi tiếng, trong số những dự án khác. Điều này bao gồm việc huấn luyện một thuật toán để dự đoán những phần của một cuốn sách như Jane Eyre sẽ được trích dẫn trong một bài phê bình cụ thể. Iyyer nói rằng điều này có thể giúp tạo ra một chương trình với sự hiểu biết tinh tế hơn về ngôn ngữ. “Chúng tôi chắc chắn rất biết ơn vì họ đã tổng hợp tất cả dữ liệu này thành một nguồn tài nguyên,” Iyyer nói.
Có lẽ thách thức lớn nhất đối với bất kỳ dự án AI mã nguồn mở nào là lượng lớn công suất tính cần thiết. Việc huấn luyện GPT-3 đòi hỏi tương đương với vài triệu đô la giá trị của tài nguyên máy tính đám mây. OpenAI gần đây cho biết công suất tính cần thiết cho các dự án AI hàng đầu đã tăng khoảng 300,000 lần từ năm 2012 đến 2018.
Dự án Eleuther sử dụng các tài nguyên máy tính phân tán, được tặng bởi công ty đám mây CoreWeave cũng như Google, thông qua TensorFlow Research Cloud, một sáng kiến làm cho công suất máy tính dư thừa có sẵn, theo các thành viên của dự án. Để giảm thiểu việc truy cập vào công suất máy tính, nhóm Eleuther đã tạo ra một cách để chia tính toán AI qua nhiều máy tính. Nhưng chưa rõ làm thế nào các yêu cầu tính toán có thể được đáp ứng nếu dự án tiếp tục phát triển.
OpenAI đang cược rằng GPT-3 có thể được thương mại hóa. Tháng 7 năm 2019, OpenAI nhận được đầu tư 1 tỷ đô la từ Microsoft, sau đó một năm có quyền độc quyền để cấp phép GPT-3. OpenAI cho biết hơn 300 dự án GPT-3 đang được triển khai, sử dụng một API có giới hạn. Các dự án này bao gồm một công cụ để rút ra thông tin từ phản hồi của khách hàng, một hệ thống tự động tạo ra email từ các điểm chính, và trò chơi phiêu lưu văn bản không ngừng. Eleuther có thể làm cho việc xây dựng các công cụ tương tự dễ dàng hơn mà không cần truy cập vào API GPT-3.
OpenAI từ chối bình luận về dự án Eleuther.

Dự án làm nổi bật một thách thức khác khi mở cửa tiếp cận với các hệ thống AI mạnh mẽ. Bởi vì GPT-3 và các mô hình ngôn ngữ lớn tương tự khác lấy từ văn bản ngẫu nhiên, chúng có thể tái tạo độ chệch hoặc tạo ra các diễn thuyết lạm dụng hoặc phân biệt đối xử. Cũng có thể tưởng tượng được rằng một công cụ như GPT-3 có thể được sử dụng để tạo tin giả mạo hoặc thông điệp gian lận. Đây là một lý do mà OpenAI đã đưa ra để không phát hành phiên bản đầy đủ của GPT-3.
Bộ dữ liệu mà Eleuther đang sử dụng đa dạng hơn GPT-3 và tránh một số nguồn như Reddit có khả năng bao gồm nhiều nội dung đáng ngờ. Connor Leahy, một nhà nghiên cứu trí tuệ nhân tạo độc lập và đồng sáng lập Eleuther, cho biết dự án Eleuther đã "nỗ lực lớn suốt vài tháng để tạo ra bộ dữ liệu này, đảm bảo rằng nó được lọc và đa dạng, và ghi chép nhược điểm và độ chệch của nó."
Rush, của Cornell, tin rằng việc phát triển các công cụ như vậy mở cửa là tốt hơn. "Tôi thấy đối thoại nguồn đóng trong hướng hoàn toàn sai," ông nói, lưu ý rằng nhiều học giả quan tâm đến việc nghiên cứu cách các mô hình ngôn ngữ có thể không đúng và tìm giải pháp cho vấn đề. "Những nỗ lực mã nguồn mở đã và sẽ là quan trọng đối với những nỗ lực và tiến triển này." ông nói.
Những câu chuyện tuyệt vời khác từ MYTOUR
- 📩 Cập nhật mới nhất về công nghệ, khoa học, và nhiều hơn nữa: Nhận bản tin của chúng tôi!
🎮 MYTOUR Games: Nhận những mẹo, đánh giá, và nhiều hơn nữa
📱 Phân vân giữa những chiếc điện thoại mới nhất? Đừng lo lắng - xem hướng dẫn mua iPhone của chúng tôi và những chiếc điện thoại Android yêu thích của chúng tôi
