Những Dấu Hiệu Này Cho Thấy Bản Chất Thực Sự Của Dự Án Q* Bí Ẩn Tại OpenAI

Tuần trước, sau khi CEO Sam Altman bị tháo chạy khỏi vị trí chỉ vài thời gian, hai báo cáo cho biết một dự án siêu bí mật tại công ty đã làm xao lạc một số nghiên cứu viên với khả năng giải quyết những vấn đề không giải quyết được theo một cách mạnh mẽ và mới mẻ.
“Với tài nguyên máy tính lớn, mô hình mới có thể giải quyết một số vấn đề toán học cụ thể,” Reuters đưa tin, trích dẫn một nguồn duy nhất không muốn tiết lộ tên. “Mặc dù chỉ thực hiện toán ở cấp độ của học sinh tiểu học, việc làm xuất sắc như vậy khiến các nhà nghiên cứu rất lạc quan về thành công tương lai của Q*.” The Information nói rằng Q* được xem là một đột phá sẽ dẫn đến “những mô hình trí tuệ nhân tạo mạnh mẽ hơn nhiều,” thêm rằng “tốc độ phát triển khiến một số nhà nghiên cứu tập trung vào an toàn của trí tuệ nhân tạo lo ngại,” trích dẫn một nguồn duy nhất không muốn tiết lộ tên.
Reuters cũng đưa tin rằng một số nhà nghiên cứu đã gửi một lá thư bày tỏ lo ngại về sức mạnh tiềm ẩn của Q* đến hội đồng phi lợi nhuận mà đã đuổi Altman, mặc dù một nguồn tin MYTOUR quen biết với quan điểm của hội đồng cho biết đó không phải là sự thật. Và có lẽ do cái tên gợi lên ý thức âm mưu của nó, tin đồn về Q* đã tăng mạnh vào cuối tuần lễ tạ ơn, tạo nên một danh tiếng đáng sợ cho một dự án mà chúng ta biết rất ít. Chính Altman đã xác nhận sự tồn tại của dự án khi được hỏi về Q* trong một cuộc phỏng vấn với The Verge ngày hôm qua, nói rằng “Không có ý kiến cụ thể về vụ rò rỉ không may đó.”
Q* có thể là gì? Kết hợp việc đọc kỹ báo cáo ban đầu với việc xem xét về các vấn đề nóng trong lĩnh vực trí tuệ nhân tạo ngay bây giờ đề xuất rằng nó có thể liên quan đến một dự án mà OpenAI công bố vào tháng 5, tuyên bố có kết quả mới mạnh mẽ từ một kỹ thuật gọi là “quá trình giám sát.”
Dự án này liên quan đến Ilya Sutskever, giám đốc khoa học và đồng sáng lập OpenAI, người đã giúp đuổi Altman nhưng sau đó đã rút lại—The Information nói rằng ông dẫn đầu công việc trên Q*. Công việc từ tháng 5 tập trung vào việc giảm thiểu những sai lầm logic của các mô hình ngôn ngữ lớn (LLM). Quá trình giám sát, liên quan đến việc huấn luyện một mô hình trí tuệ nhân tạo phân tích các bước cần thiết để giải quyết một vấn đề, có thể cải thiện khả năng của một thuật toán để có câu trả lời đúng. Dự án đã chỉ ra cách điều này có thể giúp LLMs, mà thường mắc phải những lỗi đơn giản trên các câu hỏi toán học cơ bản, giải quyết các vấn đề như vậy một cách hiệu quả hơn.
Andrew Ng, giáo sư Đại học Stanford, người đã dẫn dắt các phòng thí nghiệm trí tuệ nhân tạo cả ở Google và Baidu và đã giới thiệu nhiều người với học máy thông qua các khóa học của mình trên Coursera, cho biết việc cải thiện các mô hình ngôn ngữ lớn là bước tiến lên tới hợp lý tiếp theo để làm cho chúng trở nên hữu ích hơn. “LLMs không giỏi toán lắm, nhưng con người cũng thế,” Ng nói. “Tuy nhiên, nếu bạn cho tôi một cây bút và giấy, thì tôi sẽ giỏi hơn trong việc nhân số, và tôi nghĩ rằng thực sự không khó để điều chỉnh một LLM với bộ nhớ để có thể đi qua thuật toán nhân số.”
Có những manh mối khác về Q* có thể là gì. Tên có thể là một gợi ý đến Q-learning, một dạng học tăng cường mà liên quan đến một thuật toán học giải quyết một vấn đề thông qua phản hồi tích cực hoặc tiêu cực, đã được sử dụng để tạo ra bot chơi game và điều chỉnh ChatGPT để trở nên hữu ích hơn. Một số người đã gợi ý rằng tên có thể liên quan đến thuật toán tìm kiếm A*, được sử dụng rộng rãi để có chương trình tìm đường đi tối ưu đến một mục tiêu.
The Information ném một mảnh manh vào bức tranh: “Bước tiến của Sutskever cho phép OpenAI vượt qua những hạn chế về việc có đủ dữ liệu chất lượng cao để huấn luyện các mô hình mới,” câu chuyện của nó nói. “Nghiên cứu liên quan đến việc sử dụng dữ liệu do máy tính tạo ra [dữ liệu], thay vì dữ liệu thực tế như văn bản hoặc hình ảnh được lấy từ internet, để huấn luyện các mô hình mới.” Điều đó dường như là một tham chiếu đến ý tưởng huấn luyện thuật toán bằng dữ liệu đào tạo tổng hợp, đã xuất hiện như một cách để huấn luyện các mô hình trí tuệ nhân tạo mạnh mẽ hơn.
Subbarao Kambhampati, giáo sư Đại học Arizona đang nghiên cứu về các hạn chế về lập luận của LLMs, nghĩ rằng Q* có thể liên quan đến việc sử dụng lượng lớn dữ liệu tổng hợp, kết hợp với học tăng cường, để huấn luyện LLMs cho các nhiệm vụ cụ thể như toán đơn giản. Kambhampati lưu ý rằng không có đảm bảo rằng phương pháp này sẽ tổng quát thành một cái gì đó có thể tìm ra cách giải quyết bất kỳ vấn đề toán học nào.
Để biết thêm nhiều ý kiến đoán về Q* có thể là gì, đọc bài viết này của một nhà khoa học máy học tổng hợp ngữ cảnh và manh mối một cách ấn tượng và logic. Phiên bản TLDR là Q* có thể là một nỗ lực để sử dụng học tăng cường và một số kỹ thuật khác để cải thiện khả năng của một mô hình ngôn ngữ lớn trong việc giải quyết nhiệm vụ bằng cách lập luận qua các bước dẫn đường. Mặc dù điều này có thể khiến ChatGPT giỏi hơn trong các câu đố toán học, nhưng không rõ liệu nó có tự động đề xuất rằng các hệ thống trí tuệ nhân tạo có thể tránh kiểm soát của con người hay không.
Việc OpenAI cố gắng sử dụng học tăng cường để cải thiện LLMs có vẻ hợp lý vì nhiều dự án ban đầu của công ty, như bot chơi trò chơi video, tập trung vào kỹ thuật này. Học tăng cường cũng là trung tâm của việc tạo ra ChatGPT, vì nó có thể được sử dụng để khiến LLMs tạo ra các câu trả lời mạch lạc hơn bằng cách yêu cầu con người đưa ra phản hồi trong khi họ trò chuyện với một chatbot. Khi MYTOUR nói chuyện với Demis Hassabis, CEO của Google DeepMind, earlier this year, he hinted that the company was trying to combine ideas from reinforcement learning with advances seen in large language models.
Tổng hợp các manh mối có sẵn về Q*, đó ít nhất là không nghe có vẻ như một lý do để hoảng sợ. Nhưng sau cùng, tất cả phụ thuộc vào giá trị P(doom) cá nhân của bạn - xác suất bạn gán cho khả năng rằng trí tuệ nhân tạo phá hủy loài người. Trước cả khi có ChatGPT, các nhà khoa học và lãnh đạo của OpenAI ban đầu đã rất kinh hãi trước sự phát triển của GPT-2, một trình tạo văn bản năm 2019 mà bây giờ dường như nhỏ bé và buồn cười, họ nói rằng nó không thể được công bố công khai. Bây giờ công ty cung cấp quyền truy cập miễn phí vào các hệ thống mạnh mẽ hơn nhiều.
OpenAI từ chối bình luận về Q*. Có lẽ chúng ta sẽ có thêm chi tiết khi công ty quyết định là đúng thời điểm để chia sẻ thêm kết quả từ nỗ lực làm cho ChatGPT không chỉ giỏi nói chuyện mà còn giỏi lập luận.
