
Điều đó đến với những hạn chế đáng kể, tất nhiên. “Những chương trình này rất nhỏ bé,” ông thêm vào — tổng cộng không quá một vài chục lệnh trong mã máy. Nhưng những chương trình nhỏ bé đó thường đại diện cho những rắc rối lớn về hiệu suất máy tính, sau khi được tối ưu hóa đến mức mà con người có thể đẩy chúng. Nhìn chung, thuật toán sắp xếp C++ mới của AlphaDev hiệu quả hơn 1,7% so với các phương pháp trước đó khi sắp xếp dãy số dài, và lên đến 70% nhanh hơn đối với các dãy số có năm phần tử. Ở quy mô lớn, những cải tiến này cộng lại, Mankowitz nói. Kể từ khi mã viết bằng trí tuệ nhân tạo được gửi đến Libc++, một thư viện mã nguồn mở lớn cho C++, ông ước lượng thuật toán đã được sử dụng hàng tỷ lần mỗi ngày.
Những cải tiến đó nhờ vào một kỹ thuật gọi là học củng cố, cũng là phương pháp được sử dụng để giúp trí tuệ nhân tạo của Deepmind chinh phục các trò chơi như cờ vua và cờ Gô. Loại trí tuệ nhân tạo này học bằng cách làm. Nó hoạt động bằng cách xem xét một nhiệm vụ cụ thể — như viết một chương trình hợp ngữ — như một trò chơi, trong đó trí tuệ nhân tạo nhận được phần thưởng khi thực hiện các bước thông minh tăng hiệu suất của chương trình. Theo thời gian, hệ thống hoạt động để tối đa hóa phần thưởng này, dẫn đến một chiến lược chiến thắng trong cờ Gô hoặc một chương trình hợp ngữ nhanh hơn. Điều này khác biệt với loại trí tuệ nhân tạo được tìm thấy trong các mô hình ngôn ngữ lớn như GPT-4, mà dựa vào lượng lớn dữ liệu để học cách viết từ hoặc mã. Điều đó tốt để tạo ra văn bản phản ánh tinh thần của internet hoặc tạo ra các đoạn mã phổ biến. Nhưng nó không tốt cho việc tạo ra các giải pháp mới, tiên tiến cho các thách thức lập trình mà trí tuệ nhân tạo chưa từng gặp trước đó.
Những cải tiến đó là nhờ vào một kỹ thuật gọi là học củng cố, đó cũng là cách tiếp cận được sử dụng để giúp trí tuệ nhân tạo của Deepmind thống trị các trò chơi như cờ vua và cờ Gô. Loại trí tuệ nhân tạo này học bằng cách hành động. Nó hoạt động bằng cách coi một nhiệm vụ cụ thể — như việc viết một chương trình hợp ngữ — như một trò chơi, trong đó trí tuệ nhân tạo nhận được phần thưởng khi thực hiện các bước thông minh tăng hiệu suất của chương trình. Theo thời gian, hệ thống hoạt động để tối đa hóa phần thưởng này, kết quả là một chiến thuật chiến thắng trong cờ Gô hoặc một chương trình hợp ngữ nhanh hơn. Điều này khác biệt so với loại trí tuệ nhân tạo có trong các mô hình ngôn ngữ lớn như GPT-4, mà dựa vào lượng lớn dữ liệu để học cách viết từ hoặc mã. Điều đó tốt để tạo ra văn bản phản ánh tinh thần của internet hoặc tạo ra các đoạn mã phổ biến. Nhưng nó không tốt khi tạo ra các giải pháp mới, tiên tiến cho các thách thức lập trình mà trí tuệ nhân tạo chưa từng gặp trước đó.
