Trí tuệ nhân tạo của Deepmind Đang Học Về Nghệ Thuật Lập Trình | MYTOUR

Buzz

Ngày cập nhật gần nhất: 15/6/2026

Đọc tóm tắt

- Trình bày về việc áp dụng học củng cố để cải tiến trí tuệ nhân tạo của AlphaDev trong việc viết mã.
- So sánh hiệu quả của thuật toán sắp xếp C++ mới của AlphaDev với các phương pháp trước đó.
- Mô tả sự khác biệt giữa loại trí tuệ nhân tạo học củng cố và các mô hình ngôn ngữ lớn như GPT-4.
- Đề cập đến vai trò của học củng cố trong việc giải quyết các thách thức lập trình mới và tiên tiến.

Khám phá công việc này thật sự là điều hứng thú,” nhận định Armando Solar-Lezama, một chuyên gia trong lĩnh vực tổng hợp chương trình tại MIT, người không tham gia vào nghiên cứu. Việc để trí tuệ nhân tạo đề xuất một thuật toán sắp xếp mới là một điều lớn; việc xây dựng một trí tuệ nhân tạo có thể học cách viết mã nghệ thuật mới trên nhiều nhiệm vụ khác nhau là một vấn đề lớn hơn, ông nói. Điều đó có nghĩa là AlphaDev đã bắt đầu học một điều gì đó quan trọng hơn về nghệ thuật lập trình chính mình.

Điều đó đến với những hạn chế đáng kể, tất nhiên. “Những chương trình này rất nhỏ bé,” ông thêm vào — tổng cộng không quá một vài chục lệnh trong mã máy. Nhưng những chương trình nhỏ bé đó thường đại diện cho những rắc rối lớn về hiệu suất máy tính, sau khi được tối ưu hóa đến mức mà con người có thể đẩy chúng. Nhìn chung, thuật toán sắp xếp C++ mới của AlphaDev hiệu quả hơn 1,7% so với các phương pháp trước đó khi sắp xếp dãy số dài, và lên đến 70% nhanh hơn đối với các dãy số có năm phần tử. Ở quy mô lớn, những cải tiến này cộng lại, Mankowitz nói. Kể từ khi mã viết bằng trí tuệ nhân tạo được gửi đến Libc++, một thư viện mã nguồn mở lớn cho C++, ông ước lượng thuật toán đã được sử dụng hàng tỷ lần mỗi ngày.

Những cải tiến đó nhờ vào một kỹ thuật gọi là học củng cố, cũng là phương pháp được sử dụng để giúp trí tuệ nhân tạo của Deepmind chinh phục các trò chơi như cờ vua và cờ Gô. Loại trí tuệ nhân tạo này học bằng cách làm. Nó hoạt động bằng cách xem xét một nhiệm vụ cụ thể — như viết một chương trình hợp ngữ — như một trò chơi, trong đó trí tuệ nhân tạo nhận được phần thưởng khi thực hiện các bước thông minh tăng hiệu suất của chương trình. Theo thời gian, hệ thống hoạt động để tối đa hóa phần thưởng này, dẫn đến một chiến lược chiến thắng trong cờ Gô hoặc một chương trình hợp ngữ nhanh hơn. Điều này khác biệt với loại trí tuệ nhân tạo được tìm thấy trong các mô hình ngôn ngữ lớn như GPT-4, mà dựa vào lượng lớn dữ liệu để học cách viết từ hoặc mã. Điều đó tốt để tạo ra văn bản phản ánh tinh thần của internet hoặc tạo ra các đoạn mã phổ biến. Nhưng nó không tốt cho việc tạo ra các giải pháp mới, tiên tiến cho các thách thức lập trình mà trí tuệ nhân tạo chưa từng gặp trước đó.

Những cải tiến đó là nhờ vào một kỹ thuật gọi là học củng cố, đó cũng là cách tiếp cận được sử dụng để giúp trí tuệ nhân tạo của Deepmind thống trị các trò chơi như cờ vua và cờ Gô. Loại trí tuệ nhân tạo này học bằng cách hành động. Nó hoạt động bằng cách coi một nhiệm vụ cụ thể — như việc viết một chương trình hợp ngữ — như một trò chơi, trong đó trí tuệ nhân tạo nhận được phần thưởng khi thực hiện các bước thông minh tăng hiệu suất của chương trình. Theo thời gian, hệ thống hoạt động để tối đa hóa phần thưởng này, kết quả là một chiến thuật chiến thắng trong cờ Gô hoặc một chương trình hợp ngữ nhanh hơn. Điều này khác biệt so với loại trí tuệ nhân tạo có trong các mô hình ngôn ngữ lớn như GPT-4, mà dựa vào lượng lớn dữ liệu để học cách viết từ hoặc mã. Điều đó tốt để tạo ra văn bản phản ánh tinh thần của internet hoặc tạo ra các đoạn mã phổ biến. Nhưng nó không tốt khi tạo ra các giải pháp mới, tiên tiến cho các thách thức lập trình mà trí tuệ nhân tạo chưa từng gặp trước đó.

Các câu hỏi thường gặp

Trí tuệ nhân tạo có thể viết mã hợp ngữ nhanh hơn như thế nào?

Trí tuệ nhân tạo có thể tối ưu hóa mã hợp ngữ bằng cách học từ các nhiệm vụ trước đó, sử dụng học củng cố để tăng hiệu suất qua từng bước và tối đa hóa phần thưởng từ các quyết định thông minh.

Học củng cố có gì đặc biệt trong việc tối ưu hóa mã?

Học củng cố đặc biệt vì trí tuệ nhân tạo học từ hành động của mình, như một trò chơi, và nhận phần thưởng khi tối ưu hóa hiệu suất, giúp cải thiện các thuật toán như mã hợp ngữ nhanh hơn.

Trí tuệ nhân tạo có thể cải tiến các thuật toán sắp xếp như thế nào?

Trí tuệ nhân tạo cải tiến thuật toán sắp xếp bằng cách tối ưu hóa mã qua học củng cố, giúp giảm thời gian thực thi và cải thiện hiệu quả, như thuật toán sắp xếp C++ của AlphaDev.

Sự khác biệt giữa trí tuệ nhân tạo học từ dữ liệu và học củng cố là gì?

Trí tuệ nhân tạo học từ dữ liệu, như GPT-4, dựa vào dữ liệu lớn để tạo văn bản hoặc mã phổ biến, trong khi học củng cố giúp cải thiện giải pháp mới và tiên tiến cho các vấn đề chưa từng gặp.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]