Hệ thống trí tuệ nhân tạo mới của DeepMind khai thác trò chơi để tối ưu hóa các thuật toán cơ bản

Buzz

Ngày cập nhật gần nhất: 15/6/2026

Nội dung bài viết

Lừa đảo hệ thống

Quy tắc trong tính toán

Xem thêm

Đọc tóm tắt

- DeepMind đã đặt tên cho trí tuệ nhân tạo của mình thông qua trò chơi và nghiên cứu các nền tảng của máy tính.
- Họ áp dụng thành tựu trong trò chơi vào nghiên cứu khoa học máy tính.
- AlphaDev, hệ thống trí tuệ nhân tạo mới của DeepMind, khám phá và cải tiến các thuật toán sắp xếp hiệu quả hơn nhiều so với các tiêu chuẩn trước đó.
- Họ tiếp tục mở mã nguồn các thuật toán để cải tiến hệ sinh thái tính toán toàn cầu.

DeepMind đã đặt tên cho trí tuệ nhân tạo của mình thông qua trò chơi. Bây giờ, họ đang nghiên cứu các nền tảng của máy tính

DeepMind đã áp dụng sự thành thạo của mình trong trò chơi vào một lĩnh vực nghiên cứu nghiêm túc hơn: các nền tảng của khoa học máy tính.

Hôm nay, công ty con của Google công bố AlphaDev, một hệ thống trí tuệ nhân tạo khám phá các thuật toán cơ bản mới. Theo DeepMind, những thuật toán mà nó đã khám phá vượt trội so với những gì được các chuyên gia con người rèn luyện trong nhiều thập kỷ.

Lab này đặt mục tiêu lớn cho dự án. Khi nhu cầu về tính toán tăng lên và vi xử lý bằng silic xấp xỉ giới hạn của mình, thuật toán cơ bản sẽ phải trở nên hiệu quả hơn theo cấp số nhân. Bằng cách nâng cao những quy trình này, DeepMind nhắm đến việc biến đổi cơ sở hạ tầng của thế giới số.

Mục tiêu đầu tiên trong nhiệm vụ này là các thuật toán sắp xếp, được sử dụng để sắp xếp dữ liệu. Dưới bề mặt của các thiết bị, chúng quyết định mọi thứ từ thứ hạng tìm kiếm đến gợi ý phim.

Để tăng hiệu suất, AlphaDev nghiên cứu các hướng dẫn lập trình hợp ngữ, được sử dụng để tạo mã nhị phân cho máy tính. Sau một cuộc tìm kiếm cặn kẽ, hệ thống đã khám phá ra một thuật toán sắp xếp vượt qua các đánh giá mức tiêu cực trước đó.

Để tìm ra tổ hợp chiến thắng, DeepMind đã phải quay lại những thành tích khiến nó nổi tiếng: chiến thắng trong các trò chơi trên bảng.

Lừa đảo hệ thống

DeepMind đã ghi danh tên mình trong thế giới game. Năm 2016, công ty thu hút sự chú ý khi chương trình trí tuệ nhân tạo của họ đánh bại một nhà vô địch thế giới trong Go, một trò chơi trí tuệ Trung Quốc phức tạp.

Sau chiến thắng đó, DeepMind xây dựng một hệ thống có tính chất tổng quát hơn, AlphaZero. Sử dụng quá trình thử nghiệm và sai lầm gọi là học củng cố, chương trình đã làm chủ không chỉ Go mà còn cờ vua và shogi (còn được biết đến với tên gọi “cờ vua Nhật Bản”).

AlphaDev — bộ xây dựng thuật toán mới — được xây dựng dựa trên AlphaZero. Nhưng ảnh hưởng của trò chơi không chỉ giới hạn ở mô hình cơ bản.

“Chúng tôi trừ điểm nó nếu nó mắc sai lầm.

DeepMind đặt nhiệm vụ của AlphaDev như một trò chơi đơn người. Để chiến thắng trò chơi, hệ thống phải xây dựng một thuật toán sắp xếp mới và cải tiến.

Hệ thống thực hiện các bước di chuyển bằng cách chọn các hướng dẫn lắp ráp vào thuật toán. Để tìm ra hướng dẫn tối ưu, hệ thống phải kiểm tra một lượng lớn sự kết hợp của hướng dẫn. Theo DeepMind, con số này tương đương với số lượng hạt trong vũ trụ. Và chỉ cần một lựa chọn sai lầm có thể vô hiệu hóa toàn bộ thuật toán.

Sau mỗi bước đi, AlphaDev so sánh kết quả đầu ra của thuật toán với kết quả mong đợi. Nếu đầu ra đúng và hiệu suất hiệu quả, hệ thống nhận được một “phần thưởng” — một tín hiệu cho thấy nó đang chơi tốt.

“Chúng tôi phạt nó khi nó mắc sai lầm, và chúng tôi thưởng nó khi nó tìm ra nhiều và nhiều dãy số này được sắp xếp đúng,” Daniel Mankowitz, nhà nghiên cứu chính, nói với TNW.

Như bạn có thể đã đoán, AlphaDev đã chiến thắng trò chơi. Nhưng hệ thống không chỉ tìm ra một chương trình đúng và nhanh chóng. Nó cũng khám phá ra các phương pháp mới cho nhiệm vụ.

The sorting algorithm led to improvements that were up to 70% faster than benchmarks for shorter sequences and about 1.7% faster for sequences exceeding 250,000 elements. Credit: Google DeepMind

Các thuật toán mới chứa các dãy số hướng dẫn giúp tiết kiệm một hướng dẫn mỗi lần áp dụng. Được đặt tên là “swap and copy moves,” chúng phục vụ như các lối tắt để tăng hiệu suất thuật toán.

DeepMind so sánh cách tiếp cận này với một khoảnh khắc khác trong trò chơi: “nước đi 37” nổi tiếng, mà một hệ thống AI đã chơi với nhà vô địch Go Lee Sedol.

Nước đi lạ lùng đã làm kinh ngạc các chuyên gia con người, họ nghĩ rằng máy đã mắc lỗi. Nhưng họ sớm phát hiện ra rằng chương trình có một kế hoạch.

“Nó không chỉ thắng trò chơi, mà còn ảnh hưởng đến chiến thuật mà các người chơi Go chuyên nghiệp bắt đầu sử dụng,” Mankowitz nói.

Thắng lợi đánh dấu lần đầu tiên AI đánh bại một người chơi Go chuyên nghiệp đứng đầu — một cột mốc mà các chuyên gia dự đoán còn một thập kỷ nữa mới đạt được.

Ba năm sau đó, Lee rời khỏi cuộc thi Go chuyên nghiệp. Anh quyết định này là do khả năng của đối thủ AI.

“Ngay cả khi tôi trở thành số một, vẫn có một thực thể không thể đánh bại,” anh nói.

Quy tắc trong tính toán

Các thuật toán sắp xếp của AlphaDev hiện đã được mở mã nguồn trong thư viện C++ chính, nơi nó sẵn có cho hàng triệu nhà phát triển và công ty. Theo DeepMind, đây là sự thay đổi đầu tiên cho phần này của thư viện sắp xếp trong hơn một thập kỷ — và thuật toán đầu tiên được thiết kế thông qua học tăng cường tham gia vào thư viện.

Sau trò chơi sắp xếp, AlphaDev bắt đầu chơi với băm, được sử dụng để truy xuất, lưu trữ và nén dữ liệu. Kết quả là một thuật toán được cải tiến khác, đã được phát hành trong thư viện Abseil mã nguồn mở. DeepMind ước tính rằng nó được sử dụng hàng tỷ lần mỗi ngày.

Cuối cùng, phòng thí nghiệm hình dung AlphaDev như một bước tiến hướng việc biến đổi toàn bộ hệ sinh thái tính toán. Và tất cả bắt đầu từ việc chơi cờ.

Các câu hỏi thường gặp

DeepMind đã phát triển những gì với AlphaDev trong lĩnh vực thuật toán sắp xếp?

DeepMind đã phát triển AlphaDev như một hệ thống trí tuệ nhân tạo để khám phá các thuật toán sắp xếp mới, giúp cải thiện hiệu suất lên tới 70% so với các tiêu chuẩn hiện có cho các chuỗi ngắn hơn.

Thuật toán sắp xếp của AlphaDev có tác động gì đến ngành khoa học máy tính không?

Có, thuật toán sắp xếp của AlphaDev đã mở ra hướng đi mới cho việc tối ưu hóa các quy trình trong khoa học máy tính, với khả năng cải thiện tốc độ xử lý dữ liệu đáng kể.

Cách AlphaDev so sánh kết quả đầu ra của thuật toán với kết quả mong đợi như thế nào?

AlphaDev thực hiện so sánh bằng cách kiểm tra kết quả đầu ra với kết quả mong đợi, và nếu đúng, nó sẽ nhận được phần thưởng, qua đó tối ưu hóa quá trình học hỏi.

AlphaDev có được phát hành mã nguồn mở không và ai có thể sử dụng nó?

Có, AlphaDev đã được mở mã nguồn trong thư viện C++, giúp hàng triệu nhà phát triển và công ty có thể sử dụng và cải thiện thuật toán sắp xếp này.

Có sự tương đồng nào giữa AlphaDev và các trò chơi mà DeepMind đã phát triển trước đây không?

Có, AlphaDev sử dụng phương pháp học củng cố tương tự như AlphaZero, cho phép nó tìm ra các giải pháp tối ưu trong trò chơi thông qua quá trình thử nghiệm và sai lầm.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]