DeepMind đã đặt tên cho trí tuệ nhân tạo của mình thông qua trò chơi. Bây giờ, họ đang nghiên cứu các nền tảng của máy tính
DeepMind đã áp dụng sự thành thạo của mình trong trò chơi vào một lĩnh vực nghiên cứu nghiêm túc hơn: các nền tảng của khoa học máy tính.
Hôm nay, công ty con của Google công bố AlphaDev, một hệ thống trí tuệ nhân tạo khám phá các thuật toán cơ bản mới. Theo DeepMind, những thuật toán mà nó đã khám phá vượt trội so với những gì được các chuyên gia con người rèn luyện trong nhiều thập kỷ.
Lab này đặt mục tiêu lớn cho dự án. Khi nhu cầu về tính toán tăng lên và vi xử lý bằng silic xấp xỉ giới hạn của mình, thuật toán cơ bản sẽ phải trở nên hiệu quả hơn theo cấp số nhân. Bằng cách nâng cao những quy trình này, DeepMind nhắm đến việc biến đổi cơ sở hạ tầng của thế giới số.
Mục tiêu đầu tiên trong nhiệm vụ này là các thuật toán sắp xếp, được sử dụng để sắp xếp dữ liệu. Dưới bề mặt của các thiết bị, chúng quyết định mọi thứ từ thứ hạng tìm kiếm đến gợi ý phim.
Để tăng hiệu suất, AlphaDev nghiên cứu các hướng dẫn lập trình hợp ngữ, được sử dụng để tạo mã nhị phân cho máy tính. Sau một cuộc tìm kiếm cặn kẽ, hệ thống đã khám phá ra một thuật toán sắp xếp vượt qua các đánh giá mức tiêu cực trước đó.
Để tìm ra tổ hợp chiến thắng, DeepMind đã phải quay lại những thành tích khiến nó nổi tiếng: chiến thắng trong các trò chơi trên bảng.
Lừa đảo hệ thống
DeepMind đã ghi danh tên mình trong thế giới game. Năm 2016, công ty thu hút sự chú ý khi chương trình trí tuệ nhân tạo của họ đánh bại một nhà vô địch thế giới trong Go, một trò chơi trí tuệ Trung Quốc phức tạp.
Sau chiến thắng đó, DeepMind xây dựng một hệ thống có tính chất tổng quát hơn, AlphaZero. Sử dụng quá trình thử nghiệm và sai lầm gọi là học củng cố, chương trình đã làm chủ không chỉ Go mà còn cờ vua và shogi (còn được biết đến với tên gọi “cờ vua Nhật Bản”).
AlphaDev — bộ xây dựng thuật toán mới — được xây dựng dựa trên AlphaZero. Nhưng ảnh hưởng của trò chơi không chỉ giới hạn ở mô hình cơ bản.
“Chúng tôi trừ điểm nó nếu nó mắc sai lầm.
DeepMind đặt nhiệm vụ của AlphaDev như một trò chơi đơn người. Để chiến thắng trò chơi, hệ thống phải xây dựng một thuật toán sắp xếp mới và cải tiến.
Hệ thống thực hiện các bước di chuyển bằng cách chọn các hướng dẫn lắp ráp vào thuật toán. Để tìm ra hướng dẫn tối ưu, hệ thống phải kiểm tra một lượng lớn sự kết hợp của hướng dẫn. Theo DeepMind, con số này tương đương với số lượng hạt trong vũ trụ. Và chỉ cần một lựa chọn sai lầm có thể vô hiệu hóa toàn bộ thuật toán.
Sau mỗi bước đi, AlphaDev so sánh kết quả đầu ra của thuật toán với kết quả mong đợi. Nếu đầu ra đúng và hiệu suất hiệu quả, hệ thống nhận được một “phần thưởng” — một tín hiệu cho thấy nó đang chơi tốt.
“Chúng tôi phạt nó khi nó mắc sai lầm, và chúng tôi thưởng nó khi nó tìm ra nhiều và nhiều dãy số này được sắp xếp đúng,” Daniel Mankowitz, nhà nghiên cứu chính, nói với TNW.
Như bạn có thể đã đoán, AlphaDev đã chiến thắng trò chơi. Nhưng hệ thống không chỉ tìm ra một chương trình đúng và nhanh chóng. Nó cũng khám phá ra các phương pháp mới cho nhiệm vụ.
The sorting algorithm led to improvements that were up to 70% faster than benchmarks for shorter sequences and about 1.7% faster for sequences exceeding 250,000 elements. Credit: Google DeepMindCác thuật toán mới chứa các dãy số hướng dẫn giúp tiết kiệm một hướng dẫn mỗi lần áp dụng. Được đặt tên là “swap and copy moves,” chúng phục vụ như các lối tắt để tăng hiệu suất thuật toán.
DeepMind so sánh cách tiếp cận này với một khoảnh khắc khác trong trò chơi: “nước đi 37” nổi tiếng, mà một hệ thống AI đã chơi với nhà vô địch Go Lee Sedol.
Nước đi lạ lùng đã làm kinh ngạc các chuyên gia con người, họ nghĩ rằng máy đã mắc lỗi. Nhưng họ sớm phát hiện ra rằng chương trình có một kế hoạch.
“Nó không chỉ thắng trò chơi, mà còn ảnh hưởng đến chiến thuật mà các người chơi Go chuyên nghiệp bắt đầu sử dụng,” Mankowitz nói.
Thắng lợi đánh dấu lần đầu tiên AI đánh bại một người chơi Go chuyên nghiệp đứng đầu — một cột mốc mà các chuyên gia dự đoán còn một thập kỷ nữa mới đạt được.
Ba năm sau đó, Lee rời khỏi cuộc thi Go chuyên nghiệp. Anh quyết định này là do khả năng của đối thủ AI.
“Ngay cả khi tôi trở thành số một, vẫn có một thực thể không thể đánh bại,” anh nói.
Quy tắc trong tính toán
Các thuật toán sắp xếp của AlphaDev hiện đã được mở mã nguồn trong thư viện C++ chính, nơi nó sẵn có cho hàng triệu nhà phát triển và công ty. Theo DeepMind, đây là sự thay đổi đầu tiên cho phần này của thư viện sắp xếp trong hơn một thập kỷ — và thuật toán đầu tiên được thiết kế thông qua học tăng cường tham gia vào thư viện.
Sau trò chơi sắp xếp, AlphaDev bắt đầu chơi với băm, được sử dụng để truy xuất, lưu trữ và nén dữ liệu. Kết quả là một thuật toán được cải tiến khác, đã được phát hành trong thư viện Abseil mã nguồn mở. DeepMind ước tính rằng nó được sử dụng hàng tỷ lần mỗi ngày.
Cuối cùng, phòng thí nghiệm hình dung AlphaDev như một bước tiến hướng việc biến đổi toàn bộ hệ sinh thái tính toán. Và tất cả bắt đầu từ việc chơi cờ.
