Trí tuệ nhân tạo Có thể Vượt qua Các Bài Kiểm Tra Chuẩn—Nhưng Nó Sẽ Thất Bại Ở Trường Mẫu Giáo | Mytour

Buzz

Ngày cập nhật gần nhất: 15/7/2026

Nội dung bài viết

Những Bài Viết Tuyệt Vời Khác Từ Mytour

Xem thêm

Đọc tóm tắt

- Nhóm Aristo phát triển hệ thống AI để trả lời câu hỏi, khai thác khả năng trí tuệ như hiểu ngôn ngữ và tư duy.
- Aristo sử dụng mạng nơ-ron sâu huấn luyện trên dữ liệu lớn để dự đoán từ tiếp theo và trả lời câu hỏi.
- Mặc dù Aristo đạt điểm cao trong các kỳ thi, nó gặp khó khăn với câu hỏi yêu cầu suy luận sâu hơn và không thể xử lý tốt các câu hỏi liên quan đến sơ đồ.
- Đôi khi, hiệu suất cao của AI không đồng nghĩa với hiểu biết thực sự; có thể do khai thác các dấu hiệu đặc trưng trong dữ liệu.
- Cần tiếp tục nghiên cứu để phát triển trí tuệ nhân tạo có hiểu biết thực sự về ngôn ngữ và tư duy.
- DARPA đang đầu tư vào nghiên cứu trí tuệ nhân tạo với mục tiêu phát triển hệ thống AI có hiểu biết chung tương tự như trẻ 18 tháng tuổi.

Nhóm tạo ra Aristo tin rằng việc phát triển hệ thống AI để trả lời những câu hỏi như vậy là một trong những cách tốt nhất để đẩy lĩnh vực này tiến lên. “Mặc dù không phải là một bài kiểm tra đầy đủ về trí tuệ nhân tạo,” họ lưu ý, những câu hỏi này “thực sự khám phá nhiều khả năng mạnh mẽ liên quan đến trí tuệ, bao gồm hiểu ngôn ngữ, tư duy và sử dụng kiến thức thông thường.”

Aristo là một hệ thống phức tạp kết hợp nhiều phương pháp trí tuệ nhân tạo. Tuy nhiên, thành phần chiếm gần như tất cả thành công của hệ thống là một mạng nơ-ron sâu đã được huấn luyện để là một loại mô hình ngôn ngữ—một cơ chế có thể dự đoán từ tiếp theo dựa trên một chuỗi từ. “Tôi đang lái xe quá nhanh khi tôi bị dừng lại bởi ...” Tiếp theo là từ gì? Có thể là “cảnh sát.” Chắc chắn không phải là “quả bưởi.” Cho một chuỗi từ, mô hình ngôn ngữ tính xác suất mỗi từ trong từ vựng hàng nghìn từ của nó sẽ là từ tiếp theo trong chuỗi.

Mô hình ngôn ngữ của Aristo được huấn luyện trên các chuỗi từ từ hàng triệu tài liệu (bao gồm toàn bộ Wikipedia tiếng Anh). Sau khi huấn luyện với bộ sưu tập tiếng Anh rộng lớn này, mạng nơ-ron có lẽ đã học được một số điều hữu ích về ngôn ngữ nói chung. Tại thời điểm này, mạng có thể được “điều chỉnh” để học cách trả lời các câu hỏi có nhiều lựa chọn. Khi nó tham gia kỳ thi Regents, đầu vào của nó là câu hỏi cộng với bốn câu trả lời có thể; kết quả là xác suất mỗi câu trả lời có đúng hay không. Mạng trả lại câu trả lời có xác suất cao nhất là đoán của nó.

Aristo đã được thử nghiệm với 119 câu hỏi từ kỳ thi lớp tám và đúng trên 90% câu hỏi đó, một kết quả đáng chú ý. Nó cũng đúng trên hơn 83% câu hỏi lớp 12. Trong khi Times báo cáo rằng Aristo “đã vượt qua kỳ thi,” nhóm AI2 lưu ý rằng những bài kiểm tra thực tế mà học sinh New York tham gia bao gồm cả câu hỏi liên quan đến sơ đồ, cũng như câu hỏi “trả lời trực tiếp,” cả hai điều mà Aristo không xử lý được.

Đây là một tiến triển hứng khởi, nhưng chúng ta phải nhớ rằng điểm số cao trên một bộ dữ liệu cụ thể không luôn có nghĩa là máy học đã thực sự học được nhiệm vụ mà lập trình viên con người mong đợi. Đôi khi dữ liệu được sử dụng để huấn luyện và kiểm tra hệ thống học tập có các mô hình thống kê tinh tế—ta có thể gọi là mô hình những dấu hiệu đặc trưng này—cho phép hệ thống hoạt động tốt mà không cần sự hiểu biết hoặc lý luận thực sự.

Ví dụ, một mô hình ngôn ngữ mạng nơ-ron—tương tự như mô hình Aristo sử dụng—được báo cáo vào năm 2019 có khả năng xác định xem một câu có hàm ý logic với câu khác hay không. Tuy nhiên, lý do cho hiệu suất cao không phải là do mạng hiểu các câu hoặc logic kết nối của chúng; thay vào đó, nó phụ thuộc vào các đặc tính cú pháp bề ngoài như mức độ các từ trong một câu trùng với những từ trong câu thứ hai. Khi mạng được đưa ra các câu mà nó không thể tận dụng những đặc tính cú pháp này, hiệu suất của nó giảm đáng kể.

Đã có hàng chục bài báo được xuất bản trong những năm gần đây tiết lộ sự tồn tại của những dấu hiệu đặc trưng tinh tế trong các bộ dữ liệu kiểm tra hệ thống máy học. Điều này đã khiến một số nghiên cứu viên đặt câu hỏi về mức độ mà các hệ thống học sâu đang thể hiện “sự hiểu biết thực sự” hay chỉ là phản ứng đối với dấu hiệu bề ngoài trong dữ liệu.

Nhóm Aristo khẳng định rằng các câu hỏi kỳ thi Regents của họ ít có khả năng bị tác động bởi những dấu hiệu đặc trưng này hơn so với các bộ dữ liệu câu hỏi thường được sử dụng do cộng đồng; họ lưu ý rằng “nhiều câu hỏi đánh giá được dường như đòi hỏi sự tư duy để trả lời” và hiệu suất xuất sắc của Aristo “gợi ý rằng máy đã thực sự học được một số điều về ngôn ngữ và thế giới, và cách thức để thao tác kiến thức đó.”

Nhưng đến mức độ nào sự tư duy, sự hiểu biết, hoặc kiến thức về khoa học thực sự cần thiết để trả lời những câu hỏi này? Ví dụ, xem xét câu hỏi mẫu ở trên. Nhóm Aristo khẳng định, “Để trả lời mạnh mẽ loại câu hỏi này, việc hiểu biết về từ trái cây không đủ. Aristo cũng cần phải có một mô hình về 'hạt tiêu đen' và 'hỗn hợp,' vì câu trả lời sẽ khác nếu hạt sắt được ngâm trong một lọ nước.”

Tôi sẽ đưa ra một giả thuyết cạnh tranh: Với mô hình ngôn ngữ của Aristo, không cần có kiến thức hoặc lý luận như vậy để trả lời câu hỏi cụ thể này; thay vào đó, mô hình ngôn ngữ sẽ đã thu thập các mối quan hệ thống kê giữa các từ cho phép nó trả lời câu hỏi mà không cần sự hiểu biết thực sự nào. Để minh họa, hãy xem xét bốn câu sau đây.

1. Nam chất từ tốt nhất tách một hỗn hợp của hạt sắt và tiêu đen.
2. Giấy lọc tốt nhất tách một hỗn hợp của hạt sắt và tiêu đen.
3. Cân ba tầng tốt nhất tách một hỗn hợp của hạt sắt và tiêu đen.
4. Ampe kế tốt nhất tách một hỗn hợp của hạt sắt và tiêu đen.

Một mô hình ngôn ngữ có thể nhập mỗi câu này và đầu ra là “xác suất” của câu—cách câu hỏi phù hợp với các liên kết từ mô hình đã học—và chọn lựa chọn có xác suất cao nhất. Như một mô phỏng rất sơ bộ, tôi đánh máy một phiên bản của mỗi câu này vào Google (đảm bảo nó không tìm thấy trùng khớp chính xác) và xem xét số “hits” mỗi câu nhận được. Thực sự, câu bắt đầu bằng “từ nam châm” nhận được nhiều hits nhất. Mô hình ngôn ngữ thô của tôi đã trả lời câu hỏi đúng mà không cần sự thông minh ngoại trừ các liên kết từ web.

Tôi thử nghiệm cùng một thử nghiệm này với các câu hỏi ngẫu nhiên khác từ kỳ thi Regents và phát hiện rằng câu trả lời đúng nhận được nhiều hits nhất trong sáu trường hợp trên mười. Thử nghiệm trên Google của tôi chỉ là một minh họa, không ý định là khoa học, nhưng nó khá phù hợp với điểm số mà chính đội Aristo báo cáo cho “phương pháp truy xuất cơ sở dữ liệu cơ bản.” Nó ít hơn 90%, nhưng nó làm nổi bật rằng có những “quà tặng” có thể tăng cường hiệu suất của một hệ thống học tập mà không cần bất kỳ kiến thức hoặc lý luận nào. Hơn nữa, điều này có thể chỉ là phần nhỏ của tảng băng của những dấu hiệu tinh tế mà một hệ thống máy học có thể sử dụng để chọn câu trả lời.

Mạng nơ-ron thường là một điều khó hiểu; thường rất khó để xác định chính xác chúng đã học được gì. Có thể rằng hiệu suất ấn tượng của Aristo thực sự là do khả năng trích xuất và tư duy về các khái niệm khoa học. Nhưng với lịch sử của các hệ thống xử lý ngôn ngữ tự nhiên sử dụng dấu hiệu và là “đúng vì những lý do sai,” quan trọng là phải khám phá mạnh mẽ những khẳng định này. Chính đội Aristo cũng đưa ra một bước đi nói lên điều này: Họ thực hiện một thử nghiệm trong đó họ thêm vào bốn câu trả lời không chính xác khác nhau cho mỗi câu hỏi, cụ thể là chọn những câu trả lời mới có thể làm rối hệ thống. Hiệu suất của Aristo giảm xuống dưới 60% đúng. Khám phá điểm yếu của hệ thống AI của chính mình là quan trọng để tiến triển trên những vấn đề rất khó này.

Sự hiểu biết thực sự về ngôn ngữ con người đòi hỏi kiến thức nền rộng và các mô hình tâm lý cho phép tư duy linh hoạt. Việc phát triển hệ thống với sự hiểu biết như vậy vẫn là vấn đề khó nhất trong lĩnh vực trí tuệ nhân tạo. Đáng chú ý, Cơ quan Nghiên cứu và Phát triển Nâng cao Quốc phòng Hoa Kỳ đã bắt đầu đầu tư tiền vào nghiên cứu về trí tuệ chung của máy. Một trong những vấn đề thách thức của Darpa là phát triển một hệ thống AI với sự hiểu biết chung như một đứa trẻ 18 tháng tuổi—một điều mà lĩnh vực này dường như còn rất xa mới đạt được. Thay vì sẵn sàng cho trung học hoặc đại học, trí tuệ nhân tạo còn phải phát triển nhiều trước khi nó sẵn sàng cho trường mẫu giáo.

Mytour Opinion đăng bài viết của các độc giả bên ngoài đại diện cho nhiều quan điểm khác nhau. Đọc thêm ý kiến tại đây. Gửi bài viết tại [email protected].

Những Bài Viết Tuyệt Vời Khác Từ Mytour

Chúng ta có thể là những anh hùng: Cách những người mê công nghệ tái tạo văn hóa pop
Tại sao nước lại xuất hiện trong núi lửa Kilauea ở Hawaii?
Jeffrey Epstein và sức mạnh của các mạng lưới
Tôi đã thay thế lò nướng của mình bằng máy làm waffle và bạn cũng nên làm như vậy
Học cách ngã với vận động viên leo núi Alex Honnold
👁 Nhận diện khuôn mặt đột ngột xuất hiện ở mọi nơi. Bạn có nên lo lắng không? Ngoài ra, đọc tin tức mới nhất về trí tuệ nhân tạo
🏃🏽‍♀️ Muốn có những công cụ tốt nhất để duy trì sức khỏe? Kiểm tra các lựa chọn của đội ngũ Gear của chúng tôi cho các máy theo dõi sức khỏe tốt nhất, đồ chạy bộ (bao gồm giày dép và tất chạy bộ), và tai nghe tốt nhất.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]