Nền tảng của Trí tuệ Nhân tạo Đầy Lỗi

Sự bùng nổ hiện tại trong trí tuệ nhân tạo có thể được truy ngược về năm 2012 và một đột phá trong một cuộc thi xây dựng quanh ImageNet, một bộ sưu tập gồm 14 triệu hình ảnh được gắn nhãn.
In the competition, a method called deep learning, which involves feeding examples to a giant simulated neural network, proved dramatically better at identifying objects in images than other approaches. That kick-started interest in using AI to solve different problems.
Nhưng nghiên cứu được tiết lộ tuần này cho thấy ImageNet và chín bộ dữ liệu AI chính khác chứa nhiều lỗi. Các nhà nghiên cứu tại MIT so sánh cách một thuật toán AI được huấn luyện trên dữ liệu hiểu một hình ảnh với nhãn được áp dụng cho nó. Nếu, ví dụ, một thuật toán quyết định rằng một hình ảnh có khả năng 70% là mèo nhưng nhãn lại nói "thìa," thì có khả năng hình ảnh bị gắn nhãn sai và thực sự là một bức ảnh của mèo. Để kiểm tra, khi thuật toán và nhãn không đồng ý, các nhà nghiên cứu đã cho thêm người xem hình ảnh đó.
ImageNet và các bộ dữ liệu lớn khác đóng vai trò quan trọng trong cách hệ thống Trí tuệ Nhân tạo hoạt động, bao gồm cả những hệ thống được sử dụng trong ô tô tự lái, thiết bị hình ảnh y khoa và hệ thống xếp hạng tín dụng. Nhưng chúng cũng có thể là điểm yếu. Dữ liệu thường được thu thập và gắn nhãn bởi những người lao động có thu nhập thấp, và có nhiều nghiên cứu về các vấn đề mà phương pháp này mang lại.
Các thuật toán có thể có sự thiên vị trong việc nhận diện khuôn mặt, ví dụ, nếu chúng được huấn luyện trên dữ liệu chủ yếu là người da trắng và nam giới. Người gắn nhãn cũng có thể tạo ra những thiên vị, nếu chẳng hạn, họ quyết định rằng phụ nữ được hiển thị trong môi trường y tế có khả năng cao là “y tá” trong khi đàn ông có khả năng cao là “bác sĩ.”
Nghiên cứu gần đây cũng đã làm nổi bật những lỗi cơ bản ẩn sau dữ liệu được sử dụng để huấn luyện và kiểm thử mô hình Trí tuệ Nhân tạo—các dự đoán được tạo ra bởi một thuật toán—có thể che giấu chất lượng thực sự của những mô hình đó.
“Những công việc này đang nói với thế giới rằng bạn cần loại bỏ những lỗi này,” Curtis Northcutt, một sinh viên nghiên cứu tiến sĩ tại MIT chịu trách nhiệm dẫn dắt công việc mới cho biết. “Nếu không, các mô hình mà bạn nghĩ là tốt nhất cho vấn đề kinh doanh thực tế của bạn có thể thực sự sai.”
Aleksander Madry, một giáo sư tại MIT, dẫn dắt một nỗ lực khác để xác định vấn đề trong các bộ dữ liệu hình ảnh vào năm ngoái và không liên quan đến công việc mới. Ông nói rằng nó nhấn mạnh vấn đề quan trọng, mặc dù ông nói phương pháp này cần được nghiên cứu cẩn thận để xác định liệu lỗi có phổ biến như công việc mới ngụ ý hay không.
Các bộ dữ liệu lớn tương tự được sử dụng để phát triển các thuật toán cho các ứng dụng công nghiệp của Trí tuệ Nhân tạo. Ví dụ, hàng triệu hình ảnh được chú thích về cảnh đường phố được cung cấp cho các thuật toán giúp các phương tiện tự hành nhìn thấy các chướng ngại vật trên đường. Bộ sưu tập rộng lớn các hồ sơ y khoa được gắn nhãn cũng giúp các thuật toán dự đoán khả năng phát triển bệnh cụ thể của một người.
Những lỗi như vậy có thể dẫn các kỹ sư học máy vào con đường sai khi chọn giữa các mô hình Trí tuệ Nhân tạo khác nhau. “Họ thực sự có thể chọn mô hình có hiệu suất kém hơn trong thế giới thực,” Northcutt nói.
Northcutt chỉ ra các thuật toán được sử dụng để nhận diện các đối tượng trên đường phía trước của các xe tự lái là một ví dụ về một hệ thống quan trọng có thể không hoạt động tốt như những người phát triển nghĩ.
Không ngạc nhiên khi bộ dữ liệu Trí tuệ Nhân tạo chứa các lỗi, bởi chúng thường được chú thích và gắn nhãn bởi những công nhân tụ tập có thu nhập thấp. Điều này là một điều bí mật không chính thức trong nghiên cứu Trí tuệ Nhân tạo, nhưng ít nhà nghiên cứu đã cố gắng xác định tần suất của các lỗi này. Cũng chưa có hiệu ứng của chúng đối với hiệu suất của các mô hình Trí tuệ Nhân tạo khác nhau được thể hiện.
Các nhà nghiên cứu MIT đã kiểm tra bộ dữ liệu thử nghiệm ImageNet - tập hợp hình ảnh con được sử dụng để kiểm tra một thuật toán đã được huấn luyện - và phát hiện nhãn sai trên 6% hình ảnh. Họ tìm thấy tỷ lệ lỗi tương tự trong các bộ dữ liệu được sử dụng để huấn luyện các chương trình Trí tuệ Nhân tạo để đánh giá xem nhận xét về phim là tích cực hay tiêu cực, đánh giá sao của một nhận xét về sản phẩm, hoặc video hiển thị điều gì, và nhiều lĩnh vực khác.
Các bộ dữ liệu Trí tuệ Nhân tạo này đã được sử dụng để huấn luyện thuật toán và đo lường tiến bộ trong các lĩnh vực bao gồm thị giác máy tính và hiểu ngôn ngữ tự nhiên. Công việc này cho thấy sự tồn tại của những lỗi này trong bộ dữ liệu kiểm tra làm cho việc đánh giá hiệu suất của một thuật toán so với thuật toán khác trở nên khó khăn. Ví dụ, một thuật toán được thiết kế để nhận diện người đi bộ có thể hoạt động kém hơn khi các nhãn không chính xác bị loại bỏ. Điều đó có vẻ không quan trọng, nhưng nó có thể gây ra hậu quả lớn cho hiệu suất của một phương tiện tự lái.
Sau một thời kỳ giới thiệu quá mức sau đột phá ImageNet năm 2012, trở nên rõ ràng hơn rằng các thuật toán Trí tuệ Nhân tạo hiện đại có thể gặp vấn đề do dữ liệu mà chúng được cung cấp. Một số người cho rằng khái niệm về việc gán nhãn dữ liệu cũng gây vấn đề. “Ở trung tâm của việc học có giám sát, đặc biệt trong thị giác, là ý tưởng mơ hồ về một nhãn,” Vinay Prabhu, một nhà nghiên cứu học máy làm việc cho công ty UnifyID, nhấn mạnh.
Tháng Sáu năm ngoái, Prabhu và Abeba Birhane, một sinh viên tiến sĩ tại Trường Đại học Dublin, kiểm tra qua ImageNet và phát hiện ra các lỗi, ngôn ngữ lạm dụng và thông tin nhận dạng cá nhân.
Prabhu chỉ ra rằng nhãn thường không thể mô tả đầy đủ một hình ảnh chứa nhiều đối tượng, ví dụ như. Anh cũng nói rằng việc gán nhãn có vấn đề nếu nhà gắn nhãn có thể thêm các nhận định về nghề nghiệp, quốc tịch hoặc tính cách của một người, như đã có ở ImageNet.
