Nền tảng của Trí tuệ Nhân tạo Đầy Lỗi | MYTOUR

Buzz

Ngày cập nhật gần nhất: 15/6/2026

Nội dung bài viết

Nền tảng của Trí tuệ Nhân tạo Đầy Lỗi

Xem thêm

Đọc tóm tắt

- Các nghiên cứu từ MIT chỉ ra rằng các bộ dữ liệu lớn trong Trí tuệ Nhân tạo như ImageNet thường chứa nhiều lỗi nhãn, có thể ảnh hưởng đến hiệu suất của các thuật toán.
- Những lỗi này có thể dẫn đến các dự đoán sai khi áp dụng vào các ứng dụng thực tế như xe tự hành hay đánh giá y khoa.
- Việc gán nhãn không chính xác có thể dẫn đến sự thiên vị và ảnh hưởng xấu tới khả năng hoạt động của các mô hình AI.

Nền tảng của Trí tuệ Nhân tạo Đầy Lỗi

Sự bùng nổ hiện tại trong trí tuệ nhân tạo có thể được truy ngược về năm 2012 và một đột phá trong một cuộc thi xây dựng quanh ImageNet, một bộ sưu tập gồm 14 triệu hình ảnh được gắn nhãn.

In the competition, a method called deep learning, which involves feeding examples to a giant simulated neural network, proved dramatically better at identifying objects in images than other approaches. That kick-started interest in using AI to solve different problems.

AdChoices

Nhưng nghiên cứu được tiết lộ tuần này cho thấy ImageNet và chín bộ dữ liệu AI chính khác chứa nhiều lỗi. Các nhà nghiên cứu tại MIT so sánh cách một thuật toán AI được huấn luyện trên dữ liệu hiểu một hình ảnh với nhãn được áp dụng cho nó. Nếu, ví dụ, một thuật toán quyết định rằng một hình ảnh có khả năng 70% là mèo nhưng nhãn lại nói "thìa," thì có khả năng hình ảnh bị gắn nhãn sai và thực sự là một bức ảnh của mèo. Để kiểm tra, khi thuật toán và nhãn không đồng ý, các nhà nghiên cứu đã cho thêm người xem hình ảnh đó.

undefined

ImageNet và các bộ dữ liệu lớn khác đóng vai trò quan trọng trong cách hệ thống Trí tuệ Nhân tạo hoạt động, bao gồm cả những hệ thống được sử dụng trong ô tô tự lái, thiết bị hình ảnh y khoa và hệ thống xếp hạng tín dụng. Nhưng chúng cũng có thể là điểm yếu. Dữ liệu thường được thu thập và gắn nhãn bởi những người lao động có thu nhập thấp, và có nhiều nghiên cứu về các vấn đề mà phương pháp này mang lại.

Các thuật toán có thể có sự thiên vị trong việc nhận diện khuôn mặt, ví dụ, nếu chúng được huấn luyện trên dữ liệu chủ yếu là người da trắng và nam giới. Người gắn nhãn cũng có thể tạo ra những thiên vị, nếu chẳng hạn, họ quyết định rằng phụ nữ được hiển thị trong môi trường y tế có khả năng cao là “y tá” trong khi đàn ông có khả năng cao là “bác sĩ.”

Nghiên cứu gần đây cũng đã làm nổi bật những lỗi cơ bản ẩn sau dữ liệu được sử dụng để huấn luyện và kiểm thử mô hình Trí tuệ Nhân tạo—các dự đoán được tạo ra bởi một thuật toán—có thể che giấu chất lượng thực sự của những mô hình đó.

“Những công việc này đang nói với thế giới rằng bạn cần loại bỏ những lỗi này,” Curtis Northcutt, một sinh viên nghiên cứu tiến sĩ tại MIT chịu trách nhiệm dẫn dắt công việc mới cho biết. “Nếu không, các mô hình mà bạn nghĩ là tốt nhất cho vấn đề kinh doanh thực tế của bạn có thể thực sự sai.”

Aleksander Madry, một giáo sư tại MIT, dẫn dắt một nỗ lực khác để xác định vấn đề trong các bộ dữ liệu hình ảnh vào năm ngoái và không liên quan đến công việc mới. Ông nói rằng nó nhấn mạnh vấn đề quan trọng, mặc dù ông nói phương pháp này cần được nghiên cứu cẩn thận để xác định liệu lỗi có phổ biến như công việc mới ngụ ý hay không.

Các bộ dữ liệu lớn tương tự được sử dụng để phát triển các thuật toán cho các ứng dụng công nghiệp của Trí tuệ Nhân tạo. Ví dụ, hàng triệu hình ảnh được chú thích về cảnh đường phố được cung cấp cho các thuật toán giúp các phương tiện tự hành nhìn thấy các chướng ngại vật trên đường. Bộ sưu tập rộng lớn các hồ sơ y khoa được gắn nhãn cũng giúp các thuật toán dự đoán khả năng phát triển bệnh cụ thể của một người.

Những lỗi như vậy có thể dẫn các kỹ sư học máy vào con đường sai khi chọn giữa các mô hình Trí tuệ Nhân tạo khác nhau. “Họ thực sự có thể chọn mô hình có hiệu suất kém hơn trong thế giới thực,” Northcutt nói.

Northcutt chỉ ra các thuật toán được sử dụng để nhận diện các đối tượng trên đường phía trước của các xe tự lái là một ví dụ về một hệ thống quan trọng có thể không hoạt động tốt như những người phát triển nghĩ.

Không ngạc nhiên khi bộ dữ liệu Trí tuệ Nhân tạo chứa các lỗi, bởi chúng thường được chú thích và gắn nhãn bởi những công nhân tụ tập có thu nhập thấp. Điều này là một điều bí mật không chính thức trong nghiên cứu Trí tuệ Nhân tạo, nhưng ít nhà nghiên cứu đã cố gắng xác định tần suất của các lỗi này. Cũng chưa có hiệu ứng của chúng đối với hiệu suất của các mô hình Trí tuệ Nhân tạo khác nhau được thể hiện.

Các nhà nghiên cứu MIT đã kiểm tra bộ dữ liệu thử nghiệm ImageNet - tập hợp hình ảnh con được sử dụng để kiểm tra một thuật toán đã được huấn luyện - và phát hiện nhãn sai trên 6% hình ảnh. Họ tìm thấy tỷ lệ lỗi tương tự trong các bộ dữ liệu được sử dụng để huấn luyện các chương trình Trí tuệ Nhân tạo để đánh giá xem nhận xét về phim là tích cực hay tiêu cực, đánh giá sao của một nhận xét về sản phẩm, hoặc video hiển thị điều gì, và nhiều lĩnh vực khác.

Các bộ dữ liệu Trí tuệ Nhân tạo này đã được sử dụng để huấn luyện thuật toán và đo lường tiến bộ trong các lĩnh vực bao gồm thị giác máy tính và hiểu ngôn ngữ tự nhiên. Công việc này cho thấy sự tồn tại của những lỗi này trong bộ dữ liệu kiểm tra làm cho việc đánh giá hiệu suất của một thuật toán so với thuật toán khác trở nên khó khăn. Ví dụ, một thuật toán được thiết kế để nhận diện người đi bộ có thể hoạt động kém hơn khi các nhãn không chính xác bị loại bỏ. Điều đó có vẻ không quan trọng, nhưng nó có thể gây ra hậu quả lớn cho hiệu suất của một phương tiện tự lái.

Sau một thời kỳ giới thiệu quá mức sau đột phá ImageNet năm 2012, trở nên rõ ràng hơn rằng các thuật toán Trí tuệ Nhân tạo hiện đại có thể gặp vấn đề do dữ liệu mà chúng được cung cấp. Một số người cho rằng khái niệm về việc gán nhãn dữ liệu cũng gây vấn đề. “Ở trung tâm của việc học có giám sát, đặc biệt trong thị giác, là ý tưởng mơ hồ về một nhãn,” Vinay Prabhu, một nhà nghiên cứu học máy làm việc cho công ty UnifyID, nhấn mạnh.

Tháng Sáu năm ngoái, Prabhu và Abeba Birhane, một sinh viên tiến sĩ tại Trường Đại học Dublin, kiểm tra qua ImageNet và phát hiện ra các lỗi, ngôn ngữ lạm dụng và thông tin nhận dạng cá nhân.

Prabhu chỉ ra rằng nhãn thường không thể mô tả đầy đủ một hình ảnh chứa nhiều đối tượng, ví dụ như. Anh cũng nói rằng việc gán nhãn có vấn đề nếu nhà gắn nhãn có thể thêm các nhận định về nghề nghiệp, quốc tịch hoặc tính cách của một người, như đã có ở ImageNet.

Các câu hỏi thường gặp

Các bộ dữ liệu AI như ImageNet có vai trò gì trong trí tuệ nhân tạo?

Các bộ dữ liệu như ImageNet rất quan trọng vì chúng được sử dụng để huấn luyện các thuật toán AI, cho phép hệ thống nhận diện đối tượng và đưa ra dự đoán trong nhiều ứng dụng khác nhau.

Những lỗi nào thường gặp trong bộ dữ liệu ImageNet và các bộ khác?

Nghiên cứu cho thấy rằng ImageNet và các bộ dữ liệu khác có tỷ lệ nhãn sai lên đến 6%, dẫn đến việc huấn luyện các mô hình AI không chính xác và gây khó khăn trong việc đánh giá hiệu suất.

Làm thế nào những lỗi trong dữ liệu ảnh hưởng đến hiệu suất của AI?

Những lỗi này có thể dẫn đến việc chọn lựa mô hình không hiệu quả trong thực tế, ảnh hưởng tiêu cực đến khả năng nhận diện và ra quyết định của các hệ thống như xe tự lái.

Tại sao việc gán nhãn dữ liệu lại trở thành một vấn đề trong AI?

Gán nhãn dữ liệu thường bị ảnh hưởng bởi thiên kiến của người gán nhãn, khiến cho thông tin không chính xác và không phản ánh đúng nội dung hình ảnh, từ đó ảnh hưởng đến độ tin cậy của mô hình AI.

Có cách nào để cải thiện chất lượng của bộ dữ liệu AI không?

Có, cần phải áp dụng các phương pháp gán nhãn chính xác hơn và kiểm tra định kỳ để loại bỏ các lỗi, đảm bảo rằng các mô hình AI hoạt động hiệu quả và đáng tin cậy.

Các nhà nghiên cứu đã chỉ ra vấn đề nào liên quan đến bộ dữ liệu AI?

Các nhà nghiên cứu chỉ ra rằng bộ dữ liệu AI chứa nhiều lỗi và thiên kiến, cần phải được xem xét cẩn thận để không làm sai lệch kết quả của các mô hình được phát triển.

Tại sao những lỗi trong dữ liệu lại được coi là điểm yếu của AI?

Những lỗi này có thể dẫn đến sai sót trong việc huấn luyện và kiểm thử mô hình, ảnh hưởng đến khả năng hoạt động của AI trong các ứng dụng quan trọng như xe tự lái và y tế.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]