Một nghiên cứu mới đã giúp chúng ta giải đáp một thắc mắc không ai biết trả lời. Đó là tại sao máy tính lại thất bại trong việc so sánh hai vật thể trong hình ảnh xem chúng có giống nhau hay không, một việc mà cả trẻ con cũng thực hiện tốt.
Trong thập kỷ qua, các thuật toán thị giác máy tính đã có những bước tiến lớn. Chúng vượt trội hơn con người trong việc phân loại chó và mèo, và cũng có khả năng nhận dạng khuôn mặt trong đám đông lên đến hàng triệu người.
Tuy nhiên, theo một báo cáo được trình bày tại cuộc họp thường niên của Hội Khoa Học Nhận Thức, các thuật toán này lại thất bại nặng nề trong việc so sánh và đề xuất giải pháp cho vấn đề này.
Cái này so với cái kia
Trong nghiên cứu của mình, Thomas Serre - phó giáo sư tại Đại học Brown - và các đồng nghiệp đã sử dụng các thuật toán tiên tiến để phân tích các hình ảnh đơn giản chứa hơn hai hình dạng khác nhau.
Tuy nhiên, sau hàng trăm ví dụ được đưa ra để huấn luyện, các thuật toán vẫn không tiến triển trong việc nhận diện mối liên hệ giữa các vật thể.
Serra và các đồng nghiệp nghi ngờ rằng vấn đề này có liên quan đến khả năng phân biệt vật thể của các thuật toán thị giác máy tính. Khi máy tính nhìn vào một hình ảnh, chúng không thể thực sự hiểu được vị trí của một vật thể trong hình và nơi bắt đầu của vật thể khác. Chúng chỉ nhận thấy một tập hợp các điểm ảnh tương tự những điểm chúng đã được học để liên kết với các nhãn nhất định.
Tất nhiên, việc học này giúp máy tính xác định và phân loại, nhưng không giúp máy tính so sánh hai vật thể.
Lần lượt từng cái một
Để chứng minh giả thuyết của họ, Serre và nhóm đã tiến hành thử nghiệm, trong đó không buộc máy tính phải tự phân biệt vật thể. Thay vào đó, họ cho máy tính xem hai vật thể lần lượt trong các bức ảnh riêng biệt.
Các thử nghiệm cho thấy các thuật toán không gặp vấn đề trong việc học về mối liên hệ giống hay khác, miễn là chúng không phải xem hai vật thể trong cùng một bức ảnh.
Nguồn gốc của vấn đề phân biệt vật thể này, theo Serre, là kiến trúc của hệ thống học máy mà các thuật toán sử dụng. Các thuật toán này sử dụng mạng lưới nơ-ron nhân tạo - các lớp đơn vị xử lý kết nối với nhau, mô phỏng mạng lưới nơ-ron thần kinh trong não. Một điểm khác biệt quan trọng so với não là các mạng lưới nhân tạo là mạng một chiều, tiếp thuận - có nghĩa là thông tin chỉ di chuyển theo một hướng qua các lớp của mạng lưới. Hệ thống thị giác của con người không hoạt động như vậy.
'Nếu bạn xem mô hình giải phẫu học của hệ thống thị giác con người, bạn sẽ thấy có rất nhiều kết nối lặp lại, nơi thông tin di chuyển từ các khu vực thị giác cao đến các khu vực thị giác thấp và ngược lại' - Serre nói.
Mặc dù không biết chính xác phản ứng sẽ thực hiện điều gì, Serra tiếp tục nói rằng có thể liên quan đến khả năng của chúng ta chú ý đến những phần cụ thể của trường thị giác và tạo ra biểu tượng của chúng trong tâm trí.
'Ví dụ, nếu ai đó chú ý đến một vật thể, họ tạo ra một biểu tượng liên quan trong bộ nhớ của họ' - Serra nói - 'Sau đó họ chuyển sự chú ý sang vật thể khác. Khi cả hai vật thể đều có biểu tượng trong bộ nhớ, hệ thống thị giác của bạn có thể thực hiện so sánh như giống hay khác'.
Serra và các đồng nghiệp giả định rằng máy tính không thể làm như vậy vì mạng lưới nơ-ron tiếp thuận không thể thực hiện loại xử lý lặp lại cần thiết để phân biệt và tạo ra biểu tượng của các vật thể. Serre kết luận rằng chúng ta có thể làm cho thị giác máy tính thông minh hơn bằng cách thiết kế mạng lưới nơ-ron gần giống với quá trình lặp lại trong xử lý thị giác của não con người hơn.
Tham khảo: Futurity