Tham Lam, Dễ Vỡ, Mờ Ám và Nông Cạn: Nhược Điểm của Học Sâu

Sundar Pichai, người đứng đầu của Google, đã nói rằng trí tuệ nhân tạo “quan trọng hơn ... điện hay lửa.” Andrew Ng, người sáng lập Google Brain và hiện đầu tư vào các startup AI, đã viết rằng “Nếu một người bình thường có thể thực hiện một nhiệm vụ tinh thần chỉ với ít hơn một giây suy nghĩ, chúng ta có thể tự động hóa nó bằng trí tuệ nhân tạo, hiện tại hoặc trong tương lai gần.”
Sự hăng hái của họ là hoàn toàn tha thứ. Có những tiến bộ đáng kinh ngạc trong lĩnh vực trí tuệ nhân tạo, sau nhiều thập kỷ thất vọng. Ngày nay, chúng ta có thể yêu cầu trợ lý cá nhân hoạt động bằng giọng nói như Alexa để “Phát ban nhạc Television,” hoặc dựa vào Facebook để gắn thẻ cho các bức ảnh của chúng ta; Google Dịch thường gần bằng chính xác của một dịch giả con người. Trong nửa thập kỷ qua, hàng tỷ đô la về nguồn tài trợ nghiên cứu và vốn đầu tư rủi ro đã đổ vào lĩnh vực trí tuệ nhân tạo; đây là môn học nóng nhất trong các chương trình khoa học máy tính tại MIT và Stanford. Ở thung lũng Silicon, những chuyên gia AI mới ra trường có mức lương và cổ phiếu lên đến nửa triệu đô la.
Nhưng có rất nhiều việc mà con người có thể làm nhanh chóng mà các máy móc thông minh không thể. Ngôn ngữ tự nhiên vượt quá học sâu; các tình huống mới khiến trí tuệ nhân tạo bối rối, giống như bò bị dừng lại trước lưới đất. Không có một trong những hạn chế này có thể được giải quyết sớm. Một khi bạn đã nhìn thấy điều đó, bạn không thể không nhìn thấy: học sâu, hiện tại là kỹ thuật chiếm ưu thế trong trí tuệ nhân tạo, sẽ không dẫn đến một trí tuệ nhân tạo có khả năng tư duy trừu tượng và tổng quát về thế giới. Một mình nó, khó có thể tự động hóa các hoạt động thông thường của con người.
Để hiểu tại sao trí tuệ nhân tạo hiện đại tốt trong một số vấn đề nhất định nhưng kém trong mọi thứ khác, việc hiểu cách học sâu hoạt động sẽ hữu ích. Học sâu là toán học: một phương pháp thống kê trong đó máy tính học cách phân loại mẫu với việc sử dụng mạng nơ-ron. Những mạng này có đầu vào và đầu ra, giống như các nơ-ron trong não của chúng ta; chúng được gọi là “sâu” khi chúng có nhiều lớp ẩn chứa nhiều nút, với một số kết nối rộng lớn. Học sâu sử dụng một thuật toán gọi là lan truyền ngược, hoặc backprop, điều chỉnh trọng số toán học giữa các nút, sao cho một đầu vào dẫn đến đầu ra đúng. Trong nhận dạng giọng nói, các âm vị c-a-t nên viết ra từ “cat;” trong nhận dạng hình ảnh, một bức ảnh của mèo không được gắn nhãn là “một con chó;” trong dịch thuật, qui canem et faelem ut deos colunt nên dịch ra “những ai thờ cúng chó và mèo như các vị thần.” Học sâu là “giám sát” khi mạng nơ-ron được huấn luyện để nhận diện âm vị, hình ảnh hoặc mối quan hệ giữa tiếng Latinh và tiếng Anh bằng hàng triệu hoặc tỷ lệ cao hơn các ví dụ đã được gán nhãn một cách công phu trước đó.
Các tiến bộ của học sâu là sản phẩm của việc nhận dạng mẫu: các mạng nơ-ron ghi nhớ các loại đối tượng và khá đáng tin cậy khi gặp lại chúng. Nhưng hầu hết các vấn đề thú vị trong nhận thức không phải là vấn đề phân loại. “Mọi người ngây thơ tin rằng nếu bạn lấy học sâu và mở rộng nó 100 lần về số lớp, và thêm 1000 lần dữ liệu, một mạng nơ-ron sẽ có thể làm bất cứ điều gì mà một con người có thể làm,” François Chollet, một nhà nghiên cứu tại Google nói. “Nhưng điều đó hoàn toàn không đúng.”
Gary Marcus, một giáo sư tâm lý học nhận thức tại Đại học NYU và một thời gian ngắn làm giám đốc tại Uber’s AI lab, gần đây đã xuất bản một bộ ba bài luận đáng chú ý, đưa ra một đánh giá phê phán về học sâu. Marcus tin rằng học sâu không phải là “một chất dung dịch phổ cập, mà chỉ là một trong nhiều công cụ.” Và nếu thiếu các phương pháp mới, Marcus lo lắng rằng trí tuệ nhân tạo đang lao về một bức tường, phía sau đó là tất cả các vấn đề mà nhận dạng mẫu không thể giải quyết. Quan điểm của ông được chia sẻ một cách im lặng với mức độ mạnh mẽ khác nhau bởi hầu hết các nhà lãnh đạo trong lĩnh vực này, ngoại trừ Yann LeCun, giám đốc nghiên cứu trí tuệ nhân tạo tại Facebook, người đã từ chối lập tức lập luận này là “hoàn toàn sai,” và Geoffrey Hinton, giáo sư vĩnh viễn tại Đại học Toronto và người được coi là ông tổ của backpropagation, người nhìn thấy “không có bằng chứng” của một chướng ngại sắp tới.
Theo những người hoài nghi như Marcus, học sâu là tham lam, giòn, mờ mịt và nông cạn. Các hệ thống là tham lam vì chúng đòi hỏi các bộ dữ liệu đào tạo lớn. Giòn vì khi một mạng nơ-ron được thực hiện “kiểm tra chuyển giao” - đối mặt với các tình huống khác biệt so với các ví dụ được sử dụng trong quá trình đào tạo - nó không thể ngữ cảnh hóa tình huống và thường xuyên gặp sự cố. Họ mờ mịt vì, khác với các chương trình truyền thống với mã code hình thức, rõ ràng có thể sửa lỗi, các tham số của mạng nơ-ron chỉ có thể được diễn giải dựa trên trọng số của chúng trong một địa lý toán học. Do đó, chúng là hộp đen, đầu ra của chúng không thể giải thích, gây nghi ngờ về độ tin cậy và thiên kiến của chúng. Cuối cùng, chúng nông cạn vì chúng được lập trình với ít kiến thức bẩm sinh và không có ý thức chung về thế giới hoặc tâm lý con người.
Những hạn chế này có nghĩa là rất nhiều tự động hóa sẽ chứng minh khó khăn hơn so với những gì người yêu trí tuệ nhân tạo tưởng tượng. “Một chiếc ô tô tự lái có thể lái hàng triệu dặm, nhưng cuối cùng nó sẽ gặp phải một cái gì đó mới mà nó chưa từng trải nghiệm,” giải thích Pedro Domingos, tác giả của The Master Algorithm và giáo sư khoa học máy tính tại Đại học Washington. “Hoặc xem xét việc điều khiển robot: Một robot có thể học cách lấy một chai, nhưng nếu nó phải lấy một cốc, nó sẽ bắt đầu từ đầu.” Vào tháng 1, Facebook từ bỏ M, một trợ lý ảo dựa trên văn bản sử dụng con người để bổ sung và đào tạo hệ thống học sâu, nhưng không bao giờ đề xuất các gợi ý hữu ích hoặc sử dụng ngôn ngữ một cách tự nhiên.
Chuyện gì đã xảy ra? “Phải là chúng ta có một thuật toán học tốt hơn trong đầu chúng ta so với bất cứ điều gì chúng ta đã tạo ra cho máy móc,” Domingos nói. Chúng ta cần phát minh ra những phương pháp học máy tốt hơn, những người hoài nghi khẳng định. Phương thuốc cho trí tuệ nhân tạo, theo Marcus, là sự hỗn hợp: kết hợp học sâu với các kỹ thuật học không giám sát không phụ thuộc nhiều vào dữ liệu đào tạo được gán nhãn, cũng như mô tả cũ kiểu cách về thế giới với luật lý học truyền thống đã thống trị trí tuệ nhân tạo trước sự gia tăng của học sâu. Marcus cho rằng mô hình tốt nhất của chúng ta về trí tuệ là chúng ta, và con người nghĩ theo nhiều cách khác nhau. Con cái nhỏ tuổi của ông có thể học được những quy tắc tổng quát về ngôn ngữ mà không cần nhiều ví dụ, nhưng họ cũng được sinh ra với khả năng bẩm sinh. “Chúng ta được sinh ra biết rằng có mối quan hệ nhân quả trong thế giới, rằng nguyên tắc có thể được tạo ra từ các phần tử, và rằng thế giới bao gồm các địa điểm và đối tượng tồn tại trong không gian và thời gian,” ông nói. “Không máy móc nào từng học được điều đó bằng cách sử dụng backprop.”
Các nhà nghiên cứu khác có ý tưởng khác nhau. “Chúng ta đã sử dụng các mô hình cơ bản giống nhau [cho việc học máy] từ những năm 1950,” Pedro Domingos nói, “và vào cuối ngày, chúng ta sẽ cần một số ý tưởng mới.” Chollet tìm nguồn cảm hứng từ tổng hợp chương trình, các chương trình tự động tạo ra các chương trình khác. Nghiên cứu hiện tại của Hinton khám phá một ý tưởng ông gọi là “capsules,” giữ nguyên backpropagation, thuật toán cho học sâu, nhưng giải quyết một số hạn chế của nó.
“Có rất nhiều câu hỏi cốt lõi trong trí tuệ nhân tạo mà hoàn toàn chưa được giải quyết,” Chollet nói, “và thậm chí là chưa được đặt ra nhiều.” Chúng ta phải trả lời những câu hỏi này vì có nhiều công việc mà nhiều người không muốn làm, như lau nhà vệ sinh và phân loại khiêu dâm, hoặc mà máy móc thông minh sẽ làm tốt hơn, như khám phá thuốc để điều trị các bệnh. Hơn nữa: có những điều mà chúng ta không thể làm được, hầu hết trong số đó chúng ta vẫn chưa thể tưởng tượng được.
- Bạn có thể ngừng lo lắng về một Trí tuệ Nhân tạo vượt trội. Như Kevin Kelly viết, đó chỉ là một huyền thoại.
- Một lo ngại khác mà bạn có thể loại bỏ khỏi danh sách của mình? Lo sợ rằng robot sẽ lấy đi tất cả công việc của chúng ta. Điều đó không đơn giản như vậy.
- Nhưng Trí tuệ Nhân tạo đang trở thành yếu tố ngày càng quan trọng trong tương lai của công việc. Chào đón các đồng nghiệp Trí tuệ Nhân tạo mới của bạn.
Bức ảnh của MYTOUR/Getty Images
