Nếu Máy Tính Thông Minh Đến Thế, Sao Họ Lại Không Đọc Được?

Tại TED, vào đầu năm 2018, nhà tương lai học và nhà phát minh Ray Kurzweil, hiện đang là Giám đốc Kỹ thuật tại Google, công bố dự án mới nhất của mình, “Google Talk to Books,” khẳng định sử dụng hiểu biết ngôn ngữ tự nhiên để “cung cấp một cách hoàn toàn mới để khám phá sách.” Quartz đầy đủ hào hứng với nó như là “Công cụ tìm kiếm mới đáng kinh ngạc của Google [sẽ] trả lời bất kỳ câu hỏi nào bằng cách đọc hàng nghìn cuốn sách.”
Nếu công cụ như vậy thực sự tồn tại và hoạt động mạnh mẽ, thì đó sẽ là điều tuyệt vời. Nhưng cho đến nay, chúng không có. Nếu chúng ta có thể trang bị cho máy tính một khả năng mà chúng chưa có, đó sẽ là khả năng hiểu ngôn ngữ một cách thực sự. Trong y học, ví dụ, hàng ngàn bài báo được xuất bản mỗi ngày; không có bác sĩ hoặc nhà nghiên cứu nào có thể đọc hết chúng. Việc phát hiện thuốc bị trì hoãn vì thông tin bị khóa trong văn học chưa đọc. Các phương pháp điều trị mới không được áp dụng, vì bác sĩ không có thời gian để khám phá chúng. Các chương trình trí tuệ nhân tạo có thể tổng hợp văn học y học—hoặc thậm chí chỉ đơn giản là quét email của bạn một cách đáng tin cậy để thêm vào danh sách công việc của bạn—sẽ là một cuộc cách mạng.

Nhưng khám phá sâu hơn vào các công cụ như Google Talk to Books (GTB) và bạn sẽ nhanh chóng nhận ra chúng ta chưa đến gần đâu với việc máy đọc thực sự. Khi chúng tôi hỏi GTB, “Harry Potter gặp Hermione Granger ở đâu?” chỉ có sáu trong 20 câu trả lời liên quan đến Harry Potter; hầu hết phần còn lại liên quan đến những người khác tên là Harry hoặc hoàn toàn không liên quan. Chỉ có một câu nhắc đến Hermione và không có câu trả lời nào đúng. Khi chúng tôi hỏi GTB, “Ai là thẩm phán tối cao lớn tuổi nhất vào năm 1980?" chúng ta lại gặp thất bại. Bất kỳ con người thông minh nào cũng có thể đến danh sách các thẩm phán tối cao của Wikipedia và tìm ra đó là William Brennan. Google Talk to Books không thể; không có câu nào trong bất kỳ cuốn sách nào mà nó đã tiêu hóa nói rõ câu trả lời hoàn chỉnh, và nó không có cách để suy luận ra ngoài những gì được nêu rõ.
Vấn đề mấu chốt nhất là chúng tôi nhận được các câu trả lời hoàn toàn khác nhau tùy thuộc vào cách chúng tôi đặt câu hỏi. Khi chúng tôi hỏi GTB, “Ai đã phản bội thầy giáo mình vì 30 đồng bạc?” một sự việc nổi tiếng trong một câu chuyện nổi tiếng, chỉ có ba trong số 20 câu trả lời đúng xác định được Judas. Tình hình trở nên tồi tệ hơn khi chúng tôi rời xa khỏi từ “đồng bạc.” Khi chúng tôi đặt một câu hỏi ít cụ thể hơn, “Ai đã phản bội thầy giáo mình vì 30 đồng tiền?” Judas chỉ xuất hiện trong một trong số 20 câu trả lời hàng đầu; và khi chúng tôi hỏi “Ai đã bán thầy giáo mình vì 30 đồng tiền?” Judas hoàn toàn biến mất khỏi 20 kết quả hàng đầu.
Để hiểu được tại sao việc đọc máy mạnh mẽ vẫn còn là một khía cạnh xa xôi, điều này giúp hiểu rõ — chi tiết — những gì cần thiết thậm chí để hiểu được một câu chuyện dành cho trẻ em.
Hãy giả sử bạn đọc đoạn văn sau từ Farmer Boy, một cuốn sách dành cho trẻ em của Laura Ingalls Wilder. Almanzo, một cậu bé 9 tuổi, tìm thấy một chiếc ví (khi ấy được gọi là “túi xách”) đầy tiền rơi trên đường phố. Cha của Almanzo đoán rằng chiếc ví có thể thuộc về ông Thompson, và Almanzo tìm thấy ông Thompson tại một cửa hàng trong thị trấn.
Almanzo quay sang ông Thompson và hỏi, “Ông có làm rơi mất một chiếc ví không?” Ông Thompson nhảy lên. Ông vỗ tay vào túi áo và hét lên.
“Vâng, tôi có! Trong đó có một ngàn năm trăm đô la nữa! Có chuyện gì về nó không? Bạn biết gì về nó?”
“Đây có phải là nó không?” Almanzo hỏi.
“Đúng vậy, đúng vậy, đó là nó!” Ông Thompson nói, vồ lấy chiếc túi xách. Ông mở nó ra và nhanh chóng đếm tiền. Ông đếm tất cả các tờ tiền hơn hai lần... Sau đó, ông thở dài nhẹ nhõm và nói, “Ồ, cậu bé này không lấy cắp gì cả.”
Một hệ thống đọc tốt sẽ có thể trả lời những câu hỏi như thế này:
• Tại sao ông Thompson vỗ túi bằng tay mình?
• Trước khi Almanzo nói, ông Thompson có nhận ra rằng mình đã đánh mất ví không?
• Almanzo đang hỏi về cái gì khi ông ấy nói, “Đây có phải là nó không?”
• Tất cả tiền có còn trong chiếc ví không?
Tất cả những câu hỏi này đều dễ dàng đối với con người. Nhưng hiện chưa có trí tuệ nhân tạo nào đã gần bằng—bởi mỗi câu hỏi đòi hỏi người đọc phải theo dõi một chuỗi suy luận chỉ ngụ ý trong câu chuyện, và các kỹ thuật hiện tại không thực hiện được suy luận theo cách này. Những điều ngụ ý chủ yếu nằm ngoài phạm vi của họ. Những chuỗi suy luận như thế thường đòi hỏi người đọc phải kết hợp kiến thức nền về con người và vật dụng, và nói chung là về cách thế giới hoạt động. Hiện tại, không có hệ thống nào có kiến thức tổng quát đủ rộng để làm điều này tốt.
Ví dụ, hãy xem câu hỏi thứ nhất. Trước khi Almanzo nói, ông Thompson không biết mình đã đánh mất ví và cho rằng ông ta đã để ví trong túi. Khi Almanzo hỏi ông có mất ví không, Thompson nhận ra rằng thực sự có thể ông đã đánh mất ví của mình. Để kiểm tra khả năng này—ví có thể bị mất—Thompson vỗ túi của mình. Vì ví không ở nơi ông thường để, Thompson kết luận rằng ông đã đánh mất ví. Có ý thức hoặc không ý thức, khi bạn tiếp nhận câu chuyện về Almanzo và chiếc ví, bạn có thể đã dựa vào hầu hết hoặc tất cả các loại thông tin sau:
• Người ta có thể làm rơi đồ mà không nhận ra. [Kiến thức về mối quan hệ giữa sự kiện và tâm trạng của con người.]
• Người ta thường mang ví trong túi. [Kiến thức về cách mọi người sử dụng đồ vật.]
• Nếu mọi người cho rằng một điều quan trọng với họ là đúng, và họ phát hiện ra rằng có thể không đúng, thì thường cấp bách cho họ làm rõ điều đó. [Kiến thức về những điều tâm lý quan trọng đối với con người.]
• Bạn thường có thể biết xem một thứ gì đó có trong túi bạn không bằng cách sờ túi từ bên ngoài. [Kết hợp kiến thức về cách các đối tượng khác nhau (tay, túi, ví) tương tác với nhau cùng với kiến thức về cách cảm giác hoạt động.]
Phương pháp AI phổ biến hiện tại không thực hiện bất cứ điều gì như vậy; thay vì biểu diễn kiến thức, nó chỉ biểu diễn xác suất, chủ yếu là về cách từ ngữ thường xuất hiện cùng nhau trong các ngữ cảnh khác nhau. Điều này có nghĩa là bạn có thể tạo ra chuỗi từ ngữ nghe giống con người, nhưng không có sự mạch lạc thực sự.
Để minh họa điều chúng tôi nói, chúng tôi đưa câu chuyện về Almanzo vào GPT-2, một hệ thống tạo văn bản tiên tiến do OpenAI tạo ra, được cho là tốt đến mức OpenAI không thể chia sẻ an toàn với công chúng, mặc dù sứ mệnh của họ là làm cho AI được phổ biến miễn phí. Văn bản chúng tôi đưa vào, kết thúc với việc Thompson phát hiện ra rằng toàn bộ tiền của ông vẫn còn ở đó; kết quả là:
Có lẽ đã mất rất nhiều thời gian, có lẽ vài giờ, để anh ấy lấy tiền từ nơi an toàn mà anh ấy đã giấu, vì vậy anh ấy mang nó trở lại dưới dạng một bó và để nó trên bàn. Sau đó, anh ấy nhận ra tiền đã ẩn trong giường và bắt đầu đi đến giường với một bó lớn.
Câu từ trôi chảy, nhưng ý tưởng thì rối ren. Nếu ông Thompson vừa lấy lại ví, sao lại có tiền đột nhiên bị ẩn trong một nơi an toàn? Hệ thống đã nắm vững mối tương quan thống kê giữa ví và nơi an toàn, nhưng hoàn toàn mất dần dần khúc mắc của câu chuyện. (Bạn có thể thử điều này; mỗi kết thúc sẽ khác nhau; ít trong số đó sẽ mạch lạc.) Hiện tại, hệ thống nào cũng không tốt hơn.
Làm sao chúng ta rơi vào tình cảnh này?
Hệ thống AI hiện tại chủ yếu được cung cấp bởi một kỹ thuật thống kê gọi là học sâu, và học sâu rất hiệu quả trong việc học các tương quan, như tương quan giữa hình ảnh hoặc âm thanh và nhãn. Nhưng học sâu gặp khó khăn khi đến việc hiểu cách các đối tượng như câu liên quan đến các phần tử của chúng (như từ và cụm từ).
Tại sao? Nó thiếu đi những gì các nhà ngôn ngữ học gọi là sự cấu thành: cách xây dựng ý nghĩa của một câu phức từ ý nghĩa của các phần thành phần của nó. Ví dụ, trong câu "Mặt trăng cách Trái Đất 240.000 dặm," từ mặt trăng chỉ một vật thể thiên văn cụ thể, Trái Đất chỉ một cái khác, dặm chỉ một đơn vị khoảng cách, 240.000 chỉ một con số, và sau đó, thông qua cách mà các cụm từ và câu hoạt động cấu thành trong tiếng Anh, 240.000 dặm chỉ một độ dài cụ thể, và câu "Mặt trăng cách Trái Đất 240.000 dặm" khẳng định rằng khoảng cách giữa hai hành tinh này chính là độ dài đó.
Đồng thời, học sâu không có cách tốt để tích hợp kiến thức nền. Một hệ thống có thể học để dự đoán rằng các từ ví và nơi an toàn xuất hiện trong các loại câu tương tự ("Anh ta đặt tiền của mình vào ví," "Anh ta đặt tiền của mình vào một nơi an toàn"), nhưng nó không có cách để liên kết điều đó với việc mọi người thích bảo vệ tài sản của họ.
Cùng một lúc, học sâu không có cách tốt để tích hợp kiến thức nền. Một hệ thống có thể học để dự đoán rằng các từ ví và nơi an toàn xuất hiện trong các loại câu tương tự ("Anh ta đặt tiền của mình vào ví," "Anh ta đặt tiền của mình vào một nơi an toàn"), nhưng nó không có cách để liên kết điều đó với việc mọi người thích bảo vệ tài sản của họ.
Trên lĩnh vực tâm lý nhận thức, khi bạn đọc bất kỳ văn bản nào, bạn đều tạo dựng một mô hình nhận thức về ý nghĩa của văn bản đó. Khi bạn đọc đoạn văn từ Chú bé nông dân, ví dụ, bạn từ từ xây dựng một biểu diễn tâm lý—nội tại trong não bạn—về tất cả những người, vật thể và sự việc trong câu chuyện và các mối quan hệ giữa chúng: Almanzo, chiếc ví, và ông Thompson, cũng như các sự kiện Almanzo nói chuyện với ông Thompson, ông Thompson la hét và vỗ túi quần, ông Thompson nhấc chiếc ví từ Almanzo, và như vậy. Chỉ sau khi bạn đã đọc văn bản và tạo dựng mô hình nhận thức, bạn mới làm những điều bạn muốn với câu chuyện—trả lời câu hỏi về nó, dịch nó sang tiếng Nga, minh họa nó, hoặc chỉ nhớ nó để sau này.
Kể từ năm 2013, khi DeepMind xây dựng một hệ thống chơi trò chơi Atari—thường chơi tốt hơn cả con người—mà không cần mô hình nhận thức, và bán cho Google với giá hơn nửa tỷ đô la, mô hình nhận thức đã trở nên lỗi thời. Nhưng những gì hoạt động cho trò chơi với các quy tắc cố định và các lựa chọn hạn chế không hoạt động cho việc đọc. Bản mô phỏng văn xuôi của GPT-2 không có mô hình nhận thức rất đáng giải trí, nhưng đó chỉ là một bước xa xôi so với hiểu biết thực sự về đọc.
Điều này là bởi vì, cuối cùng, số liệu không thể thay thế cho hiểu biết thực tế. Thay vào đó, có một sự không phù hợp cơ bản giữa loại tính toán thống kê điều khiển các chương trình trí tuệ nhân tạo hiện tại và việc xây dựng mô hình nhận thức mà hệ thống thực sự cần để hiểu những gì họ đang cố đọc.
Chúng tôi không nghĩ rằng việc máy móc làm tốt hơn là không thể. Nhưng chỉ có sự cải tiến về mặt số lượng—với nhiều dữ liệu hơn, nhiều lớp mạng thần kinh hơn trong các mạng của chúng ta, và nhiều máy tính hơn trong các cụm máy mạnh mẽ chạy những mạng đó—không đủ để giải quyết vấn đề.
Thay vào đó, chúng tôi tin rằng đến lúc áp dụng một phương pháp hoàn toàn mới, lấy cảm hứng từ tâm lý nhận thức con người và tập trung vào lập luận và thách thức tạo ra phiên bản máy tính có thể hiểu được của trí tuệ thông thường.
Đọc không chỉ là về số liệu, mà còn về tổng hợp kiến thức: kết hợp những gì bạn đã biết với những gì tác giả đang cố gắng truyền đạt cho bạn. Trẻ em làm được điều đó một cách thông thường; máy móc vẫn chưa làm được.
Từ Rebooting AI: Xây dựng Trí tuệ Nhân tạo Chúng Ta Có Thể Tin Cậy, của Gary Marcus và Ernest Davis. Bản quyền © 2019 bởi Gary Marcus và Ernest Davis. Được tái in với sự cho phép của Pantheon Books, một nhãn hiệu của Tập đoàn Knopf Doubleday Publishing, một phần của Penguin Random House LLC.
Khi bạn mua sản phẩm bằng các liên kết bán lẻ trong câu chuyện của chúng tôi, chúng tôi có thể kiếm được một khoản hoa hồng nhỏ từ liên kết liên kết. Đọc thêm về cách điều này hoạt động.
Những điều Tuyệt vời hơn từ MYTOUR
- Chúng ta có thể là những siêu anh hùng: Cách những người mê công nghệ đang tái tạo văn hóa đại chúng
- Tại sao trên trái đất nước lại có trong núi lửa Kilauea của Hawaii?
- Jeffrey Epstein và sức mạnh của mạng lưới
- Tôi đã thay lò nướng bằng máy làm bánh waffle, và bạn cũng nên làm thế
- Tìm hiểu cách rơi với vận động viên leo núi Alex Honnold
- 👁 Nhận diện khuôn mặt đột ngột xuất hiện ở mọi nơi. Bạn có nên lo lắng không? Ngoài ra, đọc tin tức mới nhất về trí tuệ nhân tạo
- 🏃🏽♀️ Muốn có những công cụ tốt nhất để khỏe mạnh? Hãy xem qua lựa chọn của đội ngũ Gear của chúng tôi về các thiết bị theo dõi sức khỏe tốt nhất, trang thiết bị chạy bộ (bao gồm giày dép và tất), và tai nghe tốt nhất.
