
Vào mùa thu năm 2017, Sam Bowman, một nhà ngôn ngữ học tính toán tại Đại học New York, nhận ra rằng máy tính vẫn chưa tốt trong việc hiểu về từ ngữ viết. Dĩ nhiên, chúng trở nên khá giỏi trong việc mô phỏng hiểu biết đó trong một số lĩnh vực hẹp nhất định, như dịch tự động hoặc phân tích tình cảm (ví dụ, xác định xem một câu nói âm hơn hay tốt hơn,' anh nói). Nhưng Bowman muốn có bằng chứng đo lường về sự hiểu biết thực sự: khả năng hiểu đọc tiếng Anh theo kiểu con người. Vì vậy, anh ta nghĩ ra một bài kiểm tra.
Trong một bài báo tháng 4 năm 2018 do Bowman và các cộng sự từ Đại học Washington và DeepMind, công ty trí tuệ nhân tạo thuộc sở hữu của Google, giới thiệu một loạt chín nhiệm vụ hiểu biết đọc cho máy tính được gọi là GLUE (General Language Understanding Evaluation). Bài kiểm tra được thiết kế như 'một mẫu mô phỏng khá đại diện về những thách thức mà cộng đồng nghiên cứu coi là thú vị,' Bowman nói, nhưng cũng 'khá dễ dàng đối với con người.' Ví dụ, một nhiệm vụ hỏi liệu một câu có đúng dựa trên thông tin được đưa ra trong câu trước đó. Nếu bạn có thể nhận ra rằng 'Tổng thống Trump đáp xuống Iraq để bắt đầu chuyến thăm kéo dài 7 ngày' ngụ ý rằng 'Tổng thống Trump đang thăm nước ngoài,' bạn vừa vượt qua bài kiểm tra.
Các máy đã thể hiện sức mạnh của chúng. Ngay cả các mạng nơ-ron tiên tiến nhất cũng chỉ đạt điểm không cao hơn 69 trên tổng số chín nhiệm vụ: một D-plus, trong thuật ngữ điểm chữ cái. Bowman và các cộng tác viên của ông không bất ngờ. Các mạng nơ-ron - các tầng kết nối tính toán được xây dựng theo cách xấp xỉ sơ bộ về cách tế bào thần kinh tương tác trong não động vật có vú - đã thể hiện triển vọng trong lĩnh vực “xử lý ngôn ngữ tự nhiên” (NLP), nhưng các nhà nghiên cứu không tin rằng những hệ thống này đang học được điều gì đáng kể về ngôn ngữ chính xác. Và GLUE dường như đã chứng minh điều đó. “Những kết quả sớm này cho thấy việc giải quyết GLUE vượt xa khả năng của các mô hình và phương pháp hiện tại,” Bowman và các cộng tác viên của ông viết.
Sự đánh giá của họ chỉ tồn tại trong thời gian ngắn. Vào tháng 10 năm 2018, Google giới thiệu một phương pháp mới được gọi là BERT (Biểu diễn mã hóa hai chiều từ Transformers). Nó tạo ra điểm GLUE là 80,5. Trên chỉ số mới này được thiết kế để đo lường sự hiểu biết thực sự của máy về ngôn ngữ tự nhiên - hoặc để phơi bày sự thiếu sót của chúng - các máy đã bật từ D-plus lên B-minus chỉ trong sáu tháng.

"Đó chắc chắn là khoảnh khắc ‘ớ, rắc’," Bowman nhớ lại, sử dụng một từ lóng sặc sỡ hơn. "Phản ứng chung trong lĩnh vực là sự hoài nghi. BERT đang có các con số trên nhiều nhiệm vụ gần với những gì chúng tôi nghĩ là giới hạn của việc bạn có thể làm tốt nhất." Thực tế, GLUE thậm chí còn không quan tâm đến việc bao gồm điểm số cơ sở của con người trước khi có BERT; đến khi Bowman và một sinh viên tiến sĩ của ông thêm chúng vào GLUE vào tháng 2 năm 2019, chúng chỉ tồn tại vài tháng trước khi một hệ thống từ Microsoft dựa trên BERT vượt qua chúng.
Kể từ lúc viết bài này, gần như mọi vị trí trên bảng xếp hạng GLUE đều thuộc về một hệ thống tích hợp, mở rộng hoặc tối ưu hóa BERT. Năm trong số các hệ thống này vượt quá hiệu suất của con người.
Nhưng liệu trí tuệ nhân tạo thực sự đang bắt đầu hiểu ngôn ngữ của chúng ta - hay chỉ đang trở nên tốt hơn trong việc 'chơi' hệ thống của chúng ta? Khi các mạng nơ-ron dựa trên BERT đã chiếm lĩnh các chỉ số như GLUE, các phương pháp đánh giá mới đã xuất hiện có vẻ như đang mô tả những hệ thống NLP mạnh mẽ này như phiên bản tính toán của Clever Hans, con ngựa của thế kỷ 20 ban đầu có vẻ thông minh đến mức có thể làm phép tính, nhưng thực tế chỉ đang tuân theo các gợi ý không tự ý từ huấn luyện viên.
"Chúng ta biết rằng chúng ta đang ở đâu đó trong khu vực xám giữa việc giải quyết ngôn ngữ một cách rất nhàm chán, hẹp hòi, và giải quyết trí tuệ nhân tạo," Bowman nói. "Phản ứng chung của ngành là: Tại sao điều này lại xảy ra? Điều này có ý nghĩa gì? Chúng ta phải làm gì bây giờ?"
Viết Ra Những Quy Tắc Của Riêng Mình
Trong thử nghiệm tư duy Phòng Tiếng Trung nổi tiếng, một người không biết nói tiếng Trung ngồi trong một phòng được trang bị nhiều quyển sách hướng dẫn. Tổng hợp lại, những quyển sách này mô tả hoàn hảo cách thức xử lý bất kỳ chuỗi ký hiệu tiếng Trung nào đến và tạo ra một câu trả lời phù hợp. Một người bên ngoài đưa câu hỏi được viết bằng tiếng Trung qua khe cửa. Người trong phòng tham khảo các quyển sách, sau đó gửi lại những câu trả lời hoàn toàn hợp lý bằng tiếng Trung.
Thách thức suy luận đã được sử dụng để bào chữa rằng, dù cho có vẻ như thế nào từ bên ngoài đi nữa, người trong căn phòng không thể được coi là thực sự hiểu tiếng Trung. Tuy nhiên, thậm chí một bản mô phỏng về sự hiểu biết cũng đã là một mục tiêu đủ tốt cho xử lý ngôn ngữ tự nhiên.
Vấn đề duy nhất là sách quy tắc hoàn hảo không tồn tại, bởi vì ngôn ngữ tự nhiên quá phức tạp và tùy tiện để được rút gọn thành một bộ quy định cứng nhắc. Lấy cú pháp ví dụ: các quy tắc (và quy tắc nhìn chung) xác định cách từ nhóm lại thành các câu có ý nghĩa. Cụm từ “ý tưởng xanh không màu ngủ một cách dữ dội” có cú pháp hoàn hảo, nhưng bất kỳ người nói tự nhiên nào cũng biết rằng đó là vô nghĩa. Quyển sách quy định trước nào có thể nắm bắt sự thật “không viết” này về ngôn ngữ tự nhiên — hoặc về vô số sự thật khác nữa? Các nhà nghiên cứu Xử lý Ngôn ngữ Tự nhiên đã cố gắng giải quyết vấn đề này bằng cách cho các mạng nơ-ron viết ra các quy tắc tự tạo của chính mình, trong một quá trình gọi là tiền huấn luyện.
Trước năm 2018, một trong những công cụ tiền huấn luyện chính của Xử lý Ngôn ngữ Tự nhiên là một cái gì đó giống như từ điển. Được biết đến với tên gọi là nhúng từ, từ điển này mã hóa các liên kết giữa các từ dưới dạng số mà các mạng nơ-ron sâu có thể chấp nhận làm đầu vào — tương tự như việc cung cấp cho người trong căn phòng Trung Quốc một cuốn sách từ vựng cồng kềnh để làm việc. Nhưng một mạng nơ-ron viết trước với nhúng từ vẫn mù quáng về ý nghĩa của từ ở mức câu. “Nó sẽ nghĩ rằng ‘một người đàn ông cắn con chó’ và ‘một con chó cắn người đàn ông’ là hoàn toàn giống nhau,” Tal Linzen, một nhà ngôn ngữ học tính toán tại Đại học Johns Hopkins nói.

Phương pháp tốt hơn sẽ sử dụng tiền huấn luyện để trang bị cho mạng nơ-ron các quy tắc phong phú hơn — không chỉ cho từ vựng mà còn cho cú pháp và bối cảnh — trước khi huấn luyện nó để thực hiện một nhiệm vụ Xử lý Ngôn ngữ Tự nhiên cụ thể. Đầu năm 2018, các nhà nghiên cứu tại OpenAI, Đại học San Francisco, Viện nghiên cứu Trí tuệ Nhân tạo Allen và Đại học Washington đồng thời phát hiện một cách thông minh để xấp xỉ thành công này. Thay vì chỉ tiền huấn luyện lớp đầu tiên của một mạng với nhúng từ, các nhà nghiên cứu đã bắt đầu huấn luyện toàn bộ mạng nơ-ron trên một nhiệm vụ cơ bản rộng gọi là mô hình ngôn ngữ.
“Loại mô hình ngôn ngữ đơn giản nhất là: Tôi sẽ đọc một đống từ và sau đó cố gắng dự đoán từ tiếp theo,” giải thích Myle Ott, một nhà nghiên cứu khoa học tại Facebook. “Nếu tôi nói, ‘George Bush sinh ra ở,’ mô hình bây giờ phải dự đoán từ tiếp theo trong câu đó.”
Những mô hình ngôn ngữ sâu được tiền huấn luyện này có thể được sản xuất một cách tương đối hiệu quả. Các nhà nghiên cứu chỉ đơn giản là cung cấp cho mạng nơ-ron của họ một lượng lớn văn bản được sao chép từ các nguồn tự do như Wikipedia — hàng tỷ từ, được định dạng trước thành các câu đúng ngữ pháp — và để cho các mạng nơ-ron tự tìm ra dự đoán từ tiếp theo. Về cơ bản, đó giống như việc yêu cầu người trong căn phòng Trung Quốc viết ra tất cả các quy tắc của mình, chỉ sử dụng các thông điệp tiếng Trung đến làm tham chiếu.
“Điều tuyệt vời ở cách tiếp cận này là nó đã phát hiện ra rằng mô hình học được rất nhiều về cú pháp,” Ott nói. Hơn nữa, các mạng nơ-ron tiền huấn luyện này sau đó có thể áp dụng các biểu diễn ngôn ngữ phong phú của họ vào công việc học một nhiệm vụ Xử lý Ngôn ngữ Tự nhiên không liên quan và cụ thể hơn, một quá trình gọi là điều chỉnh tinh chỉnh.
“Bạn có thể lấy mô hình từ giai đoạn tiền huấn luyện và điều chỉnh nó theo bất kỳ nhiệm vụ thực tế nào bạn quan tâm,” Ott giải thích. “Và khi bạn làm điều đó, bạn sẽ đạt được kết quả tốt hơn nhiều so với việc bạn chỉ bắt đầu với nhiệm vụ cuối cùng của bạn từ đầu.”
Thật vậy, vào tháng 6 năm 2018, khi OpenAI giới thiệu một mạng nơ-ron gọi là GPT, bao gồm một mô hình ngôn ngữ được tiền huấn luyện trên gần một tỉ từ (lấy từ 11.038 cuốn sách kỹ thuật số) trong suốt một tháng, điểm GLUE của nó là 72.8 ngay lập tức chiếm vị trí hàng đầu trên bảng xếp hạng. Tuy nhiên, Sam Bowman cho rằng lĩnh vực này còn một quãng đường dài phía trước trước khi bất kỳ hệ thống nào có thể bắt đầu tiếp cận được hiệu suất gần như con người.
Sau đó, BERT xuất hiện.
Một Công Thức Mạnh Mẽ
Vậy thì BERT chính xác là gì?
Đầu tiên, đó không phải là một mạng nơ-ron được huấn luyện hoàn toàn có khả năng vượt qua hiệu suất của con người ngay từ đầu. Thay vào đó, theo Bowman, BERT là “một công thức rất chính xác để tiền huấn luyện một mạng nơ-ron.” Giống như một người nấu bánh có thể tuân theo một công thức để đáng tin cậy tạo ra một lớp vỏ bánh ngon — sau đó có thể được sử dụng để làm nhiều loại bánh khác nhau, từ việt quất đến bánh nấm rau cải — các nhà nghiên cứu của Google đã phát triển công thức của BERT để phục vụ như một nền tảng lý tưởng cho việc “nướng” các mạng nơ-ron (tức là điều chỉnh tinh chỉnh chúng) để làm tốt trên nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên khác nhau. Google cũng đã công bố mã nguồn của BERT, điều này có nghĩa là các nhà nghiên cứu khác không cần phải lặp lại công thức từ đầu — họ chỉ cần tải xuống BERT nguyên vẹn, như việc mua một lớp vỏ bánh đã được nướng sẵn từ siêu thị.
Nếu BERT về cơ bản là một công thức, thì danh sách thành phần là gì? “Đó là kết quả của ba yếu tố kết hợp để thực sự làm mọi thứ hoạt động,” Omer Levy, một nhà nghiên cứu khoa học tại Facebook đã phân tích cách hoạt động bên trong của BERT, nói.

Thứ nhất là một mô hình ngôn ngữ được tiền huấn luyện, những cuốn sách tham khảo trong căn phòng Trung Quốc của chúng ta. Thứ hai là khả năng xác định những đặc điểm quan trọng nhất của một câu.
Vào năm 2017, một kỹ sư tại Google Brain có tên Jakob Uszkoreit đang làm việc về cách tăng tốc các nỗ lực hiểu ngôn ngữ của Google. Anh nhận thấy rằng các mạng nơ-ron hiện đại cũng gặp phải một hạn chế tích hợp: Chúng tất cả đều nhìn qua chuỗi từng từ. “Tính tuần tự này” dường như phù hợp với trực giác về cách con người thực sự đọc các câu viết. Nhưng Uszkoreit tự hỏi liệu “có thể trường hợp là hiểu ngôn ngữ theo cách tuần tự, liên tục là không tối ưu,” anh nói.
Uszkoreit và các cộng sự của ông đã tạo ra một kiến trúc mới cho các mạng nơ-ron tập trung vào “sự chú ý,” một cơ chế cho phép mỗi tầng của mạng gán trọng số cao hơn cho một số đặc điểm cụ thể của đầu vào hơn là các đặc điểm khác. Kiến trúc tập trung chú ý mới này, được gọi là transformer, có thể nhận một câu như “một con chó cắn người đàn ông” làm đầu vào và mã hóa mỗi từ theo nhiều cách khác nhau song song. Ví dụ, một transformer có thể kết nối “cắn” và “người đàn ông” với nhau như động từ và tân ngữ, trong khi bỏ qua “một”; đồng thời, nó có thể kết nối “cắn” và “chó” với nhau như động từ và chủ ngữ, trong khi hầu hết là bỏ qua “cái.”
Bản chất phi tuần tự của transformer biểu diễn câu dưới một dạng phong phú hơn, mà Uszkoreit gọi là có dạng cây. Mỗi tầng của mạng nơ-ron tạo ra nhiều kết nối song song giữa một số từ nhất định trong khi bỏ qua những từ khác — tương tự như một học sinh vẽ sơ đồ một câu trong trường tiểu học. Những kết nối này thường được vẽ giữa các từ có thể không đứng kế nhau trong câu thực tế. “Những cấu trúc này hiệu quả trông giống như một số cây được đặt lên nhau,” Uszkoreit giải thích.
Biểu diễn câu theo dạng cây này đã mang đến cho transformers một cách mạnh mẽ để mô phỏng ý nghĩa ngữ cảnh, và cũng để học hiệu quả các mối liên kết giữa các từ có thể cách xa nhau trong các câu phức tạp. “Điều này hơi ngược đời,” Uszkoreit nói, “nhưng nó có căn cứ từ các kết quả trong ngôn ngữ học, mà đã từ lâu nhìn vào các mô hình ngôn ngữ có dạng cây.”

Cuối cùng, thành phần thứ ba trong công thức của BERT đưa việc đọc phi tuần tự một bước xa hơn.
Khác với các mô hình ngôn ngữ được tiền huấn luyện khác, nhiều trong số đó được tạo ra bằng cách cho các mạng nơ-ron đọc terabyte văn bản từ trái sang phải, mô hình của BERT đọc từ cả hai hướng trái và phải đồng thời, và học cách dự đoán các từ ở giữa đã được ngẫu nhiên che đi. Ví dụ, BERT có thể nhận câu như đầu vào như “George Bush sinh ra ở [……..] tại Connecticut vào năm 1946” và dự đoán từ bị che đi ở giữa câu (trong trường hợp này, “born”) bằng cách phân tích văn bản từ cả hai hướng. “Sự hai chiều này đang điều chỉnh một mạng nơ-ron cố gắng lấy càng nhiều thông tin càng tốt từ bất kỳ tập con từ nào,” Uszkoreit nói.
Nhiệm vụ tiền huấn luyện giống như trò chơi Mad-Libs mà BERT sử dụng — gọi là mô hình ngôn ngữ che mặt — không phải là mới. Trên thực tế, nó đã được sử dụng như một công cụ để đánh giá sự hiểu ngôn ngữ của con người trong nhiều thập kỷ. Đối với Google, nó cũng cung cấp một cách thực tế để kích hoạt hai chiều trong các mạng nơ-ron, khác với các phương pháp tiền huấn luyện một chiều đã từng thống trị lĩnh vực trước đây. “Trước BERT, mô hình ngôn ngữ một chiều là tiêu chuẩn, mặc dù đó là một ràng buộc không cần thiết,” Kenton Lee, một nhà nghiên cứu khoa học tại Google, nói.
Mỗi trong ba thành phần này — một mô hình ngôn ngữ sâu được tiền huấn luyện, sự chú ý và hai chiều — tồn tại độc lập trước BERT. Nhưng cho đến khi Google công bố công thức của nó vào cuối năm 2018, chưa ai kết hợp chúng một cách mạnh mẽ như vậy.
Tinh chỉnh công thức
Giống như bất kỳ công thức nấu ăn tốt nào, BERT sớm được các đầu bếp điều chỉnh theo khẩu vị của họ. Vào mùa xuân năm 2019, có một thời kỳ “khi Microsoft và Alibaba đang vượt lên qua nhau từng tuần, tiếp tục điều chỉnh mô hình của họ và thay phiên nhau chiếm vị trí số một trên bảng xếp hạng,” Bowman nhớ lại. Khi một phiên bản cải tiến của BERT có tên là RoBERTa xuất hiện lần đầu tiên vào tháng Tám, nhà nghiên cứu DeepMind Sebastian Ruder chế nhạo sự kiện này trong bản tin NLP rộng rãi đọc của mình: “Một tháng nữa, một mô hình ngôn ngữ tiền huấn luyện hiện đại khác.”
“Lớp vỏ bánh” của BERT bao gồm một số quyết định thiết kế cấu trúc ảnh hưởng đến hiệu suất làm việc của nó. Điều này bao gồm kích thước của mạng nơ-ron đang được nướng, lượng dữ liệu tiền huấn luyện, cách dữ liệu tiền huấn luyện được che đi và thời gian mạng nơ-ron được huấn luyện trên đó. Các công thức tiếp theo như RoBERTa là kết quả của các nhà nghiên cứu điều chỉnh những quyết định thiết kế này, tương tự như các đầu bếp làm hoàn thiện một món ăn.
Trong trường hợp của RoBERTa, các nhà nghiên cứu tại Facebook và Đại học Washington đã tăng một số thành phần (nhiều dữ liệu tiền huấn luyện hơn, dãy input dài hơn, thời gian huấn luyện lâu hơn), bỏ đi một thứ (một nhiệm vụ “dự đoán câu tiếp theo”, ban đầu được bao gồm trong BERT, thực tế đã làm suy giảm hiệu suất) và điều chỉnh một thứ khác (họ làm cho nhiệm vụ tiền huấn luyện ngôn ngữ che mặt khó hơn). Kết quả? Vị trí đầu tiên trên GLUE — tạm thời. Sáu tuần sau đó, các nhà nghiên cứu từ Microsoft và Đại học Maryland thêm các điều chỉnh của riêng họ vào RoBERTa và đạt được chiến thắng mới. Tính đến thời điểm viết này, một mô hình khác có tên là ALBERT, viết tắt của “A Lite BERT,” đã chiếm vị trí hàng đầu của GLUE bằng cách điều chỉnh thêm về thiết kế cơ bản của BERT.
“Chúng tôi vẫn đang tìm hiểu xem công thức nào hoạt động và công thức nào không,” Ott của Facebook nói, người đã làm việc trên RoBERTa.
Tuy nhiên, giống như việc hoàn thiện kỹ thuật làm bánh của bạn không thể dạy bạn những nguyên lý về hóa học, việc tối ưu hóa BERT từng bước không nhất thiết mang lại nhiều kiến thức lý thuyết về việc tiến bộ trong NLP. “Tôi sẽ thật thà với bạn: Tôi không theo dõi những bài báo này, vì chúng rất nhàm chán đối với tôi,” Linzen, người làm về ngôn ngữ tính toán từ Đại học Johns Hopkins, nói. “Có một câu đố khoa học ở đó,” anh ấy thừa nhận, nhưng nó không nằm ở việc tìm hiểu làm thế nào để làm cho BERT và tất cả các phát sinh của nó thông minh hơn, hoặc thậm chí là tìm hiểu họ đã thông minh như thế nào ban đầu. Thay vào đó, “chúng ta đang cố gắng hiểu trong mức độ nào những mô hình này thực sự hiểu ngôn ngữ,” anh ấy nói, và không phải “học những mánh khóe kỳ lạ mà tình cờ hoạt động trên các tập dữ liệu mà chúng ta thường đánh giá mô hình của mình.”
Nói cách khác: BERT đang làm điều gì đó đúng. Nhưng liệu nếu vì những lý do sai lầm?
Clever nhưng không thông minh
Vào tháng 7 năm 2019, hai nhà nghiên cứu từ Đại học Quốc gia Cheng Kung của Đài Loan sử dụng BERT để đạt được kết quả ấn tượng trên một thử nghiệm hiểu ngôn ngữ tự nhiên tương đối không rõ ràng gọi là nhiệm vụ hiểu lý luận cuộc tranh luận. Thực hiện nhiệm vụ đòi hỏi lựa chọn giả định không rõ ràng thích hợp (gọi là một cơ sở) sẽ ủng hộ một lý do để tranh luận một số quan điểm. Ví dụ, để bào chữa rằng “hút thuốc gây ung thư” (quan điểm) bởi vì “nghiên cứu khoa học đã chỉ ra một liên kết giữa việc hút thuốc và ung thư” (lý do), bạn cần giả định rằng “nghiên cứu khoa học đáng tin cậy” (cơ sở), so với “nghiên cứu khoa học đắt đỏ” (có thể là đúng, nhưng không hợp lý trong ngữ cảnh của cuộc tranh luận). Hiểu hết rồi chứ?
Nếu không, đừng lo lắng. Ngay cả con người cũng không làm tốt lắm trong nhiệm vụ này nếu thiếu thực hành: Điểm cơ sở trung bình cho một người chưa được đào tạo là 80 trên 100. BERT đạt được 77 — “đáng ngạc nhiên,” theo quan điểm tinh tế của các tác giả.
Nhưng thay vì kết luận rằng BERT có thể trang bị cho mạng nơ-ron những kỹ năng tư duy gần như của Aristotelês, họ nghi ngờ một lý thuyết đơn giản hơn: rằng BERT đang tập trung vào các mẫu mẫu hình nông cạn trong cách các cơ sở được diễn đạt. Thực tế, sau khi phân tích lại dữ liệu huấn luyện của họ, các tác giả đã tìm thấy nhiều bằng chứng về những dấu hiệu giả mạo này. Ví dụ, việc chỉ đơn giản chọn một cơ sở với từ “not” trong đó dẫn đến câu trả lời chính xác 61% trong thời gian. Sau khi những mẫu hình này được loại bỏ khỏi dữ liệu, điểm số của BERT giảm từ 77 xuống 53 — tương đương với việc đoán ngẫu nhiên. Một bài viết trên The Gradient, một tạp chí học máy được xuất bản từ Stanford Artificial Intelligence Laboratory, so sánh BERT với Clever Hans, con ngựa có sức mạnh giả dụ trong toán học.
Trong một bài báo khác có tên “Đúng vì những lý do sai,” Linzen và các cộng tác viên của ông đã công bố bằng chứng cho thấy việc BERT hiệu suất cao trong một số nhiệm vụ GLUE cũng có thể được quy cho các dấu hiệu giả mạo trong dữ liệu huấn luyện cho những nhiệm vụ đó. (Bài báo bao gồm một tập dữ liệu thay thế được thiết kế để mở lộ một loại tắt đường mà Linzen nghi ngờ BERT đang sử dụng trên GLUE. Tên của tập dữ liệu: Heuristic Analysis for Natural-Language-Inference Systems, hay HANS.)
Vậy BERT, cũng như tất cả các phiên bản vượt trội của nó trong các chỉ số, có phải là một bản lừa dối không? Bowman đồng ý với Linzen rằng một số dữ liệu huấn luyện của GLUE là lộn xộn — bị tạp nham bởi các ảnh hưởng tinh subtile được giới thiệu bởi những người tạo ra nó, tất cả đều có khả năng bị lợi dụng bởi một mạng nơ-ron mạnh mẽ dựa trên BERT. “Không có một ‘mánh lới’ đơn lẻ nào sẽ giúp nó giải quyết tất cả [trong GLUE], nhưng có rất nhiều lối tắt mà nó có thể sử dụng thực sự hữu ích,” Bowman nói, “và mô hình có thể nắm bắt những lối tắt đó.” Nhưng ông không nghĩ rằng nền tảng của BERT được xây dựng trên cát, hoặc cát, theo ý của ông. “Dường như chúng ta có một mô hình đã học được một cái gì đó quan trọng về ngôn ngữ,” ông nói. “Nhưng nó chắc chắn không hiểu tiếng Anh một cách toàn diện và mạnh mẽ.”
Theo Yejin Choi, một nhà khoa học máy tính tại Đại học Washington và Viện Allen, một cách để thúc đẩy tiến triển đến sự hiểu biết vững chắc là tập trung không chỉ vào việc xây dựng một BERT tốt hơn, mà còn vào việc thiết kế các chỉ số và dữ liệu huấn luyện tốt hơn giảm khả năng gian lận kiểu Clever Hans. Công việc của cô nghiên cứu một phương pháp gọi là lọc đối thủ, sử dụng các thuật toán để quét các tập dữ liệu huấn luyện NLP và loại bỏ các ví dụ quá lặp lại hoặc giới thiệu các dấu hiệu giả mạo mà mạng nơ-ron có thể nhận diện. Sau lọc đối thủ này, “hiệu suất của BERT có thể giảm đáng kể,” cô nói, trong khi “hiệu suất của con người không giảm nhiều.”
Tuy nhiên, một số nhà nghiên cứu NLP tin rằng ngay cả với việc đào tạo tốt hơn, các mô hình ngôn ngữ nơ-ron vẫn có thể đối mặt với một rào cản cơ bản đối với sự hiểu biết thực sự. Ngay cả với việc tiền huấn luyện mạnh mẽ, BERT không được thiết kế để hoàn hảo hóa mô hình ngôn ngữ nói chung. Thay vào đó, sau khi điều chỉnh tinh chỉnh, nó mô hình “một nhiệm vụ NLP cụ thể, hoặc thậm chí là một tập dữ liệu cụ thể cho nhiệm vụ đó,” theo Anna Rogers, một nhà ngôn ngữ học tính toán tại Text Machine Lab tại Đại học Massachusetts, Lowell. Và có thể là không có tập dữ liệu huấn luyện nào, bất kể thiết kế toàn diện như thế nào hoặc được lọc kỹ càng, có thể nắm bắt tất cả các trường hợp biên và đầu vào không lường trước mà con người dễ dàng xử lý khi chúng ta sử dụng ngôn ngữ tự nhiên.
Bowman nhấn mạnh rằng khó để biết chúng ta sẽ bao giờ hoàn toàn tin rằng một mạng nơ-ron đạt được điều gì giống như sự hiểu biết thực sự. Các bài kiểm tra tiêu chuẩn, cuối cùng, được cho là sẽ tiết lộ điều gì đó cố hữu và có thể áp dụng rộng rãi về kiến thức của người làm bài kiểm tra. Nhưng như bất kỳ ai đã tham gia khóa luyện thi SAT biết, các bài kiểm tra có thể được gian lận. “Chúng ta gặp khó khăn trong việc tạo ra các bài kiểm tra đủ khó và đủ an toàn để việc giải quyết [chúng] thực sự thuyết phục chúng ta rằng chúng ta đã hoàn toàn giải quyết một khía cạnh nào đó của AI hoặc công nghệ ngôn ngữ,” ông nói.
Thực tế, Bowman và đồng nghiệp của ông gần đây đã giới thiệu một bài kiểm tra gọi là SuperGLUE được thiết kế đặc biệt để khó đối với các hệ thống dựa trên BERT. Đến nay, không có mạng nơ-ron nào có thể vượt qua hiệu suất của con người trên nó. Nhưng ngay cả khi (hoặc khi) điều đó xảy ra, có nghĩa là máy móc thực sự hiểu ngôn ngữ tốt hơn trước không? Hay chỉ đơn giản là khoa học đã tốt hơn trong việc dạy máy móc làm bài kiểm tra?
“Đó là một phép so sánh tốt,” Bowman nói. “Chúng ta đã tìm ra cách để giải quyết LSAT và MCAT, và có thể thực sự không đủ tư cách để trở thành bác sĩ và luật sư.” Tuy nhiên, ông thêm, điều này dường như là cách mà nghiên cứu trí tuệ nhân tạo tiến triển. “Cờ vua trở thành một thử thách nghiêm túc về trí tuệ cho đến khi chúng ta tìm ra cách viết một chương trình cờ vua,” ông nói. “Chúng ta chắc chắn đang ở trong một thời đại nơi mục tiêu là tiếp tục đưa ra những vấn đề khó hơn đại diện cho hiểu biết ngôn ngữ, và tiếp tục tìm cách giải quyết những vấn đề đó.”
Câu chuyện gốc được tái in với sự cho phép từ Quanta Magazine, một tờ báo độc lập với biên tập thuộc Quỹ Simons, nhiệm vụ của họ là tăng cường sự hiểu biết của công chúng về khoa học thông qua việc đưa ra các phát triển nghiên cứu và xu hướng trong toán học và các ngành khoa học tự nhiên và đời sống.
Những Điều Tuyệt Vời Hơn từ Mytour
- Mytour25: Những câu chuyện về những người đang đua nhau để cứu chúng ta
- Các robot khổng lồ có sức mạnh từ trí tuệ nhân tạo đang in 3D toàn bộ tên lửa
- Ripper—câu chuyện bên trong về trò chơi điện tử tệ hại đến mức kinh khủng
- Cổng USB-C cuối cùng đã hiện thực hóa
- Gieo mầm chip gián điệp nhỏ trong phần cứng có thể chỉ tốn khoảng 200 đô la
- 👁 Chuẩn bị cho thời đại video deepfake; cùng xem tin tức mới nhất về AI
- 🏃🏽♀️ Muốn có những công cụ tốt nhất để khỏe mạnh? Hãy xem lựa chọn của đội ngũ Gear của chúng tôi cho bộ đồ theo dõi sức khỏe tốt nhất, trang thiết bị chạy bộ (bao gồm giày và tất), và tai nghe tốt nhất.
