Nghiên cứu trí tuệ nhân tạo giống như một ngọn lửa rác và Google đang nắm giữ lên lửa
Thế giới nghiên cứu trí tuệ nhân tạo đang trong tình trạng hỗn loạn. Từ những người học thuật ưu tiên các kế hoạch dễ tiếp cận để kiếm tiền hơn là đề xuất những ý tưởng mới, đến những người nằm trong tầm nhìn của Silicon Valley sử dụng đe dọa mất việc để khuyến khích những giả định thuận tiện cho doanh nghiệp, hệ thống này là một mớ hỗn độn.
Và Google xứng đáng đảm nhận một phần lớn trách nhiệm.
Bắt đầu như thế nào
Có khoảng khoảng 85,000 bài nghiên cứu được xuất bản trên toàn thế giới về chủ đề Trí tuệ Nhân tạo/Máy học vào năm 2000. Nhảy về năm 2021 và có gần gấp đôi số lượng được xuất bản chỉ ở Mỹ.
Nói rằng đã có một sự bùng nổ trong lĩnh vực này sẽ là một sự nghiêng lệ cực kỳ lớn. Sự gia nhập của các nhà nghiên cứu và ý tưởng mới đã khiến cho học sâu trở thành một trong những công nghệ quan trọng nhất thế giới.
Từ năm 2014 đến 2021, các công ty công nghệ lớn đã hầu như từ bỏ các nguyên tắc 'web trước' và 'di động trước' để chấp nhận chiến lược 'Trí tuệ Nhân tạo trước'.
Bây giờ, vào năm 2022, các nhà phát triển và nghiên cứu Trí tuệ Nhân tạo được đánh giá cao (và có mức lương cao hơn) so với hầu hết các công việc trong lĩnh vực công nghệ ngoại trừ C-suite.
Nhưng sự phát triển không kiểm soát cũng mang theo một bên tối. Trong cuộc đua để đáp ứng nhu cầu thị trường cho các sản phẩm và dịch vụ dựa trên học sâu, lĩnh vực này đã trở nên khốc liệt và biến đổi như thể thao chuyên nghiệp.
Trong vài năm qua, chúng ta đã thấy 'GANfather', Ian Goodfellow, chuyển từ Google sang Apple, Timnit Gebru và những người khác bị sa thải khỏi Google vì ý kiến phản đối về hiệu suất của nghiên cứu, và một dòng chảy ảo của các bài báo nghiên cứu Trí tuệ Nhân tạo độc hại somehow vượt qua đánh giá từ đồng nghiệp.
Dòng người tài năng đổ về sau cú bùng nổ của học sâu cũng mang theo một lũ nghiên cứu kém chất lượng, gian lận và lòng tham doanh nghiệp.
Hiện tại thì sao
Google, hơn bất kỳ công ty nào khác, chịu trách nhiệm cho mô hình Trí tuệ Nhân tạo hiện đại. Điều đó có nghĩa là chúng ta cần phải đánh giá cao Google về việc đưa xử lý ngôn ngữ tự nhiên và nhận diện hình ảnh đến đám đông.
Điều đó cũng có nghĩa là chúng ta có thể công nhận Google đã tạo ra môi trường nghiên cứu trong đó các sinh viên đại học và giáo sư của họ, liên kết với các công ty công nghệ lớn, xem bài báo nghiên cứu chỉ là mồi nhử cho nhà đầu tư rủi ro và nhà tuyển dụng doanh nghiệp.
Ở đỉnh, Google đã cho thấy sự sẵn lòng thuê những nhà nghiên cứu tài năng nhất thế giới. Và cũng đã chứng minh nhiều lần rằng họ sẽ sa thải họ ngay lập tức nếu họ không tuân theo đường lối của công ty.
Công ty đã thu hút sự chú ý toàn cầu sau khi sa thải Timnit Gebru, một nhà nghiên cứu mà họ thuê để giúp dẫn dắt bộ phận đạo đức Trí tuệ Nhân tạo của mình, vào tháng 12 năm 2020. Chỉ vài tháng sau đó, họ sa thải một thành viên khác của đội, Margaret Mitchell.
Google khẳng định công việc của các nhà nghiên cứu không đạt yêu cầu, nhưng cả hai phụ nữ và nhiều người ủng hộ khẳng định rằng việc sa thải chỉ xảy ra sau khi họ đưa ra mối quan ngại về đạo đức đối với nghiên cứu mà ông trưởng nhóm Trí tuệ Nhân tạo của công ty, Jeff Dean, đã chấp thuận.
Bây giờ chỉ còn hơn một năm và lịch sử đang lặp lại chính mình. Google sa thải một nhà nghiên cứu Trí tuệ Nhân tạo nổi tiếng thế giới khác, Satrajit Chatterjee, sau khi ông dẫn dắt một nhóm nhà khoa học trong việc đặt câu hỏi về một bài báo khác mà Dean đã chấp thuận.
Hiệu ứng lở đất bùn
Ở đỉnh, điều này có nghĩa là sự cạnh tranh cho các công việc có thu nhập cao là khốc liệt. Và cuộc săn tìm nhà nghiên cứu hoặc nhà phát triển tài năng tiếp theo bắt đầu sớm hơn bao giờ hết.
Những sinh viên đang theo đuổi bằng cấp cao trong lĩnh vực máy học và Trí tuệ Nhân tạo, sau này muốn làm việc ngoài học thuật, được mong đợi sẽ là tác giả hoặc đồng tác giả của các bài báo nghiên cứu chứng minh tài năng của họ.
Thật không may, đường ống từ học thuật đến công nghiệp công nghệ lớn hoặc thế giới khởi nghiệp do các quỹ đầu tư dẫn đầu là một đống rác bài báo được viết bởi sinh viên, người duy nhất của họ là viết thuật toán có thể kiếm tiền.
Một cuộc tìm kiếm nhanh trên Google Scholar với từ khóa “xử lý ngôn ngữ tự nhiên,” ví dụ, cho thấy gần một triệu kết quả. Nhiều bài báo được liệt kê có hàng trăm hoặc hàng nghìn trích dẫn.
Ở mức bề mặt, điều này sẽ cho thấy rằng xử lý ngôn ngữ tự nhiên là một phần con số của nghiên cứu máy học đang phát triển đã thu hút sự chú ý từ các nhà nghiên cứu trên khắp thế giới.
Thực tế, việc tìm kiếm về 'mạng nơ-ron nhân tạo,' 'thị giác máy tính,' và 'học tăng cường' đều đưa ra một lượng kết quả tương tự nhau.
Thật không may, một phần đáng kể của nghiên cứu AI và ML đều có chủ đích gian lận hoặc chứa đựng khoa học kém chất lượng.
Những gì có thể đã hoạt động tốt trong quá khứ đang nhanh chóng trở thành một cách truyền đạt nghiên cứu có khả năng lỗi thời.
Stuart Richie của The Guardian gần đây đã viết một bài viết tự hỏi liệu chúng ta có nên loại bỏ hoàn toàn bài báo nghiên cứu hay không. Theo ông, vấn đề của khoa học đã tích tụ sâu đến mức:
Hệ thống này đi kèm với những vấn đề lớn. Trong số đó, vấn đề chủ yếu là vấn đề thiên vị xuất bản: các nhà đánh giá và biên tập viên có khả năng sẽ đánh giá cao một bài báo khoa học và đăng nó trên tạp chí của họ nếu nó báo cáo kết quả tích cực hoặc hứng thú. Do đó, các nhà khoa học phải nỗ lực để thổi phồng nghiên cứu của họ, dựa vào phân tích của họ để tạo ra kết quả 'tốt' hơn và đôi khi thậm chí làm gian lận để impression những người kiểm duyệt quan trọng này. Điều này biến t distort's quan điểm của chúng ta về những gì thực sự đã xảy ra.
Vấn đề là những người kiểm duyệt mà tất cả mọi người đều cố gắng để gây ấn tượng thường giữ chìa khóa của tương lai việc làm của sinh viên và sự xuất hiện của các nhà nghiên cứu trong các tạp chí hoặc hội nghị uy tín - nhà nghiên cứu có thể thất bại trong việc nhận được sự chấp thuận của họ với nguy cơ tự rủi ro của mình.
Và ngay cả khi một bài báo vượt qua quá trình kiểm duyệt, không có đảm bảo rằng những người thúc đẩy nó qua không ngủ quên.
Đó là lý do tại sao Guillaume Cabanac, giáo sư kỹ thuật máy tính tại Đại học Toulouse, đã tạo ra dự án mang tên Problematic Paper Screener (PPS).
PPS sử dụng tự động hóa để đánh dấu những bài báo chứa mã, toán học hoặc lời viết có thể gây vấn đề. Trong tinh thần của khoa học và công bằng, Cabanac đảm bảo rằng mỗi bài báo được đánh dấu đều được xem xét thủ công bởi con người. Nhưng công việc này có vẻ quá lớn đối với một vài con người làm trong thời gian rảnh rỗi của họ.
Theo báo cáo từ Spectrum News, có rất nhiều bài báo gây vấn đề. Và đa số liên quan đến học máy và AI:
Trình lọc xem xét khoảng 7,650 nghiên cứu là gây vấn đề, trong đó có hơn 6,000 bài vì có các cụm từ lạm dụng. Hầu hết những bài có các cụm từ lạm dụng dường như đến từ lĩnh vực học máy, trí tuệ nhân tạo và kỹ thuật.
Các cụm từ lạm dụng là những thuật ngữ khiến các nhà nghiên cứu lo lắng vì chúng cố gắng mô tả một quy trình hoặc khái niệm đã được xác lập rõ ràng.
Ví dụ, việc sử dụng các thuật ngữ như "neural giả mạo" hoặc "neural nhân tạo" có thể chỉ ra việc sử dụng một plugin từ điển từ bởi những người xấu muốn trốn tránh việc đạo văn từ công việc trước đó.
Giải pháp
Mặc dù không thể đổ lỗi cho Google về mọi điều không tốt trong lĩnh vực học máy và trí tuệ nhân tạo, nhưng hãng này đã đóng một vai trò quá lớn trong sự suy giảm của nghiên cứu được kiểm duyệt.
Điều này không phải là nói rằng Google không hỗ trợ và ủng hộ cộng đồng khoa học thông qua mã nguồn mở, hỗ trợ tài chính và hỗ trợ nghiên cứu. Và chúng tôi chắc chắn không muốn ám chỉ rằng mọi người nghiên cứu về AI chỉ muốn kiếm tiền nhanh.
Nhưng hệ thống được thiết lập để khuyến khích việc tiếp cận thuật toán trước hết, và phát triển lĩnh vực sau đó. Để thay đổi điều này, cả công nghiệp công nghệ lớn và học viện đều cần cam kết đối với cải cách toàn diện về cách nghiên cứu được trình bày và kiểm duyệt.
Hiện tại, không có cơ quan xác minh bên thứ ba được công nhận rộng rãi cho các bài báo. Hệ thống kiểm duyệt đồng nghiệp hơn giống như một quy tắc danh dự hơn là một bộ nguyên tắc đã được thỏa thuận mà các tổ chức tuân theo.
Tuy nhiên, đã có tiền lệ về việc thiết lập và vận hành một ủy ban giám sát có sức ảnh hưởng và chuyên môn đủ lớn để quản lý qua các ranh giới học thuật: NCAA.
Nếu chúng ta có thể thống nhất một hệ thống cạnh tranh công bằng cho hàng nghìn chương trình thể thao nghiệp dư, đó là một cược an toàn rằng chúng ta có thể thành lập một cơ quan quản lý để xây dựng hướng dẫn cho nghiên cứu và đánh giá học thuật.
Và đối với Google, có khả năng cao hơn không là CEO Sundar Pichai sẽ phải đối mặt với Quốc hội lại nếu công ty tiếp tục sa thải các nhà nghiên cứu mà nó thuê để giám sát các chương trình AI đạo đức của mình.
Hệ thống tư duy kinh doanh ở Mỹ có nghĩa là một doanh nghiệp thường có tự do thuê và sa thải bất kỳ ai họ muốn, nhưng cổ đông và người lao động cũng có quyền.
Cuối cùng, Google sẽ phải cam kết với nghiên cứu đạo đức hoặc nó sẽ không thể cạnh tranh được với các công ty và tổ chức sẵn lòng làm điều đó.
