
Có một câu chuyện cũ mà những nhà vật lý thích kể: Mọi thứ đã được phát hiện và báo cáo trong một tạp chí Nga trong những năm 1960, chúng ta chỉ không biết về nó. Mặc dù hơi phóng đại, nhưng câu chuyện châm biếm chính xác nhắc nhở về tình trạng hiện tại. Khối lượng kiến thức là rộng lớn và đang tăng nhanh chóng: Số bài báo khoa học đăng trên arXiv (dịch vụ trước xuất bản lớn nhất và phổ biến nhất) năm 2021 dự kiến sẽ đạt 190,000—và đó chỉ là một phần nhỏ của văn bản khoa học được sản xuất trong năm nay.
Rõ ràng chúng ta thực sự không biết chúng ta biết gì, vì không ai có thể đọc toàn bộ văn bản ngay cả trong lĩnh vực hẹp của họ (bao gồm, ngoài các bài báo, luận án tiến sĩ, ghi chú phòng thí nghiệm, slides, sách trắng, ghi chú kỹ thuật và báo cáo). Thực sự, hoàn toàn có thể rằng trong ngọn núi giấy này, câu trả lời cho nhiều câu hỏi đang ẩn sau, những phát hiện quan trọng đã bị bỏ qua hoặc quên mất, và những kết nối vẫn đang được che giấu.
Trí tuệ nhân tạo là một giải pháp tiềm năng. Thuật toán đã có thể phân tích văn bản mà không cần giám sát của con người để tìm ra mối quan hệ giữa các từ giúp khám phá tri thức. Nhưng nhiều điều hơn có thể đạt được nếu chúng ta rời khỏi việc viết các bài báo khoa học truyền thống mà phong cách và cấu trúc của chúng hầu như chẳng thay đổi trong trăm năm qua.
Khả năng khai thác văn bản đến với nhiều hạn chế, bao gồm việc truy cập đầy đủ văn bản của bài báo và những quan ngại pháp lý. Nhưng quan trọng nhất, Trí tuệ nhân tạo thực sự không hiểu khái niệm và mối quan hệ giữa chúng, và nhạy cảm với những độ chệch trong bộ dữ liệu, như việc lựa chọn các bài báo để phân tích. Việc hiểu bài báo khoa học là khó đối với Trí tuệ nhân tạo—và thực tế, thậm chí là với độc giả không chuyên gia—đặc biệt vì việc sử dụng ngôn ngữ chuyên môn thay đổi từ một lĩnh vực sang lĩnh vực khác và cùng một thuật ngữ có thể được sử dụng với những ý nghĩa hoàn toàn khác nhau trong các lĩnh vực khác nhau. Sự tăng cường tình cảm giữa các lĩnh vực nghiên cứu có nghĩa là thường khó xác định một chủ đề một cách chính xác bằng cách sử dụng một kết hợp từ khóa để khám phá tất cả các bài báo liên quan. Việc kết nối và (lại) khám phá các khái niệm tương tự là khó khăn ngay cả đối với những tâm trí sáng tạo nhất.

Miễn là vấn đề này tồn tại, Trí tuệ nhân tạo không thể được tin cậy và con người sẽ cần kiểm tra lại mọi thứ mà Trí tuệ nhân tạo đầu ra sau khi khai thác văn bản, một công việc khó chịu phản đối mục đích sử dụng Trí tuệ nhân tạo. Để giải quyết vấn đề này, chúng ta cần biến bài báo khoa học không chỉ có thể đọc được bởi máy mà còn có thể máy hiểu được, bằng cách (lại) viết chúng bằng một loại ngôn ngữ lập trình đặc biệt. Nói một cách khác: Dạy tri thức khoa học cho máy bằng ngôn ngữ mà chúng hiểu.
Việc viết kiến thức khoa học bằng một ngôn ngữ giống như lập trình có thể sẽ khô khan, nhưng nó sẽ bền vững, vì các khái niệm mới sẽ được thêm trực tiếp vào thư viện khoa học mà máy hiểu. Hơn nữa, khi máy học thêm về các sự kiện khoa học, chúng sẽ có khả năng giúp các nhà khoa học tinh giản lý luận hợp lý của họ; phát hiện lỗi, không nhất quán, sao chép và trùng lặp; và nổi bật các mối liên kết. Trí tuệ nhân tạo với hiểu biết về các luật vật lý mạnh mẽ hơn so với Trí tuệ nhân tạo được đào tạo chỉ dựa trên dữ liệu, vì vậy máy biết về khoa học sẽ có thể giúp phát hiện những khám phá trong tương lai. Máy có kiến thức vững về khoa học có thể hỗ trợ thay vì thay thế các nhà khoa học.
Những nhà toán học đã bắt đầu quá trình dịch này. Họ đang dạy toán học cho máy tính bằng cách viết định lý và bằng chứng bằng các ngôn ngữ như Lean. Lean là một trợ lý chứng minh và ngôn ngữ lập trình, trong đó có thể giới thiệu các khái niệm toán học dưới dạng đối tượng. Sử dụng các đối tượng đã biết, Lean có thể suy luận xem một tuyên bố là đúng hay sai, giúp các nhà toán học xác minh bằng chứng và xác định những nơi mà logic của họ không đủ chặt chẽ. Càng nhiều toán học mà Lean biết, càng nhiều nó có thể làm. Dự án Xena tại Imperial College London đang cố gắng nhập toàn bộ chương trình toán đại học vào Lean. Một ngày nào đó, trợ lý chứng minh có thể giúp các nhà toán học nghiên cứu bằng cách kiểm tra lý luận của họ và tìm kiếm kiến thức toán lớn mà họ sở hữu.
Viết toán học bằng một ngôn ngữ như Lean có lẽ là đơn giản hơn so với các lĩnh vực khác của khoa học. Tất nhiên, không phải tất cả các kết quả khoa học có thể được viết lại theo cách này, nhưng nhiều kết quả, đặc biệt là trong lĩnh vực STEM, có thể. Trong quá trình thiết kế ngôn ngữ mới này, có thể bắt đầu từ một thứ gì đó giống như Lean và tùy chỉnh nó, thêm các tính năng cụ thể cho lĩnh vực đó. Để chắc chắn, việc định nghĩa một ý tưởng khoa học còn nhiều hơn là toán học; có ngữ cảnh, trực giác và diễn giải. Đây là lý do tại sao, mặc dù cơ học lượng tử có một mô tả toán học rất rõ ràng, vẫn có vô số bài báo và sách giáo trình cố gắng giải thích nó. Sẽ là thách thức để truyền đạt những khía cạnh tinh tế này của ý tưởng khoa học cho máy, nhưng hãy nhớ rằng mục đích chính của trợ lý máy là giúp nhà khoa học nhân loại raffine những điểm sâu sắc này và diễn đạt chúng một cách rõ ràng hơn. Có lẽ chính vì một số khái niệm khoa học thách thức trực giác con người, máy sẽ được đặt ở vị trí tốt hơn để đặt chúng vào bối cảnh.
Chúng ta vẫn chưa phát triển ngôn ngữ chung của con người và máy, có thể sẽ phát triển có từ vựng riêng cho từng lĩnh vực. Nhưng khi chúng ta làm, không sẽ thiếu những người sớm áp dụng. Như dự án Xena đã cho thấy, những thế hệ sinh sống số có thể học ngôn ngữ mới rất nhanh chóng mà không cần kinh nghiệm lập trình trước đó. Đối với một số nhà khoa học, ngôn ngữ này có thể thậm chí là đơn giản hơn việc viết văn bản bằng tiếng Anh, có thể không phải là ngôn ngữ mẹ đẻ của họ. Nó sẽ giúp họ tổ chức ý tưởng tốt hơn. Người phiên dịch có thể chuyển Lean về toán học, và một cách tương tự ngôn ngữ mới có thể được phiên dịch sang tiếng Anh hoặc bất kỳ ngôn ngữ nào khác cho người không chuyên môn.
Dịch hầu hết kiến thức hiện tại cho máy là một nhiệm vụ khổng lồ, nhưng không phải là một nhiệm vụ không thể. Những nhà khoa học giỏi trong việc tạo ra các cách mới để chia sẻ thông tin, từ World Wide Web đến các máy chủ trước khi xuất bản như arXiv. Đó không phải là điều kỳ cục khi tưởng tượng mỗi nhà khoa học đóng góp vào thư viện các khái niệm khoa học đã được dịch cho máy. Như trong toán học, các chương trình đại học khác có thể được giảng dạy cho máy tính bởi sinh viên tham gia các khóa học. Sinh viên sau đại học sẽ nhập các khái niệm khoa học liên quan đến đề tài của họ và các nghiên cứu viên sẽ viết trực tiếp kết quả mới của họ bằng ngôn ngữ mới.
Dự án này sẽ mất rất nhiều thời gian và tiền bạc, ngoài sự cố gắng tập thể. Nhưng có lẽ không có cách nào khác để giải quyết lượng kiến thức khoa học ngày càng tăng: Chúng ta sẽ tiếp tục lãng phí thời gian và nguồn lực để khám phá lại những khái niệm đã biết và theo đuổi những con đường cụt. Tương lai của khoa học chỉ có thể là một sự hợp tác giữa con người và máy.
Những Câu Chuyện Tuyệt Vời Hơn từ Mytour
- 📩 Cập nhật mới nhất về công nghệ, khoa học và nhiều thứ khác: Đăng ký nhận bản tin của chúng tôi!
- Guồng mặt của que: Bóng tối của Instagram với những chú nhím
- Biến đổi khí hậu đang làm cho việc chạy trốn khỏi thảm họa trở nên khó khăn hơn
- Tôi là tài xế Lyft. Hành khách đối xử với tôi như là một phần của ứng dụng
- Covid đã tạo ra một Phục Hồi Ảo cho việc vẽ chân dung cuộc sống
- Ngành công nghiệp Trí tuệ Nhân tạo của Mỹ đang đối mặt với rủi ro trở thành người chiến thắng quá nhiều
- 👁️ Khám phá Trí tuệ Nhân tạo như chưa bao giờ với cơ sở dữ liệu mới của chúng tôi
- 🎮 Mytour Games: Nhận những mẹo mới nhất, đánh giá và nhiều hơn nữa
- 🎧 Âm thanh không phát ra đúng? Kiểm tra tai nghe không dây, thanh âm và loa Bluetooth yêu thích của chúng tôi
