Đây là lời cảnh báo dành cho những người thích trích dẫn từ các nguồn như 'nguồn sưu tầm', 'nguồn internet' hay 'nguồn AI', vì họ có thể sẽ tìm thấy những 'hóa thạch số' vô nghĩa.
Vào đầu năm nay, một nhóm các nhà khoa học ở Nga đã phát hiện ra một thuật ngữ tiếng Anh kỳ lạ, vốn chỉ xuất hiện trong các bài báo học thuật trên tạp chí khoa học, nhưng sau đó đã âm thầm rò rỉ ra internet khi các bài báo được tải lên ở đâu đó.
Thuật ngữ này là: 'vegetative electron microscopy' hay 'kính hiển vi điện tử thực vật'.
Nghe có vẻ nguy hiểm và rất chuyên môn, nhưng thực tế, thuật ngữ này chẳng có ý nghĩa gì cả. Trong toàn bộ lĩnh vực khoa học, không có thứ gì gọi là kính hiển vi điện tử thực vật.
Mặc dù vậy, người ta lại tìm thấy thuật ngữ này xuất hiện trong hơn 20 bài báo khoa học trên Google Scholar, trong đó có một bài báo từ nhà xuất bản Springer Nature và một bài từ Elsevier, hai tên tuổi nổi bật trong ngành xuất bản khoa học quốc tế.

Một biếm họa về 'kính hiển vi điện tử thực vật', một thuật ngữ vô nghĩa đã hình thành ngớ ngẩn trong khoa học.
Mặc dù các bài báo này đã bị rút lại, nhưng 'kính hiển vi điện tử thực vật' vẫn tiếp tục xuất hiện trên một loạt các bài báo khoa học khác, chủ yếu từ các tạp chí kém uy tín và có dấu hiệu của các tạp chí 'săn mồi'.
Các tạp chí khoa học săn mồi không phải là sản phẩm của các nhà xuất bản danh tiếng, mà là của các công ty muốn kiếm lời từ học thuật. Họ khuyến khích các nhà khoa học trả tiền để xuất bản bài báo của mình, nhằm tăng thành tích cho hồ sơ học thuật của họ.
Thay vì được bình duyệt, một quy trình kiểm tra chéo nghiêm ngặt từ các chuyên gia để đảm bảo tính chính xác và giá trị của bài báo, các tạp chí săn mồi chỉ đăng tải mọi thứ mà họ nhận được từ các 'nhà khoa học', miễn là có đủ tiền.
Hậu quả là thuật ngữ 'kính hiển vi điện tử thực vật' cứ thế liên tục xuất hiện trong các bài báo kém chất lượng. Chúng đã trở thành một dạng 'hóa thạch số'.
Giống như những hóa thạch sinh học bị vùi lấp trong đá, những 'hóa thạch số' này có thể trở thành một phần không thể tách rời trong hệ sinh thái thông tin của nhân loại.

Khi các mô hình AI bắt đầu khai thác các tài liệu khoa học mà không có cơ chế bình duyệt để phát hiện những thuật ngữ vô nghĩa, sự tồn tại của 'thuật ngữ ma' sẽ gây ra những hậu quả nghiêm trọng.
Cuối cùng, AI chưa thể thông minh như các nhà khoa học, và sự thiếu sót về trí tuệ của chúng có thể khuếch đại và làm lan rộng những 'thuật ngữ ma' này mãi mãi.
Nguồn gốc kỳ lạ của thuật ngữ ma
Khi các nhà khoa học cố gắng truy tìm nguồn gốc của 'kính hiển vi điện tử thực vật', họ phát hiện ra rằng thuật ngữ này lần đầu xuất hiện trong hai bài báo được xuất bản trên tạp chí Bacteriological Reviews vào năm 1950.
Hai bài báo này sau đó đã được số hóa qua quét ảnh. Tuy nhiên, trong quá trình quét, phần mềm cũ, chuyên dùng để quét hình ảnh thành PDF rồi chuyển thành văn bản, đã mắc phải một sai sót phổ biến trong các thế hệ phần mềm cũ nhận diện văn bản.
Phần mềm đã quét từ 'vegetative' (thực vật) từ một cột văn bản phía trước và ghép với từ 'electron' (điện tử) từ một cột khác phía sau, tạo ra một thuật ngữ hoàn toàn vô nghĩa.

Nhiều năm sau, thuật ngữ này bất ngờ xuất hiện trong một số bài báo khoa học của Iran. Vào các năm 2017 và 2019, thuật ngữ này đã được sử dụng trong phần chú thích và tóm tắt bằng tiếng Anh của hai bài báo.
Nguyên nhân có thể là do một lỗi dịch thuật. Trong tiếng Farsi của người Iran, từ chỉ 'thực vật' và 'quét' trong 'kính hiển vi điện tử quét' - một thiết bị thực sự có trong khoa học - chỉ khác nhau bởi một dấu chấm nhỏ.

Kết quả là gì? Cho đến nay, Google Scholar đã ghi nhận ít nhất 22 bài báo có sự xuất hiện của thuật ngữ 'kính hiển vi điện tử thực vật'. Một bài báo trên tạp chí của nhà xuất bản học thuật uy tín Springer Nature đã bị thu hồi, trong khi Elsevier phải đính chính cho một bài báo khác.
"Thuật ngữ ma" này cũng đã xuất hiện trong một số bài báo của các tạp chí săn mồi, và dần trở nên phổ biến hơn kể từ khoảng năm 2020. Điều này khiến nhiều nhà khoa học lo ngại, bởi đây cũng là thời điểm bùng nổ của các mô hình AI tạo sinh, đang liên tục quét dữ liệu từ internet để huấn luyện các mô hình của mình.
Họ lo ngại rằng AI có thể bị 'ám' bởi những thuật ngữ ma trong lĩnh vực khoa học, từ đó làm chúng trở nên lan rộng và tồn tại mãi mãi.
Bằng chứng về việc AI đã bị 'ám'
Để kiểm tra khả năng này, một nhóm các nhà khoa học tại Đại học Công nghệ Queensland, Australia đã tiến hành một cuộc 'khai quật khảo cổ' xuyên qua khối dữ liệu khổng lồ mà các mô hình AI được huấn luyện.
Chúng ta đều biết rằng các mô hình ngôn ngữ lớn đứng đằng sau mọi chatbot AI hiện đại như , Deepseek, hay Grok đều được huấn luyện trên một lượng văn bản khổng lồ mà chúng thu thập được từ internet.
Các mô hình này hoạt động cơ bản bằng cách dự đoán từ tiếp theo trong một chuỗi nội dung mà nó có thể phản hồi. Tuy nhiên, nội dung chi tiết về dữ liệu huấn luyện thường được các công ty phát triển giấu kín.
Tuy nhiên, các nhà khoa học đã đặt câu hỏi liệu các mô hình này có 'biết' về thuật ngữ ma 'kính hiển vi điện tử thực vật' hay không?

Bằng chứng về đoạn mã mà mô hình GPT- (cụ thể là GPT--TURBO-BINTRURF) hiển thị thuật ngữ 'Kính hiển vi điện tử thực vật' đã được tạo ra.
"Chúng tôi đã nhập các đoạn trích từ các bài báo gốc để xem liệu mô hình có tiếp tục hoàn thành chúng với thuật ngữ vô nghĩa này hay với các lựa chọn hợp lý hơn", tiến sĩ Aaron Snoswell, nhà khoa học máy tính tại Đại học Công nghệ Queensland cho biết.
"Kết quả thật đáng chú ý. Mô hình GPT-3 của OpenAI đã liên tục hoàn thành với cụm từ 'kính hiển vi điện tử thực vật'. Trong khi các mô hình cũ như GPT-2 và BERT thì không làm vậy".
Điều này giúp tiến sĩ Snoswell xác định chính xác thời điểm mà các mô hình AI bắt đầu bị 'ám' bởi thuật ngữ ma, cũng như nguồn gốc mà chúng bị 'nhiễm bẩn'.
"Bằng cách so sánh những gì chúng tôi biết về tập dữ liệu huấn luyện của các mô hình khác nhau, chúng tôi xác định rằng tập dữ liệu CommonCrawl – một bộ sưu tập các trang web đã được thu thập – là nguồn gốc khả dĩ nhất mà các mô hình AI đã học thuật ngữ này", anh giải thích.
"Chúng tôi cũng phát hiện ra lỗi này vẫn tồn tại trong các mô hình mới hơn như GPT- và Claude của Anthropic. Điều này cho thấy thuật ngữ vô nghĩa này có thể đã được nhúng vĩnh viễn vào cơ sở tri thức của AI".
Chúng sẽ trở thành 'hóa thạch số'
Việc phát hiện ra những "thuật ngữ ma" trong kho dữ liệu khổng lồ của AI không phải là chuyện đơn giản. Còn việc khắc phục chúng thì thậm chí còn khó khăn hơn, gần như không thể thực hiện được.
Một lý do chính là quy mô của dữ liệu lớn, đơn giản là quá khổng lồ. Ví dụ, tập dữ liệu CommonCrawl có dung lượng lên đến hàng triệu gigabyte. Với phần lớn các nhà nghiên cứu ngoài các công ty công nghệ lớn, họ không có bất kỳ nguồn lực tính toán nào đủ mạnh để xử lý khối lượng dữ liệu này.
Lý do tiếp theo xuất phát từ chính sự thiếu minh bạch trong các mô hình AI thương mại. Các nhà phát triển như OpenAI và nhiều công ty khác từ chối cung cấp chi tiết về dữ liệu được sử dụng để huấn luyện các mô hình AI của họ.

Những nỗ lực can thiệp vào cơ sở dữ liệu gốc cũng gặp phải rất nhiều khó khăn. Sau khi các nhà khoa học Nga phát hiện ra "thuật ngữ ma", họ đã cảnh báo đến 22 nhà xuất bản đã phát hành bài báo có chứa thuật ngữ 'kính hiển vi điện tử thực vật'.
Tuy nhiên, phản hồi từ các nhà xuất bản là rất không đồng nhất. Một số đã thu hồi các bài báo có liên quan, trong khi một số khác lại bảo vệ tính hợp lệ của chúng.
Nhà xuất bản Elsevier ban đầu thậm chí còn cố gắng biện minh cho tính hợp lệ của thuật ngữ. Nhưng chỉ khi bị phản đối mạnh mẽ, họ mới chịu thừa nhận sai sót và đưa ra lời đính chính.
Về phía các mô hình chatbot, có thể bạn nghĩ chúng có thể dùng một cơ chế lọc từ đơn giản để loại bỏ "thuật ngữ ma". Tuy nhiên, nếu làm vậy, chúng cũng sẽ vô tình loại bỏ luôn những bài báo nhắc đến thuật ngữ này như một lời cảnh báo.
Chẳng hạn, ngay chính trong bài viết này, thuật ngữ "kính hiển vi điện tử thực vật" cũng được nhắc đến một cách lặp đi lặp lại.

Khi bạn yêu cầu AI tạo ra một "kính hiển vi điện tử thực vật", nó sẽ làm điều đó một cách chính xác.
Để chứng minh sự tồn tại dai dẳng của những "thuật ngữ ma" này, tiến sĩ Snoswell đã gọi chúng là "hóa thạch số". Giống như những hóa thạch sinh học bị kẹt lại trong đá từ thời xa xưa, những hóa thạch số này cũng có thể mãi mãi nằm im trong kho tàng tri thức của nhân loại.
Quan trọng hơn, trường hợp này đặt ra một câu hỏi đầy lo ngại: Bao nhiêu "thuật ngữ ma" vô nghĩa khác đã, đang và sẽ trở thành "hóa thạch số" trong các hệ thống AI, chỉ chờ đợi con người trong tương lai phát hiện ra?
