Phát hiện này được xem là bước ngoặt – lần đầu tiên các nhà nghiên cứu có thể "nhìn thấu" phần nào cách một LLM xử lý thông tin, ít nhất là một phần nhỏ.
Trong thời gian dài, các mô hình ngôn ngữ lớn (LLM) liên tục được nâng cấp, trở nên thông minh và hữu dụng hơn, khiến nhiều người lầm tưởng rằng ngành AI đã "giải mã" hoàn toàn cách hoạt động của những hệ thống này. Nhưng thực tế không phải vậy – LLM vẫn là công nghệ phổ biến nhưng ít ai hiểu thấu đáo. Mới đây, hãng AI Anthropic đã giới thiệu phương pháp có thể thay đổi điều đó.
Phương pháp gọi là circuit tracing - tạm dịch "truy dấu mạch nội bộ" - cho phép các nhà nghiên cứu theo dõi từng bước quá trình AI hình thành câu trả lời, giống như khám phá mạng lưới dây thần kinh trong não người. Anthropic đã thử nghiệm kỹ thuật này trên Claude Haiku, phiên bản nhỏ gọn nhưng mạnh mẽ của dòng mô hình Claude . Kết quả cho thấy: mô hình không chỉ đơn thuần đoán từ tiếp theo một cách tuyến tính như ta vẫn nghĩ.
Các nhà nghiên cứu đã ghi nhận 10 hành vi khác nhau của Claude, trong đó có 3 trường hợp nổi bật nhất.

Trường hợp đầu tiên liên quan đến ngôn ngữ. Khi hỏi "điều ngược lại với 'nhỏ' là gì?" bằng nhiều thứ tiếng khác nhau, thay vì dùng các bộ phận riêng biệt cho tiếng Anh, Pháp hay Trung, Claude đầu tiên xác định khái niệm trừu tượng "sự to lớn" qua một "mạch xử lý phi ngôn ngữ" rồi mới chuyển sang ngôn ngữ tương ứng. Điều này chứng minh mô hình không chỉ lặp lại bản dịch đã học mà còn áp dụng tư duy khái quát đa ngôn ngữ như con người.
Tình huống thứ hai kỳ lạ hơn về toán học. Khi được hỏi 36 + 59, thay vì tính theo cách truyền thống – cộng hàng đơn vị nhớ số – Claude lại dùng cách "ước lượng lạ đời". Một phần của nó tính "gần 40 cộng gần 60", trong khi phần khác xử lý riêng hai số 6 và 9 để đảm bảo kết quả cuối cùng phải là 5. Khi hai suy luận bất thường này kết hợp, kết quả đúng là 95. Nhưng nếu hỏi Claude cách giải, nó sẽ trả lời theo kiểu "giáo khoa", hoàn toàn che giấu cách tính thực sự.
Trường hợp thứ ba liên quan đến thơ ca. Khi được yêu cầu "Viết một cặp câu thơ vần đôi, bắt đầu bằng: He saw a carrot and had to grab it", Claude ngay lập tức chọn từ gieo vần là "rabbit" – dù từ này chưa hề xuất hiện. Toàn bộ câu thơ thứ hai sau đó được tạo ra để kết thúc bằng từ đó: His hunger was like a starving rabbit. Điều này chứng tỏ Claude có khả năng lên kế hoạch trước thay vì chỉ "ngẫu hứng" từng từ một như mọi người thường nghĩ.
Những phát hiện này được xem là bước tiến quan trọng – lần đầu giới nghiên cứu có thể "đi sâu vào bên trong" cách một LLM xử lý thông tin, dù chỉ là một phần nhỏ.
Tuy nhiên, Joshua Batson – nhà nghiên cứu tại Anthropic – thừa nhận với MIT rằng đây chỉ là "phần nổi của tảng băng chìm". Việc truy vết một câu trả lời đã mất hàng giờ, và hành trình khám phá cách các mô hình AI suy nghĩ vẫn còn rất dài phía trước.
