Virus dẫn đầu một cuộc sống khá lặp đi lặp lại. Chúng xâm nhập vào tế bào, chiếm đoạt máy móc của nó để biến nó thành một máy sao chép virus, và những bản sao đó tiến vào các tế bào khác với hướng dẫn làm tương tự. Và như vậy diễn ra đi mãi. Nhưng đôi khi, giữa sự sao chép lặp đi lặp lại này, mọi thứ bị lẫn lộn. Đột biến nảy sinh trong những bản sao. Đôi khi, một đột biến có nghĩa là một axit amin không được tạo ra và một protein quan trọng không gấp gọn—và phiên bản virus đó đi vào lịch sử tiến hóa. Đôi khi đột biến không làm gì cả, vì các chuỗi khác nhau mã hóa cùng các protein tạo nên lỗi đó. Nhưng đôi khi, đột biến diễn ra hoàn hảo. Những thay đổi không ảnh hưởng đến khả năng tồn tại của virus; thay vào đó, chúng tạo ra một sự thay đổi có ích, như làm cho virus không thể được nhận ra bởi hệ thống miễn dịch của một người. Khi điều đó cho phép virus tránh được kháng thể được tạo ra từ các lần nhiễm trước đó hoặc từ một loại vaccine, biến thể đột biến của virus được coi là đã 'thoát'.
Các nhà khoa học luôn luôn theo dõi dấu hiệu của khả năng thoát khỏi hệ thống miễn dịch. Điều này đúng với SARS-CoV-2, khi các biến thể mới xuất hiện và các nhà khoa học điều tra những thay đổi gen có thể có ý nghĩa gì đối với một loại vaccine kéo dài. (Cho đến nay, mọi thứ đều trông tốt.) Điều này cũng làm rối bời các nhà nghiên cứu đang nghiên cứu cúm và HIV, mà thường xuyên tránh được hệ thống miễn dịch của chúng ta. Vì vậy, trong một nỗ lực để nhìn thấy những gì có thể đến, các nhà nghiên cứu tạo ra các biến thể giả tưởng trong phòng thí nghiệm và xem xét xem chúng có thể tránh được kháng thể được lấy từ bệnh nhân gần đây hoặc người được tiêm vaccine. Nhưng mã gen cung cấp quá nhiều khả năng để kiểm tra mọi nhánh tiến hóa mà virus có thể đi theo theo thời gian. Đó là một vấn đề của việc bám đuổi.
Mùa đông năm ngoái, Brian Hie, một nhà sinh học tính toán tại MIT và một người hâm mộ thơ ca của John Donne, đã nghĩ về vấn đề này khi ông nảy ra một phép so sánh: Liệu chúng ta có nghĩ về các chuỗi virus giống như cách chúng ta nghĩ về ngôn ngữ viết? Mỗi chuỗi virus có một loại ngữ pháp, ông lý luận—một tập các quy tắc mà nó cần tuân theo để trở thành một virus cụ thể. Khi đột biến vi phạm ngữ pháp đó, virus đạt đến một đường cùng tiến hóa. Theo thuật ngữ vi rút học, nó thiếu 'độ thích nghi.' Cũng giống như ngôn ngữ, từ quan điểm của hệ thống miễn dịch, chuỗi cũng có thể nói có một loại ngữ nghĩa. Có một số chuỗi mà hệ thống miễn dịch có thể diễn giải—và do đó ngừng virus bằng kháng thể và các phòng vệ khác—và có một số mà nó không thể. Vì vậy, một biến thể virus có thể được xem xét là một sự thay đổi giữ nguyên ngữ pháp của chuỗi nhưng thay đổi ý nghĩa của nó.
Sự phóng đại đã có một sự thanh lịch đơn giản, gần như quá đơn giản. Nhưng đối với Hie, điều đó cũng rất thiết thực. Trong những năm gần đây, các hệ thống Trí tuệ Nhân tạo đã rất giỏi trong việc mô hình hóa các nguyên tắc về ngữ pháp và ngữ nghĩa trong ngôn ngữ con người. Họ làm điều này bằng cách huấn luyện một hệ thống với các bộ dữ liệu gồm hàng tỷ từ, được sắp xếp trong các câu và đoạn văn, từ đó hệ thống suy ra các mẫu. Như vậy, mà không cần được thông báo bất kỳ quy tắc cụ thể nào, hệ thống học được nơi nào dấu phẩy nên được đặt và cách cấu trúc một mệnh đề. Cũng có thể nói rằng nó linh hoạt với ý nghĩa của một số chuỗi cụ thể—từ và cụm từ—dựa trên nhiều ngữ cảnh mà chúng xuất hiện trong toàn bộ bộ dữ liệu. Đó là các mẫu, từ đầu đến cuối. Đó là cách mà các mô hình ngôn ngữ tiên tiến nhất, như GPT-3 của OpenAI, có thể học được để tạo ra văn xuôi hoàn toàn ngữ pháp mà vẫn duy trì một cách hợp lý về chủ đề.
Một lợi ích của ý tưởng này là nó có tính tổng quát. Với một mô hình học máy, một chuỗi là một chuỗi, dù nó được sắp xếp trong những bài thơ hay các axit amin. Theo Jeremy Howard, một nhà nghiên cứu Trí tuệ Nhân tạo tại Đại học San Francisco và một chuyên gia mô hình ngôn ngữ, việc áp dụng các mô hình như vậy vào chuỗi sinh học có thể là có ích. Với đủ dữ liệu từ các chuỗi gen của virus được biết đến là gây nhiễm, mô hình sẽ học ngầm một cái gì đó về cấu trúc của virus gây nhiễm. 'Mô hình đó sẽ có rất nhiều kiến thức phức tạp và phức tạp,' ông nói. Hie biết điều này đã xảy ra. Người hướng dẫn nghiên cứu cao cấp của ông, nhà khoa học máy tính Bonnie Berger, trước đây đã thực hiện công việc tương tự với một thành viên khác của nhóm nghiên cứu của cô, sử dụng Trí tuệ Nhân tạo để dự đoán các mẫu gấp protein.
Vì vậy, mùa xuân này, phòng lab của Berger thử nghiệm ý tưởng của Hie, và kết quả đã được công bố hôm nay trên Khoa học. Ban đầu, nhóm đã quan tâm đến cúm và HIV, cả hai đều nổi tiếng vì tránh được vaccine. Nhưng khi họ bắt đầu công việc lab vào tháng Ba, chuỗi từ coronavirus mới bắt đầu trở nên có sẵn, vì vậy họ quyết định thêm chúng vào. Đối với ba virus này, họ tập trung vào các chuỗi cho các protein mà virus sử dụng để xâm nhập vào tế bào và nhân bản, giải thích Bryan Bryson, một giáo sư kỹ thuật sinh học tại MIT và một đồng tác giả của nghiên cứu. Đây cũng là mục tiêu chính của hệ thống miễn dịch và vaccine. Đó là nơi mà kháng thể gắn kết, ngăn virus xâm nhập vào tế bào và đánh dấu nó cho phá hủy. (Đối với SARS-CoV-2, đó là protein gai.) Đối với mỗi virus, nhóm MIT đã huấn luyện một mô hình ngôn ngữ bằng cách sử dụng dữ liệu chuỗi gen thay vì các đoạn văn và câu thông thường.
Sau đó, họ kiểm tra xem mô hình đã học được gì về các chuỗi. Các chuỗi được cho là có 'ý nghĩa' tương tự nhau nên lây nhiễm cho cùng một loài chủ, như nhà nghiên cứu lý luận. Ngôn ngữ gen của cúm lợn sẽ có ý nghĩa về ngữ nghĩa hơn đối với một cúm lợn khác hơn là cúm lợn thường xuyên nhiễm trên người. Họ rất vui khi nhìn thấy rằng điều này là đúng—và cũng để thấy rằng một số dòng virus cụ thể đã lan rộng từ một loài sang loài khác trong thế giới thực, như cúm chim vào năm 1918 và 2009, được đánh giá là tương tự về mặt ngữ nghĩa. Sau đó, họ kiểm tra ngữ pháp. Mức độ 'ngữ pháp' của một chuỗi tương ứng với sự sống còn của virus như thế nào trong điều kiện thực tế? Các nhà nghiên cứu thu thập dữ liệu từ các nghiên cứu trước đây đánh giá khả năng thích nghi của các biến thể khác nhau—những biến thể này gắn kết tốt đến đâu hoặc nhân bản trong tế bào—đối với cả ba virus, và sau đó xem xét xem mô hình tin rằng các chuỗi đó có ngữ pháp như thế nào. Ngữ pháp dường như là một chỉ số tốt cho khả năng thích nghi của chúng.
Tuy nhiên, Bryson và Hie muốn biết liệu việc kết hợp hai chỉ số này có thể dự đoán được sự thoát khỏi của virus hay không. Khi họ so sánh các dự đoán của mô hình của họ với những trường hợp thoát khỏi virus thực tế đã biết trước đó, mô hình cúm đã có dự đoán tốt nhất. Điều đó không ngạc nhiên, vì tập dữ liệu họ sử dụng để huấn luyện mô hình khá lớn, bao gồm hàng năm chuỗi cúm và một lượng đột biến lớn đã biết để vượt qua hệ thống miễn dịch của con người. Đối với SARS-CoV-2, họ kiểm tra dự đoán của mình trên các biến thể thoát khỏi được tạo ra nhân tạo, thông qua huyết thanh giàu kháng thể cho đến khi áp lực lựa chọn tạo ra các biến thể có thể tránh được các kháng thể. (Nói cách khác, không phải là điều gì chúng ta cần lo lắng trong thế giới thực.) Mối tương quan không chặt chẽ. Mô hình đã ghi chút lạc hậu cho hầu hết những trường hợp thoát khỏi thực sự nhưng cũng có những chuỗi không phải là như vậy.
Tuy nhiên, đây là một bắt đầu có thể giúp các nhà virus học có cái nhìn rõ ràng hơn về hướng mà các đột biến tự nhiên đang hướng đến. 'Đây là một cách tuyệt vời để hạn chế toàn bộ vũ trụ tiềm năng của các virus đột biến,' Benhur Lee, một vi sinh vật học tại Trường Y Icahn của Đại học Mount Sinai nói, người không tham gia vào công việc này. Dự đoán chỉ tốt như dữ liệu được đưa vào, ông thêm vào. Và như các nhà nghiên cứu ghi chú, điều đó có nghĩa là mô hình bỏ qua một số sắc thái cụ thể, vì thoát khỏi không luôn luôn chỉ là một chức năng của các đột biến mà virus thu được. HIV là một ví dụ tốt. Đôi khi, chuỗi không thay đổi, và protein virus vẫn được nhận diện bởi kháng thể, nhưng những protein đó được che phủ bởi một loại hợp chất đường ngọt gọi là glycan.
Lee chỉ ra rằng các dự đoán của Trí tuệ Nhân tạo tốt để thông báo cho các nhà nghiên cứu những điều họ đã biết trước đó. Ví dụ, nó đã xác định đúng hai phần của protein gai của SARS-CoV-2 mà các nhà nghiên cứu tin rằng có xu hướng tích luỹ đột biến thoát khỏi hơn và một phần khác ổn định hơn, và do đó là mục tiêu kháng thể tốt hơn. Nhưng vẫn còn chưa rõ liệu dự đoán của nó có thể cung cấp thông tin mới thực sự hay không. Một lĩnh vực mà các tác giả bài báo tin rằng các mô hình tính toán sẽ hữu ích nhất là trong việc xác định những 'đột biến kết hợp' được gọi là những thay đổi xây dựng trên nhau. Nhưng điều đó có lẽ sẽ đòi hỏi nhiều dữ liệu hơn để tạo ra những gợi ý tốt cho các nhà khoa học phòng thí nghiệm như Lee.
Bước tiếp theo, bắt đầu từ thứ Sáu này với những người hợp tác của Bryson ở phòng lab khác, sẽ liên quan đến việc tạo ra một số biến thể SARS-CoV-2 được dự đoán trong phòng thí nghiệm và xem chúng thích nghi như thế nào với kháng thể trong huyết thanh lấy từ những người đã hồi phục và được tiêm vaccine. Họ sẽ sử dụng những gì được gọi là virus giả, có thể kiểm tra khả năng kháng thể trung hòa một biến thể cụ thể của virus, nhưng không gây nguy hiểm. Họ cũng sẽ kiểm tra một số chuỗi được chọn trong nỗ lực giải mã các mẫu virus từ bệnh nhân Covid-19 mà mô hình gợi ý là có nhiều cơ hội thoát khỏi hơn so với những chuỗi khác, Bryson nói.
Các thành viên trong phòng lab đều đang tự hỏi liệu phép so sánh của họ có thể áp dụng trong những tình huống khác không. Liệu một mô hình tương tự có thể dự đoán xem một hệ thống miễn dịch có phát triển không dung nạp với một liệu pháp ung thư cụ thể hay không, hoặc là cách một đột biến khối u có thể tiến hóa để tránh được kiểm soát của cơ thể? Với dữ liệu đúng, phòng lab của Bryson muốn thử nghiệm điều đó. 'Một phép so sánh tốt có thể đi rất xa,' ông nói.
Đã cập nhật 14/01/21 lúc 4:00 chiều giờ Thái Bình Dương để làm rõ rằng nghiên cứu được mô tả trong bài viết diễn ra tại phòng lab của Bonnie Berger tại MIT.
Nhiều thông tin thêm từ Mytour về Covid-19
- 📩 Muốn nhận thông tin mới nhất về công nghệ, khoa học và hơn thế nữa? Đăng ký nhận bản tin của chúng tôi!
- Vắc xin đã có. Chúng ta phải nói về các tác dụng phụ
- Trang bị để an toàn qua mùa đông đại dịch
- Tỷ lệ xét nghiệm dương tính là cách xấu để đo sự lan truyền của Covid
- Đợt tăng trưởng về 'các tòa nhà lành mạnh' sẽ vượt quá đại dịch
- Tôi đã xét nghiệm dương tính. Điều đó có ý nghĩa gì thực sự?
- Đọc tất cả các bài viết về coronavirus của chúng tôi tại đây
