Một trí tuệ nhân tạo nổi tiếng đã học một mẹo mới: Làm thế nào để thực hiện hóa học
Trí tuệ nhân tạo đã thay đổi cách mà khoa học được thực hiện bằng cách cho phép các nhà nghiên cứu phân tích lượng lớn dữ liệu mà các công cụ khoa học hiện đại tạo ra. Nó có thể tìm kim trong triệu đống thông tin và, sử dụng học sâu, nó có thể học từ dữ liệu chính nó. Trí tuệ nhân tạo đang đẩy nhanh tiến bộ trong tìm kiếm gene, y học, thiết kế thuốc và tạo ra các hợp chất hữu cơ.
Học sâu sử dụng các thuật toán, thường là mạng thần kinh được đào tạo trên lượng lớn dữ liệu, để rút thông tin từ dữ liệu mới. Nó rất khác biệt so với tính toán truyền thống với các chỉ thị từng bước. Thay vào đó, nó học từ dữ liệu. Học sâu ít minh bạch hơn nhiều so với lập trình máy tính truyền thống, để lại những câu hỏi quan trọng - hệ thống đã học được gì, nó biết gì?
Là một giáo sư hóa học, tôi thích thiết kế các bài kiểm tra có ít nhất một câu hỏi khó mà kéo dài kiến thức của sinh viên để xác định họ có thể kết hợp các ý kiến khác nhau và tổng hợp ý kiến và khái niệm mới hay không. Chúng tôi đã sáng tạo ra một câu hỏi như vậy cho biểu tượng của người ủng hộ Trí tuệ nhân tạo, AlphaFold, người đã giải quyết vấn đề gập protein.
Gập protein
Protein xuất hiện trong tất cả các sinh học. Chúng cung cấp cấu trúc cho tế bào, xúc tác phản ứng, vận chuyển phân tử nhỏ, tiêu hóa thức ăn và làm nhiều công việc khác. Chúng được tạo ra từ chuỗi dài các axit amin giống như hạt trên một dây. Nhưng để protein thực hiện công việc của nó trong tế bào, nó phải xoắn và uốn thành cấu trúc ba chiều phức tạp, quá trình được gọi là gập protein. Protein bị gập sai có thể dẫn đến các bệnh.
Trong bài diễn thuyết nhận giải Nobel Hóa học năm 1972 của mình, Christiaan Anfinsen đưa ra giả định rằng có thể tính toán cấu trúc ba chiều của một protein từ trình tự của các khối xây dựng, các axit amin.
Giống như thứ tự và khoảng cách giữa các chữ cái trong bài viết này đưa ra ý nghĩa và thông điệp, thứ tự của các axit amin xác định danh tính và hình dạng của protein, từ đó phát sinh chức năng của nó.
Within milliseconds of the exit of an amino acid chain (left) from the ribosome, it is folded into the lowest-energy 3D shape (right), which is required for the protein’s function.Marc Zimmer, CC BY-ND
Bởi vì sự linh hoạt tự nhiên của các khối xây dựng axit amin, một protein điển hình có thể chấp nhận khoảng 10 mũ 300 hình dạng khác nhau. Đây là một con số lớn, hơn cả số lượng nguyên tử trong vũ trụ. Nhưng trong một mili giây, mỗi protein trong cơ thể sẽ gập thành hình dạng cụ thể của nó - sắp xếp năng lượng thấp nhất của tất cả các liên kết hóa học tạo nên protein. Thay đổi chỉ một axit amin trong hàng trăm axit amin thường được tìm thấy trong một protein có thể làm cho nó gập sai và không hoạt động nữa.
AlphaFold
Trong 50 năm, các nhà khoa học máy tính đã cố gắng giải quyết vấn đề gập protein - với ít thành công. Sau đó, vào năm 2016 DeepMind, một chi nhánh Trí tuệ Nhân tạo của Alphabet, công ty mẹ của Google, khởi đầu chương trình AlphaFold của mình. Nó sử dụng cơ sở dữ liệu protein như bộ dữ liệu đào tạo, chứa cấu trúc được xác định thực nghiệm của hơn 150,000 protein.
Trong chưa đầy năm năm, AlphaFold đã giải quyết vấn đề gập protein - ít nhất là phần hữu ích nhất, tức là xác định cấu trúc protein từ trình tự axit amin của nó. AlphaFold không giải thích cách protein gập lại nhanh chóng và chính xác như vậy. Đó là một chiến thắng lớn cho Trí tuệ Nhân tạo, vì nó không chỉ tích luỹ uy tín khoa học lớn, mà còn là một tiến bộ khoa học quan trọng có thể ảnh hưởng đến cuộc sống của mọi người.
Ngày nay, nhờ vào các chương trình như AlphaFold2 và RoseTTAFold, các nhà nghiên cứu như tôi có thể xác định cấu trúc ba chiều của protein từ trình tự axit amin tạo nên protein - hoàn toàn miễn phí - trong một đến hai giờ. Trước AlphaFold2, chúng tôi phải kết tinh protein và giải cấu trúc bằng tia X crystallography, một quy trình mất tháng và chi phí hàng chục nghìn đô la cho mỗi cấu trúc.
Hiện nay, chúng tôi cũng có quyền truy cập vào Cơ sở dữ liệu Cấu trúc Protein AlphaFold, nơi Deepmind đã đặt cấu trúc 3D của gần như tất cả các protein trong người, chuột và hơn 20 loài khác nhau. Đến nay, họ đã giải quyết hơn một triệu cấu trúc và kế hoạch thêm 100 triệu cấu trúc trong năm nay một mình. Kiến thức về protein đã bùng nổ. Cấu trúc của một nửa số protein đã biết có khả năng được ghi lại vào cuối năm 2022, trong đó có nhiều cấu trúc mới độc đáo liên quan đến các chức năng hữu ích mới.
Nghĩ như một nhà hóa học
AlphaFold2 không được thiết kế để dự đoán cách protein sẽ tương tác với nhau, nhưng nó đã có thể mô hình hóa cách các protein cá thể kết hợp để tạo thành các đơn vị phức tạp lớn bao gồm nhiều protein. Chúng tôi đặt một câu hỏi thách thức cho AlphaFold - liệu bộ dữ liệu đào tạo cấu trúc của nó đã dạy nó một số kiến thức về hóa học không? Nó có thể nói liệu axit amin có phản ứng với nhau không - một sự kiện hiếm có nhưng quan trọng?
Tôi là một nhà hóa học tính toán quan tâm đến protein phát quang. Đây là những protein được tìm thấy trong hàng trăm sinh vật biển như sứa và san hô. Ánh sáng của chúng có thể được sử dụng để chiếu sáng và nghiên cứu về các bệnh tật.
Neurons expressing fluorescent proteins reveal the brain structures of two fruit fly larvae.Wen Lu and Vladimir I. Gelfand, Feinberg School of Medicine, Northwestern University
Có 578 protein phát quang trong cơ sở dữ liệu protein, trong đó có 10 protein "hỏng" và không phát quang. Protein hiếm khi tấn công chính mình, một quá trình gọi là sửa đổi tự động xúc tác, và rất khó để dự đoán protein nào sẽ phản ứng với chính nó và protein nào sẽ không.
Chỉ có một nhà hóa học với lượng kiến thức đáng kể về protein phát quang mới có thể sử dụng trình tự axit amin để tìm các protein phát quang có trình tự axit amin đúng để trải qua các phản ứng hóa học cần thiết để làm cho chúng phát quang. Khi chúng tôi trình bày trình tự của 44 protein phát quang không có trong cơ sở dữ liệu protein cho AlphaFold2, nó gập các protein phát quang cố định khác nhau so với những protein bị hỏng.
AlphaFold2 can take the amino acid sequence of fluorescent proteins (letters at the top) and predict their 3D barrel shapes (middle). This isn’t surprising. What is totally unexpected is that it can also predict which fluorescent proteins are ‘broken’ and can’t fluoresce.Marc Zimmer, CC BY-ND
Kết quả làm chúng tôi ngạc nhiên: AlphaFold2 đã học được một số kiến thức về hóa học. Nó đã tìm ra những axit amin trong protein phát quang thực hiện phản ứng hóa học làm chúng sáng. Chúng tôi nghi ngờ rằng bộ dữ liệu đào tạo từ cơ sở dữ liệu protein và sắp xếp trình tự nhiều lần giúp AlphaFold2 "suy nghĩ" giống như những nhà hóa học và tìm kiếm axit amin cần thiết để phản ứng với nhau để làm cho protein phát quang.

Bài viết này của Marc Zimmer, Giáo sư Hóa học, Đại học Connecticut, được tái xuất bản từ The Conversation theo giấy phép Creative Commons. Đọc bài viết gốc.
