
Hôm nay, chỉ cần một thìa nhỏ nước bọt và một trăm đô la là bạn có thể nhận được một bức tranh về ADN của mình. Nhưng để có cái nhìn tổng thể—tất cả 3 tỷ cặp cơ sở của gen của bạn—đòi hỏi một quá trình khó khăn hơn nhiều. Một quá trình mà, ngay cả với sự giúp đỡ của thống kê phức tạp, các nhà khoa học vẫn đang vật lộn với nó. Đó chính là loại vấn đề mà việc gửi đến trí tuệ nhân tạo để giải quyết là hợp lý.
Vào thứ Hai, Google đã phát hành một công cụ mang tên DeepVariant sử dụng học sâu—kỹ thuật học máy hiện đang thống trị lĩnh vực trí tuệ nhân tạo—để xác định tất cả các đột biến mà một cá nhân thừa hưởng từ cha mẹ của mình.1 Mô phỏng lỏng lẻo theo mạng lưới neuron trong não người, những mô hình toán học khổng lồ này đã học cách thực hiện những công việc như xác định khuôn mặt được đăng trên Facebook, chuyển văn bản các yêu cầu ngớ ngẩn của bạn đến Siri và thậm chí là đánh bại những troll internet. Và bây giờ, các kỹ sư tại Google Brain và Verily (công ty con chuyên ngành khoa học của Alphabet) đã giảng dạy một trong số chúng nhận dữ liệu chuỗi thô và sắp xếp hàng tỷ các A, T, C và G làm cho bạn trở thành bạn.
Và đúng rồi, nó chính xác hơn tất cả các phương pháp hiện tại. Năm ngoái, DeepVariant đã giành giải đầu tiên trong một cuộc thi của FDA khuyến khích cải thiện trong việc giải mã gen. Phiên bản mã nguồn mở mà đội ngũ Google Brain/Verily giới thiệu cho thế giới vào thứ Hai giảm tỷ lệ lỗi thậm chí còn thấp hơn—hơn 50% so với trước đây. Có vẻ như grandmaster Ke Jie không phải là người duy nhất bị Google's AI đánh bại trong năm nay.
DeepVariant xuất hiện vào một thời điểm khi các nhà cung cấp dịch vụ chăm sóc sức khỏe, các công ty dược và nhà sản xuất chẩn đoán y tế đều đang đua nhau thu thập càng nhiều thông tin gen tóm gọn nhất có thể. Để đáp ứng nhu cầu, các đối thủ của Google như IBM và Microsoft đều đang chuyển hướng vào không gian trí tuệ nhân tạo trong lĩnh vực y tế, với sự đặt ra câu hỏi liệu Apple và Amazon có sẽ làm tương tự hay không. Mặc dù mã nguồn của DeepVariant không tốn phí, nhưng không phải vậy đối với công suất máy tính cần thiết để chạy nó. Các nhà khoa học nói rằng chi phí đó sẽ ngăn cản nó trở thành tiêu chuẩn bất cứ lúc nào sớm, đặc biệt là đối với các dự án quy mô lớn.
Nhưng DeepVariant chỉ là phần trước của một triển khai rộng lớn hơn; gen học sẽ đi sâu vào học sâu. Và khi bạn đã chuyển sang học sâu, bạn sẽ không quay lại được.
Gần hai thập kỷ trôi qua kể từ khi việc xếp loại gen lớn thông qua các phòng thí nghiệm và đi vào thương mại. Ngày nay, bạn có thể có toàn bộ gen của mình chỉ với 1,000 đô la (rất rẻ so với 1.5 triệu đô la mà nó tốn cho việc xếp loại gen của James Watson vào năm 2008).
Nhưng dữ liệu được tạo ra bởi các máy hiện nay vẫn chỉ tạo ra các gen không đầy đủ, lõm lõch và gặp lỗi. Lỗi có thể được đưa vào mỗi bước của quá trình, và điều này làm cho việc phân biệt các đột biến tự nhiên làm cho bạn bạn từ các tác phẩm nghệ thuật ngẫu nhiên, đặc biệt là ở các phần lặp lại của một gen.
Xem, hầu hết các công nghệ xếp loại gen hiện đại hoạt động bằng cách lấy một mẫu ADN của bạn, chia nó thành hàng triệu đoạn ngắn và sau đó sử dụng nucleotides được gắn nhiễm florescent để tạo ra các đọc—danh sách các A, T, C và G tương ứng với mỗi đoạn. Sau đó, hàng triệu đọc đó phải được nhóm lại thành các chuỗi kề nhau và so sánh với một gen tham chiếu. Từ đó, chúng có thể chuyển sang gọi biến thể—xác định nơi gen của một cá nhân khác biệt so với tham chiếu. Có nhiều chương trình phần mềm để giúp làm điều đó. FreeBayes, VarDict, Samtools và phổ biến nhất là GATK, phụ thuộc vào các phương pháp thống kê tinh vi để phát hiện đột biến và loại bỏ lỗi. Mỗi công cụ đều có ưu và nhược điểm, và những người khoa học thường xuyên phải sử dụng chúng đồng thời.
Không ai biết về nhược điểm của công nghệ hiện tại tốt hơn Mark DePristo và Ryan Poplin. Họ đã dành năm năm để tạo ra GATK từ đầu. Đó là năm 2008: không có công cụ, không có định dạng sinh học thông tin, không có tiêu chuẩn. “Chúng tôi thậm chí không biết chúng tôi đang cố gắng tính toán cái gì!” DePristo nói. Nhưng họ có một ngôi sao phương bắc: một bài báo hứng thú mới xuất bản, do một người nổi tiếng tên Jeff Dean viết. Là một trong những kỹ sư đầu tiên của Google, Dean đã giúp thiết kế và xây dựng các hệ thống máy tính cơ bản dưới nền tảng của đế chế trực tuyến rộng lớn của công ty. DePristo và Poplin sử dụng một số ý tưởng đó để xây dựng GATK, trở thành tiêu chuẩn vàng của lĩnh vực.
Nhưng đến năm 2013, công việc đã đạt đến đỉnh điểm. “Chúng tôi thử gần như mọi phương pháp thống kê chuẩn dưới ánh mặt trời, nhưng chúng tôi chưa bao giờ tìm thấy cách hiệu quả để đưa kim chỉnh,” DePristo nói. “Sau năm năm, không rõ liệu có thể làm tốt hơn không.” DePristo rời đi để theo đuổi một start-up được đầu tư bởi Google có tên SynapDx đang phát triển một bài kiểm tra máu cho tự kỷ. Khi đóng cửa hai năm sau đó, một thành viên hội đồng quản trị, Andrew Conrad (từ Google X, sau đó là Google Life Sciences, sau đó là Verily) thuyết phục DePristo tham gia vào dự án của Google/Alphabet. Anh ấy được hợp nhất với Poplin, người đã gia nhập vào tháng trước đó.
Lần này, Dean không chỉ là một tài liệu tham khảo; anh ấy là ông chủ của họ.
Là trưởng bộ não của Google Brain, Dean là người đứng sau sự bùng nổ của mạng thần kinh mà bây giờ hỗ trợ mọi cách bạn tìm kiếm, tweet, chụp ảnh và mua sắm. Với sự giúp đỡ của anh ấy, DePristo và Poplin muốn xem liệu họ có thể dạy một trong những mạng thần kinh này ghép một bản gen một cách chính xác hơn bé của họ, GATK.
Mạng không mất thời gian để khiến họ cảm thấy lạc hậu. Sau khi đào tạo nó trên bộ dữ liệu thử nghiệm của chỉ bảy gen con người, DeepVariant có thể xác định chính xác những sự đổi nucleotide đó 99.9587% thời gian. “Điều đó thực sự làm cho chúng tôi kinh ngạc khi thấy mô hình học sâu vượt qua các công cụ cũ của chúng tôi nhanh chóng như vậy,” DePristo nói. Nhóm của họ đã gửi kết quả vào cuộc thi PrecisionFDA Truth Challenge mùa hè trước đó, nơi nó giành giải thưởng hiệu suất hàng đầu. Vào tháng 12, họ chia sẻ chúng trong một bài báo được xuất bản trên bioRxiv.
DeepVariant hoạt động bằng cách biến đổi nhiệm vụ gọi biến thể—tìm hiểu xem cặp nơi cơ bản nào thực sự thuộc về bạn và không phải là một lỗi hoặc đồng bằng xử lý khác—thành một vấn đề phân loại hình ảnh. Nó lấy lớp dữ liệu và biến chúng thành các kênh, giống như màu sắc trên bộ truyền hình của bạn. Trong mô hình làm việc đầu tiên, họ sử dụng ba kênh: Kênh đầu tiên là cơ sở thực sự, kênh thứ hai là điểm chất lượng được định nghĩa bởi máy đọc dữ liệu mà các đọc được lấy ra, kênh thứ ba chứa siêu dữ liệu khác. Bằng cách nén tất cả dữ liệu đó thành một tệp hình ảnh loại bỏ, và đào tạo mô hình trên hàng triệu “hình ảnh” đa kênh này, DeepVariant bắt đầu có khả năng xác định khả năng mỗi A hoặc T hoặc C hoặc G cụ thể nào hoàn toàn phù hợp với gen tham chiếu, biến đổi một bản sao hoặc biến đổi cả hai.
Nhưng họ không dừng lại ở đó. Sau cuộc thi FDA, họ chuyển mô hình sang TensorFlow, công cụ trí tuệ nhân tạo của Google, và tiếp tục điều chỉnh các tham số của nó bằng cách chuyển ba kênh dữ liệu nén thành bảy kênh dữ liệu nguyên thủy. Điều này cho phép họ giảm tỷ lệ lỗi thêm 50%. Trong một phân tích độc lập được tiến hành trong tuần này bởi nền tảng tính toán gen học, DNAnexus, DeepVariant vượt xa GATK, Freebayes và Samtools, đôi khi giảm lỗi lên đến 10 lần.
“Điều đó chứng tỏ rằng công nghệ này thực sự có tương lai quan trọng trong xử lý dữ liệu sinh học,” CEO của DNAnexus, Richard Daly, nói. “Nhưng chỉ là chương mở đầu trong cuốn sách có 100 chương.” Daly cho biết ông kỳ vọng rằng loại trí tuệ nhân tạo này sẽ một ngày nào đó thực sự tìm ra các đột biến gây ra bệnh. Công ty của ông đã nhận phiên bản beta của DeepVariant và hiện đang kiểm thử mô hình hiện tại với một số lượng hạn chế của các khách hàng của mình, bao gồm các công ty dược học, các nhà cung cấp dịch vụ chăm sóc sức khỏe lớn và các công ty chẩn đoán y tế.

Để chạy DeepVariant một cách hiệu quả cho những khách hàng này, DNAnexus đã phải đầu tư vào GPU thế hệ mới để hỗ trợ nền tảng của mình. Điều tương tự đúng với đối thủ người Canada, DNAStack, có kế hoạch cung cấp hai phiên bản khác nhau của DeepVariant—một được điều chỉnh để chi phí thấp và một được điều chỉnh để tốc độ. Nền tảng Google Cloud đã hỗ trợ công cụ này, và công ty đang nghiên cứu việc sử dụng TPUs (đơn vị xử lý tensor) kết nối các thứ như Google Search, Street View và Translate để tăng tốc tính toán gen.
Mã nguồn của DeepVariant là mã nguồn mở nên bất kỳ ai cũng có thể chạy nó, nhưng để làm điều này ở quy mô lớn có lẽ sẽ đòi hỏi trả tiền cho một nền tảng điện toán đám mây. Và chi phí này—về mặt tính toán và về mặt tiền thực tế—đã khiến các nhà nghiên cứu do dự về tính hữu ích của DeepVariant.
“Đây là một bước đầu hứa hẹn, nhưng hiện tại nó không thể mở rộng được cho một lượng lớn mẫu vì nó đơn giản là quá tốn kém về mặt tính toán,” Daniel MacArthur, một nhà gen học con người tại Broad/Harvard, người đã xây dựng một trong những thư viện gen ADN con người lớn nhất đến nay, nói. Đối với các dự án như của ông, đối mặt với hàng ngàn gen, DeepVariant chỉ là quá đắt đỏ. Và, giống như các mô hình thống kê hiện tại, nó chỉ có thể làm việc với các đọc hạn chế được sản xuất bởi các máy đọc hiện nay.
Tuy nhiên, anh ta nghĩ rằng học sâu sẽ ở lại. “Chỉ là vấn đề của việc tìm cách kết hợp dữ liệu chất lượng tốt hơn với thuật toán tốt hơn và cuối cùng chúng ta sẽ hội tụ vào một cái gì đó gần như hoàn hảo,” MacArthur nói. Nhưng ngay cả khi đó, nó vẫn chỉ là một danh sách các chữ cái. Ít nhất trong tương lai dự kiến, chúng ta vẫn cần những con người tài năng để nói cho chúng ta biết tất cả điều đó có ý nghĩa gì.
1 Sửa lỗi 12/12/17 4:28pm EST Một phiên bản trước của bài viết này đã gọi sai công cụ DeepVariant là "lắp ráp gen." Công cụ gọi các biến thể, đó là một phần quan trọng của quá trình genotyping, nhưng không liên quan đến việc lắp ráp gen. MYTOUR xin lỗi vì sự nhầm lẫn.
