Google Miễn Phí Trí Tuệ Nhân Tạo Có Thể Xây Dựng Chuỗi Gen của Bạn

Buzz

Ngày cập nhật gần nhất: 15/7/2026

Đọc tóm tắt

- DeepVariant của Google sử dụng học sâu để xác định các đột biến gen, vượt qua các phương pháp hiện tại với độ chính xác cao hơn 50%.
- Công cụ này đã giành giải thưởng trong cuộc thi của FDA và giảm tỷ lệ lỗi so với các công cụ như GATK.
- Dù mã nguồn mở, chi phí tính toán cao khiến nó khó tiếp cận cho dự án quy mô lớn.
- Các công ty như DNAnexus và DNAStack đang đầu tư vào công nghệ này để cải thiện hiệu quả và giảm chi phí.,.
- DeepVariant hiện chỉ hoạt động với dữ liệu đọc hạn chế từ máy đọc.
- Học sâu dự kiến sẽ tiếp tục phát triển, cải thiện độ chính xác và hiệu quả, nhưng vẫn cần sự giải thích của con người.
- Đã có lỗi trong bài viết trước gọi DeepVariant là công cụ 'lắp ráp gen' thay vì công cụ gọi biến thể, và sự nhầm lẫn đã được sửa.

Hôm nay, chỉ cần một thìa nhỏ nước bọt và một trăm đô la là bạn có thể nhận được một bức tranh về ADN của mình. Nhưng để có cái nhìn tổng thể—tất cả 3 tỷ cặp cơ sở của gen của bạn—đòi hỏi một quá trình khó khăn hơn nhiều. Một quá trình mà, ngay cả với sự giúp đỡ của thống kê phức tạp, các nhà khoa học vẫn đang vật lộn với nó. Đó chính là loại vấn đề mà việc gửi đến trí tuệ nhân tạo để giải quyết là hợp lý.

Vào thứ Hai, Google đã phát hành một công cụ mang tên DeepVariant sử dụng học sâu—kỹ thuật học máy hiện đang thống trị lĩnh vực trí tuệ nhân tạo—để xác định tất cả các đột biến mà một cá nhân thừa hưởng từ cha mẹ của mình.¹ Mô phỏng lỏng lẻo theo mạng lưới neuron trong não người, những mô hình toán học khổng lồ này đã học cách thực hiện những công việc như xác định khuôn mặt được đăng trên Facebook, chuyển văn bản các yêu cầu ngớ ngẩn của bạn đến Siri và thậm chí là đánh bại những troll internet. Và bây giờ, các kỹ sư tại Google Brain và Verily (công ty con chuyên ngành khoa học của Alphabet) đã giảng dạy một trong số chúng nhận dữ liệu chuỗi thô và sắp xếp hàng tỷ các A, T, C và G làm cho bạn trở thành bạn.

Và đúng rồi, nó chính xác hơn tất cả các phương pháp hiện tại. Năm ngoái, DeepVariant đã giành giải đầu tiên trong một cuộc thi của FDA khuyến khích cải thiện trong việc giải mã gen. Phiên bản mã nguồn mở mà đội ngũ Google Brain/Verily giới thiệu cho thế giới vào thứ Hai giảm tỷ lệ lỗi thậm chí còn thấp hơn—hơn 50% so với trước đây. Có vẻ như grandmaster Ke Jie không phải là người duy nhất bị Google's AI đánh bại trong năm nay.

DeepVariant xuất hiện vào một thời điểm khi các nhà cung cấp dịch vụ chăm sóc sức khỏe, các công ty dược và nhà sản xuất chẩn đoán y tế đều đang đua nhau thu thập càng nhiều thông tin gen tóm gọn nhất có thể. Để đáp ứng nhu cầu, các đối thủ của Google như IBM và Microsoft đều đang chuyển hướng vào không gian trí tuệ nhân tạo trong lĩnh vực y tế, với sự đặt ra câu hỏi liệu Apple và Amazon có sẽ làm tương tự hay không. Mặc dù mã nguồn của DeepVariant không tốn phí, nhưng không phải vậy đối với công suất máy tính cần thiết để chạy nó. Các nhà khoa học nói rằng chi phí đó sẽ ngăn cản nó trở thành tiêu chuẩn bất cứ lúc nào sớm, đặc biệt là đối với các dự án quy mô lớn.

Nhưng DeepVariant chỉ là phần trước của một triển khai rộng lớn hơn; gen học sẽ đi sâu vào học sâu. Và khi bạn đã chuyển sang học sâu, bạn sẽ không quay lại được.

Gần hai thập kỷ trôi qua kể từ khi việc xếp loại gen lớn thông qua các phòng thí nghiệm và đi vào thương mại. Ngày nay, bạn có thể có toàn bộ gen của mình chỉ với 1,000 đô la (rất rẻ so với 1.5 triệu đô la mà nó tốn cho việc xếp loại gen của James Watson vào năm 2008).

Nhưng dữ liệu được tạo ra bởi các máy hiện nay vẫn chỉ tạo ra các gen không đầy đủ, lõm lõch và gặp lỗi. Lỗi có thể được đưa vào mỗi bước của quá trình, và điều này làm cho việc phân biệt các đột biến tự nhiên làm cho bạn bạn từ các tác phẩm nghệ thuật ngẫu nhiên, đặc biệt là ở các phần lặp lại của một gen.

Xem, hầu hết các công nghệ xếp loại gen hiện đại hoạt động bằng cách lấy một mẫu ADN của bạn, chia nó thành hàng triệu đoạn ngắn và sau đó sử dụng nucleotides được gắn nhiễm florescent để tạo ra các đọc—danh sách các A, T, C và G tương ứng với mỗi đoạn. Sau đó, hàng triệu đọc đó phải được nhóm lại thành các chuỗi kề nhau và so sánh với một gen tham chiếu. Từ đó, chúng có thể chuyển sang gọi biến thể—xác định nơi gen của một cá nhân khác biệt so với tham chiếu. Có nhiều chương trình phần mềm để giúp làm điều đó. FreeBayes, VarDict, Samtools và phổ biến nhất là GATK, phụ thuộc vào các phương pháp thống kê tinh vi để phát hiện đột biến và loại bỏ lỗi. Mỗi công cụ đều có ưu và nhược điểm, và những người khoa học thường xuyên phải sử dụng chúng đồng thời.

Không ai biết về nhược điểm của công nghệ hiện tại tốt hơn Mark DePristo và Ryan Poplin. Họ đã dành năm năm để tạo ra GATK từ đầu. Đó là năm 2008: không có công cụ, không có định dạng sinh học thông tin, không có tiêu chuẩn. “Chúng tôi thậm chí không biết chúng tôi đang cố gắng tính toán cái gì!” DePristo nói. Nhưng họ có một ngôi sao phương bắc: một bài báo hứng thú mới xuất bản, do một người nổi tiếng tên Jeff Dean viết. Là một trong những kỹ sư đầu tiên của Google, Dean đã giúp thiết kế và xây dựng các hệ thống máy tính cơ bản dưới nền tảng của đế chế trực tuyến rộng lớn của công ty. DePristo và Poplin sử dụng một số ý tưởng đó để xây dựng GATK, trở thành tiêu chuẩn vàng của lĩnh vực.

Nhưng đến năm 2013, công việc đã đạt đến đỉnh điểm. “Chúng tôi thử gần như mọi phương pháp thống kê chuẩn dưới ánh mặt trời, nhưng chúng tôi chưa bao giờ tìm thấy cách hiệu quả để đưa kim chỉnh,” DePristo nói. “Sau năm năm, không rõ liệu có thể làm tốt hơn không.” DePristo rời đi để theo đuổi một start-up được đầu tư bởi Google có tên SynapDx đang phát triển một bài kiểm tra máu cho tự kỷ. Khi đóng cửa hai năm sau đó, một thành viên hội đồng quản trị, Andrew Conrad (từ Google X, sau đó là Google Life Sciences, sau đó là Verily) thuyết phục DePristo tham gia vào dự án của Google/Alphabet. Anh ấy được hợp nhất với Poplin, người đã gia nhập vào tháng trước đó.

Lần này, Dean không chỉ là một tài liệu tham khảo; anh ấy là ông chủ của họ.

Là trưởng bộ não của Google Brain, Dean là người đứng sau sự bùng nổ của mạng thần kinh mà bây giờ hỗ trợ mọi cách bạn tìm kiếm, tweet, chụp ảnh và mua sắm. Với sự giúp đỡ của anh ấy, DePristo và Poplin muốn xem liệu họ có thể dạy một trong những mạng thần kinh này ghép một bản gen một cách chính xác hơn bé của họ, GATK.

Mạng không mất thời gian để khiến họ cảm thấy lạc hậu. Sau khi đào tạo nó trên bộ dữ liệu thử nghiệm của chỉ bảy gen con người, DeepVariant có thể xác định chính xác những sự đổi nucleotide đó 99.9587% thời gian. “Điều đó thực sự làm cho chúng tôi kinh ngạc khi thấy mô hình học sâu vượt qua các công cụ cũ của chúng tôi nhanh chóng như vậy,” DePristo nói. Nhóm của họ đã gửi kết quả vào cuộc thi PrecisionFDA Truth Challenge mùa hè trước đó, nơi nó giành giải thưởng hiệu suất hàng đầu. Vào tháng 12, họ chia sẻ chúng trong một bài báo được xuất bản trên bioRxiv.

DeepVariant hoạt động bằng cách biến đổi nhiệm vụ gọi biến thể—tìm hiểu xem cặp nơi cơ bản nào thực sự thuộc về bạn và không phải là một lỗi hoặc đồng bằng xử lý khác—thành một vấn đề phân loại hình ảnh. Nó lấy lớp dữ liệu và biến chúng thành các kênh, giống như màu sắc trên bộ truyền hình của bạn. Trong mô hình làm việc đầu tiên, họ sử dụng ba kênh: Kênh đầu tiên là cơ sở thực sự, kênh thứ hai là điểm chất lượng được định nghĩa bởi máy đọc dữ liệu mà các đọc được lấy ra, kênh thứ ba chứa siêu dữ liệu khác. Bằng cách nén tất cả dữ liệu đó thành một tệp hình ảnh loại bỏ, và đào tạo mô hình trên hàng triệu “hình ảnh” đa kênh này, DeepVariant bắt đầu có khả năng xác định khả năng mỗi A hoặc T hoặc C hoặc G cụ thể nào hoàn toàn phù hợp với gen tham chiếu, biến đổi một bản sao hoặc biến đổi cả hai.

Nhưng họ không dừng lại ở đó. Sau cuộc thi FDA, họ chuyển mô hình sang TensorFlow, công cụ trí tuệ nhân tạo của Google, và tiếp tục điều chỉnh các tham số của nó bằng cách chuyển ba kênh dữ liệu nén thành bảy kênh dữ liệu nguyên thủy. Điều này cho phép họ giảm tỷ lệ lỗi thêm 50%. Trong một phân tích độc lập được tiến hành trong tuần này bởi nền tảng tính toán gen học, DNAnexus, DeepVariant vượt xa GATK, Freebayes và Samtools, đôi khi giảm lỗi lên đến 10 lần.

“Điều đó chứng tỏ rằng công nghệ này thực sự có tương lai quan trọng trong xử lý dữ liệu sinh học,” CEO của DNAnexus, Richard Daly, nói. “Nhưng chỉ là chương mở đầu trong cuốn sách có 100 chương.” Daly cho biết ông kỳ vọng rằng loại trí tuệ nhân tạo này sẽ một ngày nào đó thực sự tìm ra các đột biến gây ra bệnh. Công ty của ông đã nhận phiên bản beta của DeepVariant và hiện đang kiểm thử mô hình hiện tại với một số lượng hạn chế của các khách hàng của mình, bao gồm các công ty dược học, các nhà cung cấp dịch vụ chăm sóc sức khỏe lớn và các công ty chẩn đoán y tế.

Để chạy DeepVariant một cách hiệu quả cho những khách hàng này, DNAnexus đã phải đầu tư vào GPU thế hệ mới để hỗ trợ nền tảng của mình. Điều tương tự đúng với đối thủ người Canada, DNAStack, có kế hoạch cung cấp hai phiên bản khác nhau của DeepVariant—một được điều chỉnh để chi phí thấp và một được điều chỉnh để tốc độ. Nền tảng Google Cloud đã hỗ trợ công cụ này, và công ty đang nghiên cứu việc sử dụng TPUs (đơn vị xử lý tensor) kết nối các thứ như Google Search, Street View và Translate để tăng tốc tính toán gen.

Mã nguồn của DeepVariant là mã nguồn mở nên bất kỳ ai cũng có thể chạy nó, nhưng để làm điều này ở quy mô lớn có lẽ sẽ đòi hỏi trả tiền cho một nền tảng điện toán đám mây. Và chi phí này—về mặt tính toán và về mặt tiền thực tế—đã khiến các nhà nghiên cứu do dự về tính hữu ích của DeepVariant.

“Đây là một bước đầu hứa hẹn, nhưng hiện tại nó không thể mở rộng được cho một lượng lớn mẫu vì nó đơn giản là quá tốn kém về mặt tính toán,” Daniel MacArthur, một nhà gen học con người tại Broad/Harvard, người đã xây dựng một trong những thư viện gen ADN con người lớn nhất đến nay, nói. Đối với các dự án như của ông, đối mặt với hàng ngàn gen, DeepVariant chỉ là quá đắt đỏ. Và, giống như các mô hình thống kê hiện tại, nó chỉ có thể làm việc với các đọc hạn chế được sản xuất bởi các máy đọc hiện nay.

Tuy nhiên, anh ta nghĩ rằng học sâu sẽ ở lại. “Chỉ là vấn đề của việc tìm cách kết hợp dữ liệu chất lượng tốt hơn với thuật toán tốt hơn và cuối cùng chúng ta sẽ hội tụ vào một cái gì đó gần như hoàn hảo,” MacArthur nói. Nhưng ngay cả khi đó, nó vẫn chỉ là một danh sách các chữ cái. Ít nhất trong tương lai dự kiến, chúng ta vẫn cần những con người tài năng để nói cho chúng ta biết tất cả điều đó có ý nghĩa gì.

1 Sửa lỗi 12/12/17 4:28pm EST Một phiên bản trước của bài viết này đã gọi sai công cụ DeepVariant là "lắp ráp gen." Công cụ gọi các biến thể, đó là một phần quan trọng của quá trình genotyping, nhưng không liên quan đến việc lắp ráp gen. MYTOUR xin lỗi vì sự nhầm lẫn.

Các câu hỏi thường gặp

DeepVariant là gì và nó hoạt động như thế nào trong việc xác định đột biến gen?

DeepVariant là một công cụ sử dụng học sâu để xác định các đột biến gen từ dữ liệu ADN. Nó chuyển đổi nhiệm vụ gọi biến thể thành một vấn đề phân loại hình ảnh, giúp tăng độ chính xác lên 99.9587% trong việc nhận diện các nucleotide.

Tại sao DeepVariant lại có độ chính xác cao hơn so với các công cụ gọi biến thể hiện có?

DeepVariant đạt được độ chính xác cao hơn nhờ vào việc sử dụng mạng nơ-ron và học sâu để phân tích dữ liệu gen. Phương pháp này giúp giảm tỷ lệ lỗi lên đến 50% so với các công cụ truyền thống như GATK.

Chi phí sử dụng DeepVariant có phải là vấn đề lớn cho các nhà nghiên cứu không?

Có, chi phí máy tính cần thiết để chạy DeepVariant là một trở ngại lớn. Điều này có thể khiến các dự án nghiên cứu quy mô lớn khó khăn trong việc áp dụng công nghệ này một cách hiệu quả.

DeepVariant có thể được sử dụng trên quy mô lớn trong nghiên cứu gen không?

Hiện tại, DeepVariant chưa thể mở rộng cho quy mô lớn do chi phí tính toán cao. Nhiều nhà nghiên cứu lo ngại rằng điều này sẽ giới hạn khả năng áp dụng của công cụ trong các dự án lớn.

Những lợi ích gì mà DeepVariant mang lại cho ngành công nghiệp y tế?

DeepVariant giúp cải thiện độ chính xác trong việc phân tích gen, điều này rất quan trọng cho chẩn đoán và phát hiện bệnh. Công nghệ này cũng hỗ trợ các công ty dược trong việc phát triển thuốc mới.

DeepVariant có mã nguồn mở, vậy điều này có ý nghĩa gì cho cộng đồng nghiên cứu?

Việc DeepVariant là mã nguồn mở cho phép bất kỳ ai cũng có thể truy cập và sử dụng công cụ này. Điều này thúc đẩy sự phát triển và cải tiến công nghệ trong cộng đồng nghiên cứu gen.

Tại sao trí tuệ nhân tạo lại quan trọng trong nghiên cứu gen hiện đại?

Trí tuệ nhân tạo giúp phân tích và xử lý dữ liệu gen một cách nhanh chóng và chính xác hơn. Điều này rất quan trọng trong việc xác định các đột biến có thể gây bệnh và cải thiện chăm sóc sức khỏe.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]