Darpa Muốn Xây Dựng Một Hệ Thống Tìm Kiếm Ảnh Tạo Ra Từ DNA

Đa số mọi người sử dụng tính năng tìm kiếm bằng ảnh của Google để kiểm tra vi phạm bản quyền hoặc để mua sắm. Bạn thấy đôi giày bạn thích trên Instagram của một người bạn không thân? Tìm kiếm sẽ hiển thị tất cả các hình ảnh khớp trên web, bao gồm cả từ các trang web bán cùng một đôi giày đó. Để làm điều đó, các thuật toán thị giác máy tính của Google đã được đào tạo để trích xuất các đặc điểm nhận biết như màu sắc, kết cấu và hình dạng từ một danh mục lớn ảnh. Luis Ceze, một nhà khoa học máy tính tại Đại học Washington, muốn mã hóa quy trình đó trực tiếp vào DNA, làm cho chính các phân tử đó thực hiện công việc thị giác máy tính. Và anh ấy muốn làm điều đó bằng cách sử dụng ảnh của bạn.
On Wednesday, Ceze’s team at UW launched a social media campaign to collect 10,000 images from around the world and preserve their pixels in the As, Ts, Cs and Gs that make up the building blocks of life. They’ve done this sort of thing before; in 2016 they encoded an entire OK Go music video—setting the record for most amount of data stored in DNA. But this time they decided to crowdsource the data, building a website where people can submit photos and encouraging people to share their images on social media with the hashtag #MemoriesInDNA. “DNA can last thousands of years,” says Ceze. “So this is essentially a time capsule. What do you want to preserve forever?”
Chiến dịch #KíUcTrongDNA của UW có thể là một chiêu trò (có nhiều cơ sở dữ liệu ảnh chất lượng cao có sẵn để đào tạo một công cụ tìm kiếm phân tử). Nhưng khoa học đằng sau đó là một cố gắng thực sự để làm đảo lật sáu thập kỷ trước của máy tính. Lưu trữ dựa trên DNA cho đến nay chỉ tốt để điều đó: mã hóa pixel và khóa chúng trong các sợi đã đóng băng không thể nhìn thấy bằng mắt người. Đến nay, chưa ai tìm ra cách lấy và xử lý dữ liệu được lưu trữ bằng DNA - bước đầu tiên cần thiết để tạo ra bất kỳ nền tảng tính toán phân tử nghiêm túc nào.
Ai sẽ muốn điều đó, chính xác là ai? Như chẳng hạn, Darpa.
Trong vài tháng gần đây, cơ quan Quốc phòng được giao nhiệm vụ tài trợ cho những hy vọng xa xôi nhất của khoa học đã bắt đầu đầu tư hàng triệu đô la để khám phá những cách tiếp cận không nhị phân, đột phá để làm việc với dữ liệu. “Các phân tử mang lại một cách tiếp cận rất khác biệt đối với 'máy tính' so với các hệ thống kỹ thuật số hiện tại của chúng ta với các số 0 và 1,” Anne Fischer, quản lý chương trình cho chương trình thông tin phân tử của Darpa, nói. Chương trình này đã tài trợ $15.3 triệu cho các dự án tại Harvard, Brown, Đại học Illinois và Đại học Washington. “Cộng đồng toàn cầu đang tạo ra dữ liệu với tốc độ đáng kể, và việc phát triển những cách tiếp cận mới để truy cập và xử lý thông tin này là quan trọng để giải quyết vấn đề thiếu hụt năng lực lưu trữ và tốc độ tính toán đang đe doạ,” cô nói.
Thời đại số bắt đầu bằng một hành động đơn giản của ủy quyền: con người outsourcing bộ nhớ cho máy. Đầu tiên là trong các ống hút chân không, sau đó là với bóng bán dẫn, đĩa dẫn và ổ đĩa flash. Sau hơn 60 năm, kiến trúc cơ bản dựa trên logic mà John von Neumann mô tả vẫn là nền tảng của cơ sở hạ tầng máy tính hiện đại. Và bằng mọi cách, nó đã phục vụ loài người tốt. Nhưng giới hạn của nó đang trở nên rõ ràng khi con người tạo ra dữ liệu ngày càng phức tạp hơn.
Đó là cách họ hy vọng nó sẽ hoạt động, dù sao. “Hạt nhân của dự án Darpa là tìm ra cơ chế nào được trang bị tốt nhất để thực hiện xử lý phân tử,” nói Ceze. “Chúng tôi đang tập trung vào dữ liệu hình ảnh vì đó là loại dữ liệu lớn nhất trên thế giới. Và chúng tôi nghĩ rằng các tính chất buộc cụ thể của ADN khiến nó rất phù hợp cho điều đó. Nhưng chúng tôi sẽ thấy.”
Các nhà nghiên cứu khác đang tận dụng các tính chất vật lý khác nhau của ADN để mã hóa thông tin. Nhóm của Olgica Milenkovic tại Đại học Illinois không sản xuất lượng lớn ADN tổng hợp, mà thay vào đó tạo ra những cắt nhỏ trong ADN của vi khuẩn tự nhiên. Những thay đổi này có thể được đếm, điều này khiến chúng về cơ bản trở thành các toán tử cộng và trừ - một trong những khối xây dựng cho các ngôn ngữ lập trình như Java.
Và ADN không phải là phân tử duy nhất mà Darpa quan tâm. Brenda Rubenstein là một nhà hóa học lý thuyết tại trường đại học Brown, nơi cô đã nghiên cứu về máy tính lượng tử - mã hóa các bit thông tin dưới dạng nguyên tử, ion, photons hoặc electron. Nhưng bây giờ cô đang mở rộng ý tưởng đó sang các hợp chất hữu cơ, cụ thể là những hợp chất có nhiều nơi để kết nối các nhóm R - các phần biến đổi của phân tử, làm cho chúng có các tính chất vật lý và hóa học khác nhau. Chạy các phản ứng khác nhau sẽ thay đổi những nhóm R đó theo cách có thể dự đoán, điều này khiến chúng tốt cho việc tính toán các phương trình đại số tuyến tính cơ bản, Rubenstein nói. “Chúng có rất nhiều tính chất, có khả năng lưu trữ và xử lý thông tin một cách đáng kể,” cô nói. “Tôi nghĩ rằng các phân tử nhỏ gần như là một lựa chọn rõ ràng để mở rộng phạm vi của máy tính.”
Các phân tử, giống như ADN, có thể chứng minh có một số ưu điểm nghiêm túc so với trạng thái in silico hiện đại; chúng có khả năng lưu trữ cao hơn đáng kể, tồn tại lâu hơn và thậm chí có thể xử lý nhiều thông tin đồng thời hơn. Nhưng chúng không phải là vũ khí phép thuật. ADN, giống như mã máy tính, vẫn có thể bị hack. Và khó nhìn thấy là làm thế nào bạn có thể đưa một loại các phản ứng của phân tử nhỏ chật chội dưới nắp của điện thoại thông minh của bạn. Nhưng ít nhất là thú vị khi tưởng tượng rằng sau mấy năm nữa, Bộ Quốc phòng có thể xây dựng các hang ngầm, không phải để trồng trọt máy chủ, mà là để trồng các khay vi nhỏ; bí mật của một quốc gia được giữ trong ADN tạo lạnh.