Trí Tuệ Nhân Tạo Này Có Thể Chuyển Từ 'Nghệ Thuật' Đến Lái Xe Tự Điều Khiển

Chắc chắn bạn chưa bao giờ tò mò về việc một hiệp sĩ làm từ mì ống trông như thế nào, nhưng đây là câu trả lời—do một chương trình trí tuệ nhân tạo thông minh mới từ OpenAI, một công ty tại San Francisco.
The program, DALL-E, released earlier this month, can concoct images of all sorts of weird things that don't exist, like avocado armchairs, robot giraffes, or radishes wearing tutus. OpenAI generated several images, including the spaghetti knight, at MYTOUR’s request.
DALL-E là một phiên bản của GPT-3, một mô hình trí tuệ nhân tạo được đào tạo trên văn bản lấy từ web có khả năng tạo ra văn bản đáng kinh ngạc. DALL-E đã được cung cấp ảnh và mô tả đi kèm; như một phản ứng, nó có thể tạo ra một bức ảnh kết hợp khá ổn.
Những người đùa giỡn nhanh chóng nhận ra phía hài hước của DALL-E, chẳng hạn như việc nó có thể tưởng tượng ra những loại thức ăn Anh mới. Nhưng DALL-E được xây dựng trên một tiến bộ quan trọng trong thị giác máy tính do trí tuệ nhân tạo, một tiến bộ có thể mang lại ứng dụng nghiêm túc và thực tế.
Được gọi là CLIP, nó bao gồm một mạng nơ-ron nhân tạo rộng lớn—một thuật toán được truyền cảm hứng bởi cách não bộ học—được cung cấp hàng trăm triệu ảnh và chú thích văn bản đi kèm từ web và được đào tạo để dự đoán các nhãn đúng cho một hình ảnh.
Các nhà nghiên cứu tại OpenAI đã phát hiện ra rằng CLIP có thể nhận diện các đối tượng một cách chính xác như các thuật toán được đào tạo theo cách thông thường—sử dụng các bộ dữ liệu được chọn lọc nơi hình ảnh được sắp xếp gọn gàng với các nhãn.
Do đó, CLIP có thể nhận diện nhiều thứ hơn và có thể hiểu được hình dạng của một số thứ mà không cần nhiều ví dụ. CLIP giúp DALL-E tạo ra các tác phẩm nghệ thuật của mình, tự động chọn ra những hình ảnh tốt nhất từ những hình ảnh mà nó tạo ra. OpenAI đã phát hành một bài báo mô tả cách CLIP hoạt động cũng như một phiên bản nhỏ của chương trình kết quả. Hiện vẫn chưa có bài báo hoặc bất kỳ mã nguồn nào cho DALL-E.

Cả DALL-E và CLIP đều khiến Karthik Narasimhan, một giáo sư trợ giảng tại Princeton chuyên sâu về thị giác máy tính, phải thốt lên rằng chúng thực sự ấn tượng. Ông cho biết CLIP xây dựng trên cơ sở công việc trước đó đã cố gắng huấn luyện các mô hình AI lớn bằng cách sử dụng hình ảnh và văn bản đồng thời, nhưng làm điều này ở quy mô chưa từng có. “CLIP là một minh chứng quy mô lớn về việc sử dụng các hình thức giám sát tự nhiên hơn - cách chúng ta nói về những điều,” ông nói.
Ông nói rằng CLIP có thể hữu ích thương mại theo nhiều cách, từ việc cải thiện nhận dạng hình ảnh được sử dụng trong tìm kiếm web và phân tích video, đến việc làm cho robot hoặc phương tiện tự động thông minh hơn. CLIP có thể được sử dụng như điểm khởi đầu cho một thuật toán cho phép robot học từ hình ảnh và văn bản, như là hướng dẫn sử dụng, ông nói. Hoặc nó có thể giúp ô tô tự lái nhận ra người đi bộ hoặc cây cỏ trong một môi trường không quen.
Vladimir Haltakov, một kỹ sư làm việc trong lĩnh vực lái xe tự động tại BMW, đã chơi với phiên bản nhỏ của CLIP trong một thời gian dài. Công ty đã thu thập hình ảnh từ hàng triệu kilômét lái xe tự động, ông nói, nhưng đôi khi khó tìm thấy một hình ảnh cụ thể có thể giúp trong quá trình đào tạo. Ông nói rằng thuật toán có thể giúp ông tìm kiếm qua dữ liệu bằng cách sử dụng một câu hỏi văn bản. “Việc có thể mô tả những gì bạn đang tìm kiếm có thể rất hữu ích trong quá trình phát triển,” ông nói.
Một số lập trình viên và hacker AI đã bắt đầu thử nghiệm với CLIP bằng cách sử dụng mã nguồn được OpenAI phát hành. Justin Pinkney, một tư vấn học sâu và người sáng tạo của Toonify, một ứng dụng sử dụng AI để chuyển đổi ảnh của người thành tranh biếm họa, gọi chương trình là “rất ấn tượng” và “cực kỳ linh hoạt.” Ông nói rằng CLIP có thể hữu ích để xây dựng bộ dữ liệu hình ảnh cho một nhiệm vụ cụ thể, và ông muốn xem xem nó có thể giúp hướng dẫn các hệ thống AI tạo ra hình ảnh. “Khá là đáng kinh ngạc khi nó dường như đã học được những điều như nghệ sĩ nổi tiếng trông như thế nào, những gì đặc trưng cho các phong cách vẽ khác nhau và nghệ sĩ,” ông nói.
Travis Hoppe, một nhà khoa học quan tâm đến sự giao thoa giữa AI và nghệ thuật, đã sử dụng CLIP để xây dựng một công cụ tìm kiếm hình ảnh để đi kèm với một đoạn thơ bằng cách sử dụng trang web hình ảnh Unsplash. Anh ta nói rằng anh ấy mong muốn OpenAI cũng phát hành mã nguồn cho DALL-E, nhưng anh ấy thêm, “Tôi có cảm giác họ sẽ không làm điều đó.”
Ilya Sutskever, nhà khoa học trưởng tại OpenAI, nói rằng có thể có các ứng dụng thương mại, nhưng hiện tại công ty đang tập trung vào nghiên cứu. OpenAI chưa quyết định liệu họ sẽ phát hành phiên bản đầy đủ của bất kỳ chương trình nào.
Andrei Barbu, một nhà nghiên cứu tại Trung tâm Về Não, Tâm Trí và Máy Móc của MIT nghiên cứu về thị giác máy tính và AI, cho rằng CLIP có thể hữu ích trong các bối cảnh thương mại. Ông nói rằng nó sẽ đặc biệt hữu ích cho những trường hợp nơi việc tạo ra nhiều hình ảnh được gán nhãn để đào tạo là không thực tế.
Barbu cũng nói khó chịu vì OpenAI chưa phát hành phiên bản đầy đủ của CLIP, hoặc bất kỳ mã nguồn nào của DALL-E - tiếp tục xu hướng này giữa một số phòng thí nghiệm AI thương mại nổi bật. “Nó hơi lạc quan từ góc nhìn của các nhà nghiên cứu,” Barbu nói. “Nhiều điều tuyệt vời đến, nhưng không ai trong chúng ta thực sự có thể làm gì đó với chúng, không ai trong chúng ta có thể xây dựng bất cứ điều gì trên cơ sở của chúng, hoặc thậm chí là tái tạo chúng.”
- 📩 Want the latest on tech, science, and more? Sign up for our newsletters!
- Your body, your self, your surgeon, his Instagram
- My quest to survive quarantine—in heated clothes
- How law enforcement gets around your phone's encryption
- AI-powered text from this program could fool the government
- The ongoing collapse of the world's aquifers
- 🎮 MYTOUR Games: Get the latest tips, reviews, and more
- 🏃🏽♀️ Want the best tools to get healthy? Check out our Gear team’s picks for the best fitness trackers, running gear (including shoes and socks), and best headphones
