Trí tuệ nhân tạo này Có Thể Chuyển Từ 'Nghệ Thuật' Đến Lái Xe Tự Điều Khiển | MYTOUR

Buzz

Ngày cập nhật gần nhất: 15/5/2026

Nội dung bài viết

Trí Tuệ Nhân Tạo Này Có Thể Chuyển Từ 'Nghệ Thuật' Đến Lái Xe Tự Điều Khiển

Xem thêm

Đọc tóm tắt

- Trí Tuệ Nhân Tạo đã có bước tiến lớn từ việc tạo hình ảnh kỳ quặc đến ứng dụng trong lái xe tự động.
- DALL-E, một phiên bản của GPT-3, đã phát hành các hình ảnh như hiệp sĩ mì ống và ghế sofa bắp cải.
- CLIP, với khả năng nhận diện hình ảnh dựa trên hàng trăm triệu ảnh, cải thiện khả năng sáng tạo của DALL-E. Cả hai công nghệ có tiềm năng ứng dụng rộng rãi trong thương mại và công nghệ tự động hóa.

Trí Tuệ Nhân Tạo Này Có Thể Chuyển Từ 'Nghệ Thuật' Đến Lái Xe Tự Điều Khiển

Chắc chắn bạn chưa bao giờ tò mò về việc một hiệp sĩ làm từ mì ống trông như thế nào, nhưng đây là câu trả lời—do một chương trình trí tuệ nhân tạo thông minh mới từ OpenAI, một công ty tại San Francisco.

The program, DALL-E, released earlier this month, can concoct images of all sorts of weird things that don't exist, like avocado armchairs, robot giraffes, or radishes wearing tutus. OpenAI generated several images, including the spaghetti knight, at MYTOUR’s request.

AdChoices

DALL-E là một phiên bản của GPT-3, một mô hình trí tuệ nhân tạo được đào tạo trên văn bản lấy từ web có khả năng tạo ra văn bản đáng kinh ngạc. DALL-E đã được cung cấp ảnh và mô tả đi kèm; như một phản ứng, nó có thể tạo ra một bức ảnh kết hợp khá ổn.

Những người đùa giỡn nhanh chóng nhận ra phía hài hước của DALL-E, chẳng hạn như việc nó có thể tưởng tượng ra những loại thức ăn Anh mới. Nhưng DALL-E được xây dựng trên một tiến bộ quan trọng trong thị giác máy tính do trí tuệ nhân tạo, một tiến bộ có thể mang lại ứng dụng nghiêm túc và thực tế.

undefined

Được gọi là CLIP, nó bao gồm một mạng nơ-ron nhân tạo rộng lớn—một thuật toán được truyền cảm hứng bởi cách não bộ học—được cung cấp hàng trăm triệu ảnh và chú thích văn bản đi kèm từ web và được đào tạo để dự đoán các nhãn đúng cho một hình ảnh.

Các nhà nghiên cứu tại OpenAI đã phát hiện ra rằng CLIP có thể nhận diện các đối tượng một cách chính xác như các thuật toán được đào tạo theo cách thông thường—sử dụng các bộ dữ liệu được chọn lọc nơi hình ảnh được sắp xếp gọn gàng với các nhãn.

Do đó, CLIP có thể nhận diện nhiều thứ hơn và có thể hiểu được hình dạng của một số thứ mà không cần nhiều ví dụ. CLIP giúp DALL-E tạo ra các tác phẩm nghệ thuật của mình, tự động chọn ra những hình ảnh tốt nhất từ những hình ảnh mà nó tạo ra. OpenAI đã phát hành một bài báo mô tả cách CLIP hoạt động cũng như một phiên bản nhỏ của chương trình kết quả. Hiện vẫn chưa có bài báo hoặc bất kỳ mã nguồn nào cho DALL-E.

Cả DALL-E và CLIP đều khiến Karthik Narasimhan, một giáo sư trợ giảng tại Princeton chuyên sâu về thị giác máy tính, phải thốt lên rằng chúng thực sự ấn tượng. Ông cho biết CLIP xây dựng trên cơ sở công việc trước đó đã cố gắng huấn luyện các mô hình AI lớn bằng cách sử dụng hình ảnh và văn bản đồng thời, nhưng làm điều này ở quy mô chưa từng có. “CLIP là một minh chứng quy mô lớn về việc sử dụng các hình thức giám sát tự nhiên hơn - cách chúng ta nói về những điều,” ông nói.

Ông nói rằng CLIP có thể hữu ích thương mại theo nhiều cách, từ việc cải thiện nhận dạng hình ảnh được sử dụng trong tìm kiếm web và phân tích video, đến việc làm cho robot hoặc phương tiện tự động thông minh hơn. CLIP có thể được sử dụng như điểm khởi đầu cho một thuật toán cho phép robot học từ hình ảnh và văn bản, như là hướng dẫn sử dụng, ông nói. Hoặc nó có thể giúp ô tô tự lái nhận ra người đi bộ hoặc cây cỏ trong một môi trường không quen.

Vladimir Haltakov, một kỹ sư làm việc trong lĩnh vực lái xe tự động tại BMW, đã chơi với phiên bản nhỏ của CLIP trong một thời gian dài. Công ty đã thu thập hình ảnh từ hàng triệu kilômét lái xe tự động, ông nói, nhưng đôi khi khó tìm thấy một hình ảnh cụ thể có thể giúp trong quá trình đào tạo. Ông nói rằng thuật toán có thể giúp ông tìm kiếm qua dữ liệu bằng cách sử dụng một câu hỏi văn bản. “Việc có thể mô tả những gì bạn đang tìm kiếm có thể rất hữu ích trong quá trình phát triển,” ông nói.

Một số lập trình viên và hacker AI đã bắt đầu thử nghiệm với CLIP bằng cách sử dụng mã nguồn được OpenAI phát hành. Justin Pinkney, một tư vấn học sâu và người sáng tạo của Toonify, một ứng dụng sử dụng AI để chuyển đổi ảnh của người thành tranh biếm họa, gọi chương trình là “rất ấn tượng” và “cực kỳ linh hoạt.” Ông nói rằng CLIP có thể hữu ích để xây dựng bộ dữ liệu hình ảnh cho một nhiệm vụ cụ thể, và ông muốn xem xem nó có thể giúp hướng dẫn các hệ thống AI tạo ra hình ảnh. “Khá là đáng kinh ngạc khi nó dường như đã học được những điều như nghệ sĩ nổi tiếng trông như thế nào, những gì đặc trưng cho các phong cách vẽ khác nhau và nghệ sĩ,” ông nói.

Travis Hoppe, một nhà khoa học quan tâm đến sự giao thoa giữa AI và nghệ thuật, đã sử dụng CLIP để xây dựng một công cụ tìm kiếm hình ảnh để đi kèm với một đoạn thơ bằng cách sử dụng trang web hình ảnh Unsplash. Anh ta nói rằng anh ấy mong muốn OpenAI cũng phát hành mã nguồn cho DALL-E, nhưng anh ấy thêm, “Tôi có cảm giác họ sẽ không làm điều đó.”

Ilya Sutskever, nhà khoa học trưởng tại OpenAI, nói rằng có thể có các ứng dụng thương mại, nhưng hiện tại công ty đang tập trung vào nghiên cứu. OpenAI chưa quyết định liệu họ sẽ phát hành phiên bản đầy đủ của bất kỳ chương trình nào.

Andrei Barbu, một nhà nghiên cứu tại Trung tâm Về Não, Tâm Trí và Máy Móc của MIT nghiên cứu về thị giác máy tính và AI, cho rằng CLIP có thể hữu ích trong các bối cảnh thương mại. Ông nói rằng nó sẽ đặc biệt hữu ích cho những trường hợp nơi việc tạo ra nhiều hình ảnh được gán nhãn để đào tạo là không thực tế.

Barbu cũng nói khó chịu vì OpenAI chưa phát hành phiên bản đầy đủ của CLIP, hoặc bất kỳ mã nguồn nào của DALL-E - tiếp tục xu hướng này giữa một số phòng thí nghiệm AI thương mại nổi bật. “Nó hơi lạc quan từ góc nhìn của các nhà nghiên cứu,” Barbu nói. “Nhiều điều tuyệt vời đến, nhưng không ai trong chúng ta thực sự có thể làm gì đó với chúng, không ai trong chúng ta có thể xây dựng bất cứ điều gì trên cơ sở của chúng, hoặc thậm chí là tái tạo chúng.”

Những điều tuyệt vời hơn từ MYTOUR

📩 Want the latest on tech, science, and more? Sign up for our newsletters!
Your body, your self, your surgeon, his Instagram
My quest to survive quarantine—in heated clothes
How law enforcement gets around your phone's encryption
AI-powered text from this program could fool the government
The ongoing collapse of the world's aquifers
🎮 MYTOUR Games: Get the latest tips, reviews, and more
🏃🏽‍♀️ Want the best tools to get healthy? Check out our Gear team’s picks for the best fitness trackers, running gear (including shoes and socks), and best headphones

Các câu hỏi thường gặp

DALL-E có thể tạo ra những loại hình ảnh nào không tồn tại không?

Có, DALL-E có khả năng tạo ra những hình ảnh độc đáo và kỳ quặc như hiệp sĩ bằng mì ống, ghế bành hình quả bơ và nhiều hình ảnh khác không có thực.

CLIP giúp DALL-E tạo ra hình ảnh như thế nào?

CLIP cung cấp cho DALL-E khả năng nhận diện và lựa chọn những hình ảnh tốt nhất từ hàng triệu hình ảnh, dựa trên các mô tả văn bản mà nó được đào tạo.

Có những ứng dụng thương mại nào của CLIP trong thực tế không?

Có, CLIP có thể cải thiện nhận diện hình ảnh trong tìm kiếm web và phân tích video, cũng như giúp các robot và xe tự lái hoạt động hiệu quả hơn.

OpenAI có kế hoạch phát hành mã nguồn cho DALL-E không?

Hiện tại, OpenAI chưa có quyết định cụ thể về việc phát hành mã nguồn cho DALL-E, mặc dù nhiều nhà nghiên cứu mong muốn có cơ hội trải nghiệm chương trình này.

CLIP có thể sử dụng để tạo bộ dữ liệu hình ảnh cho nhiệm vụ cụ thể không?

Có, CLIP có thể hỗ trợ trong việc xây dựng bộ dữ liệu hình ảnh cho các nhiệm vụ cụ thể, cho phép người dùng tìm kiếm hình ảnh thông qua mô tả văn bản.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]