
Có lẽ bạn chưa bao giờ tò mò về việc một hiệp sĩ làm từ mì sợi sẽ nhìn như thế nào, nhưng đây là câu trả lời—do một chương trình trí tuệ nhân tạo thông minh mới từ OpenAI, một công ty ở San Francisco.
Chương trình có tên DALL-E, được phát hành vào đầu tháng này, có thể tạo ra hình ảnh của mọi thứ kỳ lạ mà không tồn tại, như ghế sofa từ bơ, hình ảnh của robot hươu cao cổ, hoặc củ cải trắng mặc váy tú tú. OpenAI đã tạo ra nhiều hình ảnh, bao gồm cả hiệp sĩ mì sợi, theo yêu cầu của Mytour.
DALL-E là một phiên bản của GPT-3, một mô hình trí tuệ nhân tạo được huấn luyện trên văn bản được thu thập từ web có khả năng tạo ra văn bản khá có logic. DALL-E được đưa vào hình ảnh và mô tả đi kèm; như phản ứng, nó có thể tạo ra một hình ảnh kết hợp khá ổn.

Những kẻ chơi khăm nhanh chóng nhận ra phần hài hước của DALL-E, chẳng hạn như việc nó có thể tưởng tượng ra các loại thức ăn Anh mới. Nhưng DALL-E được xây dựng trên một tiến bộ quan trọng trong thị giác máy tính AI, một tiến bộ có thể có ứng dụng nghiêm túc và thực tế.
Được gọi là CLIP, nó bao gồm một mạng nơ-ron nhân tạo rộng lớn—một thuật toán được truyền cảm hứng bởi cách não bộ học hỏi—được đưa vào hàng trăm triệu hình ảnh và chú thích văn bản đi kèm từ web và được đào tạo để dự đoán các nhãn đúng cho một hình ảnh.
Các nhà nghiên cứu tại OpenAI phát hiện rằng CLIP có thể nhận diện đối tượng với độ chính xác tương đương với các thuật toán được đào tạo theo cách thông thường—sử dụng bộ dữ liệu được sắp xếp cẩn thận, trong đó hình ảnh được phù hợp với các nhãn.
Do đó, CLIP có thể nhận diện nhiều thứ hơn, và nó có thể hiểu được hình dạng của một số đối tượng mà không cần các ví dụ nhiều. CLIP đã giúp DALL-E tạo ra các tác phẩm nghệ thuật của mình, tự động chọn ra những hình ảnh tốt nhất từ những hình ảnh mà nó tạo ra. OpenAI đã phát hành một bài báo mô tả cách CLIP hoạt động cũng như một phiên bản nhỏ của chương trình kết quả. Chưa có bài báo hoặc mã nguồn cho DALL-E được công bố.

Cả DALL-E và CLIP đều là những đều “đặc sắc vô cùng,” theo lời của Karthik Narasimhan, một giáo sư trợ giảng tại Princeton chuyên sâu về thị giác máy tính. Ông nói rằng CLIP xây dựng trên cơ sở công việc trước đó đã cố gắng huấn luyện các mô hình AI lớn bằng cách sử dụng hình ảnh và văn bản đồng thời, nhưng làm điều này ở một quy mô chưa từng có. “CLIP là một minh chứng quy mô lớn về khả năng sử dụng các hình thức giám sát tự nhiên hơn - cách chúng ta nói về những điều,” ông nói.
Ông nói rằng CLIP có thể hữu ích thương mại ở nhiều cách, từ cải thiện nhận dạng hình ảnh được sử dụng trong tìm kiếm web và phân tích video, đến làm cho robot hoặc phương tiện tự động thông minh hơn. CLIP có thể được sử dụng làm điểm xuất phát cho một thuật toán cho phép robot học từ hình ảnh và văn bản, chẳng hạn như sách hướng dẫn, ông nói. Hoặc nó có thể giúp một chiếc xe tự lái nhận ra người đi bộ hoặc cây cỏ trong một môi trường không quen.
Vladimir Haltakov, một kỹ sư làm việc trong lĩnh vực lái xe tự động tại BMW, đã chơi với phiên bản nhỏ của CLIP từ một thời gian. Công ty đã thu thập hình ảnh từ hàng triệu kilômét lái xe tự động, ông nói, nhưng đôi khi khó khăn để tìm một hình ảnh cụ thể có thể giúp đào tạo. Ông nói thuật toán có thể giúp anh tìm kiếm qua dữ liệu bằng cách sử dụng một yêu cầu văn bản. “Có khả năng mô tả những gì bạn đang tìm kiếm có thể rất hữu ích trong quá trình phát triển,” ông nói.
Một số lập trình viên và hacker trí tuệ nhân tạo đã bắt đầu thử nghiệm với CLIP bằng cách sử dụng mã nguồn được OpenAI phát hành. Justin Pinkney, một tư vấn về học sâu và người sáng tạo của Toonify, một ứng dụng sử dụng AI để chuyển đổi ảnh của người thành tranh biếm họa, gọi chương trình là “rất ấn tượng” và “rất linh hoạt.” Ông nói rằng CLIP có thể hữu ích để xây dựng một bộ dữ liệu hình ảnh cho một nhiệm vụ cụ thể, và ông muốn xem liệu nó có thể giúp hướng dẫn các hệ thống AI tạo ra hình ảnh. “Điều đáng kinh ngạc là nó dường như đã học được những điều như các ngôi sao trông như thế nào, những đặc điểm khác nhau của hội họa và nghệ sĩ,” ông nói.

Travis Hoppe, một nhà khoa học quan tâm đến sự giao thoa giữa trí tuệ nhân tạo và nghệ thuật, đã sử dụng CLIP để xây dựng một công cụ tìm hình ảnh kèm theo một đoạn thơ bằng cách sử dụng trang web ảnh Unsplash. Anh ta nói rằng anh ta ước OpenAI cũng sẽ phát hành mã nguồn cho DALL-E, nhưng anh ta thêm, “Tôi có cảm giác họ sẽ không làm.”
Ilya Sutskever, nhà khoa học trưởng tại OpenAI, nói rằng có thể có các ứng dụng thương mại, nhưng hiện tại công ty đang tập trung vào nghiên cứu. OpenAI chưa quyết định liệu họ sẽ phát hành phiên bản đầy đủ của bất kỳ chương trình nào.
Andrei Barbu, một nhà nghiên cứu tại Trung tâm não bộ, tâm hồn và máy móc MIT nghiên cứu về thị giác máy tính và trí tuệ nhân tạo, nghĩ rằng CLIP có thể hữu ích trong môi trường thương mại. Ông nói rằng nó sẽ đặc biệt hữu ích trong những trường hợp nơi việc tạo ra nhiều hình ảnh được đánh dấu cho việc đào tạo là không thực tế.
Barbu cũng làm phiền vì OpenAI vẫn chưa phát hành phiên bản đầy đủ của CLIP, hoặc bất kỳ mã nguồn nào của DALL-E—tiếp tục một xu hướng trong một số phòng thí nghiệm trí tuệ nhân tạo thương mại nổi bật. “Điều này hơi ngượng ngùng từ góc nhìn của các nhà nghiên cứu,” Barbu nói. “Rất nhiều điều tuyệt vời này ra đời, nhưng chúng ta không thể làm bất cứ điều gì với chúng, chúng ta không thể xây dựng bất cứ điều gì trên cơ sở của chúng, cũng như chúng ta thậm chí không thể sao chép chúng.”
Những bài viết Tuyệt vời khác trên Mytour
- 📩 Muốn cập nhật tin tức mới nhất về công nghệ, khoa học và nhiều hơn nữa? Đăng ký nhận bản tin của chúng tôi ngay bây giờ!
- Cơ thể của bạn, chính bạn, bác sĩ của bạn, trang Instagram của ông ta
- Hành trình của tôi để sống sót trong thời gian cách ly—trong những bộ quần áo ấm
- Cách lực lượng chức năng vượt qua mã hóa điện thoại của bạn
- Văn bản được cung cấp sức mạnh bởi trí tuệ nhân tạo từ chương trình này có thể đánh lừa chính phủ
- Sự sụp đổ liên tục của các vỉa hấp thụ nước trên thế giới
- 🎮 Mytour Games: Nhận những mẹo mới nhất, đánh giá và nhiều hơn nữa
- 🏃🏽♀️ Muốn có những công cụ tốt nhất để duy trì sức khỏe? Kiểm tra những lựa chọn của đội ngũ Gear của chúng tôi cho bộ theo dõi sức khỏe tốt nhất, trang thiết bị chạy bộ (bao gồm giày dép và tất), và tai nghe tốt nhất
