OpenAI, nhà sáng lập của , không chỉ dừng lại ở chatbot AI nổi tiếng này mà còn sở hữu nhiều sản phẩm AI tiên tiến khác. DALL-E sáng tạo hình ảnh từ văn bản, Sora tạo video và Whisper nhận diện giọng nói – cùng khám phá những công nghệ độc đáo của OpenAI.
Kể từ khi ra mắt vào tháng 11 năm 2022, đã gây nên một cơn sốt, khởi động cuộc đua công nghệ giữa các ông lớn như Google và Meta trong việc phát triển AI. Mối quan hệ hợp tác 13 tỷ USD với Microsoft đã giúp OpenAI tích hợp GPT-4 vào Copilot và các dịch vụ đám mây Azure AI.
Mặc dù nổi tiếng, OpenAI còn có nhiều sản phẩm AI khác cũng rất đáng chú ý, bao gồm trình tạo video AI Sora vừa được ra mắt. Cùng khám phá thêm về những công nghệ ấn tượng khác mà OpenAI phát triển.
DALL-E: Tạo nghệ thuật từ văn bản với AI
Chỉ vài tháng trước khi ra mắt, OpenAI đã mở cửa cho công cụ tạo nghệ thuật AI DALL-E. Vào tháng 9 năm 2022, DALL-E đã thu hút hơn 1,5 triệu người dùng mỗi ngày. Công cụ này nhanh chóng tạo ra các tác phẩm nghệ thuật sinh động từ văn bản, gây nên một cuộc tranh luận sôi nổi trong cộng đồng nghệ sĩ về tác động của AI đối với ngành sáng tạo.

Từ khi DALL-E ra mắt, OpenAI đã liên tục cải tiến và phát hành các phiên bản mới, bao gồm DALL-E 2 và DALL-E 3. DALL-E 3 hiện tại được cho là hiểu rõ hơn các sắc thái và chi tiết trong yêu cầu của người dùng so với các phiên bản trước đó.
Trình tạo nghệ thuật AI có thể tạo ra những hình ảnh độc đáo, gọi là "generations", từ lời nhắc văn bản chi tiết mà người dùng nhập vào. Bạn có thể mô tả như ví dụ: "cá phi hành gia bơi trong đại dương ngoài không gian, nghệ thuật kỹ thuật số" và yêu cầu phong cách nghệ thuật hoặc thậm chí tham khảo một nghệ sĩ nổi tiếng như Vincent Van Gogh. Công cụ này còn cho phép bạn chỉnh sửa "generations" bằng tín dụng mỗi tháng và tải lên ảnh của riêng mình để tạo hình ảnh.
Whisper: Công cụ chuyển âm và dịch đa ngôn ngữ
Whisper là một mô hình nhận dạng giọng nói tự động, có khả năng chuyển đổi âm thanh thành văn bản và dịch nhiều ngôn ngữ sang tiếng Anh. Mô hình này cũng hỗ trợ phiên âm cho nhiều ngôn ngữ khác nhau.
Theo OpenAI, Whisper đã được huấn luyện trên hơn 680.000 giờ dữ liệu đa ngôn ngữ và đa nhiệm vụ được thu thập từ internet, giúp nó có khả năng xử lý nhiều tình huống khác nhau.

Trên trang sản phẩm của mình, OpenAI đã trình diễn Whisper phiên âm một đoạn âm thanh gần 30 giây, bao gồm văn bản nói nhanh, một đoạn bài hát K-pop, âm thanh tiếng Pháp và một đoạn âm thanh với giọng nói địa phương.
Whisper hiện đã được ứng dụng trong nhiều lĩnh vực, đặc biệt là trong ngành y tế. Tuy nhiên, một báo cáo của Associated Press gần đây chỉ ra rằng công nghệ này có thể gặp phải vấn đề về ảo giác, bao gồm cả các bình luận liên quan đến chủng tộc và lời lẽ bạo lực, điều này có thể gây rủi ro khi sử dụng trong môi trường y tế.
Codex: Biến lời nói thành mã lập trình
Codex là một hệ thống AI có khả năng chuyển ngôn ngữ tự nhiên thành mã lập trình. Theo OpenAI, Codex mạnh nhất khi làm việc với Python, nhưng cũng thành thạo nhiều ngôn ngữ lập trình khác như JavaScript và Swift.

Mô hình này có thể hiểu và thực thi các lệnh đơn giản từ người dùng. OpenAI miêu tả Codex như một "công cụ lập trình đa năng", có thể được sử dụng cho hầu hết các tác vụ lập trình, mặc dù kết quả có thể khác nhau. Codex đã được OpenAI áp dụng thành công trong các nhiệm vụ như chuyển đổi mã, giải thích mã và tái cấu trúc mã.
OpenAI cung cấp một số ví dụ về khả năng của Codex, bao gồm việc sử dụng mô hình để lập trình một trò chơi không gian và điều khiển máy tính qua các lệnh thoại để chỉnh sửa tài liệu Word.