Gemini Omni chính thức được Google công bố tại sự kiện Google I/O 2026.Tại Google I/O 2026, Google giới thiệu Gemini Omni – một mô hình AI ‘world model’ hoàn toàn mới, được xem là bước tiến quan trọng trong mục tiêu phát triển AGI (trí tuệ nhân tạo tổng quát). Khác với các công cụ tạo video AI thông thường, Gemini Omni không chỉ dừng ở việc tạo nội dung mà còn có khả năng suy luận, hiểu bối cảnh và tương tác đa phương thức theo thời gian thực.
Phiên bản mở đầu của dòng mô hình này mang tên Gemini Omni Flash, hiện đã được triển khai trên ứng dụng Gemini, Google Flow và YouTube Shorts.
Gemini Omni: AI có khả năng tạo video từ mọi dạng đầu vào
Google mô tả Gemini Omni là mô hình có thể “tạo ra mọi thứ từ mọi loại dữ liệu đầu vào”. Người dùng có thể kết hợp văn bản, hình ảnh, video và âm thanh để tạo video hoàn chỉnh bằng AI, đồng thời tận dụng khả năng hiểu ngữ cảnh thực tế trong hệ sinh thái Gemini.

Điểm khác biệt quan trọng của Omni so với các công cụ text-to-video hiện nay nằm ở khả năng đa phương thức ở cả đầu vào lẫn đầu ra. AI không chỉ tạo video từ prompt văn bản mà còn có thể khai thác hình ảnh, chuyển động, giọng nói hoặc video tham chiếu để tạo ra nội dung mới mượt mà và giàu tính tương tác hơn.

Theo CEO DeepMind Demis Hassabis, đây được xem là một bước tiến đáng chú ý, đưa AI tiến gần hơn tới khả năng “hiểu thế giới” thay vì chỉ dừng lại ở việc tạo nội dung dựa trên xác suất như các hệ thống trước đây.
Gemini Omni Flash: Chỉnh sửa video bằng hội thoại AI
Gemini Omni Flash được Google định hướng như một mô hình AI video thế hệ mới, cho phép người dùng chỉnh sửa video trực tiếp bằng ngôn ngữ tự nhiên. Chỉ cần mô tả yêu cầu qua hội thoại, AI có thể thay đổi bối cảnh, góc quay, phong cách hình ảnh hoặc thậm chí biến đổi toàn bộ hành vi trong video.

Google cho biết Omni có khả năng duy trì sự nhất quán xuyên suốt giữa các khung hình, nhân vật và các chuyển động vật lý, giúp tạo ra những video tự nhiên và mượt mà hơn rõ rệt.
Một điểm nổi bật đáng chú ý là khả năng mô phỏng vật lý được nâng cao độ chính xác. Omni được huấn luyện để nắm bắt các hiện tượng như trọng lực, động năng hay chất lỏng, từ đó tạo ra video có độ chân thực cao hơn so với nhiều mô hình AI hiện tại.

Bên cạnh việc dựng video, Gemini Omni Flash còn có thể tạo ra các nội dung như video giải thích khoa học, hoạt hình stop-motion, video mang phong cách điện ảnh, hoặc chuyển đổi bản vẽ thành cảnh quay thực tế chỉ từ những mô tả ngắn gọn.
Hỗ trợ tạo avatar AI cá nhân và gắn watermark SynthID
Google cũng giới thiệu tính năng Avatars, cho phép người dùng tạo bản sao kỹ thuật số của chính mình để sản xuất video bằng AI với giọng nói và ngoại hình giống người thật. Tuy nhiên, tính năng này hiện vẫn đang trong giai đoạn thử nghiệm nhằm đảm bảo tiêu chuẩn an toàn và hạn chế nguy cơ lạm dụng.

Toàn bộ video được tạo bởi Gemini Omni sẽ được gắn watermark kỹ thuật số SynthID để hỗ trợ nhận diện nội dung do AI tạo ra. Hiện Gemini Omni Flash đã được triển khai cho người dùng thuộc các gói Google AI Plus, Pro và Ultra. Trong thời gian tới, mô hình này cũng sẽ được cung cấp miễn phí trên YouTube Shorts và ứng dụng YouTube Create.
Bạn đánh giá như thế nào về sản phẩm mới vừa ra mắt của Google?
Mời bạn khám phá các mẫu smartphone tích hợp AI đang được phân phối tại Mytour với nhiều chương trình ưu đãi hấp dẫn, hãy nhấn vào nút màu cam bên dưới để xem thông tin chi tiết nhé!
Theo Android Headlines
