Tập đoàn Alibaba từ Trung Quốc vừa trình làng một mô hình trí tuệ nhân tạo (AI) mới, được thiết kế để nhận diện cảm xúc của con người thông qua video, với mục tiêu vượt trội so với mô hình mới nhất của OpenAI.
Phòng thí nghiệm Thông Nghĩa (Tongyi) thuộc Alibaba đã công bố mô hình R1-Omni dưới dạng mã nguồn mở vào ngày thứ Ba (11/3). Đây được xem là mô hình ngôn ngữ đa phương thức toàn diện đầu tiên, áp dụng kỹ thuật học tăng cường với phần thưởng có thể xác minh (RLVR) – một công nghệ tiên tiến giúp nâng cao khả năng suy luận và phân tích cảm xúc của AI.
Nhóm nghiên cứu cho biết, họ đã tối ưu hóa mô hình mã nguồn mở HumanOmni 0.5B bằng RLVR, cải thiện đáng kể ba yếu tố chính: khả năng suy luận, độ chính xác trong nhận diện cảm xúc và khả năng tổng quát hóa. Theo báo cáo, R1-Omni có thể hiểu rõ hơn cách thông tin thị giác và thính giác hỗ trợ việc nhận diện cảm xúc, đồng thời xác định yếu tố nào đóng vai trò quan trọng hơn trong việc đánh giá từng loại cảm xúc.

Tập đoàn Alibaba của Trung Quốc vừa giới thiệu mô hình trí tuệ nhân tạo (AI) mới - Ảnh: Bloomberg
Trong các thử nghiệm video, R1-Omni có thể xác định trạng thái cảm xúc của con người thông qua video, đồng thời mô tả trang phục và môi trường xung quanh nhân vật. Điều này đánh dấu một bước đột phá lớn trong lĩnh vực thị giác máy tính.
Công nghệ nhận diện cảm xúc của AI đang trở thành một xu hướng quan trọng trong ngành công nghệ. Công nghệ này thường được áp dụng trong các ứng dụng thực tế, như chatbot hỗ trợ khách hàng hoặc hệ thống giám sát phát hiện dấu hiệu mệt mỏi của tài xế trên xe điện Tesla.
Với việc giới thiệu mô hình R1-Omni, Alibaba đang đẩy mạnh cuộc đua AI và thách thức vị thế của OpenAI. Trong khi OpenAI ra mắt GPT-4.5 với khả năng nhận diện và phản hồi các tín hiệu tinh tế trong câu hỏi của người dùng, với mức giá lên đến 200 USD/tháng, Alibaba lại cung cấp R1-Omni miễn phí hoàn toàn trên nền tảng Hugging Face.
Dù hiện tại R1-Omni chỉ có thể nhận diện các cảm xúc cơ bản như “vui” hay “giận dữ”, nhưng theo CEO Alibaba Ngô Dũng Minh, trí tuệ nhân tạo tổng quát (AGI) là mục tiêu hàng đầu của công ty, và việc phát triển trí tuệ cảm xúc cho AI chính là một bước tiến quan trọng.
