Theo Google, Gemini 1.5 Pro vượt trội so với Gemini 1.0 Pro trên 87% các tiêu chí đánh giá về văn bản, mã nguồn, hình ảnh, âm thanh và video.
Tiếp tục từ thành công của Gemini 1.0 ra mắt vào tháng 12, Google giới thiệu thế hệ tiếp theo - Gemini 1.5 - với cam kết về hiệu năng được cải thiện đáng kể.
Tính năng nổi bật nhất của Gemini 1.5 là 'cửa sổ ngữ cảnh' mở rộng. 'Cửa sổ ngữ cảnh' của một mô hình AI được hình thành từ các token - đơn vị cơ bản để xử lý thông tin. Token có thể là từng từ, một phần của từ, hình ảnh, video, âm thanh hoặc mã nguồn. Một cửa sổ ngữ cảnh lớn hơn cho phép mô hình nhận biết và xử lý nhiều thông tin hơn trong một yêu cầu, giúp kết quả phản hồi trở nên chính xác, liên quan và hữu ích hơn.
Phiên bản Pro của Gemini 1.5, nằm ở phân khúc trung bình của Google, có cửa sổ ngữ cảnh lên tới 128.000 token (so với 32.000 token của Gemini 1.0). Điều này tương đương với hơn 700.000 từ, mã nguồn có hơn 30.000 dòng, 11 giờ âm thanh hoặc 1 giờ video. GPT-4 Turbo cũng có 128.000 token, trong khi Claude 2.1 là 200.000 token.

Những lợi ích của cửa sổ ngữ cảnh lớn có thể thấy qua các ví dụ sau:
Gemini 1.5 Pro có thể phân tích, phân loại và tóm tắt chính xác một lượng lớn nội dung trong một yêu cầu nhất định. Ví dụ, khi được cung cấp 402 trang bản ghi âm từ sứ mệnh Apollo 11 lên mặt trăng, nó có thể suy luận về các cuộc trò chuyện, sự kiện và chi tiết trong toàn bộ tài liệu.
Gemini 1.5 Pro có khả năng hiểu và suy luận phức tạp với các dạng dữ liệu đa phương thức, bao gồm video. Ví dụ, khi được cung cấp một bộ phim câm 44 phút của Buster Keaton, mô hình có thể phân tích chính xác các điểm cốt truyện và sự kiện, thậm chí suy luận về những chi tiết nhỏ trong phim mà người xem dễ bỏ qua.
Gemini 1.5 Pro có thể giải quyết các vấn đề phức tạp hơn trong khối lượng code lớn. Khi được cung cấp một yêu cầu với hơn 100.000 dòng code, nó có thể suy luận dựa trên các ví dụ, đề xuất những thay đổi hữu ích và giải thích cách thức hoạt động của các phần khác nhau trong code.
Những tiến bộ này được đạt được nhờ vào kiến trúc Mixture-of-Experts (MoE) mới, nơi mô hình được 'chia thành các mạng nơ-ron chuyên biệt nhỏ hơn'. Điều này khiến việc huấn luyện và sử dụng Gemini 1.5 trở nên hiệu quả hơn. Tùy thuộc vào loại dữ liệu đầu vào, các mô hình MoE học cách kích hoạt chọn lọc chỉ những nơ-ron 'chuyên biệt' liên quan nhất trong mạng nơ-ron. Sự chuyên môn hóa này giúp nâng cao đáng kể hiệu quả của mô hình.
Về hiệu suất, Gemini 1.5 Pro vượt trội so với Gemini 1.0 Pro trên 87% các tiêu chí đánh giá về văn bản, code, hình ảnh, âm thanh và video. Nó thậm chí 'hoạt động ở mức tương đồng' với Gemini 1.0 Ultra.
Gemini 1.5 Pro cũng cho thấy khả năng 'học tập theo ngữ cảnh' ấn tượng, nghĩa là nó có thể học một kỹ năng mới từ thông tin được cung cấp trong một yêu cầu dài, mà không cần tinh chỉnh thêm.