Mình đã thử nghiệm Gemini 1.5 Pro và so sánh với Copilot, Gemini 1.0 Ultra.

Buzz

Ngày cập nhật gần nhất: 15/6/2026

Nội dung bài viết

Tính toán

Mẹo

Sáng tác thơ

Bài kiểm tra đa phương thức

Phần Video

Ảnh

Tài liệu

Thỏa thuận

Xem thêm

Đọc tóm tắt

- Google Gemini 1.5 Pro là phiên bản mạnh mẽ hơn Gemini 1.0 Ultra, có khả năng xử lý ngữ cảnh lên đến 1 triệu token và tối ưu cho mô hình đa phương thức.
- Gemini 1.5 Pro vượt trội hơn với khả năng suy luận và tính toán đa thức so với GPT-4 và Gemini 1.0 Ultra.
- Mô hình MoE giúp kiểm tra khả năng suy luận của Gemini 1.5 Pro.
- Gemini 1.5 Pro có khả năng xử lý video dài, hình ảnh và tài liệu một cách chính xác.
- Gemini 1.5 Pro còn cải thiện khả năng nhận diện và trả lời câu hỏi từ tài liệu Wikipedia.
- Gemini 1.5 Pro đang trong giai đoạn Preview, nhưng hứa hẹn mang lại nhiều tiềm năng cho người dùng cuối khi ra mắt chính thức.

Google Gemini 1.5 Pro là phiên bản mạnh mẽ hơn cả Gemini 1.0 Ultra đang có trên Gemini Advanced, mà người dùng phổ thông phải trả 20 USD/tháng để sử dụng. Một trong những điểm đặc biệt của Gemini 1.5 Pro so với các phiên bản trước đó của Google là khả năng xử lý ngữ cảnh lên đến 1 triệu token, Gemini 1.5 cũng tối ưu cho các mô hình đa phương thức (multimodal LLM). Sau thời gian chờ đợi, mình đã được trải nghiệm trước Gemini 1.5 Pro (bản Preview) và thử nghiệm một số khả năng của nó so với Gemini 1.0 Ultra hiện tại cũng như so sánh với GPT-4 đang có mặt trên Copilot của Microsoft.Có thể nói con số 1 triệu token là rất lớn, vì vậy nó có thể xử lý những đoạn video dài, những bản tài liệu vài ngàn trang, những dòng code vài triệu dòng… so với GPT-4 hiện tại chỉ là 128.000 token hay Gemini 1.0 Pro là 32.000 toekn, khả năng của Gemini 1.5 Pro vượt trội hơn nhiều, cụ thể như thế nào thì mình chia sẻ một số bài thử của mình về khả năng suy luận/suy luận sâu để đưa ra đáp án, bài test NIAH, bài test multimodal cả hình ảnh, video lẫn tài liệu…

Tính toán

Một câu hỏi về tính toán: 1kg bông gòn và 1lb sắt, cái nào nặng hơn? GPT-4 và Gemini 1.5 Pro đều trả lời chính xác, trong khi Gemini 1.0 Ultra trả lời sai.“Cho hai đa thức G = x^2y – 3xy – 3 và H = 3x^2y + xy – 0,5x + 5
Hãy tính G + H và G – H.”

Đây là một bài toán tính đa thức của học sinh lớp 8. Gemini 1.0 Ultra đã tính toán sai kết quả cho biểu thức “G - H”, trong khi GPT-4 và Gemini 1.5 Pro đều tính toán đúng cả hai biểu thức.

Mẹo

Để kiểm tra khả năng suy luận của Gemini 1.5 Pro so với Gemini 1.0 Ultra và GPT-4, chúng ta có thể dựa vào cấu trúc MoE để xem chúng hoạt động như thế nào.

Câu hỏi là: “Hôm nay tôi có 3 trái táo, hôm qua tôi ăn mất 1 trái, hỏi hôm nay tôi còn bao nhiêu trái táo?”.

Gemini 1.0 Ultra không thể trả lời chính xác câu hỏi này, trong khi Gemini 1.5 Pro và GPT-4 có thể hiểu câu hỏi và trả lời đúng.

“10 chiếc bánh nướng trong 1 lò cần 2 tiếng để chín, vậy 20 chiếc bánh nướng trong lò cần bao nhiêu lâu? Giả sử các yếu tố khác không thay đổi.”

Sáng tác thơ

Bài kiểm tra này mình muốn thử xem khả năng thực hiện theo hướng dẫn của Gemini 1.5 Pro như thế nào. Mình yêu cầu Gemini 1.5 Pro tạo ra một bài thơ lục bát nhưng phải có 5 từ “buồn”, kết quả là không có mô hình nào hoàn thành được yêu cầu này.

Nếu Gemini 1.5 Pro và Gemini 1.0 Ultra có vẻ tuân thủ quy tắc của thơ lục bát khá chính xác, nhưng lại không đáp ứng được yêu cầu về việc sử dụng 5 từ “buồn” trong bài thơ.

Ngược lại với Copilot thì đạt yêu cầu về số lượng từ “buồn” trong bài thơ nhưng bài thơ không phải là dạng lục bát: Trăng lên bên bờ biển, nỗi nhớ lặng lẽ,
Buồn đọng dòng nước, lệ tuôn đầy bờ vai.
Ánh mắt buồn, nghìn thu vắng lặng không nói,
Lời yêu buồn, hương gió thoảng điều gì xa xôi.Đường tình duyên, nhiều khúc quanh đắng cay,
Buồn hận vận mệnh, bước sai lạc mất nhau.
Hai ta yêu thương, gặp trở ngại khó khăn,
Buồn lòng anh, số phận không phai màu.

Bài kiểm tra đa phương thức

Phần Video

Kiểm tra khả năng xử lý hình ảnh, văn bản và video, mình bắt đầu bằng việc thử nghiệm một đoạn video dài 27 phút, tiêu tốn khoảng 430.000 token. Rõ ràng, chỉ có Gemini 1.5 Pro hiện tại có thể thực hiện điều này cho người dùng thông thường.

Video này đề cập đến một người đánh giá xe chia sẻ trải nghiệm với một chiếc xe mới mua. Tóm tắt nội dung khá chi tiết và chính xác về những gì người đó nói trong video. Mình hỏi về công suất xe, màu sắc, cũng như màu áo của người đánh giá, công suất xe là chính xác, còn lại thì đều đúng. Ford Ranger Raptor cũng có một phiên bản sử dụng động cơ V6 3.0L nhưng phiên bản đó không được phân phối tại thị trường Việt Nam.

Ảnh

Về hình ảnh, cả Copilot và Gemini 1.0 Ultra đều hỗ trợ. Mình đưa vào một tấm hình minh họa của một chiếc laptop, và hỏi máy tính đó là gì, Gemini 1.0 Ultra trả lời chính xác là MacBook Pro 14 inch, phiên bản năm 2023.

Gemini 1.5 Pro trả lời ngắn gọn là 'MacBook Pro', nhưng khi hỏi chi tiết về mẫu mã thì lại trả lời sai là 'MacBook Pro 2015-2020'. Copilot thì không đưa ra câu trả lời.

Nhưng không dừng lại ở đó, mình tiếp tục hỏi về nội dung của màn hình MacBook đang hiển thị trong hình là gì, Gemini 1.5 Pro trả lời sai, còn Gemini 1.0 Ultra và Copilot thì chào thua.

Google cũng có một số video và hình ảnh để kiểm tra khả năng xử lý hình ảnh và video, đa phần đều trả lời chính xác nhưng mình muốn thử video và hình ảnh của mình để xem Gemini 1.5 Pro có thể xử lý đến đâu.

Mình thử ghép hai khuôn mặt của CEO NVIDIA và CEO AMD vào một tấm hình, hỏi người đàn ông là ai, Gemini 1.5 Pro xác định đúng, Copilot và Gemini 1.0 Ultra không thể xác định được vì một số lý do nhạy cảm và quyền riêng tư. Mình cũng hỏi thêm về khả năng nhận diện các chi tiết khác trong hình, Gemini 1.5 Pro vẫn làm tốt. Nếu Google không thay đổi chính sách, khi Gemini 1.5 Pro ra mắt cũng sẽ bị vô hiệu hóa khả năng nhận diện người.

Tài liệu

Mình cho Gemini 1.5 Pro đọc qua toàn bộ các câu chuyện về Thập tự chinh trên Wikipedia, sau đó hỏi một chi tiết nhỏ trong toàn bộ tài liệu đó, kết quả là Gemini 1.5 Pro đều trả lời cực kì chính xác, trong khi Gemini 1.0 Ultra không thể đưa ra câu trả lời, còn Copilot bị giới hạn ở 4000 từ.

Thỏa thuận

Qua những thử nghiệm trên, trước mắt có thể thấy Gemini 1.5 đã cải thiện rất nhiều so với Gemini 1.0. Khả năng suy luận của Gemini 1.5 tốt hơn so với bản 1.0, tuy là không phải hoàn hảo. Không rõ phiên bản Ultra sẽ ra sao, nhưng những gì bản Pro đang làm thực sự là rất đáng mong chờ. Con số 1 triệu token cũng cho phép Gemini 1.5 xử lý lượng dữ liệu rất lớn (hình ảnh, video, tài liệu), điều mà hiện tại GPT-4 vẫn chưa thể làm được.

Theo một số thông tin chưa chính thức thì Gemini 1.5 khi ra mắt chính thức thì cũng chỉ giới hạn xử lý độ dài ngữ cảnh ở 128.000 token, tức là nhiều hơn mức 32.000 token hiện tại của Gemini 1.0 Pro, nhưng cũng chỉ ngang với GPT-4 hiện tại. Nên nhớ rằng đây vẫn còn đang là bản Preview, chưa phải phiên bản chính thức cho người dùng cuối. Tuy vậy, các nhà phát triển vẫn hoàn toàn có thể tận dụng khả năng xử lý tối đa 1 triệu token để làm ra các sản phẩm khác phục vụ cho người dùng cuối.

Các câu hỏi thường gặp

Gemini 1.5 Pro có khả năng xử lý ngữ cảnh bao nhiêu token?

Gemini 1.5 Pro có khả năng xử lý lên đến 1 triệu token, một con số vượt trội so với các phiên bản trước, cho phép xử lý tài liệu, video và dữ liệu lớn hiệu quả.

Gemini 1.5 Pro so với GPT-4 có gì khác biệt về khả năng xử lý dữ liệu?

Gemini 1.5 Pro có khả năng xử lý lượng dữ liệu lớn như video và tài liệu, vượt trội hơn GPT-4 với 1 triệu token so với chỉ 128.000 token của GPT-4.

Đâu là điểm khác biệt giữa Gemini 1.5 Pro và Gemini 1.0 Ultra về khả năng tính toán?

Gemini 1.5 Pro xử lý các bài toán tính toán chính xác, trong khi Gemini 1.0 Ultra gặp lỗi với các bài toán phức tạp như tính toán đa thức, điều mà Gemini 1.5 Pro thực hiện tốt hơn.

Gemini 1.5 Pro có thể xử lý video dài bao nhiêu phút?

Gemini 1.5 Pro có thể xử lý video dài đến 27 phút, tiêu tốn khoảng 430.000 token, điều này cho phép xử lý video với độ dài lớn mà các phiên bản khác không làm được.

Khả năng nhận diện hình ảnh của Gemini 1.5 Pro có ưu điểm gì so với phiên bản trước?

Gemini 1.5 Pro có khả năng nhận diện hình ảnh tốt, như xác định đúng mẫu MacBook Pro, vượt trội so với Gemini 1.0 Ultra và Copilot trong việc nhận diện các chi tiết hình ảnh.

Gemini 1.5 Pro có khả năng xử lý dữ liệu đa phương thức như thế nào?

Gemini 1.5 Pro hỗ trợ xử lý đa phương thức, bao gồm hình ảnh, video và tài liệu, giúp giải quyết các bài kiểm tra multimodal hiệu quả hơn so với Gemini 1.0 Ultra và GPT-4.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]