Tính toán
Một câu hỏi về tính toán: 1kg bông gòn và 1lb sắt, cái nào nặng hơn? GPT-4 và Gemini 1.5 Pro đều trả lời chính xác, trong khi Gemini 1.0 Ultra trả lời sai.“Cho hai đa thức G = x^2y – 3xy – 3 và H = 3x^2y + xy – 0,5x + 5
Hãy tính G + H và G – H.”
Đây là một bài toán tính đa thức của học sinh lớp 8. Gemini 1.0 Ultra đã tính toán sai kết quả cho biểu thức “G - H”, trong khi GPT-4 và Gemini 1.5 Pro đều tính toán đúng cả hai biểu thức.
Mẹo
Để kiểm tra khả năng suy luận của Gemini 1.5 Pro so với Gemini 1.0 Ultra và GPT-4, chúng ta có thể dựa vào cấu trúc MoE để xem chúng hoạt động như thế nào.
Câu hỏi là: “Hôm nay tôi có 3 trái táo, hôm qua tôi ăn mất 1 trái, hỏi hôm nay tôi còn bao nhiêu trái táo?”.
Gemini 1.0 Ultra không thể trả lời chính xác câu hỏi này, trong khi Gemini 1.5 Pro và GPT-4 có thể hiểu câu hỏi và trả lời đúng.
“10 chiếc bánh nướng trong 1 lò cần 2 tiếng để chín, vậy 20 chiếc bánh nướng trong lò cần bao nhiêu lâu? Giả sử các yếu tố khác không thay đổi.”
Sáng tác thơ
Bài kiểm tra này mình muốn thử xem khả năng thực hiện theo hướng dẫn của Gemini 1.5 Pro như thế nào. Mình yêu cầu Gemini 1.5 Pro tạo ra một bài thơ lục bát nhưng phải có 5 từ “buồn”, kết quả là không có mô hình nào hoàn thành được yêu cầu này.
Nếu Gemini 1.5 Pro và Gemini 1.0 Ultra có vẻ tuân thủ quy tắc của thơ lục bát khá chính xác, nhưng lại không đáp ứng được yêu cầu về việc sử dụng 5 từ “buồn” trong bài thơ.
Ngược lại với Copilot thì đạt yêu cầu về số lượng từ “buồn” trong bài thơ nhưng bài thơ không phải là dạng lục bát: Trăng lên bên bờ biển, nỗi nhớ lặng lẽ,
Buồn đọng dòng nước, lệ tuôn đầy bờ vai.
Ánh mắt buồn, nghìn thu vắng lặng không nói,
Lời yêu buồn, hương gió thoảng điều gì xa xôi.Đường tình duyên, nhiều khúc quanh đắng cay,
Buồn hận vận mệnh, bước sai lạc mất nhau.
Hai ta yêu thương, gặp trở ngại khó khăn,
Buồn lòng anh, số phận không phai màu.
Bài kiểm tra đa phương thức
Phần Video
Kiểm tra khả năng xử lý hình ảnh, văn bản và video, mình bắt đầu bằng việc thử nghiệm một đoạn video dài 27 phút, tiêu tốn khoảng 430.000 token. Rõ ràng, chỉ có Gemini 1.5 Pro hiện tại có thể thực hiện điều này cho người dùng thông thường.
Video này đề cập đến một người đánh giá xe chia sẻ trải nghiệm với một chiếc xe mới mua. Tóm tắt nội dung khá chi tiết và chính xác về những gì người đó nói trong video. Mình hỏi về công suất xe, màu sắc, cũng như màu áo của người đánh giá, công suất xe là chính xác, còn lại thì đều đúng. Ford Ranger Raptor cũng có một phiên bản sử dụng động cơ V6 3.0L nhưng phiên bản đó không được phân phối tại thị trường Việt Nam.
Ảnh
Về hình ảnh, cả Copilot và Gemini 1.0 Ultra đều hỗ trợ. Mình đưa vào một tấm hình minh họa của một chiếc laptop, và hỏi máy tính đó là gì, Gemini 1.0 Ultra trả lời chính xác là MacBook Pro 14 inch, phiên bản năm 2023.
Gemini 1.5 Pro trả lời ngắn gọn là 'MacBook Pro', nhưng khi hỏi chi tiết về mẫu mã thì lại trả lời sai là 'MacBook Pro 2015-2020'. Copilot thì không đưa ra câu trả lời.
Nhưng không dừng lại ở đó, mình tiếp tục hỏi về nội dung của màn hình MacBook đang hiển thị trong hình là gì, Gemini 1.5 Pro trả lời sai, còn Gemini 1.0 Ultra và Copilot thì chào thua.
Google cũng có một số video và hình ảnh để kiểm tra khả năng xử lý hình ảnh và video, đa phần đều trả lời chính xác nhưng mình muốn thử video và hình ảnh của mình để xem Gemini 1.5 Pro có thể xử lý đến đâu.
Mình thử ghép hai khuôn mặt của CEO NVIDIA và CEO AMD vào một tấm hình, hỏi người đàn ông là ai, Gemini 1.5 Pro xác định đúng, Copilot và Gemini 1.0 Ultra không thể xác định được vì một số lý do nhạy cảm và quyền riêng tư. Mình cũng hỏi thêm về khả năng nhận diện các chi tiết khác trong hình, Gemini 1.5 Pro vẫn làm tốt. Nếu Google không thay đổi chính sách, khi Gemini 1.5 Pro ra mắt cũng sẽ bị vô hiệu hóa khả năng nhận diện người.
Tài liệu
Mình cho Gemini 1.5 Pro đọc qua toàn bộ các câu chuyện về Thập tự chinh trên Wikipedia, sau đó hỏi một chi tiết nhỏ trong toàn bộ tài liệu đó, kết quả là Gemini 1.5 Pro đều trả lời cực kì chính xác, trong khi Gemini 1.0 Ultra không thể đưa ra câu trả lời, còn Copilot bị giới hạn ở 4000 từ.
Thỏa thuận
Qua những thử nghiệm trên, trước mắt có thể thấy Gemini 1.5 đã cải thiện rất nhiều so với Gemini 1.0. Khả năng suy luận của Gemini 1.5 tốt hơn so với bản 1.0, tuy là không phải hoàn hảo. Không rõ phiên bản Ultra sẽ ra sao, nhưng những gì bản Pro đang làm thực sự là rất đáng mong chờ. Con số 1 triệu token cũng cho phép Gemini 1.5 xử lý lượng dữ liệu rất lớn (hình ảnh, video, tài liệu), điều mà hiện tại GPT-4 vẫn chưa thể làm được.
Theo một số thông tin chưa chính thức thì Gemini 1.5 khi ra mắt chính thức thì cũng chỉ giới hạn xử lý độ dài ngữ cảnh ở 128.000 token, tức là nhiều hơn mức 32.000 token hiện tại của Gemini 1.0 Pro, nhưng cũng chỉ ngang với GPT-4 hiện tại. Nên nhớ rằng đây vẫn còn đang là bản Preview, chưa phải phiên bản chính thức cho người dùng cuối. Tuy vậy, các nhà phát triển vẫn hoàn toàn có thể tận dụng khả năng xử lý tối đa 1 triệu token để làm ra các sản phẩm khác phục vụ cho người dùng cuối.