Kỹ năng phân tích hình ảnh
Trước tiên, mình thử sử dụng một bức ảnh chụp bằng điện thoại, sau đó yêu cầu ChatGPT phân tích xem hình ảnh đó hiển thị gì. Kết quả là GPT-4o phân tích rất chính xác, đặc biệt là tốc độ tạo câu trả lời của GPT-4o nhanh hơn nhiều so với GPT-4, điều này rất quan trọng đối với người dùng.
Tiếp theo, mình thử với một bức ảnh khác về chip Intel Lunar Lake, GPT-4o có thể đọc nội dung trong buổi thuyết trình của CEO Intel Pat Gelsinger một cách rõ ràng, và tất nhiên là vẫn rất nhanh chóng.
Mình tiếp tục chia sẻ hình ảnh roadmap dưới dạng biểu đồ Gantt, mặc dù chất lượng không hoàn hảo, nhưng GPT-4o vẫn đưa ra tổng kết chính xác, rõ ràng và chi tiết. Mình thử sử dụng Gemini 1.5 Pro và Google AI, kết quả chỉ ra rằng GPT-4o vẫn giữ vững vị trí hàng đầu về chi tiết và độ chính xác.
Tiếp theo là một bảng khác, với chữ viết không rõ ràng và có watermark, tuy nhiên, GPT-4o vẫn có khả năng đọc và cung cấp một bảng tóm tắt chi tiết. Đây là một minh chứng cho khả năng vượt trội của GPT-4o trong việc hiểu và phân tích nội dung.
Bên trái là GPT-4, bên phải là GPT-4o.
Mình thử tiếp tục với một bức ảnh chứa người, vật thể, và khung cảnh, GPT-4 đã mô tả khá chi tiết, tuy nhiên, GPT-4o vượt trội hơn khi mô tả chi tiết hơn nữa. GPT-4o có khả năng nhận biết người trong ảnh đang đeo kính, người khác đang thư giãn hoặc sử dụng điện thoại. Đồng thời, GPT-4o cũng nhận diện được dòng chữ trên bảng hiệu phía trên và khung cảnh xung quanh với độ chính xác đáng kinh ngạc. Điều quan trọng là GPT-4o vẫn giữ vững tốc độ phản ứng nhanh hơn so với GPT-4.
Khả năng đọc tài liệu
Mình đưa vào GPT-4o một tệp pdf có 90 trang chứa danh sách 6447 tên và thông tin cá nhân. Mình yêu cầu GPT-4o lọc ra chính xác tên mà mình cần tìm, và GPT-4o thực hiện nhiệm vụ này một cách nhanh chóng và hiệu quả.
Việc tìm kiếm tên trong danh sách không phải là một thách thức lớn với GPT-4o. Tuy nhiên, khi mình hỏi về tổng số tên có trong danh sách và sắp xếp theo số thứ tự, GPT-4o không đưa ra câu trả lời chính xác.
Khi chuyển danh sách này sang Gemini 1.5 Pro, cần khoảng 320K tokens, và thời gian để sinh câu trả lời mất nhiều hơn so với GPT-4o, nhưng kết quả lại là chính xác. Tuy nhiên, câu hỏi của mình đối với Gemini 1.5 Pro là có bao nhiêu MSSV trong danh sách, Gemini 1.5 Pro trả lời đúng, trong khi GPT-4o trả lời sai.
Khả năng phân tích, tổng hợp video
Nếu đã trả lời được, GPT-4o thực hiện tốt, cung cấp thông tin cụ thể và chi tiết, tương tự như cách Gemini hoạt động. Gemini của Google cũng có khả năng tóm tắt nội dung video trên YouTube. Hiện tại, đánh giá của mình về Gemini và GPT-4o là khá tích cực, trong khi Copilot Pro sau mấy lần thử vẫn cho kết quả sai.
Khả năng phân tích video
Mình thử nhập một đường link video từ YouTube và yêu cầu GPT-4o tóm tắt nội dung cho mình. Kết quả là phiên bản GPT-4o trên macOS không hoạt động, trong khi trên ứng dụng điện thoại (Android) và trình duyệt web thì lại hoạt động bình thường. Mình vẫn chưa rõ nguyên nhân lỗi là gì.
Nếu câu hỏi đã được trả lời, GPT-4o thực hiện nhiệm vụ rất tốt, cung cấp thông tin cụ thể và chi tiết, tương tự như cách Gemini hoạt động. Gemini của Google cũng có khả năng tóm tắt nội dung video từ YouTube. Hiện tại, dường như Gemini và GPT-4o đều làm điều này khá tốt, trong khi Copilot Pro sau mấy lần thử vẫn đưa ra đáp án không chính xác.
Lần này mình thử thách GPT-4o bằng cách tải lên một video tự quay bằng điện thoại để xem nó có thể tổng hợp thông tin hay không. Tuy nhiên, GPT-4o chỉ cho phép người dùng tải lên video có kích thước tối đa là 512MB. Kết quả là GPT-4o không thể tổng hợp video mà mình đã tải lên, dù là trên trình duyệt web hay ứng dụng.
Chỉ duy nhất Gemini 1.5 Pro mới có thể thực hiện điều này. Một video dài 55 giây đã tiêu tốn hết khoảng 337k tokens. Gemini có khả năng phân tích chính xác nội dung của video, thậm chí khi mình hỏi xem chi tiết nào có trong video thì Gemini 1.5 Pro vẫn đưa ra câu trả lời chính xác.
Thử làm thơ
Phần trên được tạo bởi GPT-4o, phần dưới là của GPT-4.
Trước đây, mình đã thử nhờ GPT-4 viết thơ lục bát nhưng không đạt được kết quả như ý muốn. Nay, mình thử lại với GPT-4o và kết quả là nó đã tạo ra đúng cấu trúc thơ lục bát. Tuy nhiên, ý nghĩa của thơ vẫn chưa đầy đủ và không được tốt lắm.
Không chỉ đúng về cấu trúc, GPT-4o còn biết đặt dấu câu hợp lý hơn so với GPT-4, điều này chứng tỏ khả năng suy luận của GPT-4o đã cải thiện rất nhiều so với GPT-4.
Tuy nhiên, điều tuyệt vời nhất của GPT-4o so với GPT-4 là khả năng hiểu ngôn ngữ tự nhiên và trò chuyện với người dùng một cách tự nhiên như chúng ta đang trò chuyện với bạn bè. Điều này đại diện cho một tương lai của trí tuệ nhân tạo mà nhiều người đang tưởng tượng, cũng như là hướng mà các nhà phát triển mô hình trí tuệ nhân tạo như Google đang hướng đến. Thậm chí, trong tương lai, GPT-4o có thể hoàn toàn đọc được nội dung trên màn hình máy tính hoặc điện thoại theo thời gian thực, và trả lời mọi câu hỏi mà người dùng muốn, và nhiều hơn nữa.
Thử trò chuyện với GPT-4o
GPT-4o có khả năng trò chuyện với chúng ta thông qua các ứng dụng trên macOS, Android và iOS, sử dụng ngôn ngữ mà chúng ta đang sử dụng, hoặc có thể dịch câu nói của chúng ta sang các ngôn ngữ khác nếu cần thiết.
Trong đoạn trò chuyện giữa mình và GPT-4o, GPT-4o hiểu và trả lời một cách tự nhiên, mình đánh giá rằng khả năng này của nó rất xuất sắc. Trước đây mình chưa thử trò chuyện với GPT-4 nên không biết liệu nó có tốt như GPT-4o hay không, nhưng mình cảm nhận được rằng nó trò chuyện rất tự nhiên.
Tốc độ trả lời và đặc biệt là trả lời bằng tiếng Việt sẽ phụ thuộc vào số lượng người kết nối cũng như đường truyền internet tại khu vực của bạn. Mình đã thử 1 đoạn nhưng kết nối ban đầu của nó khá là lâu và trong quá trình sử dụng thường bị gián đoạn, không rõ. Mình nghĩ là do đường truyền và có quá nhiều người truy cập vào GPT-4o cùng một lúc.
GPT-4o thú vị và thông minh hơn GPT-4, tuy nhiên…
Đây là cảm nhận của mình khi sử dụng GPT-4o. Trước đây mình không sử dụng ChatGPT nhiều vì đã có Gemini và Copilot, nhưng từ khi có GPT-4o, mình sẽ sử dụng ChatGPT nhiều hơn (đặc biệt sau khi mua bản Plus😁).
Với mình, GPT-4o thông minh hơn và đa năng hơn GPT-4, vì nó là một AI đa phương tiện. Nó làm tốt hơn GPT-4 và tốc độ sinh câu trả lời cũng nhanh hơn nhiều, gần như gấp đôi, giúp tiết kiệm thời gian cho chúng ta.
Tuy nhiên, nó vẫn còn một số hạn chế, như khả năng trò chuyện chưa thực sự tốt, kết nối không luôn ổn định, khi giao tiếp nếu đường truyền không ổn định thì giọng nói có thể khó nghe. Ngoài ra, khả năng phân tích video trực tuyến hoặc ngoại tuyến vẫn chưa bằng Gemini. Tuy nhiên, GPT-4o nói tiếng Việt rất chuẩn, giọng nói tự nhiên và có chút nhấn giống người thật.
Hiện tại, tính năng stream trực tiếp hình ảnh từ camera điện thoại (ứng dụng di động) hoặc màn hình máy tính (ứng dụng desktop) vẫn chưa được hỗ trợ bởi OpenAI, nhưng dường như sẽ sớm được hỗ trợ. Khi đó, mình sẽ thử và chia sẻ thêm với mọi người sau này.