Một bài báo gần đây đã giới thiệu chi tiết về sự phát triển của MM1 trong bài báo có tựa đề “MM1: Phương pháp, Phân tích & Thông tin chuyên sâu từ Đào tạo trước LLM đa phương thức”, và mô hình này được cho là có khả năng ấn tượng trong cả nhận dạng hình ảnh và lý luận ngôn ngữ tự nhiên.
MM1 có ba kích thước khác nhau: 3 tỷ, 7 tỷ và 30 tỷ tham số. Các nhà nghiên cứu đã sử dụng các mô hình này để thực hiện thử nghiệm và xác định các yếu tố chính ảnh hưởng đến hiệu suất.
Nhóm nghiên cứu đã xây dựng MM1 một cách tỉ mỉ bằng cách sử dụng kiến trúc “Mixture of Experts” và phương pháp “Top-2 Gating”. Cách tiếp cận này đã mang lại kết quả xuất sắc trong các tiêu chuẩn trước đào tạo và hiệu suất cao trên các tiêu chuẩn đa phương thức hiện có.
Thử nghiệm đã chứng minh rằng các mô hình MM1-3B-Chat và MM1-7B-Chat hoạt động hiệu quả hơn hầu hết các đối thủ có cùng kích thước trên thị trường. Đặc biệt, chúng tỏ sức mạnh trong các nhiệm vụ như VQAv2, TextVQA và ScienceQA.
Tuy nhiên, tổng thể hiệu suất của MM1 vẫn chưa vượt qua Google Gemini hay OpenAI-4. Mặc dù còn nhiều công việc phải hoàn thiện với MM1, nhưng đây thực sự là một bước tiến quan trọng của Apple trong lĩnh vực trí tuệ nhân tạo. Có thể sớm bạn sẽ thấy MM1 được tích hợp vào các sản phẩm như iPhone, iPad và có thể cả Siri.
Gần đây, Apple đã mua lại DarwinAI, một công ty đã đạt được nhiều thành tựu trong lĩnh vực trí tuệ nhân tạo.
Xem thêm: Bạn đã biết Apple sử dụng trí tuệ nhân tạo và máy học trong iOS như thế nào chưa?Để sẵn sàng trải nghiệm các tính năng trí tuệ nhân tạo của Apple, hãy xem các mẫu iPhone dưới đây:
