MM1, mô hình ngôn ngữ lớn của Apple đã có bước đột phá lớn, có khả năng nhận diện và đếm các đối tượng trong hình ảnh mà không cần phải được huấn luyện trước.
Các nhà nghiên cứu của Apple đã phát triển MM1, một phương pháp mới để huấn luyện các mô hình ngôn ngữ lớn (LLM) kết hợp cả thông tin văn bản và hình ảnh.
Trong một báo cáo mới từ nhóm nghiên cứu của hãng, MM1 là một phần của bộ mô hình đa phương thức với tới 30 tỷ tham số, sử dụng dữ liệu bao gồm các cặp chú thích hình ảnh, tài liệu văn bản-hình ảnh xen kẽ và dữ liệu chỉ có văn bản.
Apple giải thích rằng mô hình ngôn ngữ lớn đa phương thức (MLLM) là các mô hình nền tảng có quy mô lớn xử lý dữ liệu hình ảnh và văn bản để tạo ra kết quả văn bản.
Apple tuyên bố MM1 có khả năng đếm các vật thể, nhận diện từng chủ thể và vật thể trong hình ảnh, hiển thị hiểu biết về từ ngữ và vật thể hàng ngày cũng như thực hiện các hàm toán học cơ bản.
Ngoài ra, mô hình còn hỗ trợ học trong ngữ cảnh, tức là MM1 không cần đào tạo lại hoặc điều chỉnh cho từng truy vấn mà có thể hiểu truy vấn dựa trên ngữ cảnh được cung cấp. Mô hình cũng có khả năng suy luận từ nhiều hình ảnh, cho phép nó diễn giải và rút ra kết luận từ nhiều hình ảnh.
'MM1 chỉ là bước khởi đầu và công ty đang trong quá trình phát triển mô hình tiếp theo.' Brandon McKinzie, kỹ sư nghiên cứu cấp cao của Apple và là người đang nghiên cứu các mô hình đa phương.
Thông tin về MM1 được công bố trong khi gần đây có nhiều tin đồn về việc Apple đang thảo luận để tích hợp công nghệ AI Gemini của Google vào các tính năng của điện thoại thế hệ tiếp theo. Sự hợp tác này sẽ mở rộng số lượng người dùng của Google Gemini và cho phép Apple tiếp cận một số công nghệ AI tiên tiến nhất hiện có.