Apple Tiết Lộ Bước Tiến Mới Trong Trí Tuệ Nhân Tạo Để Huấn Luyện LLM Về Hình Ảnh Và Văn Bản

Buzz

Ngày cập nhật gần nhất: 1/6/2026

Nội dung bài viết

MM1, mô hình ngôn ngữ lớn của Apple đã có bước đột phá lớn, có khả năng nhận diện và đếm các đối tượng trong hình ảnh mà không cần phải được huấn luyện trước.

Xem thêm

Đọc tóm tắt

- MM1 của Apple là một mô hình ngôn ngữ lớn mới có khả năng nhận diện và đếm các đối tượng trong hình ảnh mà không cần huấn luyện trước, tích hợp cả thông tin văn bản và hình ảnh.
- Với 30 tỷ tham số, MM1 không chỉ đơn thuần là một mô hình đa phương thức mà còn hỗ trợ học trong ngữ cảnh và suy luận từ nhiều hình ảnh, đánh dấu bước đầu tiên trong sự phát triển của Apple trong lĩnh vực này.

MM1, mô hình ngôn ngữ lớn của Apple đã có bước đột phá lớn, có khả năng nhận diện và đếm các đối tượng trong hình ảnh mà không cần phải được huấn luyện trước.

Các nhà nghiên cứu của Apple đã phát triển MM1, một phương pháp mới để huấn luyện các mô hình ngôn ngữ lớn (LLM) kết hợp cả thông tin văn bản và hình ảnh.

Trong một báo cáo mới từ nhóm nghiên cứu của hãng, MM1 là một phần của bộ mô hình đa phương thức với tới 30 tỷ tham số, sử dụng dữ liệu bao gồm các cặp chú thích hình ảnh, tài liệu văn bản-hình ảnh xen kẽ và dữ liệu chỉ có văn bản.

Apple Tiết Lộ Bước Tiến Mới Trong Trí Tuệ Nhân Tạo Để Huấn Luyện LLM Về Hình Ảnh Và Văn Bản

Apple giải thích rằng mô hình ngôn ngữ lớn đa phương thức (MLLM) là các mô hình nền tảng có quy mô lớn xử lý dữ liệu hình ảnh và văn bản để tạo ra kết quả văn bản.

Apple tuyên bố MM1 có khả năng đếm các vật thể, nhận diện từng chủ thể và vật thể trong hình ảnh, hiển thị hiểu biết về từ ngữ và vật thể hàng ngày cũng như thực hiện các hàm toán học cơ bản.

Ngoài ra, mô hình còn hỗ trợ học trong ngữ cảnh, tức là MM1 không cần đào tạo lại hoặc điều chỉnh cho từng truy vấn mà có thể hiểu truy vấn dựa trên ngữ cảnh được cung cấp. Mô hình cũng có khả năng suy luận từ nhiều hình ảnh, cho phép nó diễn giải và rút ra kết luận từ nhiều hình ảnh.

'MM1 chỉ là bước khởi đầu và công ty đang trong quá trình phát triển mô hình tiếp theo.' Brandon McKinzie, kỹ sư nghiên cứu cấp cao của Apple và là người đang nghiên cứu các mô hình đa phương.

Thông tin về MM1 được công bố trong khi gần đây có nhiều tin đồn về việc Apple đang thảo luận để tích hợp công nghệ AI Gemini của Google vào các tính năng của điện thoại thế hệ tiếp theo. Sự hợp tác này sẽ mở rộng số lượng người dùng của Google Gemini và cho phép Apple tiếp cận một số công nghệ AI tiên tiến nhất hiện có.

Các câu hỏi thường gặp

Mô hình ngôn ngữ MM1 của Apple có khả năng gì nổi bật?

MM1 có khả năng nhận diện và đếm các đối tượng trong hình ảnh mà không cần huấn luyện trước. Nó kết hợp thông tin văn bản và hình ảnh để tạo ra kết quả văn bản chính xác.

MM1 của Apple hoạt động dựa trên những dữ liệu nào?

MM1 sử dụng dữ liệu bao gồm cặp chú thích hình ảnh, tài liệu văn bản-hình ảnh xen kẽ và dữ liệu chỉ có văn bản, với tới 30 tỷ tham số trong mô hình.

Mô hình ngôn ngữ đa phương thức của Apple có gì đặc biệt?

Mô hình ngôn ngữ đa phương thức (MLLM) của Apple có khả năng học trong ngữ cảnh, cho phép nó hiểu truy vấn mà không cần điều chỉnh lại cho từng truy vấn riêng lẻ.

Apple có kế hoạch gì cho các mô hình AI trong tương lai?

Có, Apple đang trong quá trình phát triển mô hình tiếp theo sau MM1 và có thể tích hợp công nghệ AI Gemini của Google vào các tính năng của điện thoại thế hệ tiếp theo.

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]