
Những Anh Em Đã Dành Thời Gian Khám Phá Công Nghệ Tạo Tranh Ảnh Bằng Trí Tuệ Nhân Tạo, Từ Cuộc Trò Chuyện Bing Đến Adobe Firefly, Từ Midjourney Đến Những Mô Hình Dựa Trên Stable Diffusion Đều Nhận Ra Rằng, Thuật Toán Trí Tuệ Nhân Tạo Vẽ Bàn Tay Hay Các Chi Tiết Tứ Chi Của Con Người Có Thể Tệ Đến Khó Tin. Thỉnh Thoảng Là Thiếu Ngón, Lúc Lại Thừa Ngón, Thậm Chí Còn Sai Hoàn Toàn So Với Giải Phẫu Con Người. Vấn Đề Này Đã Làm Nhiều Anh Em Cảm Thấy Nản Lòng Trước Những Công Cụ AI.
Rõ Ràng Vấn Đề Này Đặt Ra Những Thách Thức Đối Với Anh Em Sáng Tạo Hình Ảnh, Dù Đã Tạo Ra Những Cụm Từ Khóa Cực Kỳ Chi Tiết, Quản Lý Tất Cả Các Khía Cạnh Trong Bức Tranh Mà Anh Em Muốn Tạo Ra. Nhưng Ở Một Khía Cạnh Khác, Điều Này Cũng Mô Tả Hoàn Hảo Quá Trình Nghiên Cứu Thực Tế Về Trí Tuệ Nhân Tạo - Một Quá Trình Không Hoàn Hảo Và Phức Tạp Như Anh Em Nghĩ.
Cuối Cùng, Trong Quá Trình Huấn Luyện Thuật Toán Mô Hình Ngôn Ngữ Cũng Như Các Thuật Toán Máy Học Khác, Chúng Hoạt Động Giống Như Đứa Trẻ Đang Đi Học - Người Lớn Dạy Gì Thì Trẻ Biết Vậy, Không Thể Biết Nhiều Hơn Được.
Để Chứng Minh Quan Điểm Này, Trong Bài Viết Này Mình Sẽ Sử Dụng Toàn Bộ Hình Minh Họa Được Tạo Ra Từ Stable Diffusion, Với Nhiều Mô Hình Khác Nhau Được Huấn Luyện Theo Từng Nhu Cầu Cụ Thể. “Lionel Messi Biến Hình Thành John Wick Với Chiếc Cúp Thế Giới Trong Tay”
Đó Là Bản Chất Cách Những Mô Hình AI Được Huấn Luyện. Nhờ Quá Trình Này, Chúng Xuất Sắc Trong Việc Bắt Chước Những Phong Cách Mỹ Thuật, Hình Ảnh Và Tạo Hình Khác Nhau Dựa Vào Gói Dữ Liệu Khổng Lồ Mà Con Người Cung Cấp Để Huấn Luyện Thuật Toán.
Một Minhhọa Xuất Sắc Về Khả Năng Bắt Chước Của AI: “Amelia Earhart Biến Hình Theo Phong Cách Của Các Bộ Phim Pixar, Với Những Chiếc Máy Bay Nổi Bật Ở Phía Sau”:
Hãy Tưởng Tượng Như Thế Này. Thuật Toán Trí Thông Minh Nhân Tạo Giống Như Một Đứa Trẻ, Vừa Mới Ra Đời Không Biết Gì, Phải Học Hỏi. Và Kiến Thức Mà “Đứa Trẻ” Này Học Được Giống Như Việc Tham Quan Một Bảo Tàng Lớn. “Đứa Trẻ” Của Chúng Ta Bị Nhốt Trong Cái Viện Bảo Tàng Ấy Từ Khi Mới Sinh, Chỉ Có Ngần Ấy Kiến Thức Để Tiếp Thu.
Cách Học Của AI Giống Hệt Như Trẻ Em Đi Học, Tức Là Nhận Diện Kiểu Mẫu (Pattern). Nhưng Có Một Sự Khác Biệt Cơ Bản. Bất Kỳ Con Người Nào Cũng Vậy, Trong Quá Trình Trưởng Thành Nhìn Thấy Hàng Trăm, Hàng Nghìn Đôi Bàn Tay Ở Những Tư Thế Khác Nhau, Vị Trí Khác Nhau. Con Người Học Được “Kiểu Mẫu” Nhờ Việc Trải Nghiệm Với Thế Giới Thực. Dần Dần Chỉ Cần Liếc Nhanh Một Bức Hình, Chúng Ta Cũng Có Thể Nhận Diện Bàn Tay.
Gương Mặt Con Người Cũng Được AI Vẽ Theo Cách Y Hệt, Nhận Diện Mẫu Qua Hàng Vạn Tấm Hình, Để Đánh Giá Rồi Nội Suy Vị Trí Mũi Để Ở Đâu, Mắt Một Mí Hay Hai Mí, Lông Mi “Vẽ” Ra Sao, Tóc Đến Chỗ Nào Trên Gương Mặt Thì Không Được “Mọc” Nữa:
Là Con Người, Muốn Hiểu Rõ Hơn Về Một Sự Vật, Chúng Ta Có Thể Xoay Ngang Xoay Dọc Sự Vật Đó Để Hiểu Tường Tận Từng Góc Cạnh. AI Thì Không, Nó Chỉ Có Thể Học Kiểu Mẫu Từ Những Tấm Hình Có Sẵn.“Bạn Sẽ Chia Bàn Tay Thành Những Khối Hình Lớn. Khối Lớn Nhất Là Lòng Bàn Tay. Rồi Tính Đến Những Ngón Tay, Trong Khi Đó Đánh Giá Xem Đang Vẽ Mu Hay Lòng Bàn Tay. Kế Đến Là Độ Dày Của Bàn Tay Và Những Ngón Tay.”
Chi Tiết Không Hoàn Hảo Một Chút Nào, Nhìn Hơi Ghê Là Khác, Vì Ngón To Ngón Bé. Nhưng AI Đã Hoàn Thành Rất Tốt Nhiệm Vụ Mà Nó Được Huấn Luyện Để Làm, Đó Là Tái Tạo Hoàn Hảo Bề Mặt Vật Thể Khi Nó “Học” Chi Tiết Những Bàn Tay Trong Gói Dữ Liệu. Vị Trí Và Giải Phẫu Thì Sai Hoàn Toàn, Nhưng Bề Mặt Của Khớp Và Đầu Ngón Tay, Hay Nếp Nhăn Trên Da Thì Không Chê Vào Đâu Được. Nói “Không Chê Vào Đâu Được” Đơn Giản Chỉ Vì AI Cũng Chỉ Có Nhận Thức Về Từ Khóa “Bàn Tay Con Người” Đến Mức Ấy, Không Hơn.
Nói Cách Khác, AI Biết Mọi Thứ TRÔNG NHƯ THẾ NÀO, Chứ Không Biết Mọi Thứ HOẠT ĐỘNG RA SAO. Nó Không Thể Biết Được Hệ Thống Xương Khớp Ngón Tay Con Người Có Những Giới Hạn Gì Trong Khi Vận Động, Chỉ Có Thể Uốn Theo Những Hướng Và Giới Hạn Cụ Thể.
Nhờ Việc Nhận Diện Hình Khối Theo Kiểu Máy Móc Như Vậy, Nên Việc Tạo Ra Những Tấm Hình Với Vật Thể Cố Định, Cố Định Theo Ý Nghĩa Không Tạo Ra Những Dịch Chuyển Mà AI Không Thể Học Được, Ví Dụ Căn Nhà Hay Chiếc Ô Tô, AI Làm Rất Tốt. Nhưng Khi Đụng Đến Những Chi Tiết Không Được Học “Đến Nơi Đến Chốn”, Thì AI Tỏ Rõ Những Nhược Điểm.
Cái Này Thì Họa Sỹ Không Giải Thích Được, Nên Nhà Nghiên Cứu Mỹ Thuật Roy Shilkrot Và Nghiên Cứu Sinh Tự Động Hóa Yilun Du Có Mặt Để Giải Thích Cho Mọi Người: Có Ba Lý Do Khiến AI Gặp Trở Ngại Trong Mỗi Một Việc Là Vẽ Bàn Tay Con Người. Thứ Nhất Là Khối Lượng Dữ Liệu Cũng Như Chất Lượng Của Thư Viện Hình Ảnh Tay Người Vừa Thấp Vừa Yêu Cầu AI Tạo Ra Sai Số Rất Nhỏ. Lượng Dữ Liệu Hình Ảnh Gương Mặt Thì Quá Nhiều, Còn Bàn Tay Thì Lại Quá Ít, Tức Là AI Sẽ Có Ít Kiến Thức Để Học Hơn So Với Những Dạng Hình Mẫu Khác.
Lý Do Thứ Hai Là Cách Con Người Mô Tả Hình Ảnh, Ví Von Là “Chú Thích Trong Viện Bảo Tàng”, Cũng Chẳng Đủ Chi Tiết. Những Tấm Hình Để AI Học Thường Chỉ Có Từ Khóa Rất Đơn Giản: Bàn Tay, Bàn Tay Cầm Điện Thoại, Bàn Tay Cầm Sách, V.V… Để AI Hiểu Rõ Ràng Tay Người Hoạt Động Ra Sao, Thì Cần Rất Nhiều Những Thông Số Khác: Ngón Cái Đặt Ở Đâu, Ngón Tay Khép Lại Như Thế Nào, V.V… Sự Đa Dạng Trong Động Tác Của Bàn Tay So Với Gương Mặt, Kết Hợp Với Sự Thiếu Hụt Dữ Liệu Huấn Luyện AI Về Bàn Tay Con Người Đã Tạo Ra Tình Trạng Chúng Ta Đang Phải Đối Mặt Khi Tạo Hình Bằng Mô Hình Ngôn Ngữ.
Lý Do Thứ Ba, Mỗi Hình Ảnh Bàn Tay Lại Khác Nhau. Vì Góc Nhìn, AI Đôi Khi Chỉ Có Thể Thấy Hai Ngón Tay, Ba Ngón, Hoặc Chẳng Có Ngón Nào Khi Bàn Tay Nắm Lại. Thật Ra Không Riêng Gì Bàn Tay, Mà Động Vật Đôi Khi Cũng Vậy. Những Phiên Bản Mô Hình Trước Đó Của Stable Diffusion Cũng Đã Tạo Ra Những Tấm Hình Trong Thư Viện Dữ Liệu Học Đôi Khi Mô Tả Những Chú Chó Chú Mèo Chỉ Lộ 2 Hoặc 3 Chân, Khiến AI Không Hiểu.
Giải Thích Cặn Kẽ Hơn, Quá Nhiều Khác Biệt Trong Từng Tấm Hình Khi Thuật Toán AI Học, Kết Hợp Với Thiên Kiến (Bias) Của AI Rất Khác Con Người.
Yếu Tố Thiên Lệch Này Cực Kỳ Quan Trọng. Chính Nhờ Thiên Kiến, Chúng Ta Mới Biết Tay Người Có 5 Ngón, Có Thể Cử Động Ra Sao, Hoặc Biết Rõ Ràng Một Chú Chó Hay Chú Ngựa 'Bình Thường' Có Đủ 4 Chân. AI Không Có Thiên Kiến Chủ Quan Như Vậy. Những Mô Hình Ngôn Ngữ Giống Hệt Như Một Đứa Trẻ Ngây Thơ Không Biết Gì. Gọi Là Học Vẹt Thì Cũng Không Hẳn Là Chính Xác, Nhưng Thực Tế Cách Huấn Luyện Thuật Toán Bây Giờ Thì Không Khác Gì Mấy. Mọi Thứ AI Tạo Ra Đều Là “Remix” Tác Phẩm Của Con Người, Dù Là Mỹ Thuật, Ngôn Ngữ Hay Âm Nhạc.
Dĩ Nhiên Cũng Có Cách Cải Thiện Tình Trạng Vẽ Bàn Tay Kỳ Quặc Của AI, Bằng Cách Tiếp Tục Huấn Luyện Những Mô Hình Để Chúng Vận Hành Hoàn Hảo Và Chuyên Biệt Nhất Có Thể. Midjourney V5 Mới Ra Mắt Cách Đây Ít Lâu Là Một Ví Dụ, Tay Chí Ít Đã Đủ 5 Ngón, Nhưng Vẫn Chưa Đạt Được Yêu Cầu Của Người Dùng, Nhất Là Khi Gõ Vào Những Cụm Từ Khóa Chi Tiết Để Yêu Cầu AI Vẽ Bàn Tay Làm Một Hành Động Gì Đó:
Chỉ Từ Một Ví Dụ AI Tạo Tranh Vẽ Không Tái Tạo Nổi Bàn Tay, Hoàn Toàn Có Thể Suy Rộng Ra Hai Vấn Đề Với Tình Hình Ngành Phát Triển Trí Thông Minh Nhân Tạo Hiện Giờ. Vấn Đề Thứ Nhất, AI Sẽ Chỉ Hiểu Về “Thế Giới Quan” Dựa Hoàn Toàn Vào Mức Độ Chi Tiết Của Mỗi Dạng Dữ Liệu Mà Con Người, Các Nhà Nghiên Cứu Tạo Ra Và Đưa Cho Thuật Toán Tự Học. Cái Gì Nhiều Chi Tiết, Dữ Liệu Đồ Sộ Thì AI Cũng Sẽ Tái Tạo Lại Được Với Độ Chi Tiết Và Chân Thực Rất Cao.
Vấn Đề Thứ Hai Là Thiên Kiến Của Con Người Vô Tình Ảnh Hưởng Trực Tiếp Tới Mức Độ Chính Xác Của AI. Chúng Ta Hiểu Bàn Tay Trông Như Thế Nào, Biết Bàn Tay Cử Động Ra Sao, Nhưng Lại Không Tả Chi Tiết Cho AI. Tương Tự Như Vậy Là Những Thiên Lệch Khác, Ví Dụ Những Tình Trạng AI Viết Những Câu Chữ Phân Biệt Đối Xử Thời Gian Gần Đây. Nó Cũng Học Được Những Từ Ngữ Đó Từ Chính Thiên Kiến Của Con Người, Khi Những Gói Dữ Liệu Bao Gồm Cả Câu Từ Trên Các Mạng Xã Hội.
Một Phương Án Được Nghiên Cứu Sinh Yilun Du Đưa Ra, Chính Là Cách ChatGPT Hay Bing Chat Sử Dụng Để Cân Bằng Sự Chi Tiết Của Những Câu Trả Lời Do Mô Hình Ngôn Ngữ Tạo Ra. Cũng Là Dựa Trên Dữ Liệu Văn Bản Con Người Tạo Ra, Nhưng Mô Hình Có Thể Được Tinh Chỉnh Nhờ Chính Phản Hồi Của Những Người Dùng Thử Nghiệm. Cái Nào Tốt, Cái Nào Tệ Hoàn Toàn Có Thể Được Chúng Ta Đánh Giá Cụ Thể. Nhờ Đó, Những Câu Chữ Khi Anh Em Dùng Bing Chat Hay ChatGPT Cực Kỳ Chân Thực, Hệt Như Người Gõ Ra Vậy.
Nhưng Để Làm Được Điều Này, Chí Ít Là Trong Phạm Vi Lấy Ý Kiến Người Dùng Đánh Giá Chất Lượng AI Vẽ Bàn Tay Con Người, Cần Rất Nhiều Công Sức. Đấy Là Còn Chưa Tính Tới Những Sai Khác Trong Giải Phẫu Ở Những Bộ Phận Khác Trên Cơ Thể. Cơ Bụng Của Con Người, Như Trong Hình Minh Họa Ở Trên, Là Một Ví Dụ.