Toàn bộ Công nghệ Theo dõi Khuôn mặt Đằng sau Animoji của Apple
Một vài năm trước, Apple đã bắt đầu cuộc săn hàng loạt. Họ mua lại PrimeSense, nhà sản xuất cảm biến 3D hàng đầu trên thị trường, cũng như Perceptio, Metaio và Faceshift, các công ty phát triển công nghệ nhận diện hình ảnh, thực tế ảo và chụp chuyển động.
Việc Apple mua lại công nghệ của các công ty khác để tăng cường công nghệ của mình không phải là điều không bình thường. Nhưng vào thời điểm đó, khá khó để biết chính xác Apple dự định làm gì với những gì họ đã mua. Cho đến tháng trước, tại sự kiện thường niên của công ty, sự kết hợp của nhiều năm mua lại và nghiên cứu mới bắt đầu trở nên hợp lý: Apple đang xây dựng iPhone X.
Có lẽ đặc tính quan trọng nhất trên chiếc điện thoại đắt giá mới là công nghệ theo dõi khuôn mặt, cho phép bạn mở khóa điện thoại bằng khuôn mặt hoặc mượn biểu cảm của bạn cho khoảng mười emoji với Animoji. Apple cho rằng iPhone X đại diện cho tương lai của công nghệ di động, và đối với nhiều người, điều đó là đúng. Nhưng nếu bạn theo dõi hầu hết những thành công ấn tượng nhất của công nghệ người tiêu dùng đều về nguồn gốc của chúng, thì thường dẫn bạn đến một phòng thí nghiệm nghiên cứu nhạt nhòa đầy sinh viên nghiên cứu. Trong trường hợp của Animoji, nghiên cứu đó đã xảy ra gần một thập kỷ trước tại hai trong những trường kỹ thuật uy tín nhất ở châu Âu.
Bắt đầu Chuyển động
Ở giữa thập kỷ 2000, quá trình chụp chuyển động vẫn là một quy trình khó nhọc. Việc tạo ra biểu cảm tinh tế cho nhân vật trong Avatar

Công nghệ điểm đánh dấu hoạt động tốt, nhưng nó đòi hỏi nhiều công việc phụ trợ—một phòng thu, bộ đồ chụp chuyển động và tất nhiên là các diễn viên sẵn lòng đeo những chấm đó. “Bất kỳ thứ gì bạn muốn tạo ra đều mất rất nhiều tiền và thời gian,” nói Hao Li, giám đốc Vision và Graphics Lab tại Đại học Southern California, người đang làm tiến sĩ tại phòng thí nghiệm của Pauly vào thời điểm đó. “Chúng tôi muốn làm cho nó dễ dàng hơn.” Vì vậy, Pauly và Li, cùng với các nghiên cứu viên khác bao gồm Thibaut Weise, Brian Amberg và Sofien Bouaziz (tất cả đều hiện làm việc tại Apple), bắt đầu khám phá cách thay thế các điểm đánh dấu và bộ đồ chụp chuyển động bằng các thuật toán có thể theo dõi biểu cảm khuôn mặt bằng cách sử dụng hình ảnh được chụp bởi một camera cảm biến độ sâu. Mục tiêu của họ? Tạo ra những hình ảnh động sống có thể bắt chước biểu cảm của con người trong thời gian thực.

Tuy nhiên, đã có một vấn đề: Việc theo dõi khuôn mặt theo cách thuật toán là rất khó khăn. Li gọi khuôn mặt con người là "một trong những điều quan trọng nhất trong đồ họa máy tính" vì nó quá khó khăn để làm việc. Không giống như một đối tượng tĩnh, khuôn mặt liên tục biến dạng; không có quy tắc đơn giản nào cho máy tính để tuân theo.
Để máy hiểu được cử động khuôn mặt, nó cần hiểu được nhiều cách mà khuôn mặt có thể nhìn. “Các thuật toán phải chịu được nhiều thay đổi về ánh sáng, che khuất, quay đầu cực kỳ và các biến thể tiêu chuẩn trong diện mạo khuôn mặt qua các chủng tộc và độ tuổi khác nhau,” nói Dino Paic, giám đốc bán hàng và tiếp thị tại Visage Technologies, một công ty có phần mềm theo dõi khuôn mặt được sử dụng bởi các khách hàng trong ngành ô tô và tài chính.
Đến giữa thập kỷ 2000, camera cảm biến độ sâu 3D đã đủ tinh vi để ghép lại các điểm đặc trưng của khuôn mặt. Thách thức lớn hơn là dạy cho máy tính hiểu dữ liệu đó. “Vấn đề là ngay cả khi bạn có thể cảm nhận tất cả các điểm, chúng hoàn toàn không có ý nghĩa đối với máy tính,” Li nói.
Để giải quyết vấn đề đó, Li và đội ngũ của anh xử lý khuôn mặt như một vấn đề hình học. Họ huấn luyện thuật toán của mình trên một tập hợp các khuôn mặt và biểu cảm cho phép họ xây dựng các mô hình 3D thống kê có thể mô tả, nói chung, khuôn mặt trông như thế nào trên các quần thể và môi trường khác nhau. Với mô hình tính toán đó trong tay, thuật toán có thể dễ dàng phù hợp với điểm 3D của khuôn mặt và tạo ra một avatar minh họa phản ánh biểu cảm khuôn mặt trong thời gian thực.
Giá trị của Khuôn mặt
Cho đến nay, các công ty hiệu ứng hình ảnh chủ yếu đã sử dụng công nghệ này để tối ưu hóa quy trình sản xuất của họ. Nhưng công chúng sẽ sớm trải nghiệm thông qua các tính năng như Animoji của Apple và Pocket Avatars của Intel, sử dụng phần mềm nhận diện khuôn mặt để biến khuôn mặt của bạn thành một hình avatar kỹ thuật số.
Li nói rằng emoji mô phỏng khuôn mặt chỉ là bắt đầu. Anh hiện là giám đốc của Pinscreen, một công ty khởi nghiệp đang tìm cách tự động hóa việc tạo đồ họa máy tính chân thực, nơi anh và đội của anh đang làm việc trên công nghệ cho phép thuật toán xây dựng avatar 3D siêu thực dựa trên một bức ảnh nguồn duy nhất.
Sau cuộc bầu cử tổng thống mùa thu năm ngoái, Pinscreen trình diễn khả năng của mình bằng cách tạo ra một loạt các GIF có sự tham gia của một Donald Trump nhảy múa. Các hình ảnh không phải là sự phức tạp nhất—khuôn mặt của Trump vẫn giữ được sự thô ráp của sản xuất CGI—nhưng chúng là một bước tiến rõ ràng đến một tương lai, trong đó, có thể, bất kỳ ai cũng có thể tạo ra một avatar sống động nói và làm bất cứ điều gì họ muốn. Công nghệ của Pinscreen vẫn đang trong giai đoạn beta, nhưng những hậu quả khi nó đến đông đảo người dùng là cả sự hứng thú và tiềm ẩn nguy cơ.
Và đây là sự căng thẳng: Khi công nghệ này càng cải thiện, khả năng làm giả mạo cũng tăng lên. Hiện nay, vẫn có một ranh giới hình ảnh rõ ràng giữa thực và giả. Nhưng một ngày nào đó—rất sớm—việc phân biệt sự khác biệt có thể trở nên khó khăn hơn nhiều.