Thuật toán AI Chứa Độ Chệch Đối Với Da Có Tông Màu Vàng

Sau khi có bằng chứng xuất hiện vào năm 2018 cho thấy các thuật toán phân tích khuôn mặt hàng đầu không chính xác cho những người có làn da đậm, các công ty bao gồm Google và Meta đã áp dụng các biện pháp về tông màu da để kiểm thử hiệu suất của phần mềm AI của họ. Nghiên cứu mới từ Sony cho thấy những kiểm thử đó không chú ý đến một khía cạnh quan trọng của sự đa dạng về màu da người.
Bằng cách thể hiện tông màu da chỉ bằng cách sử dụng một thang trượt từ sáng nhất đến tối nhất hoặc từ trắng đến đen, những biện pháp phổ biến hiện nay bỏ qua sự đóng góp của các gam màu vàng và đỏ vào sự đa dạng của màu da người, theo các nhà nghiên cứu của Sony. Họ phát hiện ra rằng các hệ thống AI sinh học, thuật toán cắt ảnh và công cụ phân tích ảnh đều gặp khó khăn với làn da màu vàng đặc biệt. Điều yếu đuối tương tự có thể áp dụng cho nhiều công nghệ khác mà chính xác của chúng bị ảnh hưởng bởi màu da, như phần mềm AI cho nhận diện khuôn mặt, theo dõi cơ thể và phát hiện deepfake, hoặc các thiết bị như máy đo nhịp tim và cảm biến chuyển động.
“Nếu sản phẩm chỉ được đánh giá theo cách rất một chiều này, có rất nhiều độ chệch sẽ không được phát hiện và giảm nhẹ,” ông Alice Xiang, nhà nghiên cứu chính và trưởng bộ phận AI Ethics toàn cầu tại Sony nói. “Hi vọng của chúng tôi là công việc mà chúng tôi đang thực hiện có thể giúp thay thế một số thang màu da hiện tại thực sự chỉ tập trung vào sáng và tối.”
Tuy nhiên, không phải ai cũng chắc chắn rằng các lựa chọn hiện tại không đủ để đánh giá các hệ thống AI. Ellis Monk, một nhà xã hội học tại Đại học Harvard, cho biết bảng màu 10 tông màu da từ sáng đến tối mà ông giới thiệu cùng với Google năm ngoái không phải là một chiều. “Tôi phải thừa nhận là tôi hơi bối rối trước tuyên bố rằng nghiên cứu trước đó trong lĩnh vực này đã bỏ qua các tông màu phụ và gam màu,” Monk nói, người Monk Skin Tone màu mà Google đưa ra sử dụng cho người khác. “Nghiên cứu đã được dành để quyết định tông màu nào được ưu tiên trên thang và ở điểm nào.” Ông chọn 10 tông màu trên thang của mình dựa trên các nghiên cứu về chủng tộc và sau khi tham khảo ý kiến của các chuyên gia và người từ cộng đồng thiểu số.
X. Eyeé, CEO của công ty tư vấn đạo đức AI Malo Santo và người sáng lập đội nghiên cứu tông màu da của Google, nói rằng thang Monk không bao giờ được thiết kế để làm giải pháp cuối cùng và gọi công việc của Sony là tiến triển quan trọng. Nhưng Eyeé cũng cảnh báo rằng vị trí máy ảnh ảnh hưởng đến giá trị màu CIELAB trong một bức ảnh, là một trong những vấn đề khiến tiêu chuẩn trở thành một điểm tham chiếu có thể không đáng tin cậy. “Trước khi chúng ta bật đo độ màu da trong các thuật toán AI thực tế—như bộ lọc máy ảnh và hội nghị video—cần thêm nhiều công việc để đảm bảo đo lường nhất quán,” Eyeé nói.
Cuộc tranh luận về các thang đo không chỉ là học thuật. Việc tìm ra các biện pháp “công bằng,” như các nhà nghiên cứu AI gọi là, là một ưu tiên lớn đối với ngành công nghiệp công nghệ khi các nhà lập pháp, bao gồm cả trong Liên minh Châu Âu và Hoa Kỳ, đang tranh luận về việc yêu cầu các công ty kiểm tra hệ thống AI của họ và công bố các rủi ro và khuyết điểm. Những phương pháp đánh giá không chắc chắn có thể làm suy giảm một số lợi ích thực tế của các quy định, những nghiên cứu của Sony nói.
Về màu da, Xiang nói rằng những nỗ lực để phát triển các biện pháp bổ sung và cải tiến sẽ không ngừng. “Chúng ta cần tiếp tục cố gắng để đạt được tiến triển,” cô nói. Monk nói rằng các biện pháp khác nhau có thể hữu ích tùy thuộc vào tình huống. “Tôi rất vui mừng khi có sự quan tâm ngày càng tăng về lĩnh vực này sau một thời kỳ lãng quên,” ông nói. Người phát ngôn của Google Brian Gabriel nói rằng công ty hoan nghênh nghiên cứu mới và đang xem xét nó.
Màu da của một người đến từ sự tương tác giữa ánh sáng với protein, tế bào máu và các chất nhuộm như melanin. Cách tiêu chuẩn để kiểm tra thuật toán về thiên vị do màu da gây ra là kiểm tra hiệu suất của chúng trên các tông màu da khác nhau, dọc theo thang Fitzpatrick với sáu tùy chọn từ ánh sáng nhất đến tối nhất. Nó được phát triển ban đầu bởi một bác sĩ da liễu để ước lượng phản ứng của da với tia UV. Năm ngoái, các nhà nghiên cứu AI trên khắp ngành công nghiệp công nghệ đã hoan nghênh việc Google giới thiệu thang Monk, gọi đó là một cách tiếp cận bao quát hơn.
Các nhà nghiên cứu của Sony nói trong một nghiên cứu được trình bày tại Hội nghị Quốc tế về Thị giác máy tính ở Paris tuần này rằng một tiêu chuẩn màu quốc tế được biết đến là CIELAB, được sử dụng trong chỉnh sửa ảnh và sản xuất, chỉ ra một cách đáng tin cậy hơn để đại diện cho phổ màu da rộng lớn. Khi họ áp dụng tiêu chuẩn CIELAB để phân tích ảnh của những người khác nhau, họ phát hiện ra rằng màu da của họ không chỉ thay đổi theo tông màu—độ sâu của màu sắc—mà còn theo gam màu, hoặc sự chuyển động của nó.
Các thang màu da không hiệu quả trong việc thu nhận đúng màu đỏ và màu vàng trong da người dường như đã giúp một số thiên vị không bị phát hiện trong thuật toán ảnh. Khi các nhà nghiên cứu của Sony kiểm tra các hệ thống AI mã nguồn mở, bao gồm một công cụ cắt ảnh được phát triển bởi Twitter và một cặp thuật toán tạo ảnh, họ phát hiện ra sự ưa chuộng cho da đỏ hơn, có nghĩa là một số lượng lớn người có da màu vàng hơn bị thiếu hại trong ảnh cuối cùng mà thuật toán tạo ra. Điều đó có thể đặt một số quần thể khác nhau—bao gồm Đông Á, Nam Á, Trung và Nam Mỹ, và Trung Đông—ở một thế vị thiệt hại.
Các nhà nghiên cứu của Sony đề xuất một cách mới để đại diện cho màu da để thu được sự đa dạng trước đây bị bỏ qua. Hệ thống của họ mô tả màu da trong một bức ảnh bằng cách sử dụng hai tọa độ, thay vì một con số duy nhất. Nó chỉ định cả vị trí dọc theo thang từ sáng đến tối và trên một dải màu từ màu vàng đến màu đỏ, hoặc điều mà công nghiệp mỹ phẩm đôi khi gọi là tông nền ấm đến mát.
Phương pháp mới này hoạt động bằng cách cô lập tất cả các pixel trong một bức ảnh thể hiện da, chuyển đổi các giá trị màu RGB của mỗi pixel thành mã CIELAB và tính trung bình màu sắc và tông màu trên các cụm pixel da. Một ví dụ trong nghiên cứu cho thấy những bức ảnh chân dung rõ ràng của ngôi sao bóng đá người Mỹ Terrell Owens và nữ diễn viên qua đời Eva Gabor chia sẻ một tông màu da như nhau nhưng phân biệt về gam màu, với hình ảnh của Owens màu đỏ hơn và của Gabor màu vàng hơn.
Khi đội ngũ của Sony áp dụng phương pháp của họ vào dữ liệu và hệ thống AI có sẵn trực tuyến, họ phát hiện ra những vấn đề quan trọng. CelebAMask-HQ, một bộ dữ liệu phổ biến về khuôn mặt người nổi tiếng được sử dụng để huấn luyện nhận diện khuôn mặt và các chương trình máy tính thị giác khác, có 82% ảnh của nó chuyển hướng về gam màu da đỏ, và một bộ dữ liệu khác FFHQ, được phát triển bởi Nvidia, nghiêng 66% về phía màu đỏ, các nhà nghiên cứu phát hiện. Hai mô hình AI sinh ra được huấn luyện trên FFHQ đã sao chép thiên vị: Khoảng bốn trong mỗi năm hình ảnh mà mỗi mô hình tạo ra đều nghiêng về gam màu đỏ.
Nhưng chuyện không dừng lại ở đó. Các chương trình AI ArcFace, FaceNet và Dlib hoạt động tốt hơn trên làn da đỏ khi được yêu cầu xác định xem hai bức tranh tương ứng với cùng một người hay không, theo nghiên cứu của Sony. Davis King, nhà phát triển tạo ra Dlib, nói rằng ông không ngạc nhiên với sự chệch này vì mô hình chủ yếu được huấn luyện trên hình ảnh người nổi tiếng Mỹ. Công cụ AI đám mây từ Microsoft Azure và Amazon Web Services để phát hiện nụ cười cũng hoạt động tốt hơn trên gam màu đỏ. Sarah Bird, người đứng đầu bộ phận kỹ thuật AI có trách nhiệm tại Microsoft, nói rằng công ty đang tăng cường đầu tư vào tính công bằng và minh bạch. Người phát ngôn của Amazon, Patrick Neighorn, nói: "Chúng tôi hoan nghênh sự hợp tác với cộng đồng nghiên cứu và chúng tôi đang xem xét kỹ nghiên cứu này." Nvidia từ chối bình luận.
Là người có làn da màu vàng, việc khám phá những hạn chế của cách AI được kiểm thử ngày nay là một vấn đề quan trọng đối với Xiang. Cô nói rằng Sony sẽ phân tích các mô hình thị giác máy tính tập trung vào con người của mình bằng cách sử dụng hệ thống mới khi chúng được xem xét, mặc dù cô từ chối chỉ định rõ mô hình nào. “Chúng ta có những tông màu da khác nhau như vậy. Điều này không nên là điều được sử dụng để phân biệt chúng ta,” cô nói.
Cách tiếp cận của Sony có một lợi thế tiềm ẩn khác. Các biện pháp như thang Monk của Google đòi hỏi con người phân loại xem làn da của một cá nhân cụ thể nằm ở đâu trên phổ màu. Điều này làm tăng biến động, vì người ta bị ảnh hưởng bởi địa điểm hoặc quan điểm cá nhân về chủng tộc và bản dạng.
Cách tiếp cận của Sony là hoàn toàn tự động—không cần sự đánh giá của con người. Nhưng Monk của Harvard đặt ra câu hỏi liệu điều đó có tốt hơn không. Những biện pháp khách quan như của Sony có thể dẫn đến việc đơn giản hóa hoặc bỏ qua những phức tạp khác về đa dạng con người. “Nếu mục tiêu của chúng ta là loại bỏ thiên vị, mà cũng là một hiện tượng xã hội, thì tôi không chắc chắn liệu chúng ta nên loại bỏ cách con người nhìn nhận màu da xã hội từ phân tích của chúng ta hay không,” ông nói.
Joanne Rondilla, một nhà xã hội học tại Đại học San José nghiên cứu về chủng tộc và cộng đồng người Mỹ gốc Á, nói rằng cô đánh giá cao sự cố gắng của Sony để xem xét các gam màu. Cô cũng hy vọng các nhà phát triển AI sẽ hợp tác với các nhà khoa học xã hội để xem xét cách chính trị, cấu trúc quyền lực và các chiều chiều xã hội bổ sung khác ảnh hưởng đến cách nhìn nhận về màu da. Thang màu “phát triển thông qua dự án của Sony có thể giúp các học giả hiểu về vấn đề chủng màu,” cô nói.
Xiang của Sony nhận thức rằng vấn đề chủng màu không thể tránh khỏi khi con người thảo luận và nghĩ về da. Cuối cùng, không chỉ máy móc cần nhìn nhận màu sắc theo cách khác. Cô hy vọng lĩnh vực này có thể làm tốt hơn nhưng cũng ý thức rằng tiến triển không nhất thiết sẽ mượt mà. Mặc dù các nhà nghiên cứu AI như cô đã đẩy mạnh để lĩnh vực có cái nhìn phức tạp hơn về giới tính, nhiều nghiên cứu vẫn duy trì việc phân loại mỗi người vào hai nhóm nam hoặc nữ.
“Những quy trình vô cùng gặp vấn đề này bắt nguồn từ mong muốn mạnh mẽ để đặt mọi người vào các thùng tối thiểu nhất có thể bạn cần để có được một đánh giá công bằng và đạt được một loại kiểm tra nào đó,” Xiang nói. Cô nói có giá trị trong sự đơn giản, nhưng thêm các chiều mới là quan trọng khi việc làm cho con người có thể được đọc bởi máy cuối cùng làm mờ sự đa dạng thực sự của họ.
