Trí tuệ nhân tạo ngập tràn trong 'Đế chế số' của Big Tech

Đã từng nói rằng các thuật toán là 'ý kiến được gắn vào mã code.' Hiếm khi có người hiểu rõ hậu quả của điều đó như Abeba Birhane. Sinh ra và lớn lên tại Bahir Dar, Ethiopia, Birhane đã chuyển đến Ireland để học: trước hết là tâm lý, sau đó là triết học, cuối cùng là một bằng tiến sĩ về khoa học nhận thức tại Trường Đại học Dublin.
Trong thời gian làm tiến sĩ, cô nhận ra mình đang bị cuốn vào bởi các nhà phát triển phần mềm và sinh viên khoa học dữ liệu - đắm chìm trong các mô hình họ đang xây dựng và các bộ dữ liệu họ đang sử dụng. Nhưng cô bắt đầu nhận ra rằng không ai thực sự đang đặt câu hỏi về những gì thực sự ở trong các bộ dữ liệu đó.
Trí tuệ nhân tạo đã xâm phạm gần như mọi khía cạnh của cuộc sống của chúng ta: Nó có thể quyết định liệu bạn có được tuyển dụng, chẩn đoán ung thư cho bạn, hoặc đưa ra quyết định về việc liệu có thả tự do cho tù nhân hay không. Hệ thống trí tuệ nhân tạo thường được đào tạo trên các bộ dữ liệu khổng lồ, thường được lấy từ web vì tính hiệu quả và thuận tiện. Nhưng điều này có nghĩa là trí tuệ nhân tạo có thể thừa kế tất cả các đặc tính chủ nghĩa của những người thiết kế chúng, và mọi đặc tính có trong dữ liệu nuôi chúng. Kết quả cuối cùng lặp lại xã hội, với tất cả những điều xấu xa được ghi vào.
Không nhận ra điều này có nguy cơ gây thiệt hại thực tế. Trí tuệ nhân tạo đã bị buộc tội lạc quan về nhu cầu sức khỏe của bệnh nhân da màu và làm giảm khả năng duyệt cấp vay cho những người có màu da khác nhau.
Birhane đã chuyển hướng nghiên cứu của mình để điều tra các bộ dữ liệu ngày càng định hình thế giới của chúng ta. Cô muốn phơi bày những đặc tính thiên lệch và đòi hỏi các tập đoàn khổng lồ thiết kế và hưởng lợi từ chúng chịu trách nhiệm. Công việc của cô đã nhận được sự công nhận toàn cầu. Tháng 10 năm 2022, cô thậm chí có cơ hội nói về những hại của Big Tech tại một cuộc họp với Đạt-la-lai-lạt-ma.
Thường xuyên, Birhane chỉ cần gãi bề mặt của một bộ dữ liệu trước khi các vấn đề nhảy ra. Năm 2020, Birhane và đồng nghiệp Vinay Prabhu đã kiểm toán hai bộ dữ liệu phổ biến. Bộ dữ liệu đầu tiên là '80 triệu hình ảnh nhỏ,' một bộ dữ liệu của MIT đã được trích dẫn trong hàng trăm bài báo học thuật và được sử dụng hơn một thập kỷ để dạy các hệ thống máy học nhận biết con người và đối tượng. Nó chứa nhiều nhãn ghi phản cảm - bao gồm các lời lẽ phân biệt chủng tộc đối với hình ảnh người da màu. Trong bộ dữ liệu khác, ImageNet, họ phát hiện nội dung khiêu dâm, bao gồm hình ảnh upskirt của phụ nữ, có vẻ không cần sự đồng thuận rõ ràng của cá nhân vì chúng được lấy từ internet. Hai ngày sau khi cặp đôi công bố nghiên cứu của họ, đội ngũ MIT đã xin lỗi và gỡ bỏ bộ dữ liệu Tiny Images.
Những vấn đề này đến từ đỉnh. Nghiên cứu máy học chiếm ưu thế về mặt nam giới và da trắng, một đối tượng dân số cách xa so với cộng đồng đa dạng mà nó đưa ra là sứ mệnh giúp đỡ. Và các công ty Big Tech không chỉ mang lại những trò giải trí trực tuyến - họ còn giữ một lượng lớn quyền lực để định hình sự kiện trong thế giới thực.
Birhane và những người khác đã đặt tên cho điều này là 'đế chế số'—lập luận rằng sức mạnh của Big Tech không kém phần với các đế chế thuộc địa cũ. Cô cho rằng hậu quả của nó sẽ không ảnh hưởng đồng đều đến chúng ta: Khi công nghệ được xuất khẩu đến khu vực Nam toàn cầu, nó mang theo các chuẩn mực và triết lý phương Tây. Nó được bán như một cách để giúp đỡ những người ở các quốc gia đang phát triển, nhưng thường được áp đặt lên họ mà không có sự thảo luận, đẩy họ xa hơn vào rìa lề. 'Không ai ở Silicon Valley lo lắng về những phụ nữ da đen không có tài khoản ngân hàng ở một vùng nông thôn của Timbuktu,' Birhane nói.
Birhane tin rằng thay đổi thái độ công bố sẽ là động lực hiệu quả nhất cho sự thay đổi: Các công ty Big Tech phản ứng nhanh hơn trước sự phẫn nộ hơn là những thay đổi quy tắc công bộ. Nhưng cô không có mong muốn sống trong một môi trường căm phẫn vĩnh viễn: Là một phụ nữ da đen thực hiện công việc quan trọng, cô đã phải đối mặt với sự phản đối ngay từ ngày đầu tiên. 'Tôi không biết liệu tôi có thể sống cả cuộc đời chiến đấu hay không,' cô nói. Birhane - người hiện kết hợp giảng dạy với một học bổng cấp cao tại Quỹ Mozilla - thích nhìn vào nghiên cứu của mình làm công việc. 'Tôi ủng hộ mạnh mẽ cho việc 'hiển thị dữ liệu,'' cô nói.
Nhưng Birhane không nghĩ rằng đó sẽ là đủ - cô không lạc quan rằng Big Tech sẽ tự sửa chữa. Đối với mỗi bộ dữ liệu gặp vấn đề được tiết lộ và sửa chữa, một bộ khác đang chờ đợi. Đôi khi thậm chí không có gì thay đổi: Năm 2021, Birhane và đồng nghiệp đã xuất bản một bài báo về một bộ dữ liệu có hơn 400 triệu hình ảnh, được gọi là bộ dữ liệu LAION-400M, trả về nội dung khiêu dâm khi được khởi động bằng những từ hơi nữ tính như 'mummy' hoặc 'aunty.' Bài báo đã gây phẫn nộ, nhưng bộ dữ liệu vẫn tồn tại và đã tăng lên hơn 5 tỷ hình ảnh. Nó gần đây đã nhận giải thưởng.
Có lý do gì đã không có sự thay đổi. Trong khi tạo ra các bộ dữ liệu cho trí tuệ nhân tạo là khá đơn giản - chỉ cần đào qua internet - việc kiểm toán chúng là một công việc tốn thời gian và đắt đỏ. 'Làm việc bẩn bựa thì khó khăn lắm,' Birhane nói. Không có động lực để tạo ra một bộ dữ liệu sạch—chỉ có một bộ dữ liệu có lợi nhuận. Nhưng điều này có nghĩa là toàn bộ công việc bẩn bựa đó rơi vào vai trò của các nhà nghiên cứu như Birhane, người phải tìm kiếm qua những bộ dữ liệu này—phải dành nhiều giờ nhìn vào hình ảnh phân biệt chủng tộc hoặc cảnh hiếp dâm—đều tạo ra áp lực lớn. 'Điều đó thật sự làm chán nản,' cô nói. 'Nó thực sự có thể làm tổn thương, nhìn vào những thứ như vậy.'
Trong một thế giới lý tưởng, sự thay đổi sẽ được thúc đẩy bởi nguồn lực lớn lao của các công ty công nghệ, không phải là do các nhà nghiên cứu độc lập. Nhưng các tập đoàn không có khả năng thay đổi cách làm của họ mà không có áp lực đáng kể. 'Tôi muốn, trong một thế giới lý tưởng, có một hệ thống văn minh nơi các tập đoàn sẽ chịu trách nhiệm và đảm bảo rằng những hệ thống họ đưa ra là chính xác và công bằng cho mọi người,' Birhane nói. 'Nhưng điều đó chỉ làm như là đang yêu cầu quá nhiều.'
Bài viết này xuất hiện trong số tháng 3/tháng 4 năm 2023 của tạp chí MYTOUR UK.
