Trí Tuệ Nhân Tạo Có Thể Thay Đổi Cách Người Mù Nhìn Thế Giới

Đối với lễ kỷ niệm sinh nhật thứ 38 của mình, Chela Robles và gia đình đã thực hiện một chuyến đi đến One House, tiệm bánh ưa thích của cô ở Benicia, California, để thưởng thức bánh sandwich thịt bò xông khói và bánh brownies. Trên đường về nhà, cô chạm nhẹ vào một màn hình cảm ứng nhỏ ở thái dương của mình và yêu cầu mô tả về thế giới bên ngoài. “Một bầu trời đầy mây,” câu trả lời đến qua kính Google Glass của cô.
Robles đã mất khả năng nhìn bằng mắt trái khi cô 28 tuổi, và mắt phải một năm sau. Cô nói rằng sự mù mờ cản trở bạn những chi tiết nhỏ giúp con người kết nối với nhau, như dáng điệu và biểu hiện khuôn mặt. Cha cô, ví dụ, thường kể những câu chuyện khô khan, nên cô không luôn chắc chắn khi ông đang nói nghiêm túc. “Nếu một bức tranh có thể kể 1,000 từ, hãy tưởng tượng xem một biểu hiện có thể kể bao nhiêu từ,” cô nói.
Robles đã thử nghiệm các dịch vụ kết nối cô với những người nhìn thấy để được giúp đỡ trong quá khứ. Nhưng vào tháng 4, cô đăng ký thử nghiệm với Ask Envision, một trợ lý trí tuệ nhân tạo sử dụng mô hình GPT-4 của OpenAI, một mô hình đa dạng có thể nhận hình ảnh và văn bản và đưa ra câu trả lời hội thoại. Hệ thống này là một trong số các sản phẩm hỗ trợ cho người mù để bắt đầu tích hợp các mô hình ngôn ngữ, hứa hẹn mang lại cho người dùng nhiều chi tiết hình ảnh hơn về thế giới xung quanh họ—và nhiều độc lập hơn.
Envision được ra mắt như một ứng dụng điện thoại thông minh để đọc văn bản trong ảnh vào năm 2018, và trên Google Glass vào đầu năm 2021. Earlier this year, the company began testing an open source conversational model that could answer basic questions. Then Envision incorporated OpenAI’s GPT-4 for image-to-text descriptions.
Be My Eyes, một ứng dụng 12 tuổi giúp người dùng xác định đối tượng xung quanh, đã áp dụng GPT-4 vào tháng 3. Microsoft—là một nhà đầu tư lớn trong OpenAI—đã bắt đầu kiểm thử tích hợp GPT-4 cho dịch vụ SeeingAI của họ, cung cấp các chức năng tương tự, theo Sarah Bird, người đứng đầu trách nhiệm về trí tuệ nhân tạo của Microsoft.
Trong phiên bản trước đó, Envision đọc toàn bộ văn bản trong một hình ảnh từ đầu đến cuối. Bây giờ nó có thể tóm tắt văn bản trong một bức ảnh và trả lời câu hỏi theo dõi. Điều đó có nghĩa là Ask Envision bây giờ có thể đọc một menu và trả lời câu hỏi về những thứ như giá cả, hạn chế dinh dưỡng và lựa chọn tráng miệng.
Một người thử nghiệm sớm của Ask Envision, Richard Beardsley, nói rằng anh thường sử dụng dịch vụ để thực hiện những công việc như tìm thông tin liên lạc trên hóa đơn hoặc đọc danh sách thành phần trên hộp thực phẩm. Có một tùy chọn không cần sử dụng tay thông qua Google Glass có nghĩa là anh có thể sử dụng nó trong khi nắm dây dẫn chó dẫn đường và một cây gậy. “Trước đây, bạn không thể nhảy đến một phần cụ thể của văn bản,” anh nói. “Có điều này thực sự làm cuộc sống dễ dàng hơn vì bạn có thể nhảy đến chính xác điều bạn đang tìm kiếm.”
Trong quá trình thử nghiệm sớm của một số mô hình chuyển ảnh thành văn bản, Gurari phát hiện rằng chúng có thể tạo ra thông tin giả mạo hoặc "gây ảo giác." "Hầu hết những gì bạn có thể tin là chỉ có những đối tượng cấp cao, như 'Tôi thấy một chiếc xe, Tôi thấy một người, Tôi thấy một cái cây,'" cô nói. Đó không phải là thông tin không quan trọng, nhưng người dùng không nhất thiết có thể tin tưởng rằng trí tuệ nhân tạo sẽ nói đúng về cái bánh mì của họ.
"Khi người mù nhận được thông tin này, chúng tôi biết từ những cuộc phỏng vấn trước đó rằng họ thích cái gì đó hơn là không có gì, vì vậy đó là tuyệt vời. Vấn đề là khi họ đưa ra quyết định dựa trên thông tin giả mạo, điều đó có thể để lại một vị đắng trong miệng họ," cô nói.
Nếu một trí tuệ nhân tạo mô tả sai bằng cách nhận diện sai loại thuốc, ví dụ, điều đó có thể gây hậu quả đe doạ tính mạng.
Việc sử dụng các mô hình ngôn ngữ lớn hứa hẹn nhưng có khuyết điểm để giúp người mù 'nhìn thấy' thế giới cũng có thể làm cho họ tiếp xúc với xu hướng của trí tuệ nhân tạo nhận diện sai tuổi, chủng tộc và giới tính của người. Các tập dữ liệu đã được sử dụng để huấn luyện trí tuệ nhân tạo được biết đến là lệch và có độ chệch, mã hóa độc đáo và lỗi. Hệ thống nhìn thấy vật thể của máy tính cho phát hiện có lịch sử chệch về phương Tây, và nhận dạng khuôn mặt có đầu ra ít chính xác hơn đối với nhóm như người Á châu, người chuyển giới và phụ nữ có làn da tối."
Bahram thừa nhận rằng đây là những rủi ro và đề xuất rằng các hệ thống cung cấp cho người dùng một điểm tự tin để họ có thể đưa ra quyết định có thông tin nào trí tuệ nhân tạo nghĩ rằng mình đang nhìn thấy hay không. Nhưng anh ta nói rằng người mù có quyền truy cập vào thông tin giống như những người có thị lực. "Đó là một dịch vụ không tốt khi giả vờ rằng mỗi người có thị lực không ngay lập tức chú ý đến [các thuộc tính như giới tính hoặc màu da], cho dù họ hành động dựa trên nó hay không," anh ta nói. "Vậy tại sao [giữ lại] là công bằng với ai đó không có quyền truy cập vào thông tin hình ảnh?"
Công nghệ không thể truyền đạt những kỹ năng di chuyển cơ bản mà một người mù cần để tự lập, nhưng những người thử nghiệm beta của Ask Envision đều ấn tượng với hệ thống cho đến nay. Đương nhiên, nó vẫn có nhược điểm. Robles, người chơi kèn trumpet, muốn có khả năng đọc nhạc và muốn hệ thống cung cấp thêm bối cảnh không gian—nơi một người hoặc đối tượng đang ở trong phòng và họ được định hướng như thế nào—cũng như chi tiết hơn.
"Sẽ thật tuyệt vời nếu biết, 'ừm, người này đang mặc gì vậy nhỉ?'" cô nói. "Nó có thể bị sai lầm. Trí tuệ nhân tạo không hoàn hảo theo bất kỳ cách nào, nhưng tôi nghĩ mọi chút ít cũng giúp ích trong việc mô tả."
