Facebook muốn trí tuệ nhân tạo của mình trở thành đôi mắt và tai của bạn
Facebook đã công bố một dự án nghiên cứu nhằm đẩy mạnh “biên giới của nhận thức người thứ nhất”, và trong quá trình đó giúp bạn nhớ nơi bạn để quên chìa khóa của mình.
Dự án Ego4D cung cấp một bộ sưu tập lớn video người thứ nhất và dữ liệu liên quan, cùng một loạt thách thức cho các nhà nghiên cứu để dạy máy tính hiểu dữ liệu và thu thập thông tin hữu ích từ đó.
Trong tháng 9, ông lớn truyền thông xã hội đã tung ra một dòng kính thông minh mang tên Ray-Ban Stories, đi kèm với máy ảnh kỹ thuật số và các tính năng khác. Tương tự như dự án Google Glass, gặp đánh giá trái chiều vào năm 2013, dự án này đã gây ra những khiếu nại về xâm phạm quyền riêng tư.
Dự án Ego4D nhằm phát triển phần mềm sẽ làm cho kính thông minh trở nên hữu ích hơn rất nhiều, nhưng cũng có thể dẫn đến việc xâm phạm quyền riêng tư nghiêm trọng hơn.
Ego4D là gì?
Facebook mô tả trái tim của dự án là một tập hợp dữ liệu và bộ tiêu chuẩn egocentric quy mô lớn, thu thập từ 74 địa điểm trên toàn thế giới và chín quốc gia, với hơn 3.025 giờ video về hoạt động hàng ngày.
Hội nghị TNW 2024 - Mời tất cả các Startup tham gia vào ngày 20-21 tháng 6
Trưng bày startup của bạn trước các nhà đầu tư, những người thay đổi và khách hàng tiềm năng với các gói Startup được chúng tôi tổ chức.
Từ “Ego” trong Ego4D có nghĩa là egocentric (hoặc video “người đầu tiên”), trong khi “4D” đại diện cho ba chiều không gian cộng với một chiều nữa: thời gian. Về bản chất, Ego4D cố gắng kết hợp hình ảnh, video, thông tin địa lý và dữ liệu khác nhau để xây dựng mô hình về thế giới của người dùng.
Có hai thành phần: một tập dữ liệu lớn về ảnh và video người đầu tiên, và một “bộ tiêu chuẩn” gồm năm nhiệm vụ thách thức có thể được sử dụng để so sánh các mô hình hoặc thuật toán AI khác nhau với nhau. Các tiêu chuẩn này liên quan đến việc phân tích video người đầu tiên để nhớ các sự kiện trong quá khứ, tạo bài nhật ký, hiểu các tương tác với đối tượng và người, và dự đoán các sự kiện trong tương lai.
Bộ dữ liệu bao gồm hơn 3.000 giờ video người đầu tiên từ 855 người tham gia thực hiện các nhiệm vụ hàng ngày, được ghi lại bằng nhiều thiết bị khác nhau bao gồm camera GoPro và kính thực tế tăng cường (AR). Video bao gồm các hoạt động tại nhà, nơi làm việc, và hàng trăm bối cảnh xã hội khác nhau.
Trong bộ dữ liệu có gì?
Mặc dù đây không phải là bộ dữ liệu video đầu tiên được giới nghiên cứu giới thiệu, nhưng nó lớn gấp 20 lần so với các bộ dữ liệu công khai có sẵn. Nó bao gồm video, âm thanh, quét lưới 3D của môi trường, ánh nhìn, âm thanh nhiều kênh được đồng bộ của cùng một sự kiện.
Hầu hết hình ảnh được ghi lại là không kịch bản hoặc “ở ngoại ô”. Dữ liệu cũng rất đa dạng vì nó được thu thập từ 74 địa điểm trên chín quốc gia, và những người ghi lại dữ liệu có nhiều nền tảng, độ tuổi và giới tính khác nhau.
Chúng ta có thể làm gì với nó?
Thường, các mô hình thị giác máy tính được huấn luyện và kiểm tra trên hình ảnh và video được chú thích cho một nhiệm vụ cụ thể. Facebook lập luận rằng các bộ dữ liệu và mô hình trí tuệ nhân tạo hiện tại đại diện cho một cái nhìn người thứ ba hoặc “khán giả”, dẫn đến hạn chế trong nhận thức hình ảnh. Hiểu video người đầu tiên sẽ giúp thiết kế robot tương tác tốt hơn với môi trường xung quanh.
Future robotic agents will benefit from a better understanding of their environment. WikimediaHơn nữa, Facebook lập luận rằng tầm nhìn egocentric có thể tiềm ẩn biến đổi cách chúng ta sử dụng thiết bị thực tế ảo và tăng cường như kính và tai nghe. Nếu chúng ta có thể phát triển mô hình trí tuệ nhân tạo hiểu thế giới từ góc nhìn người đầu tiên, giống như con người, thiết bị thực tế ảo và tăng cường có thể trở nên quý giá như điện thoại thông minh của chúng ta.
Liệu Trí tuệ Nhân tạo có thể làm cuộc sống của chúng ta tốt hơn không?
Facebook cũng đã phát triển năm thách thức tiêu chuẩn như một phần của dự án Ego4D. Những thách thức nhằm mục đích xây dựng hiểu biết tốt hơn về tư liệu video để phát triển các trợ lý trí tuệ nhân tạo hữu ích. Các tiêu chuẩn tập trung vào hiểu biết về nhận thức người đầu tiên. Các tiêu chuẩn được mô tả như sau:
- Ký ức từng đoạn (đã xảy ra gì khi nào?): ví dụ, tìm ra từ video người đầu tiên bạn đã để chìa khóa ở đâu
- Thao tác tay-vật thể (tôi đang làm gì và như thế nào?): mục tiêu của nó là hiểu biết và giáo dục hành động của con người tốt hơn, như hướng dẫn cách chơi trống
- Trò chuyện âm thanh-hình ảnh (ai nói gì và khi nào?): điều này bao gồm việc theo dõi và tóm tắt cuộc trò chuyện, cuộc họp hoặc lớp học
- Tương tác xã hội (ai đang tương tác với ai?): điều này liên quan đến xác định người và hành động của họ, với mục tiêu như giúp bạn nghe rõ hơn nếu họ đang nói chuyện với bạn
- Dự báo hoạt động (tôi có khả năng làm gì tiếp theo?): mục tiêu của nó là dự đoán ý định của bạn và đưa ra lời khuyên, như chỉ ra bạn đã thêm muối vào công thức nếu bạn dường như định thêm thêm ít.
Vấn đề về quyền riêng tư thì sao?
Rõ ràng, có những lo ngại quan trọng về quyền riêng tư. Nếu công nghệ này được kết hợp với kính thông minh liên tục ghi và phân tích môi trường, kết quả có thể là theo dõi và ghi chép liên tục (qua nhận dạng khuôn mặt) của những người di chuyển ở nơi công cộng.
Mặc dù những điều trên có vẻ kịch tính, công nghệ tương tự đã được thử nghiệm tại Trung Quốc, và các nguy cơ tiềm ẩn đã được các nhà báo khám phá.
Facebook cho biết họ sẽ duy trì các tiêu chuẩn đạo đức và quyền riêng tư cao đối với dữ liệu thu thập cho dự án, bao gồm sự đồng ý của người tham gia, các đánh giá độc lập và vô danh hóa dữ liệu khi có thể.
Như vậy, Facebook cho biết dữ liệu được thu thập trong một 'môi trường kiểm soát với sự đồng ý được thông tin', và ở các không gian công cộng 'khuôn mặt và thông tin nhận dạng cá nhân khác [PII - personally identifying information] được làm mờ'.
Nhưng bất chấp những sự đảm bảo này (và lưu ý rằng đây chỉ là một thử nghiệm), vẫn có những lo ngại về tương lai của công nghệ kính thông minh kết hợp với quyền lực của một gigant mạng xã hội có ý định không luôn đồng nhất với người dùng của họ đã không luôn được cân nhắc.
Tương lai?
Tập dữ liệu ImageNet, một bộ sưu tập lớn các hình ảnh được gắn thẻ, đã giúp máy tính học cách phân tích và mô tả hình ảnh trong hơn thập kỷ qua. Liệu Ego4D có làm điều tương tự cho video người đầu tiên không?

Bài viết của Jumana Abu-Khalaf, Học viên Nghiên cứu về Tin học và An ninh, Đại học Edith Cowan và Paul Haskell-Dowland, Phó Hiệu trưởng (Tin học và An ninh), Đại học Edith Cowan
Bài viết này được tái xuất bản từ The Conversation dưới giấy phép Creative Commons. Đọc bài viết gốc.
