Để làm Trí tuệ Nhân tạo thông minh hơn, con người thực hiện các nhiệm vụ kỳ lạ và có ít tiền

Ẩn mình vào một góc nhỏ xa cửa hàng, khu vực thực phẩm cho bé tại Whole Foods ở khu SoMa của San Francisco ít người ghé qua. Tôi nhìn chung quanh tìm vệ sĩ bảo vệ, sau đó vươn tay vào hộp bánh rối táo và bông cải. Sau khi bỏ chúng vào xe đẩy mua hàng trống của mình, tôi đặt chúng ngay trở lại. “Bạn đã chụp được không?” Tôi hỏi đồng nghiệp đang quay trên iPhone của anh. Đó là lần đầu tiên tôi được trả tiền làm diễn viên. Tôi đang giúp giảng dạy phần mềm kỹ năng cần thiết cho những robot trong tương lai giúp người ta mua sắm.
Whole Foods không hề hay biết về chương trình này, một dự án của công ty khởi nghiệp người Đức-Canada Twenty Billion Neurons. Tôi thực hiện một số hành động ngắn khác nhau một cách êm dịu, bao gồm mở tủ lạnh và đẩy xe đẩy từ phải sang trái, sau đó từ trái sang phải. Sau đó, tôi đi ra ngoài mà không mua bất cứ thứ gì. Sau đó, tôi mất khoảng 30 phút để chỉnh sửa các đoạn video thành 2 đến 5 giây yêu cầu và tải lên trang web thu thập dữ liệu của Amazon, Mechanical Turk. Vài ngày sau, tôi nhận được 3,5 đô la. Nếu Twenty Billion tạo ra phần mềm cho robot trợ lý mua sắm, họ sẽ kiếm được nhiều hơn nhiều.
Khi lén lút vào Whole Foods, tôi đã tham gia vào một lực lượng lao động vô hình được trả rất ít tiền để làm những việc kỳ lạ với ý nghĩa là tiến bộ Trí tuệ Nhân tạo. Bạn có thể đã được cho biết rằng AI là điểm cao nhất lộng lẫy của công nghệ. Nhưng những người lao động này là phần của thực tế con người lộn xộn đằng sau đằng sau.
Người ủng hộ tin rằng mọi khía cạnh của cuộc sống và kinh doanh sẽ và sẽ được trung gian bởi Trí tuệ Nhân tạo. Đây là một chiến dịch được kích thích bởi các công ty công nghệ lớn như Alphabet, cho thấy rằng học máy có thể thống trị các nhiệm vụ như nhận diện giọng nói hoặc hình ảnh. Nhưng hầu hết các hệ thống học máy hiện tại như trợ lý thoại giọng nói được xây dựng bằng cách huấn luyện thuật toán với dữ liệu được gắn nhãn lớn. Nhãn được đánh giá từ các nhà thầu xem xét hình ảnh, âm thanh hoặc dữ liệu khác - đó là một con gấu koala, đó là một con mèo, cô ấy nói “xe hơi”.
Bây giờ, các nhà nghiên cứu và doanh nhân muốn thấy Trí tuệ Nhân tạo hiểu và hoạt động trong thế giới vật lý. Do đó cần có người lao động thực hiện các cảnh trong siêu thị và nhà ở. Họ tạo ra tài liệu hướng dẫn để giáo dục thuật toán về thế giới và những người trong đó.
Đó là lý do tại sao một buổi sáng, tôi phải nằm bằng mặt xuống sàn văn phòng của MYTOUR, sợi tổng hợp thô đang nhấn vào má tôi. Biên tập viên chụp ảnh. Sau khi tải lên Mechanical Turk, tôi nhận được 7 xu từ một công ty khởi nghiệp tám người ở Berkeley mang tên Safely You. Khi tôi gọi cho CEO George Netscher để cảm ơn, anh ấy bất ngờ cười, sau đó nghiêm túc đùa. “Có nghĩa là có xung đột quyền lợi không?” (Số tiền 6,30 đô la tôi kiếm được khi báo cáo bài viết này đã được quyên góp cho Haight Ashbury Free Clinics.)
Công ty khởi nghiệp của Netscher tạo phần mềm giám sát luồng video từ các nhà dưỡng lão, để phát hiện khi cư dân đã ngã. Những người mắc chứng mất trí thường không nhớ tại sao hoặc làm sao họ rơi xuống sàn. Tại 11 cơ sở trên khắp California, các thuật toán của Safely You giúp nhân viên nhanh chóng tìm vị trí trong video sẽ làm sáng tỏ bí ẩn.
Safely You đã yêu cầu những vụ ngã giả như của tôi để kiểm tra hệ thống của họ nhìn rộng ra như thế nào một người đã ngã. Phần mềm của công ty chủ yếu được huấn luyện với video của cư dân cao tuổi từ các cơ sở chăm sóc, được chú thích bởi nhân viên hoặc các nhà thầu. Sự kết hợp của hình ảnh của nhà báo 34 tuổi và bất kỳ ai sẵn lòng nằm xuống với giá 7 xu sẽ buộc thuật toán học máy mở rộng hiểu biết của họ. “Chúng tôi đang cố gắng xem chúng ta có thể tổng quát hóa như thế nào đến các sự cố hoặc phòng hoặc quần áo,” Netscher nói.
Công ty khởi nghiệp đã trả tiền cho màn trình diễn của tôi tại Whole Foods, Twenty Billion Neurons, là một động thái mạnh mẽ hơn đối với ý tưởng trả tiền cho người biểu diễn cho một khán giả thuật toán. Roland Memisevic, đồng sáng lập và CEO, đang tiến hành đăng ký nhãn hiệu cho thuật ngữ mà tôi đã làm để kiếm 3,50 đô la - diễn đàn đám đông. Ông cho rằng đây là con đường duy nhất để trang bị cho máy móc một chút ý thức chung về thế giới vật lý, một nhiệm vụ lâu dài trong lĩnh vực Trí tuệ Nhân tạo. Công ty đang thu thập hàng triệu video diễn đàn đám đông và sử dụng chúng để huấn luyện phần mềm mà họ hy vọng bán cho khách hàng trong các ngành công nghiệp như ô tô, bán lẻ và thiết bị gia đình.
Các trò chơi như cờ vua và cờ Gô, với bảng cố định, quân bài và luật chơi rõ ràng, rất phù hợp với máy tính. Ý thức chung về vật lý và không gian mà chúng ta học tự nhiên khi còn là trẻ con để di chuyển trong thế giới thực tế chủ yếu là ở xa với máy móc. Để đổ một cốc cà phê, bạn dễ dàng nắm bắt và cân bằng cốc và ấm, và điều khiển dòng chất lỏng đổ. Bạn sử dụng kiến thức sâu sắc tương tự, và một cảm nhận về động cơ của con người khác, để giải thích những gì bạn thấy trong thế giới xung quanh.
Làm thế nào để trang bị cho máy móc một phiên bản của điều đó là một thách thức lớn trong lĩnh vực Trí tuệ Nhân tạo. Một số nhà nghiên cứu nghĩ rằng các kỹ thuật hiện tại hiệu quả cho việc nhận dạng giọng nói hoặc hình ảnh sẽ không giúp ích nhiều, và họ luận điệu cần phải có các kỹ thuật mới. Memisevic nghỉ việc từ Viện Học thuật Montreal uy tín để khởi đầu Twenty Billion vì ông tin rằng các kỹ thuật hiện tại có thể làm nhiều hơn nếu được huấn luyện đúng cách. “Chúng hoạt động vô cùng hiệu quả,” ông nói. “Tại sao không mở rộng chúng đến các khía cạnh tinh tế hơn về thực tế bằng cách buộc chúng học những điều về thế giới thực?”
Để làm điều đó, công ty khởi nghiệp đang tích luỹ những bộ sưu tập lớn với những đoạn clip trong đó diễn viên đám đông thực hiện các hành động vật lý khác nhau. Hi vọng là thuật toán được huấn luyện để phân biệt chúng sẽ “học” bản chất của thế giới vật lý và hành động của con người. Đó là lý do tại sao khi diễn đàn đám đông tại Whole Foods, tôi không chỉ lấy hàng từ kệ và tủ lạnh, mà còn tạo ra những đoạn clip gần giống nhau, trong đó tôi chỉ giả vờ lấy sản phẩm.
Bộ dữ liệu đầu tiên của Twenty Billion, hiện đã được phát hành dưới dạng mã nguồn mở, là thực tế vật lý 101. Hơn 100.000 đoạn video của họ mô tả các thao tác đơn giản với các đồ vật hàng ngày. Bàn tay không thể nhận diện nhặt đôi giày, đặt điều khiển từ xa vào trong hộp bìa cứng, và đẩy một quả ớt xanh dọc theo bàn cho đến khi rơi xuống. Memisevic tránh trả lời các câu hỏi về khách hàng đứng sau lời kêu gọi diễn viên mà tôi đã trả lời, tuyên bố, “Chúng tôi muốn xây dựng một robot hỗ trợ bạn khi mua sắm tại siêu thị.” Ông chỉ nói rằng các ứng dụng ô tô là một lĩnh vực lớn đang quan tâm; công ty đã làm việc với BMW. Tôi nhìn thấy các công việc được đăng trên Mechanical Turk mô tả một dự án, chỉ có tên Twenty Billion đính kèm, nhằm mục đích cho phép một chiếc xe ô tô xác định những gì mà người trong xe đang làm. Người lao động được yêu cầu giả vờ ăn vặt, ngủ gục, hoặc đọc sách trên ghế. Phần mềm có thể phát hiện các hành động đó có thể giúp các phương tiện bán tự động biết khi nào người lái không sẵn sàng tiếp quản việc lái, hoặc mở ngăn đựng cốc khi bạn vào cầm một ly nước.
Ai là những diễn viên đám đông thực hiện công việc này? Một trong số họ là Uğur Büyükşahin, một sinh viên kỹ thuật địa chất năm thứ ba ở Ankara, Thổ Nhĩ Kỳ, và ngôi sao của hàng trăm video trong bộ sưu tập của Twenty Billion. Anh ấy ước tính dành khoảng 7 đến 10 giờ mỗi tuần trên Mechanical Turk, kiếm được khoảng bằng số tiền anh ấy từng kiếm được sau ca làm việc với tiền boa tốt ở nhà hàng mà anh ấy từng làm. Büyükşahin nói rằng Twenty Billion là một trong những nơi yêu thích của anh ấy, vì nó trả tiền tốt và kịp thời. Những nhiệm vụ đôi khi kỳ lạ không làm phiền anh ấy. “Một số người có thể ngại ngùng khi quay hàng trăm video tại siêu thị, nhưng tôi không,” Büyükşahin nói. Bạn gái của anh ấy, ít hướng ngoại hơn, ban đầu lo lắng về dự án, nhưng sau khi thấy thu nhập của anh ấy, một phần đã được dịch thành quà tặng, chẳng hạn như một bộ dụng cụ uốn tóc mới.
Büyükşahin và một Turker khác mà tôi nói chuyện, Casey Cowden, 31 tuổi ở Johnson City, Tennessee, nói với tôi rằng tôi đã làm đám đông diễn sai cách. Tất cả, 10 video của tôi đã kiếm cho tôi một mức lương khoảng 4,60 đô la mỗi giờ. Họ đạt được tỷ lệ cao hơn rất nhiều bằng cách ở trong siêu thị trong khoảng vài giờ, làm nhiệm vụ của Twenty Billion.
Büyükşahin nói rằng kỷ lục cá nhân của anh ấy là 110 video siêu thị trong một giờ duy nhất. Anh ấy sử dụng gimbal để chụp ảnh chất lượng cao hơn, đẩy lùi những nhân viên cửa hàng tò mò khi cần thiết bằng cách nói dối về một dự án nghiên cứu đại học về AI. Cowden tính toán rằng anh ấy và một người bạn mỗi người kiếm được mức lương 11,75 đô la mỗi giờ trong hai giờ rưỡi của diễn viên đám đông tại Walmart địa phương. Đó là nhiều hơn mức lương khởi điểm 11 đô la của Walmart, hoặc khoảng 7,75 đô la mà hôn thê của Cowden kiếm được ở Burger King.
Cowden dường như có thú vui hơn nhân viên của Walmart. Anh ấy bắt đầu làm Turker đầu năm ngoái, sau khi công ty xây dựng mà anh ấy làm việc cho phá sản. Làm việc từ nhà có nghĩa là anh ấy có thể ở bên cạnh chăm sóc mẹ hôn thê, người mắc bệnh Alzheimer. Anh ấy nói rằng ban đầu anh ấy được hấp dẫn bởi các nhiệm vụ của Twenty Billion vì, với chiến lược đúng, chúng trả lương tốt hơn so với công việc nhập dữ liệu chiếm ưu thế trên Mechanical Turk. Nhưng anh ấy cũng ấm lòng với ý tưởng làm việc trên một ranh giới công nghệ. Cowden cho biết anh ấy cố gắng thay đổi phông nền, thậm chí cả trang phục anh ấy mặc, trong các cảnh quay khác nhau. “Bạn không thể huấn luyện một robot để mua sắm tại siêu thị nếu các video bạn có đều giống nhau,” Cowden nói với tôi. “Tôi cố gắng làm hết sức có thể để chương trình có thể nhìn nhận từ nhiều góc độ khác nhau.”
Mechanical Turk thường được gọi là một nhà máy mồ hôi hiện đại. Một nghiên cứu gần đây cho thấy mức lương trung bình khoảng 2 đô la mỗi giờ. Nhưng nó thiếu không khí cộng đồng của một nhà máy. Lao động trên trang web này được chia nhỏ thành cá nhân làm việc từ nhà hoặc điện thoại trên khắp thế giới.
Đôi khi, diễn viên đám đông cũng có cơ hội nhìn nhau vào mặt. Twenty Billion thuê các công nhân hợp đồng để xem xét các video diễn viên đám đông. Nhưng trong một chiến lược phổ biến trên Mechanical Turk, công ty khởi nghiệp đôi khi sử dụng công nhân đám đông khác để xem xét các công nhân đám đông khác. Tôi được trả 10 xu để xem xét 50 đoạn clip của diễn viên đám đông đang làm việc trên dự án ô tô của công ty khởi nghiệp. Tôi click để chỉ ra liệu một công nhân đã tuân thủ kịch bản hay không—“ngủ gục khi ngồi,” “uống từ cốc hoặc lon,” hoặc “nắm giữ một thứ gì đó bằng cả hai tay.”
Nhiệm vụ đưa tôi đến những căn phòng ngủ, phòng khách và phòng tắm. Nhiều người có vẻ ở những nơi mà 10 xu đi xa hơn so với ở San Francisco. Tôi bắt đầu đánh giá cao các phong cách diễn xuất khác nhau. Để giả vờ ngủ gục, một người đàn ông không mặc áo trong một căn phòng tối lean nhẹ về phía sau với vẻ đắm chìm; một người phụ nữ dường như ở trong một cái tủ để đầu nảy vụt lên như một con búp bê với dây cắt.
Một số diễn viên đám đông là trẻ em—vi phạm các điều khoản của Amazon, yêu cầu người lao động phải từ 18 tuổi trở lên. Một cậu bé người châu Á khoảng 9 tuổi trong đồng phục học sinh nhìn ra từ một chiếc ghế nhựa bẩn trước một bức tường trắng sơn gột vở, sau đó giả vờ ngủ. Một cậu bé người châu Á khác, lớn hơn một chút, thể hiện “uống từ cốc hoặc lon” trong khi một đứa trẻ khác nằm trên một chiếc giường phía sau anh ấy. CTO của Twenty Billion, Ingo Bax, nói với tôi rằng công ty loại bỏ những video như vậy từ tập dữ liệu cuối cùng, nhưng không thể loại trừ việc đã trả tiền cho các đoạn clip của diễn viên đám đông trẻ em trước khi chúng được lọc. Memisevic nói rằng công ty có các giao thức để ngăn chặn việc thanh toán hệ thống cho tài liệu như vậy.
Trẻ em cũng xuất hiện trong một kho video diễn viên đám đông tôi phát hiện trên YouTube. Trong hàng chục video có vẻ như được công khai vô tình, mọi người diễn xuất theo kịch bản như “Một người chạy xuống cầu thang cười nắm cốc cà phê, trong khi một người khác đang sửa chữa núm cửa.” Hầu hết có vẻ đã được quay tại bán đảo Ấn Độ. Một số đã được ghi lại bởi một diễn viên đám đông cầm điện thoại đặt ở trán, tạo cảm giác nhìn từ góc nhìn người thứ nhất.
Tôi tìm thấy những video này khi cố gắng để vén mặt người đứng sau công việc diễn xuất đám đông trên Mechanical Turk từ “Dự án AI trong nhà.” Diễn đàn nơi người lao động đám đông tụ tập để than phiền và trao đổi mẹo lưu truyền rằng đó là một sự hợp tác giữa Đại học Carnegie Mellon và Viện Allen cho AI ở Seattle. Giống như Twenty Billion, họ đang thu thập hàng ngàn video diễn xuất đám đông để cố gắng cải thiện sự hiểu biết của thuật toán về thế giới vật lý và những gì chúng ta làm trong đó. Gần 10,000 đoạn clip đã được phát hành để các nhà nghiên cứu khác sử dụng trong một bộ sưu tập thích hợp được đặt tên là Charades.
Gunnar Atli Sigurdsson, một sinh viên sau đại học trong dự án, lặp lại Memisevic khi tôi hỏi tại sao anh ta trả người lạ để rót đồ uống hoặc chạy xuống cầu thang với điện thoại đặt ở trán. Anh ấy muốn các thuật toán hiểu chúng ta. “Chúng ta đã thấy các hệ thống AI rất ấn tượng trong một số nhiệm vụ rất hẹp, được xác định rõ ràng như cờ vua và cờ vây,” Sigurdsson nói. “Nhưng chúng ta muốn có một người hầu AI trong căn hộ của chúng ta và muốn nó hiểu cuộc sống của chúng ta, không phải những thứ chúng ta đăng trên Facebook, những điều thực sự nhàm chán.”
Nếu các công ty công nghệ chinh phục ranh giới hàng ngày của AI đó sẽ có thể được coi là thành công mới nhất của các chuyên gia machine learning. Nếu phương pháp của Twenty Billion thành công, sự thật sẽ rắc rối và thú vị hơn. Nếu bạn từng được trợ giúp từ một robot trong siêu thị, hoặc đi trong một chiếc xe hiểu được những gì người điều khiển làm, hãy nghĩ đến những diễn viên đám đông có thể đã huấn luyện nó. Cowden, người Tennessee, nói rằng anh ấy thích các nhiệm vụ của Twenty Billion một phần vì mẹ anh ấy đang chiến đấu với ung thư xương. Robot và phần mềm có khả năng hiểu và can thiệp vào thế giới của chúng ta có thể giúp giải quyết vấn đề thiếu hụt ngày càng tăng của y tá và người chăm sóc sức khỏe tại nhà. Nếu các dự án mà họ đóng góp thành công, diễn viên đám đông có thể thay đổi thế giới—mặc dù họ có thể là những người cuối cùng được hưởng lợi.
- Geoff Hinton của Google, người đã đưa trí tuệ nhân tạo vào phổ thông, đang phát triển các phương pháp mới cho lĩnh vực này.
- Dưới đây là các dự án mà các nhà nghiên cứu trí tuệ nhân tạo đang nghiên cứu trong năm nay.
- Đọc Hướng dẫn của MYTOUR về Trí tuệ Nhân tạo.
