Nếu bạn đã đến thư viện Đại học Cambridge vào cuối những năm 1990, bạn có thể đã nhìn thấy một chàng trai thanh mảnh, gương mặt được soi sáng bởi ánh sáng của màn hình laptop, cắm trại trong những kệ sách. William Tunstall-Pedoe đã hoàn tất việc học trong ngành khoa học máy tính vài năm trước đó, nhưng anh vẫn thích mùi ẩm mốc từ giấy cũ, cảm giác của sách bao quanh từ mọi phía. Thư viện nhận được một bản sao gần như mọi thứ được xuất bản tại Vương quốc Anh, và sự đa dạng về thông tin - 5 triệu sách và 1.2 triệu tạp chí - đã làm anh cảm hứng.
Đương nhiên, vào khoảng thời gian này, một kho thông tin rộng lớn khác - internet - đang hình thành. Google, với tuyên ngôn nổi tiếng của mình 'sắp xếp thông tin của thế giới và làm cho nó trở nên thông dụng và hữu ích,' đang tự hào bước vào vai trò của một thủ thư cho toàn cầu. Nhưng dù Tunstall-Pedoe thích thú khi lạc quan trong kệ sách, anh cảm thấy rằng máy tính không nên yêu cầu người dùng phải mất công theo dõi thông tin như thư viện. Đúng vậy, việc tìm kiếm trong kết quả tìm kiếm, tình cờ phát hiện nguồn thông tin mới và khám phá thông tin liên quan. Nhưng điều mà hầu hết người dùng thực sự muốn là câu trả lời, không phải là sự hồi hộp của việc săn lùng.

Công cụ để đạt được điều này, các công cụ tìm kiếm gần như vụng về như những người tiền nhiệm đầy sách. Đầu tiên, bạn phải nghĩ ra từ khóa phù hợp. Từ danh sách dài các liên kết mà Google hoặc Yahoo sản xuất, bạn phải đoán xem cái nào là tốt nhất. Sau đó, bạn phải nhấp vào nó, vào một trang web, và hy vọng rằng nó chứa thông tin bạn tìm kiếm. Tunstall-Pedoe nghĩ rằng công nghệ nên hoạt động giống như máy tính trên con tàu trong Star Trek: Hỏi một câu hỏi bằng ngôn ngữ hàng ngày, nhận được một 'câu trả lời tức thì, hoàn hảo'. Công cụ tìm kiếm như những thủ thư hữu ích, theo anh ta, cuối cùng sẽ nhường chỗ cho Trí tuệ Nhân tạo như những vị tiên tri vĩ đại.
Điều này là một ước mơ công nghệ ngang tầm với xe bay, nhưng Tunstall-Pedoe đã bắt đầu biến nó thành hiện thực. Anh đã kiếm tiền từ việc làm lập trình viên từ khi 13 tuổi và luôn mê mẩn với việc dạy ngôn ngữ tự nhiên cho máy móc. Là sinh viên đại học, anh đã viết một phần mềm gọi là Anagram Genius, khi được cung cấp tên hoặc cụm từ, sẽ sắp xếp lại các chữ cái một cách thông minh. Ví dụ, “Margaret Hilda Thatcher” trở thành “A girl, the arch mad-hatter.” (Nhiều năm sau, tác giả Dan Brown đã sử dụng Anagram Genius để tạo ra các câu đố quan trọng trong The Da Vinci Code.) Bây giờ, cô lập trong thư viện, Tunstall-Pedoe bắt đầu xây dựng một nguyên mẫu có thể trả lời vài trăm câu hỏi.
Hai thập kỷ sau đó, với sự bùng nổ của các nền tảng máy tính bằng giọng nói như Amazon Alexa và Google Assistant, các công ty công nghệ lớn nhất thế giới đột ngột, đột ngột chuyển hướng theo hướng mà Tunstall-Pedoe đề xuất. Loa thông minh kích hoạt bằng giọng nói đã trở thành một trong những sản phẩm bán chạy nhất của ngành công nghiệp; chỉ trong năm 2018, theo báo cáo của NPR và Edison Research, sự phổ biến của chúng trong các hộ gia đình ở Mỹ tăng 78%. Theo một cuộc khảo sát thị trường, người ta hỏi loa thông minh của họ để trả lời câu hỏi nhiều hơn so với bất kỳ việc gì khác. Tầm nhìn của Tunstall-Pedoe về máy tính phản hồi trực tiếp câu hỏi của chúng ta - cung cấp câu trả lời ngay lập tức, như họ được biết trong cộng đồng tìm kiếm - đã trở nên phổ biến. Internet và các hệ sinh thái kinh doanh tỷ đô nó hỗ trợ đang thay đổi không thể đảo ngược. Và cũng như vậy, sự tạo ra, phân phối và kiểm soát thông tin - bản chất của cách chúng ta biết những gì chúng ta biết.
Năm 2007, sau khi trải qua sự sụp đổ của dotcom và hậu quả của nó, Tunstall-Pedoe và vài đồng nghiệp gần như sắp ra mắt sản phẩm đầu tiên của họ - một trang web có tên True Knowledge sẽ cung cấp câu trả lời ngay lập tức cho tất cả các loại câu hỏi. Vào thời điểm đó, ý tưởng của họ vẫn là một mục tiêu không theo truyền thống. 'Có những người trong Google hoàn toàn dị ứng với những gì chúng tôi đang làm,' Tunstall-Pedoe nói. 'Ý tưởng về một câu trả lời ngay lập tức cho một tìm kiếm là điều cấm kỵ.' Anh nhớ lại việc tranh luận với một nhân viên cấp cao của Google từ chối khái niệm về việc tồn tại một câu trả lời chính xác duy nhất. Các công cụ tìm kiếm lớn, mặc dù đã lập chỉ mục hàng tỷ trang web, nhưng không có hiểu biết sâu sắc về các truy vấn của người dùng. Thay vào đó, họ tham gia vào công việc phỏng đoán cao cấp: Bạn gõ vào thanh tìm kiếm của Google một vài từ khóa, và hệ thống PageRank của công ty sẽ trả về một danh sách dài những phỏng đoán dựa trên số liệu về những gì bạn muốn biết.
Để chứng minh rằng ước mơ một lần của True Knowledge có thể thành hiện thực, Tunstall-Pedoe và đội ngũ nhỏ của anh ở Cambridge đã phát triển một bộ não kỹ thuật số gồm ba thành phần chính. Thứ nhất là hệ thống xử lý ngôn ngữ tự nhiên cố gắng hiểu rõ các câu hỏi. Ví dụ, 'Có bao nhiêu người sống ở', 'Dân số của là bao nhiêu', và 'Kích thước của' sẽ được đại diện cho các truy vấn về số dân cư của một địa điểm.
Bộ phận thứ hai của hệ thống tích luỹ các sự kiện. Khác với một công cụ tìm kiếm, mà đơn giản chỉ chỉ người dùng đến các trang web, True Knowledge ước vọng cung cấp câu trả lời trực tiếp. Nó cần biết rằng dân số của London là 8,8 triệu người, LeBron James cao 6'8", lời cuối cùng của George Washington là 'Tis well', và vân vân. Đa số lớn thông tin này không được nhập thủ công vào hệ thống; điều đó sẽ quá gian khổ. Thay vào đó, chúng được tự động lấy từ các nguồn dữ liệu có cấu trúc, nơi thông tin được liệt kê dưới dạng máy tính có thể đọc được.
Cuối cùng, hệ thống cũng phải mã hóa cách mà tất cả các thông tin này liên quan đến nhau. Các lập trình viên tạo ra một biểu đồ tri thức, có thể được hình dung như một cấu trúc giống như cây to lớn. Ở phía dưới cùng là hạng mục 'đối tượng', bao gồm mọi sự kiện. Khi di chuyển lên trên, hạng mục 'đối tượng' chia thành các lớp 'đối tượng khái niệm' (cho những xây dựng xã hội và tâm lý) và 'đối tượng vật lý' (cho mọi thứ khác). Càng đi lên cao trên cây, các phân loại càng trở nên tinh refine hơn. Ví dụ, hạng mục 'track', chẳng hạn, phân thành các nhóm bao gồm 'đường dẫn', 'đường sắt', và 'đường phố'. Xây dựng nguyên lý là một công việc gian khổ, và nó lên đến hàng chục ngàn hạng mục, bao gồm hàng trăm triệu sự kiện. Nhưng cấu trúc mà nó cung cấp cho phép thông tin mới được sắp xếp như việc phân loại quần áo vào ngăn kéo tủ đựng quần áo.

Biểu đồ tri thức mã hóa mối quan hệ theo một cách phân loại: Một cây Thông Douglas là một loại của thực vật bụi, thực vật bụi là một loại cây, và vân vân. Nhưng vượt ra khỏi việc đơn thuần chỉ biểu thị có một mối liên kết giữa hai thực thể, hệ thống cũng đặc điểm hóa bản chất của mỗi mối liên kết: Big Ben được đặt tại Anh. Emmanuel Macron là tổng thống của Pháp. Điều này có nghĩa là True Knowledge hiệu quả học được một số quy tắc thông thường về thế giới mà, mặc dù rõ ràng đối với con người, thường làm mất tập trung các máy tính: Một địa điểm nổi tiếng chỉ có thể tồn tại ở một nơi duy nhất. Pháp chỉ có thể có một tổng thống đương nhiệm. Đối với Tunstall-Pedoe, điều thú vị nhất là True Knowledge có thể xử lý những câu hỏi mà câu trả lời không được nêu rõ trước đó. Hãy tưởng tượng ai đó hỏi: 'Móng vuốt có phải là chim?' Bởi vì tri thức đã sắp xếp móng vuốt vào một nhóm con dưới 'động vật có vú' và chim nằm ở một nơi khác, hệ thống có thể suy luận chính xác rằng móng vuốt không phải là chim.
True Knowledge trở nên thông minh hơn, và trong các phiên thuyết trình với các nhà đầu tư, Tunstall-Pedoe thích đối mặt với các đối thủ cạnh tranh. Ví dụ, anh đã tìm kiếm trên Google 'Madonna có độc thân không?' Sự hiểu biết nông cạn của công cụ tìm kiếm rõ ràng khi nó trả về liên kết 'Đĩa đơn Madonna chưa được phát hành trên Net.' True Knowledge, trong khi đó, biết từ cách câu hỏi được đặt ra rằng 'độc thân' được sử dụng như một tính từ, không phải là danh từ, và nó được định nghĩa là sự vắng mặt của mối quan hệ lãng mạn. Do đó, khi thấy Madonna và Guy Ritchie được kết nối (khi đó) bằng một liên kết đã kết hôn với, hệ thống trả lời hữu ích hơn rằng, không, Madonna không độc thân.
Thấy những gì họ thấy, các nhà đầu tư mở vòi tiền rót vốn vào năm 2008. True Knowledge mở rộng đến khoảng 30 nhân viên và chuyển đến văn phòng lớn hơn tại Cambridge. Nhưng công nghệ ban đầu không thu hút người tiêu dùng, một phần vì giao diện người dùng của nó là 'một đứa bé xấu xí,' Tunstall-Pedoe nói. Vì vậy, anh đã ra mắt lại True Knowledge dưới dạng một ứng dụng điện thoại thông minh được thiết kế sáng sủa, có sẵn trên cả iPhone và thiết bị Android. Nó có một biểu tượng dễ thương - một khuôn mặt cười với một cái mắt - và một cái tên mới bắt tai, Evi (phát âm là EE-vee). Quan trọng nhất, bạn có thể nói câu hỏi của mình cho Evi và nghe câu trả lời.
Evi ra mắt vào tháng 1 năm 2012, vài tháng sau khi Apple ra mắt trợ lí giọng nói Siri của mình, và nhanh chóng leo lên vị trí số 1 trong cửa hàng ứng dụng của công ty, nhanh chóng thu được hơn nửa triệu lượt tải xuống. (Apple, có vẻ bị kích động bởi các tiêu đề như 'giới thiệu evi: kẻ thù mới tệ nhất của siri,' tại một thời điểm đã đe dọa rút ứng dụng.) Tunstall-Pedoe bị áp đảo bởi sự quan tâm mua lại. Sau một loạt các cuộc họp với các người đồng sự, True Knowledge đã đồng ý được mua lại. Gần như tất cả mọi người sẽ giữ công việc của họ và ở lại Cambridge, và Tunstall-Pedoe sẽ trở thành một thành viên cấp cao trong nhóm sản phẩm cho một thiết bị tính toán bằng giọng nói chưa được phát hành. Khi thiết bị đó ra mắt vào năm 2014, khả năng trả lời câu hỏi của nó sẽ được cung cấp đáng kể bởi Evi. Người mua lại là Amazon, và thiết bị đó là Echo.

Câu trả lời một lần như vậy không thời thượng khi Tunstall-Pedoe bắt đầu lập trình tại Cambridge. Nhưng điều đó không còn là trường hợp vào thời điểm Echo ra mắt. Trong kỷ nguyên của việc tính toán bằng giọng nói, cung cấp một câu trả lời duy nhất không chỉ là một tính năng tốt để có; nó là một tính năng cần phải có. “Bạn không thể cung cấp 10 liên kết màu xanh bằng giọng nói,” Tunstall-Pedoe nói, lặp lại quan điểm chung của ngành công nghiệp. “Đó là một trải nghiệm người dùng tồi tệ.”
Khi các tập đoàn công nghệ lớn nhất thế giới tỉnh mộng, họ bắt đầu đi lại trên nhiều bước của True Knowledge. Năm 2010, Google mua Metaweb, một startup đang tạo ra một bộ tri thức gọi là Freebase. Hai năm sau, công ty ra mắt Knowledge Graph, với 3,5 tỉ sự kiện. Cùng năm đó, Microsoft ra mắt cái được biết đến là Concept Graph, với 5 triệu thực thể. Năm 2017, Facebook, Amazon và Apple đều mua các công ty xây dựng biểu đồ tri thức. Gần đây, nhiều nhà nghiên cứu đã bắt đầu thiết kế các hệ thống tự động crawling web để tìm câu trả lời, đưa thông tin mới vào ontologies nhanh hơn nhiều so với bất kỳ con người nào.
Sự tăng cường mạnh mẽ là hợp lý. Các nhà phân tích thị trường ước tính rằng đến năm 2020, có tới một nửa số lượt tìm kiếm trên internet sẽ được nói ra. Gần đây, ngay cả các nhà thư viện trung thành của tìm kiếm trên màn hình đã âm thầm chuyển sang chế độ tiên tri. Google đã liên tục tăng cường sự hiện diện của các đoạn trích nổi bật, một loại câu trả lời một lần, trong phiên bản trình duyệt và di động của công cụ tìm kiếm của mình. Chúng chiếm vị trí hàng đầu trên tất cả các kết quả khác. Hãy tưởng tượng bạn tìm kiếm “Nguyên tố hiếm nhất trong vũ trụ là gì?” Ngay dưới ô truy vấn, câu trả lời xuất hiện: “Nguyên tố phóng xạ astatine.” Theo hãng quảng cáo Stone Temple, Google cung cấp câu trả lời tức thì cho hơn một phần ba trong tổng số tìm kiếm vào tháng 7 năm 2015. Mười tám tháng sau đó, tỷ lệ này tăng lên hơn một nửa.
Hành động hướng tới việc cung cấp câu trả lời một lần đã chậm đủ để làm mờ mục tiêu quan trọng nhất của nó: làm chết đi internet như chúng ta biết. Internet truyền thống, với tất cả những trang và liên kết tẻ nhạt của nó, đang nhường chỗ cho web hội thoại, nơi mà trí tuệ nhân tạo hóm hỉnh trị vì. Phần thưởng, chúng ta được cho biết, là sự tiện lợi và hiệu quả cao hơn. Nhưng đối với mọi người có lợi ích kinh tế liên quan đến tìm kiếm web truyền thống - doanh nghiệp, nhà quảng cáo, tác giả, nhà xuất bản, các ông lớn công nghệ - tình hình là nguy hiểm. Để hiểu tại sao, việc nhanh chóng xem lại kinh tế của thế giới trực tuyến, nơi mà sự chú ý là tất cả, có ích.
Các công ty muốn được tìm thấy; họ muốn quảng cáo của họ được nhìn thấy. Vì vậy, từ những ngày đầu của internet, họ đã làm việc để nắm vững nghệ thuật bí ẩn của tối ưu hóa công cụ tìm kiếm, hay SEO - điều chỉnh từ khóa và các yếu tố khác của các trang web để khiến chúng xuất hiện cao hơn trong xếp hạng tìm kiếm. Để đảm bảo một vị trí quan trọng, các công ty cũng chi tiền trực tiếp cho các dịch vụ tìm kiếm để quảng cáo trả tiền, mua quảng cáo nhỏ chạy trên đầu hoặc bên cạnh kết quả.
Khi tìm kiếm trên máy tính để bàn là trò chơi duy nhất, các công ty đã tranh giành để được một trong 10 liên kết hàng đầu được liệt kê; người ta thường không cuộn chuột xuống thấp hơn. Kể từ khi di động trỗi dậy, họ đã tranh thủ để được trong top 5. Với tìm kiếm bằng giọng nói, các công ty đối mặt với một thách thức khó khăn hơn nhiều. Họ muốn chiếm vị trí được gọi là vị trí không - để cung cấp câu trả lời một lần xuất hiện trên tất cả các kết quả khác. Vị trí không rất quan trọng vì đó thường là điều được đọc thành tiếng. Và nó thường là thứ duy nhất được đọc, theo Greg Hedges, phó chủ tịch của hãng quảng cáo RAIN, chuyên tư vấn chiến lược trích dẫn AI trò chuyện cho các thương hiệu. “Nếu bạn muốn được nhìn thấy trong vài năm tới, bạn phải đảm bảo rằng trang web của bạn được tối ưu hóa cho tìm kiếm bằng giọng nói,” ông nói.
Giả sử bạn đang điều hành một nhà hàng sushi và có nhiều đối thủ gần đó. Một người dùng hỏi thiết bị giọng nói của mình, “Có nơi sushi nào tốt gần đây không?” Nếu nhà hàng của bạn không phải là lựa chọn đầu tiên mà AI thường chọn, bạn gặp rắc rối. Tất nhiên, có phiên bản nói chuyện tương đương với cuộn chuột xuống: Sau khi nghe tùy chọn hàng đầu, khách hàng có thể nói, “Tôi không thích âm thanh của nó. Có gì khác gần đây không?” Nhưng điều đó đòi hỏi công việc, mà mọi người tránh khi có thể.

Đạt vị trí không đòi hỏi một chiến lược hoàn toàn khác biệt so với SEO thông thường. Sự quan trọng của việc đặt từ khóa đúng trên một trang web, ví dụ, đang giảm đi. Thay vào đó, các chuyên gia SEO cố gắng nghĩ về những cụm từ tự nhiên mà người dùng có thể nói - như “Xe hybrid nào có xếp hạng cao nhất?” - và tích hợp chúng, cùng với câu trả lời ngắn gọn, trên các trang web. Hy vọng là tạo ra một phần nội dung hoàn hảo mà AI sẽ trích xuất và đọc to.
Hiện tại, chưa có sự phát triển trả phí cho tìm kiếm bằng giọng nói. Nhưng khi nó chắc chắn đến, nền kinh tế quảng cáo trên internet sẽ bị đảo lộn. Bởi vì các vị thần giọng nói chỉ cung cấp câu trả lời một lần, họ cung cấp ít không gian hơn cho quảng cáo. “Sẽ có cuộc chiến để chiếm giữ không gian trưng bày hàng hóa, và mỗi vị trí lý thuyết sẽ đắt đỏ hơn,” Jared Belsky, CEO hiện tại của công ty tiếp thị số 360i, cho biết trong cuộc trò chuyện với Adweek vào năm 2017. “Đó là cùng một lượng quan tâm chảy vào một cảnh quan nhỏ hơn.” Điều này có thể chứng minh đặc biệt đúng trong môi trường bán lẻ như Amazon, nơi người tiêu dùng sẵn sàng mua hàng ngay bên cạnh loa thông minh. Với giọng nói, mục tiêu là leo núi Everest - để đạt được kết quả hàng đầu - hoặc chết mà không thành.
Nhưng nếu sản phẩm của bạn không phải là một chiếc xe hybrid hoặc một cái sushi cay, mà là kiến thức chính mình? Các nhà xuất bản đã phụ thuộc một cách không thoải mái vào các công ty công nghệ lớn để có phần lớn lưu lượng truy cập của họ, và do đó, một phần lớn thu nhập quảng cáo của họ. Theo công ty phân tích dữ liệu Parse.ly, tìm kiếm Google hiện nay chiếm khoảng một nửa số lượt chuyển hướng đến các trang web của nhà xuất bản; việc chia sẻ liên kết trên Facebook chiếm một phần tư. Câu trả lời một lần có thể hạn chế nghiêm trọng lưu lượng này. Ví dụ: Tôi là fan của Oregon Ducks. Trước đây, tôi sẽ vào ESPN.com vào buổi sáng sau trận đấu để xem ai thắng. Một khi đã ở đó, tôi có thể nhấp vào một hoặc hai câu chuyện khác, tạo ra một vài phần trăm cent trong doanh thu quảng cáo của trang web. Nếu tôi cảm thấy đặc biệt hào phóng, tôi có thể đăng ký dịch vụ hàng tháng. Nhưng bây giờ, tôi có thể đơn giản hỏi điện thoại của mình, “Ai đã thắng trận Ducks?” Tôi có câu trả lời của mình, và ESPN không nhìn thấy lưu lượng truy cập của tôi.
Có thể bạn quan tâm đến ESPN, một doanh nghiệp lớn, bị lưu lượng truy cập của mình bị hút đi; có thể bạn không. Điểm quan trọng là một động lực tương tự có thể ảnh hưởng đến một số lượng lớn người tạo nội dung, từ các tập đoàn lớn đến những người nhỏ bé. Hãy xem xét câu chuyện về Brian Warner, người điều hành một trang web có tên là Celebrity Net Worth. Trên trang web, khách truy cập tò mò có thể nhập tên của, ví dụ, Jay-Z và biết được - nhờ vào nghiên cứu của nhân viên của Warner - rapper này được ước tính có giá trị khoảng 930 triệu đô la. Warner cho biết rằng Google đã bắt đầu thu thập câu trả lời từ trang web của ông ngay cả sau khi ông tường thuật từ chối yêu cầu của công ty tìm kiếm này để truy cập vào cơ sở dữ liệu của công ty ông. Sau khi điều này bắt đầu, ông nói rằng lưu lượng truy cập thực sự đến Celebrity Net Worth giảm mạnh đến 80%, và ông đã phải sa thải một nửa số nhân viên của mình. “Có bao nhiêu ngàn trang web và doanh nghiệp khác mà Google đã lấp đầy?” ông hỏi. (Một phát ngôn viên của Google từ chối bình luận cụ thể về phiên bản sự kiện của Warner; cô lưu ý, tuy nhiên, quản trị trang web có thể sử dụng các công cụ phát triển của công ty để ngăn trang của họ xuất hiện trong các mẩu trích đặc sắc.)
Khi trí tuệ nhân tạo đọc một phần nội dung trích xuất, họ thường ghi nhận nguồn gốc. Họ có thể cung cấp một sự ghi nhận bằng lời hoặc, nếu thiết bị đó có màn hình, một cách trực quan. Nhưng việc nhắc tên không trả tiền; nhà xuất bản cần lưu lượng truy cập. Với loa thông minh thông thường, khả năng mà người dùng sẽ cung cấp lưu lượng truy cập đó mỏng manh. Các biện pháp tạm thời của Google và Amazon là vụng về: Người dùng có thể vào ứng dụng đồng hành trên điện thoại thông minh của họ cho Home hoặc Echo, tìm kết quả tìm kiếm và nhấp vào một liên kết để đi đến trang web của người tạo nội dung.
Một người dùng có thể làm phiền đến. Nhưng tại sao phải làm phiền khi cô ấy đã có câu trả lời mà cô ấy tìm kiếm? Như Asher Elran, một chuyên gia lưu lượng truy cập web và CEO của Dynamic Search, đã viết trong một bài đăng trên blog vào năm 2013, câu trả lời một lần đặt cách chơi ưu tiên vào phía Google. “Với các trang web, chúng ta mong đợi cạnh tranh cho những vị trí đó bằng cách sử dụng SEO và cung cấp nội dung hấp dẫn,” ông viết. “Nhưng điều chúng ta không mong đợi là câu trả lời cho câu hỏi xuất hiện cho người tìm kiếm trước khi chúng ta có cơ hội để ấn tượng họ với công việc chăm chỉ của chúng ta.”
Khi Tunstall-Pedoe bắt đầu làm việc vào những gì sau này trở thành True Knowledge, ông nhận được cảm nhận rằng Google phản đối việc cung cấp câu trả lời một lần. Mặc dù có lẽ một số nhân viên cách đây thời điểm như vậy, tuyên bố từ lãnh đạo của công ty làm rõ rằng kế hoạch dài hạn luôn luôn là xây dựng một nguồn tri thức. “Khi bạn sử dụng Google, bạn có nhận được hơn một câu trả lời không?” Eric Schmidt hỏi trong một cuộc phỏng vấn năm 2005, hơn một thập kỷ trước khi ông từ chức làm chủ tịch. “Tất nhiên là có. Vâng, đó là một lỗi… Chúng tôi nên có thể đưa cho bạn câu trả lời đúng chỉ một lần.”
Trong nhiều năm, các rào cản công nghệ đã giữ mục tiêu của Schmidt ở một khoảng cách an toàn. Điều này đi kèm với những ưu điểm nhất định. Dưới Section 230 của Đạo luật Về Sự Dân Quyền Trong Truyền Thông, một luật năm 1996 quy định về tự do ngôn luận trên internet, các trung gian trực tuyến không thể chịu trách nhiệm về nội dung được cung cấp bởi người khác. Miễn là Google vẫn chỉ là một kênh truyền thông thông tin, thay vì một người tạo ra thông tin đó - một thư viện viên trung lập thay vì một nguyên tắc trả lời tất cả - có thể tránh được một loạt các trách nhiệm pháp lý và trách nhiệm đạo đức. “Một phần lý do tại sao Google thích 10 liên kết màu xanh là bởi họ không xác định điều gì là đúng hay sai,” Tunstall-Pedoe nói.
Nhưng vị thế của công ty trong việc không giết người truyền tin trở nên khó chấp nhận hơn trong thời đại giọng nói. Hãy tưởng tượng bạn nhấp vào một kết quả tìm kiếm và đọc một bài viết từ San Francisco Chronicle. Rõ ràng Google không chịu trách nhiệm về nội dung của bài viết đó. Nhưng khi trợ lý của công ty cung cấp câu trả lời cho một trong những câu hỏi của bạn, sự phân biệt trở nên mơ hồ hơn. Mặc dù thông tin có thể đã được trích xuất từ nguồn của bên thứ ba, nhưng cảm giác như nó đến trực tiếp từ Google. Do đó, các công ty cung cấp câu trả lời cho các cuộc tìm kiếm bằng giọng nói có quyền lực lớn để ra lệnh điều gì là đúng. Họ trở thành các chúa chủ của tri thức.
Danny Sullivan, người đại diện công chúng của Google về tìm kiếm, đã đề cập đến nguy cơ này trong một bài đăng trên blog về các mẩu trích đặc sắc. Cho đến gần đây, ông giải thích, người dùng khi hỏi “Làm thế nào người La Mã đo thời gian vào ban đêm?” đã nhận được một câu trả lời một lần hài hước: bình giờ mặt trời. Đây là một sai lầm không có hậu quả, và Sullivan cam đoan với công chúng rằng Google đang làm việc để ngăn chặn những lỗi như vậy trong tương lai. Nhưng không khó để tưởng tượng một lỗi tương tự có hậu quả lớn hơn, đặc biệt là khi ngày càng nhiều người Mỹ sử dụng tìm kiếm bằng giọng nói và khái niệm về AI không bao giờ sai. Những câu trả lời một lần trước đã sai rằng Barack Obama đang tuyên bố áp đặt luật lệ, rằng Woodrow Wilson là một thành viên của Ku Klux Klan, rằng MSG gây tổn thương não và rằng phụ nữ là ác quỷ. Google đã sẵn lòng sửa những lỗi lớn như vậy, giải thích rằng họ không phải là tác giả của chúng - những sai lầm đã được trích xuất tự động từ các trang web kém chất lượng.
Cung cấp cho người dùng một cách để kiểm tra nguồn gốc cung cấp một số cách ngăn chặn thông tin sai lệch lan tràn. Nhưng khó để tưởng tượng một người dùng của Echo hoặc Home mắc công thường xuyên đăng nhập vào ứng dụng đồng hành; việc cố gắng bổ sung này đi ngược lại triết lý không cần sự can thiệp của giọng nói và không cần nhìn của máy tính bằng giọng nói. Và các sự ghi chú âm thanh, khi tồn tại, thường mơ hồ. Một người dùng có thể được cho biết rằng một câu trả lời đến từ Yahoo hoặc Wolfram Alpha. Điều này tương tự như nói, “Công ty công nghệ của chúng tôi có thông tin này từ một công ty công nghệ khác.” Nó thiếu sự cụ thể khi nhìn thấy tên của một phóng viên hoặc phương tiện truyền thông; nó cũng bỏ qua việc đề cập đến bằng chứng được sử dụng để đạt được một kết luận. Khi nguồn là biểu đồ tri thức nội bộ của công ty hoặc nguồn tài nguyên nội bộ khác, sự xuất phát trở nên mơ hồ hơn nữa: “Công ty công nghệ của chúng tôi có thông tin này từ chính nó. Hãy tin tưởng chúng tôi.”

Chiến lược cung cấp câu trả lời một lần cũng ngụ ý rằng chúng ta sống trong một thế giới mà các sự thật đơn giản và tuyệt đối. Dĩ nhiên, nhiều câu hỏi thực sự có một câu trả lời chính xác duy nhất: Trái Đất có phải là hình cầu không? Dân số của Ấn Độ là bao nhiêu? Tuy nhiên, đối với những câu hỏi khác, có nhiều quan điểm hợp lệ, điều này đặt người chuyển tải thông tin bằng giọng nói vào tình thế ngại ngùng. Nhận ra điều này, Cortana của Microsoft đôi khi đưa ra hai câu trả lời cạnh tranh cho những câu hỏi tranh luận thay vì chỉ một câu trả lời. Google đang xem xét việc làm một phiên bản tương tự. Cho dù các công ty này có muốn đóng vai trò Kiểm tra Sự thật của Thế giới hay không, họ đang tự đẩy mình vào vị thế đó.
Quyền lực mà các công ty công nghệ lớn sở hữu đối với việc truyền tải thông tin, đặc biệt là trong thời đại của công nghệ giọng nói, nâng cao nguy cơ kiểm soát tri thức theo kiểu Orwell. Ở những nơi như Trung Quốc, nơi chính phủ kiểm duyệt internet một cách nghiêm ngặt, đây không chỉ là một vấn đề học thuật. Ở các quốc gia dân chủ, câu hỏi quan trọng hơn là liệu các công ty có điều chỉnh sự thật theo cách có lợi cho lợi ích doanh nghiệp của họ hay theo các chính sách cá nhân của những nhà lãnh đạo. Quyền kiểm soát tri thức là một quyền lực mạnh mẽ, và chưa bao giờ có ít công ty nào đạt được sự thống trị như cổng vào thông tin của thế giới.
Còn chúng ta, trong khi đó, có thể đang mất đi những kỹ năng cơ bản mà cho phép chúng ta đánh giá những người kiểm duyệt này. Một khi chúng ta đã quen với việc đặt niềm tin vào nguyên tắc tiện ích trên bàn bếp, chúng ta có thể mất kiên nhẫn trong việc tìm kiếm sự thật một cách công phu, tò mò và gợi suy nghĩ, mong đợi chúng đến với chúng ta thay vì phải tìm kiếm chúng. Tại sao bạn lại bơm nước từ giếng nếu nước chảy mạnh từ vòi nước?
Tunstall-Pedoe, người rời Amazon vào năm 2016, nhận biết rằng các nguy cơ mới được giới thiệu bởi các nguyên tắc kiểm duyệt thông tin bằng giọng nói, hoặc ít nhất là làm trầm trọng thêm những nguy cơ đã tồn tại. Nhưng anh có quan điểm điển hình của một kỹ sư rằng những vấn đề do công nghệ gây ra có thể được giải quyết bằng - bạn đoán đúng rồi - công nghệ thêm và tốt hơn, như các trí tuệ nhân tạo học cách kiềm chế thông tin sai lệch. Nếu một ngày nào đó các nguyên tắc trực tuyến trở nên đủ tốt để làm cho một nơi như Thư viện Đại học Cambridge trở nên lỗi thời, anh tưởng tượng rằng anh sẽ cảm thấy hoài niệm. Nhưng chỉ đến một mức độ nhất định. “Tôi có thể nhớ nó,” Tunstall-Pedoe nói, “nhưng tôi không chắc rằng tôi sẽ quay lại đó nếu tôi không cần.”
Hình ảnh từ Getty Images (tất cả các nguồn nghệ thuật minh họa)
James Vlahos (@jamesvlahos) đã viết về Giải Alexa, một cuộc thi chatbot được tài trợ bởi Amazon, trong số 26.03.
Bài viết này xuất hiện trong số tháng Ba. Đăng ký ngay.
Hãy cho chúng tôi biết ý kiến của bạn về bài viết này. Gửi thư tới biên tập viên tại [email protected].
Những bài viết tuyệt vời khác trên Mytour
- AR sẽ kích hoạt nền tảng công nghệ lớn tiếp theo—thế giới gương
- Cách bệnh sởi tấn công cơ thể—và gây hại cho nạn nhân suốt nhiều năm
- 10 cách để duy trì hoạt động (và tinh thần) nếu thời tiết ngoài trời kinh khủng
- Tự động hoàn thiện phiên bản tốt nhất của bạn
- Khỉ với siêu mắt có thể giúp chữa khỏi mù màu
- 👀 Đang tìm kiếm những thiết bị công nghệ mới nhất? Hãy xem các hướng dẫn mua sắm và các ưu đãi tốt nhất của chúng tôi trong suốt cả năm
- 📩 Nhận thêm thông tin nội bộ của chúng tôi với bản tin hàng tuần Backchannel
