Một việc mà Google, Amazon, Walmart và theo các báo cáo, Chính phủ Mỹ cũng đang làm.
Họ làm gì? Họ phân tích “dữ liệu lớn” từ khối lượng khổng lồ các dữ liệu ảo được thu thập và lưu trữ mỗi ngày về hầu hết mọi khía cạnh của đời sống, xác định các mẫu hành vi, đưa ra các mối tương quan và dự báo.
Amazon sử dụng dữ liệu khách hàng để đưa ra đề xuất dựa trên lịch sử mua hàng. Google dùng dữ liệu tìm kiếm và thông tin khác để bán quảng cáo và cung cấp dịch vụ, sản phẩm.
Cơ quan An ninh Quốc gia Mỹ thu thập hàng triệu ghi âm cuộc gọi của khách hàng Verizon theo yêu cầu bí mật của tòa án – “không trừ ai và theo số lượng lớn”, “bất kể họ có bị nghi ngờ hay không”. Theo The Guardian và The Washington Post, cơ quan này còn thực hiện chương trình Prism, thu thập dữ liệu từ email, audio chat, video chat, ảnh, tài liệu, tên truy cập từ các công ty như Microsoft, Google, Yahoo, Facebook, Apple để theo dõi mục tiêu bên ngoài Mỹ.
Tại sao phải tung một tấm lưới rộng lớn để tìm kiếm một số ít nghi phạm khủng bố? Tại sao cần thu thập dữ liệu diện rộng? Jeremy Bash, cựu quan chức Lầu Năm Góc, từng làm việc dưới quyền Leon E. Panetta - cựu Giám đốc CIA, nói: 'Nếu bạn muốn tìm kim trong đống cỏ khô, bạn cần có đống cỏ khô.'
Trong cuốn sách 'Dữ liệu lớn' (Big Data), Viktor Mayer-Schönberger, giáo sư quản trị Internet tại Viện nghiên cứu Internet, Đại học Oxford, cùng Kenneth Cukier, biên tập viên dữ liệu của tờ The Economist, chỉ ra rằng bản chất của tình báo đã thay đổi.
Họ viết:
Theo tinh thần của Google và Facebook, giờ đây chúng ta phải nhìn nhận rằng con người là tổng hòa của các mối quan hệ xã hội, các tương tác mạng và sự liên kết với nội dung. Để điều tra toàn diện một cá nhân, nhà nghiên cứu cần phải xem xét tất cả những gì dữ liệu có thể xoay quanh cá nhân đó – không chỉ những người họ biết, mà cả những người mà những người đó biết, và vân vân.
Cukier và Mayer-Schönberger chỉ ra rằng phân tích dữ liệu lớn đang thay đổi hoàn toàn cách chúng ta nhìn và xử lý thế giới – họ thậm chí so sánh những hệ quả của nó với quy trình in ấn của Gutenberg. Trong ấn phẩm này, họ đưa ra một thống kê thú vị và đáng báo động về ảnh hưởng ngày càng tăng của dữ liệu lớn lên hầu hết các lĩnh vực: kinh doanh, nhà nước, khoa học, y tế, tính riêng tư và cả cách chúng ta suy nghĩ. Họ nói rằng, khi hiểu được cơ chế, chúng ta có thể nhận thức về nhân quả, từ đó đưa ra đánh giá tương quan.
Dữ liệu đang tăng trưởng với tốc độ chóng mặt – theo một số nguồn tin, mỗi năm dữ liệu tăng hơn gấp đôi – và các tác giả cuốn sách này khẳng định rằng khi chi phí lưu trữ giảm và các thuật toán ngày càng phát triển, các công nghệ “nghiền dữ liệu” trước đây chỉ dành cho các cơ quan tình báo, phòng nghiên cứu và các tập đoàn lớn, nay đang trở nên phổ biến hơn.
Dữ liệu lớn đã dẫn tới sự ra đời của nhiều công ty mới, giúp các doanh nghiệp hiện tại nâng cao dịch vụ khách hàng và tìm cách tăng trưởng mới. Walmart đã phát hiện ra rằng doanh số bán đèn pin và Pop-Tarts tăng mạnh trước khi bão đến. Do đó, Walmart bắt đầu bày bán Pop-Tarts cùng các vật dụng bão lụt để 'giúp khách hàng dễ dàng hơn' và tăng doanh số. Các tác giả cũng nêu ví dụ về UPS cài đặt cảm biến và GPS vào xe tải để kiểm soát nhân viên, tối ưu lộ trình và bảo trì phương tiện.
Các đội bóng chày như Oakland A’s của Billy Beane đã thành công áp dụng “nghiền dữ liệu” để theo dõi vận động viên. Chiến dịch tranh cử 2012 của Obama cũng sử dụng phân tích dữ liệu phức tạp để xây dựng cỗ máy chính trị, xác định người ủng hộ và vận động họ bỏ phiếu. Thành phố New York dùng phân tích dữ liệu để tìm mô hình hiệu quả từ phản ứng thiên tai đến nhận diện cửa hàng thuốc lá lậu và thông tin cho thanh tra nhà ở. Mayer-Schönberger và Cukier tranh luận rằng trong tương lai, dữ liệu lớn sẽ trở thành 'một phần của giải pháp cho các vấn đề toàn cầu như biến đổi khí hậu, xóa bỏ dịch bệnh, củng cố hành chính và phát triển kinh tế.
Dữ liệu lớn cũng có mặt tối, và các tác giả đã phân tích kỹ lưỡng các nguy cơ tiềm ẩn. Bảo vệ quyền riêng tư sẽ ngày càng khó khăn. Các chiến lược bảo vệ cũ như 'thông báo cho cá nhân, thỏa thuận tự nguyện, hủy đăng ký và nặc danh hóa' sẽ ngày càng kém hiệu quả hoặc vô hiệu.
Hai tác giả viết: 'Mọi công cụ chúng ta sử dụng hàng ngày, từ website đến ứng dụng smartphone đều có khả năng thu thập dữ liệu cá nhân'. Với hàng triệu cách để tái sử dụng, tái mục đích và bán lại dữ liệu, thật khó để người dùng có thể được xin phép trước khi dữ liệu của họ được 'sử dụng cho mục đích thứ cấp' mà họ không thể hình dung khi ban đầu dữ liệu được thu thập.
Mối nguy hiểm thứ hai mà Cukier và Mayer-Schönberger lo ngại có nhiều điểm tương đồng với bối cảnh trong bộ phim viễn tưởng “Minority Report”, nơi chúng ta có thể đưa ra dự đoán chính xác đến mức có thể ra lệnh bắt người trước cả khi họ phạm tội. Các tác giả gợi ý rằng trong tương lai gần, việc phân tích dữ liệu lớn (như thiết bị Pre-Cogs trong phim) có thể tạo ra tình huống “phán quyết ai có tội dựa trên dự đoán về hành vi tương lai của họ”.
Thiết bị Pre-cogs trong phim 'The Minority Report'
Hiện nay, các công ty bảo hiểm và các hội đồng phán quyết đã sử dụng phân tích dữ liệu để dự đoán rủi ro. Theo các tác giả, ngày càng nhiều nơi ở Mỹ sử dụng “chính sách dự báo” và “nghiền dữ liệu” để “lựa chọn phố nào, nhóm nào và cá nhân nào nên được kiểm soát gắt gao hơn, bởi thuật toán đã chỉ ra khu vực này có khả năng phạm tội cao”.
Trong một báo cáo của NBC về một cuộc không kích, “CIA không nhất thiết cần biết nó đang giết ai”: trong các cuộc không kích, “các sĩ quan tình báo và những người vận hành máy bay không người lái có thể giết những kẻ tình nghi chỉ dựa trên mẫu hành vi của họ - mà không cần nhận diện dương tính”.
Cukier và Mayer-Schönberger cũng chỉ ra, một vấn đề khác liên quan đến việc phụ thuộc vào dự đoán về tiềm năng hành vi là nó có thể phủ nhận “ý tưởng về suy đoán vô tội”.
Họ nói:
'Nếu chúng ta có thể ép buộc con người phải chịu trách nhiệm cho những hành vi mà họ có thể không bao giờ thực hiện, điều đó cũng là việc từ chối cơ hội lựa chọn đạo đức của con người.'
Cũng vào lúc đó, họ cũng nhận thấy rằng, dữ liệu lớn càng làm nặng thêm một vấn đề đã tồn tại từ lâu: sự phụ thuộc vào số liệu, trong khi chúng cũng có thể sai lệch cao hơn rất nhiều so với những gì chúng ta có thể tưởng tượng. Họ trích dẫn sự leo thang trong chiến tranh Việt Nam dưới sự lãnh đạo của Robert S. McNamara như một điển hình về “lỗi phân tích dữ liệu”: người tiên phong trong việc áp dụng phân tích dữ liệu, McNamara đã quá phụ thuộc vào các ma trận như số lượng quân để đo lường tiến trình của cuộc chiến tranh, trong khi rõ ràng, cuộc chiến tranh ở Việt Nam là cuộc chiến của ý chí hơn là của số liệu.
Gần đây hơn, chúng ta cũng có thể thấy nhiều thất bại khác của phân tích dữ liệu, bao gồm sụp đổ của Wall Street vào năm 2009, khi đó rơi vào khủng hoảng nghiêm trọng hơn do các hệ thống giao dịch phức tạp phụ thuộc vào thuật toán. Trong cuốn sách nổi tiếng năm 2012 mang tên “The Signal and the Noise”, nhà thống kê Nate Silver đã chỉ ra các sai lầm của dữ liệu trong các lĩnh vực như khoa học động đất, tài chính và nghiên cứu dược. Ông cũng biện luận rằng “việc dự báo trong thời của Dữ liệu lớn” không diễn ra một cách suôn sẻ (mặc dù ông đã rất thành công trong việc dự báo ở các lĩnh vực như chính trị và bóng chày).
Đồng thời, như một nhà khoa học máy tính và nhạc sĩ Jaron Lanier đã chỉ ra trong cuốn sách mới của ông: “Who Owns the Future?”, có sự khác biệt lớn giữa “dữ liệu lớn về khoa học, như dữ liệu về sự hình thành của ngân hà, về tự nhiên, và dịch cúm” – đòi hỏi rất nhiều nỗ lực nghiên cứu, với “dữ liệu lớn về con người” – mà là những thứ không chắc chắn, đầy mâu thuẫn, và thường không đáng tin cậy như bất kỳ điều gì liên quan đến con người từ trước đến nay.
Cukier và Mayer-Schönberger cũng nhận ra những hạn chế của dữ liệu. Cuốn sách này giúp chúng ta nhận thức được vai trò quan trọng của dữ liệu lớn như một công cụ để hiểu và đo lường thế giới, nhưng cũng cảnh báo chúng ta không nên trở thành nạn nhân của 'nền độc tài dữ liệu'.
Họ viết:
'Chúng ta cần phải cẩn trọng để không quá phụ thuộc vào dữ liệu, thay vì lặp lại sai lầm của Icarus, người đã quá tin tưởng vào khả năng bay của mình và cuối cùng rơi xuống biển sâu vì sử dụng nó sai cách'.
Mytour (Trạm Đọc)
Theo New York Times