Việc gửi dữ liệu không chính xác đến các ứng dụng theo dõi chu kỳ kinh nguyệt sẽ không bảo vệ quyền riêng tư sinh sản
Người dùng mạng xã hội đề xuất cách bảo vệ quyền riêng tư sinh sản khi Tòa án Tối cao quyết định hủy bỏ Roe v. Wade, bao gồm cả việc nhập dữ liệu "rác" vào ứng dụng thiết kế để theo dõi chu kỳ kinh nguyệt
Người dùng sử dụng các ứng dụng theo dõi chu kỳ kinh nguyệt để dự đoán chu kỳ kinh nguyệt tiếp theo, trò chuyện với bác sĩ về chu kỳ của họ và xác định khi nào họ có thể mang thai. Người dùng đăng ký mọi thứ từ sự ham muốn đến lưu lượng kinh, và ứng dụng cung cấp dự đoán dựa trên những đầu vào này. Dự đoán của ứng dụng giúp đỡ trong các quyết định đơn giản, như khi nào mua bông và cung cấp những quan sát thay đổi cuộc sống, như liệu bạn có mang thai hay không
Lập luận cho việc gửi dữ liệu không chính xác là việc làm này sẽ làm trở ngại cho thuật toán của các ứng dụng, làm cho việc sử dụng dữ liệu này để vi phạm quyền riêng tư của người dùng trở nên khó khăn hoặc không thể. Tuy nhiên, lập luận đó không chính xác
Như những nhà nghiên cứu thiết kế và đánh giá các công nghệ hỗ trợ người quản lý sức khỏe của họ, chúng tôi phân tích cách các công ty ứng dụng thu thập dữ liệu từ người dùng để cung cấp các dịch vụ hữu ích. Chúng tôi biết rằng đối với các ứng dụng theo dõi chu kỳ kinh nguyệt phổ biến, hàng triệu người sẽ cần nhập dữ liệu không chính xác để thậm chí là đẩy nhẹ thuật toán
Hơn nữa, dữ liệu rác là một hình thức của "nhiễu", mà các nhà phát triển thiết kế thuật toán để chống lại. Ngay cả khi dữ liệu rác thành công trong việc "làm rối" thuật toán hoặc cung cấp quá nhiều dữ liệu để cơ quan chức năng điều tra, thành công sẽ chỉ là tạm thời vì ứng dụng sẽ ít chính xác hơn đối với mục đích được thiết kế và người dùng sẽ ngừng sử dụng nó
Hơn nữa, điều này sẽ không giải quyết được những lo ngại về quyền riêng tư hiện tại vì dấu vết kỹ thuật số của mọi người xuất hiện khắp mọi nơi, từ tìm kiếm trên internet đến việc sử dụng ứng dụng điện thoại và theo dõi vị trí. Đây là lý do tại sao lời khuyên kêu gọi mọi người xóa ứng dụng theo dõi chu kỳ kinh nguyệt của họ là mục đích tốt nhưng không chính xác
Cách ứng dụng hoạt động
Khi bạn mở ứng dụng lần đầu, bạn nhập tuổi, ngày kinh cuối cùng, chu kỳ của bạn kéo dài bao lâu và loại phương pháp tránh thai bạn sử dụng. Một số ứng dụng kết nối với các ứng dụng khác như bộ đếm hoạt động thể chất. Bạn ghi lại thông tin liên quan, bao gồm khi nào kinh nguyệt bắt đầu, đau bụng, độ nhớt của dịch, sự thèm ăn, ham muốn tình dục, hoạt động tình dục, tâm trạng và độ nặng của dòng máu
Khi bạn đưa dữ liệu của mình cho công ty ứng dụng chu kỳ, không rõ chính xác điều gì xảy ra với nó vì thuật toán là độc quyền và là một phần của mô hình kinh doanh của công ty. Một số ứng dụng yêu cầu độ dài chu kỳ của người dùng, điều mà mọi người có thể không biết. Thực tế, các nghiên cứu đã phát hiện ra rằng 25,3% người nói rằng chu kỳ của họ kéo dài 28 ngày; tuy nhiên, chỉ có 12,4% thực sự có chu kỳ 28 ngày. Vì vậy, nếu một ứng dụng sử dụng dữ liệu mà bạn nhập để đưa ra dự đoán về bạn, có thể mất vài chu kỳ cho ứng dụng tính độ dài chu kỳ của bạn và dự đoán chính xác hơn các giai đoạn của chu kỳ của bạn hơn
Một ứng dụng có thể đưa ra dự đoán dựa trên tất cả dữ liệu mà công ty ứng dụng đã thu thập từ người dùng của mình hoặc dựa trên đặc điểm nhóm của bạn. Ví dụ, thuật toán của ứng dụng biết rằng một người có chỉ số khối cơ thể cao hơn có thể có chu kỳ 36 ngày. Hoặc nó có thể sử dụng một phương pháp kết hợp tạo ra dự đoán dựa trên dữ liệu của bạn nhưng so sánh nó với bộ dữ liệu lớn của công ty từ tất cả người dùng để thông báo cho bạn biết điều gì là điển hình - ví dụ, rằng hầu hết mọi người báo cáo có chu kỳ đau trước khi có kinh
Những gì việc gửi dữ liệu rác đạt được
Nếu bạn thường xuyên sử dụng ứng dụng theo dõi chu kỳ kinh nguyệt và cung cấp dữ liệu không chính xác, các dự đoán cá nhân của ứng dụng, như khi kinh nguyệt kế tiếp của bạn sẽ xảy ra, cũng có thể trở nên không chính xác. Nếu chu kỳ của bạn là 28 ngày và bạn bắt đầu ghi lại rằng chu kỳ của bạn hiện tại là 36 ngày, ứng dụng sẽ nên điều chỉnh - ngay cả khi thông tin mới đó là sai lệch.
Nhưng còn về dữ liệu tổng hợp? Cách đơn giản nhất để kết hợp dữ liệu từ nhiều người dùng là tính trung bình chúng. Ví dụ, ứng dụng theo dõi chu kỳ phổ biến nhất, Flo, ước tính có 230 triệu người dùng. Hãy tưởng tượng ba trường hợp: một người dùng duy nhất, trung bình của 230 triệu người dùng và trung bình của 230 triệu người dùng cộng thêm 3,5 triệu người dùng gửi dữ liệu rác.
The blue line represents a single user. The orange line is the average of 230 million users. The green line combines 230 million users submitting good data with 3.5 million users submitting junk data. Note that there is little difference between the orange and green lines. Alexander Lee Hayes, CC BY-SADữ liệu của cá nhân có thể là ồn ào, nhưng xu hướng cơ bản trở nên rõ ràng hơn khi lấy giá trị trung bình qua nhiều người dùng, làm mờ ồn ào để làm cho xu hướng trở nên rõ ràng hơn. Dữ liệu rác chỉ là một loại ồn ào khác. Sự khác biệt giữa dữ liệu sạch và dữ liệu bẩn có thể thấy được, nhưng xu hướng tổng thể trong dữ liệu vẫn rõ ràng.
Ví dụ đơn giản này mô tả ba vấn đề. Những người gửi dữ liệu rác khó có thể ảnh hưởng đến các dự đoán cho bất kỳ người dùng ứng dụng cụ thể nào. Điều này sẽ đòi hỏi một lượng công việc đặc biệt lớn để làm thay đổi tín hiệu cơ bản trên toàn bộ dân số. Và ngay cả khi điều này xảy ra, đưa dữ liệu vào rủi ro khiến ứng dụng trở nên vô dụng đối với những người cần nó.
Các phương pháp bảo vệ quyền riêng tư khác
Đối với những người lo ngại về việc dữ liệu ứng dụng theo dõi chu kỳ của họ bị sử dụng chống lại họ, một số ứng dụng chu kỳ đã đưa ra tuyên bố công khai về việc tạo ra chế độ ẩn danh, sử dụng mã hóa end-to-end và tuân thủ luật quyền riêng tư châu Âu
An toàn của bất kỳ “chế độ ẩn danh” nào phụ thuộc vào những gì nó thực sự làm. Tuyên bố của Flo nói rằng công ty sẽ loại bỏ danh tính dữ liệu bằng cách loại bỏ tên, địa chỉ email và các chỉ số kỹ thuật. Việc loại bỏ tên và địa chỉ email là một bước khởi đầu tốt, nhưng công ty không định nghĩa ý họ hiểu gì về các chỉ số kỹ thuật.
Với Texas mở đường cho kiện ai đó hợp pháp giúp đỡ người tìm kiếm phá thai, và 87% dân số Hoa Kỳ có thể xác định thông qua thông tin nhỏ như mã ZIP, giới tính và ngày sinh, mọi dữ liệu nhân khẩu học hoặc chỉ chơi xổ sốu có khả năng gây hại cho những người tìm kiếm chăm sóc sức khỏe sinh sản. Có một thị trường rộng lớn cho dữ liệu người dùng, chủ yếu cho quảng cáo có định hướng, khiến việc tìm hiểu một lượng đáng kể về gần như bất kỳ người nào ở Hoa Kỳ trở nên khả thi.
Trong khi mã hóa end-to-end và Nghị định Bảo vệ Dữ liệu Tổng quát Châu Âu (GDPR) có thể bảo vệ dữ liệu của bạn khỏi các yêu cầu pháp lý, không may thay, không giải quyết được vấn đề của những dấu vết kỹ thuật số mà mọi người để lại với việc sử dụng hàng ngày công nghệ. Ngay cả lịch sử tìm kiếm của người dùng cũng có thể xác định giai đoạn mang thai.
Chúng ta thực sự cần điều gì?
Thay vì nghĩ cách để vượt qua công nghệ để giảm thiểu nguy cơ và rắc rối pháp lý, chúng tôi tin rằng mọi người nên ủng hộ bảo vệ quyền riêng tư số và hạn chế việc sử dụng và chia sẻ dữ liệu. Công ty nên truyền đạt một cách hiệu quả và nhận phản hồi từ mọi người về cách dữ liệu của họ đang được sử dụng, mức độ rủi ro tiếp xúc với nguy cơ tiềm ẩn và giá trị của dữ liệu của họ đối với công ty.

Bài viết của Katie Siek, Giáo sư và Chủ tịch khoa Tin học ứng dụng, Đại học Indiana; Alexander L. Hayes, Sinh viên Tiến sĩ Chuyên ngành Tin học Y tế, Đại học Indiana, và Zaidat Ibrahim, Sinh viên Tiến sĩ Chuyên ngành Tin học Y tế, Đại học Indiana
Bài viết này được tái bản từ The Conversation dưới giấy phép Creative Commons. Đọc bài viết gốc.
