Hàng Ngàn Trang Web Phổ Biến Theo Dõi Những Gì Bạn Nhập—Trước Khi Bạn Ấn Gửi

Khi bạn đăng ký nhận bản tin, đặt phòng khách sạn hoặc thanh toán trực tuyến, bạn có lẽ đều cho rằng nếu bạn nhập sai địa chỉ email ba lần hoặc thay đổi ý kiến và đóng trang, không có gì xảy ra cho đến khi bạn ấn nút Gửi, phải không? Thực tế, có thể không phải như vậy. Như nhiều giả định khác về web, theo nghiên cứu mới đây: Một số lượng đáng kể các trang web đang thu thập một phần hoặc toàn bộ dữ liệu của bạn khi bạn nhập vào một biểu mẫu kỹ thuật số.
Các nhà nghiên cứu từ Đại học KU Leuven, Đại học Radboud và Đại học Lausanne đã crawl và phân tích top 100,000 trang web, xem xét các tình huống khi một người dùng truy cập một trang web khi ở Liên minh châu Âu và truy cập một trang web từ Hoa Kỳ. Họ phát hiện ra rằng có 1,844 trang web thu thập địa chỉ email của người dùng EU mà không có sự đồng ý của họ, và đến 2,950 trang web lưu trữ địa chỉ email của người dùng Mỹ theo một cách nào đó. Nhiều trang web dường như không có ý định thực hiện việc đăng nhập dữ liệu nhưng tích hợp các dịch vụ tiếp thị và phân tích của bên thứ ba gây ra hành vi này.
Sau khi cụ thể crawl trang web để xem rò rỉ mật khẩu vào tháng 5 năm 2021, các nhà nghiên cứu cũng phát hiện ra 52 trang web trong đó bên thứ ba, bao gồm công ty công nghệ Nga Yandex, ngẫu nhiên thu thập dữ liệu mật khẩu trước khi gửi. Nhóm đã tiết lộ các kết quả này cho những trang web này và tất cả 52 trường hợp đã được giải quyết.
Nếu có nút Gửi trên một biểu mẫu, kỳ vọng hợp lý là nó sẽ làm điều gì đó—nó sẽ gửi dữ liệu của bạn khi bạn nhấp vào nó,” nói Güneş Acar, một giáo sư và nghiên cứu viên tại nhóm an ninh số của Đại học Radboud và là một trong những người lãnh đạo của nghiên cứu. “Chúng tôi rất ngạc nhiên với kết quả này. Chúng tôi nghĩ có thể chúng tôi sẽ tìm thấy một số trang web nơi địa chỉ email của bạn được thu thập trước khi bạn gửi, nhưng điều này vượt xa mong đợi của chúng tôi.”
Nhóm nghiên cứu, sẽ trình bày các kết quả của họ tại hội nghị an ninh Usenix vào tháng 8, nói rằng họ được truyền cảm hứng để điều tra những gì họ gọi là “biểu mẫu rò rỉ” thông qua các báo cáo truyền thông, đặc biệt từ Gizmodo, về việc bên thứ ba thu thập dữ liệu biểu mẫu bất kể trạng thái nộp. Họ chỉ ra rằng, ở bản chất, hành vi này tương tự như các chương trình ghi lại phím, thường là các chương trình độc hại ghi lại mọi thứ mà một mục tiêu nhập vào. Nhưng trên một trang web phổ biến trong top 1,000, người dùng có lẽ không mong đợi thông tin của họ bị ghi lại. Trong thực tế, nhóm nghiên cứu đã thấy một số biến thể của hành vi này. Một số trang web đã ghi lại dữ liệu từng phím một, nhưng nhiều trang web đã thu thập toàn bộ các đơn từ một lĩnh vực khi người dùng nhấp để chuyển sang lĩnh vực tiếp theo.
“Trong một số trường hợp, khi bạn nhấp vào trường tiếp theo, họ thu thập trường trước, như bạn nhấp vào trường mật khẩu và họ thu thập địa chỉ email, hoặc bạn chỉ cần nhấp bất kỳ đâu và họ thu thập tất cả thông tin ngay lập tức,” nói Asuman Senol, một nhà nghiên cứu về quyền riêng tư và danh tính tại Đại học KU Leuven và là một trong các tác giả cộng tác của nghiên cứu. “Chúng tôi không mong đợi sẽ tìm thấy hàng nghìn trang web; và ở Hoa Kỳ, con số thực sự cao, điều này rất thú vị,”
Các nhà nghiên cứu cho biết sự khác biệt vùng miền có thể liên quan đến các công ty cẩn trọng hơn về việc theo dõi người dùng, và thậm chí có thể tích hợp với ít bên thứ ba hơn, do Nghị định bảo vệ dữ liệu chung của Liên minh châu Âu. Tuy nhiên, họ nhấn mạnh rằng đây chỉ là một khả năng, và nghiên cứu không xem xét giải thích cho sự chênh lệch.
Qua một nỗ lực đáng kể để thông báo cho các trang web và bên thứ ba thu thập dữ liệu theo cách này, các nhà nghiên cứu phát hiện rằng một lý do cho một số thu thập dữ liệu không mong đợi có thể liên quan đến khó khăn trong việc phân biệt hành động “gửi” từ các hành động khác của người dùng trên một số trang web cụ thể. Nhưng các nhà nghiên cứu nhấn mạnh rằng từ góc độ quyền riêng tư, đây không phải là một lý do chấp nhận được.
Kể từ khi hoàn thành bài báo của họ, nhóm cũng phát hiện ra về Meta Pixel và TikTok Pixel, các bộ theo dõi tiếp thị vô hình mà các dịch vụ nhúng vào trang web của họ để theo dõi người dùng trên web và hiển thị quảng cáo cho họ. Cả hai đều tuyên bố trong tài liệu của họ rằng khách hàng có thể bật chế độ “kết hợp nâng cao tự động,” sẽ kích hoạt việc thu thập dữ liệu khi người dùng gửi một biểu mẫu. Tuy nhiên, thực tế, các nhà nghiên cứu phát hiện ra rằng những pixel theo dõi này đang lấy địa chỉ email đã băm, một phiên bản che giấu của địa chỉ email được sử dụng để nhận diện người dùng web trên nhiều nền tảng, trước khi nộp. Đối với người dùng Hoa Kỳ, có thể có 8,438 trang web đang rò rỉ dữ liệu cho Meta, công ty mẹ của Facebook, thông qua các pixel, và 7,379 trang web có thể bị ảnh hưởng đối với người dùng Liên minh châu Âu. Đối với TikTok Pixel, nhóm phát hiện ra 154 trang web cho người dùng Hoa Kỳ và 147 cho người dùng Liên minh châu Âu.
Các nhà nghiên cứu đã gửi báo cáo lỗi cho Meta vào ngày 25 tháng 3, và công ty nhanh chóng chỉ định một kỹ sư cho trường hợp này, nhưng nhóm không nhận được cập nhật kể từ đó. Các nhà nghiên cứu đã thông báo cho TikTok vào ngày 21 tháng 4—họ mới phát hiện hành vi của TikTok gần đây hơn—và không nhận được phản hồi. Meta và TikTok đều không ngay lập tức trả lời yêu cầu bình luận của MYTOUR về các phát hiện này.
“Những rủi ro về quyền riêng tư cho người dùng là họ sẽ bị theo dõi hiệu quả hơn; họ có thể bị theo dõi qua các trang web khác nhau, qua các phiên làm việc khác nhau, qua di động và máy tính để bàn,” Acar nói. “Địa chỉ email là một định dạng nhận dạng hữu ích cho việc theo dõi, bởi vì nó toàn cầu, nó duy nhất, nó không đổi. Bạn không thể xóa nó giống như xóa cookie của bạn. Nó là một định dạng nhận dạng rất mạnh mẽ.”
Acar cũng chỉ ra rằng, khi các công ty công nghệ nhìn nhận vấn đề quyền riêng tư bằng cách loại bỏ theo dõi dựa trên cookie, các nhà tiếp thị và các nhà phân tích khác sẽ ngày càng phụ thuộc nhiều hơn vào các ID tĩnh như số điện thoại và địa chỉ email.
Khi các kết quả chỉ ra rằng việc xóa dữ liệu trong một biểu mẫu trước khi gửi có thể không đủ để bảo vệ bản thân khỏi mọi thu thập, các nhà nghiên cứu đã tạo một tiện ích mở rộng Firefox gọi là LeakInspector để phát hiện thu thập biểu mẫu bất hợp pháp. Và họ nói rằng họ hy vọng kết quả của họ sẽ làm tăng nhận thức về vấn đề, không chỉ đối với người sử dụng web thông thường mà còn đối với những nhà phát triển và quản trị trang web có thể tự kiểm tra một cách chủ động xem hệ thống của họ hoặc bất kỳ bên thứ ba nào họ đang sử dụng có thu thập dữ liệu từ các biểu mẫu mà không có sự đồng ý.
Biểu mẫu rò rỉ chỉ là một dạng thu thập dữ liệu khác cần phải cảnh báo trong một lĩnh vực trực tuyến đã quá đông đúc.