Thị giác máy tính có thể giúp phát hiện các mối đe dọa an ninh mạng với độ chính xác đáng kinh ngạc
Bài viết này là một phần của đánh giá về các nghiên cứu về trí tuệ nhân tạo, một loạt bài viết khám phá những phát hiện mới nhất trong lĩnh vực trí tuệ nhân tạo.
Sự quan tâm ngày càng tăng trong thập kỷ qua đối với học sâu đã được kích thích bởi khả năng chứng minh của mạng thần kinh trong các nhiệm vụ thị giác máy tính. Nếu bạn huấn luyện một mạng thần kinh với đủ ảnh được gán nhãn của mèo và chó, nó sẽ có khả năng tìm ra các mẫu lặp lại trong mỗi danh mục và phân loại các hình ảnh chưa nhìn thấy với độ chính xác khá cao.
Bạn còn có thể làm gì khác với một bộ phân loại hình ảnh?
Năm 2019, một nhóm nghiên cứu an ninh mạng tự hỏi liệu họ có thể xem xét việc phát hiện mối đe dọa an ninh như một vấn đề phân loại hình ảnh. Trực giác của họ đã được chứng minh đúng, và họ đã tạo ra một mô hình học máy có thể phát hiện phần mềm độc hại dựa trên hình ảnh được tạo ra từ nội dung của các tệp ứng dụng. Một năm sau, cùng kỹ thuật đã được sử dụng để phát triển một hệ thống học máy có thể phát hiện các trang web lừa đảo.
Sự kết hợp giữa hình ảnh nhị phân và học máy là một kỹ thuật mạnh mẽ có thể cung cấp giải pháp mới cho các vấn đề cũ. Nó đang hứa hẹn trong lĩnh vực an ninh mạng, nhưng cũng có thể được áp dụng vào các lĩnh vực khác.
Phát hiện phần mềm độc hại bằng học sâu
Cách truyền thống để phát hiện phần mềm độc hại là tìm kiếm các tư cách của tải kích độc hại trong tệp tin. Các bộ phát hiện phần mềm độc hại duy trì một cơ sở dữ liệu các định nghĩa virus bao gồm các dãy opcode hoặc đoạn mã, và chúng tìm kiếm các tệp tin mới để kiểm tra sự xuất hiện của những chữ ký này. Thật không may, những người phát triển phần mềm độc hại có thể dễ dàng né tránh những phương pháp phát hiện như vậy bằng cách sử dụng các kỹ thuật khác nhau như làm mờ mã của họ hoặc sử dụng các kỹ thuật đa hình để biến đổi mã của họ khi chạy.
Công cụ phân tích động cố gắng phát hiện hành vi độc hại trong thời gian chạy, nhưng chúng chậm và yêu cầu thiết lập môi trường hộp cát để kiểm thử các chương trình đáng nghi.
Trong những năm gần đây, các nhà nghiên cứu cũng đã thử nghiệm một loạt các kỹ thuật học máy để phát hiện phần mềm độc hại. Những mô hình học máy này đã đạt được tiến bộ đối với một số thách thức của việc phát hiện phần mềm độc hại, bao gồm cả việc làm mờ mã. Nhưng chúng đặt ra những thách thức mới, bao gồm cần phải học quá nhiều đặc trưng và môi trường ảo để phân tích các mẫu mục tiêu.
Hình ảnh nhị phân có thể định nghĩa lại việc phát hiện phần mềm độc hại bằng cách biến nó thành một vấn đề thị giác máy tính. Trong phương pháp này, các tệp tin được chạy qua các thuật toán chuyển đổi các giá trị nhị phân và ASCII thành các mã màu.
Trong một bài báo được xuất bản vào năm 2019, các nhà nghiên cứu tại Đại học Plymouth và Đại học Peloponnese đã cho thấy rằng khi các tệp tin vô hại và độc hại được hình dung bằng phương pháp này, xuất hiện các mẫu mới phân biệt giữa các tệp tin độc hại và an toàn. Những khác biệt này có thể đã bị bỏ qua nếu sử dụng phương pháp phát hiện phần mềm độc hại cổ điển.
When the contents of binary files are visualized, patterns emerge that separate malware from safe files.Theo bài báo, "Tệp tin độc hại thường có xu hướng thường xuyên bao gồm các ký tự ASCII thuộc các danh mục khác nhau, tạo ra một hình ảnh đầy màu sắc, trong khi các tệp tin vô hại có một bức tranh và phân phối giá trị sạch sẽ hơn."
Khi bạn có những mẫu có thể phát hiện được như vậy, bạn có thể huấn luyện một mạng thần kinh nhân tạo để phân biệt giữa các tệp tin độc hại và an toàn. Các nhà nghiên cứu đã tạo ra một bộ dữ liệu của các tệp tin nhị phân được hình dung bao gồm cả tệp tin vô hại và tệp tin độc hại. Bộ dữ liệu chứa nhiều tải kích độc hại (virus, worm, trojan, rootkit, vv.) và loại tệp (.exe, .doc, .pdf, .txt, vv.).
Các nhà nghiên cứu sau đó sử dụng hình ảnh để huấn luyện một mạng thần kinh phân loại. Kiến trúc họ sử dụng là mạng thần kinh tăng dần tự tổ chức (SOINN), nhanh chóng và đặc biệt tốt trong việc xử lý dữ liệu nhiễu. Họ cũng sử dụng một kỹ thuật tiền xử lý hình ảnh để thu nhỏ hình ảnh nhị phân thành các vectơ đặc trưng 1,024 chiều, làm cho việc học các mẫu trong dữ liệu đầu vào trở nên dễ dàng và hiệu quả tính toán hơn.
Architecture of deep learning system that detects malware from binary visualization.Mạng thần kinh kết quả đã đủ hiệu quả để tính toán một bộ dữ liệu huấn luyện với 4,000 mẫu trong 15 giây trên một máy trạm cá nhân với bộ xử lý Intel Core i5.
Các thử nghiệm của các nhà nghiên cứu cho thấy rằng mô hình học sâu đặc biệt tốt trong việc phát hiện phần mềm độc hại trong các tệp .doc và .pdf, là phương tiện ưa thích cho các cuộc tấn công tống tiền. Các nhà nghiên cứu đề xuất rằng hiệu suất của mô hình có thể được cải thiện nếu được điều chỉnh để lấy loại tệp tin làm một trong những chiều học của nó. Tổng体来说, thuật toán đạt được tỷ lệ phát hiện trung bình khoảng 74%.
Phát hiện trang web lừa đảo bằng học sâu
Các cuộc tấn công lừa đảo đang trở thành một vấn đề ngày càng lớn đối với tổ chức và cá nhân. Nhiều cuộc tấn công lừa đảo khiến nạn nhân nhấp vào một liên kết đưa đến trang web độc hại giả mạo thành một dịch vụ chính thức, nơi họ nhập thông tin nhạy cảm như thông tin đăng nhập hoặc thông tin tài chính.
Các phương pháp truyền thống để phát hiện trang web lừa đảo xoay quanh việc đưa vào danh sách đen các miền độc hại hoặc đưa vào danh sách trắng các miền an toàn. Phương pháp đầu tiên bỏ lỡ các trang web lừa đảo mới cho đến khi có người trở thành nạn nhân, và phương pháp thứ hai quá hạn chế và đòi hỏi nỗ lực lớn để cung cấp quyền truy cập đến tất cả các miền an toàn.
Các phương pháp phát hiện khác dựa vào các thuật toán khả năng. Những phương pháp này chính xác hơn so với danh sách đen, nhưng vẫn chưa đạt được sự phát hiện tối ưu.
Năm 2020, một nhóm nghiên cứu tại Đại học Plymouth và Đại học Portsmouth sử dụng hình ảnh nhị phân và học sâu để phát triển một phương pháp mới để phát hiện trang web lừa đảo.
Kỹ thuật sử dụng thư viện hình ảnh nhị phân để biến đổi mã nguồn và mã nguồn trang web thành các giá trị màu.

Như trong trường hợp của các tệp tin ứng dụng vô hại và độc hại, khi hình dung trang web, xuất hiện các mẫu duy nhất phân biệt giữa trang web an toàn và độc hại. Các nhà nghiên cứu viết, "Trang web chính thức có giá trị RGB chi tiết hơn vì nó sẽ được xây dựng từ các ký tự bổ sung được lấy từ các giấy phép, liên kết và các biểu mẫu nhập dữ liệu chi tiết."
Trong khi đối tác lừa đảo thông thường sẽ chứa một hoặc không có tham chiếu CSS, nhiều hình ảnh thay vì biểu mẫu và một biểu mẫu đăng nhập duy nhất mà không có kịch bản bảo mật. Điều này sẽ tạo ra một chuỗi đầu vào dữ liệu nhỏ hơn khi được lấy thông tin.
Ví dụ dưới đây thể hiện biểu diễn hình ảnh mã nguồn của trang đăng nhập PayPal chính thức so với một trang web PayPal lừa đảo giả mạo.

Các nhà nghiên cứu đã tạo ra một bộ dữ liệu hình ảnh đại diện cho mã nguồn của các trang web chính thức và độc hại và sử dụng nó để huấn luyện một mô hình học máy phân loại.
Kiến trúc họ sử dụng là MobileNet, một mạng thần kinh tích chập nhẹ (CNN) được tối ưu hóa để chạy trên thiết bị người dùng thay vì trên các máy chủ đám mây có công suất cao. CNN đặc biệt thích hợp cho các nhiệm vụ thị giác máy tính bao gồm phân loại hình ảnh và phát hiện đối tượng.
Khi mô hình được huấn luyện, nó được kết nối vào một công cụ phát hiện lừa đảo. Khi người dùng bắt gặp một trang web mới, nó trước tiên kiểm tra xem URL có được bao gồm trong cơ sở dữ liệu miền độc hại hay không. Nếu đó là một miền mới, sau đó nó sẽ được biến đổi thông qua thuật toán hình ảnh và chạy qua mạng thần kinh để kiểm tra xem nó có các mẫu của các trang web độc hại hay không. Kiến trúc hai bước này đảm bảo hệ thống sử dụng tốc độ của cơ sở dữ liệu danh sách đen và sự phát hiện thông minh của kỹ thuật phát hiện lừa đảo dựa trên mạng thần kinh.
Các thử nghiệm của các nhà nghiên cứu cho thấy rằng kỹ thuật có thể phát hiện trang web lừa đảo với độ chính xác 94%. "Sử dụng các kỹ thuật biểu diễn hình ảnh cho phép nhận thức sự khác biệt cấu trúc giữa trang web chính thức và trang web lừa đảo. Từ kết quả thử nghiệm ban đầu của chúng tôi, phương pháp dường như triển vọng và có thể phát hiện nhanh chóng kẻ tấn công lừa đảo với độ chính xác cao. Hơn nữa, phương pháp học từ những trường hợp phân loại sai và cải thiện hiệu suất của nó," các nhà nghiên cứu viết.
Architecture of deep learning system that detects phishing websites through binary visualizationGần đây, tôi đã nói chuyện với Stavros Shiaeles, giảng viên an ninh mạng tại Đại học Portsmouth và đồng tác giả của cả hai bài báo. Theo Shiaeles, các nhà nghiên cứu đang trong quá trình chuẩn bị kỹ thuật để triển khai trong các ứng dụng thực tế.
Shiaeles cũng đang khám phá việc sử dụng hình ảnh nhị phân và học máy để phát hiện luồng dữ liệu độc hại trong mạng IoT.
Khi học máy tiếp tục phát triển, nó sẽ cung cấp cho các nhà khoa học những công cụ mới để đối mặt với thách thức an ninh mạng. Hình ảnh nhị phân cho thấy rằng với đủ sự sáng tạo và nghiêm túc, chúng ta có thể tìm ra các giải pháp mới cho những vấn đề cũ.
Bài viết này ban đầu được đăng bởi Ben Dickson trên TechTalks, một xuất bản phẩm nghiên cứu xu hướng công nghệ, cách chúng ảnh hưởng đến cuộc sống và kinh doanh của chúng ta, và những vấn đề mà chúng giải quyết. Nhưng chúng tôi cũng thảo luận về mặt xấu của công nghệ, những hậu quả đen tối của công nghệ mới, và điều chúng ta cần phải chú ý. Bạn có thể đọc bài viết gốc tại đây.
