Học đồ thị không đồng nhất và tăng cường dữ liệu đối kháng để phát hiện mã độc

Heterogeneous graph learning and adversarial data augmentation for malware detection.

Vào thời đại tiên tiến hiện nay, khi ngày càng nhiều người sử dụng các thiết bị điện tử, đặc biệt là Laptop, máy tính bàn, thì đây cũng chính là tiền đề cho sự phát triển rộng rãi và đa dạng của mã độc. Trong bối cảnh đó, nhiều nhà nghiên cứu và các tổ chức đã và đang nghiên cứu và triển khai các biện pháp phát hiện cũng như ngăn ngừa các loại mã độc tấn công hệ thống máy tính.

TÁC GIẢ

ĐỖ QUANG TRUNG

GIẢNG VIÊN HƯỚNG DẪN

NGÀNH

Năm:

Tổng quan đồ án

Vào thời đại tiên tiến hiện nay, khi ngày càng nhiều người sử dụng các thiết bị điện tử, đặc biệt là Laptop, máy tính bàn, thì đây cũng chính là tiền đề cho sự phát triển rộng rãi và đa dạng của mã độc. Trong bối cảnh đó, nhiều nhà nghiên cứu và các tổ chức đã và đang nghiên cứu và triển khai các biện pháp phát hiện cũng như ngăn ngừa các loại mã độc tấn công hệ thống máy tính.

Một trong biện pháp tiêu biểu nhất chính là Phương pháp phát hiện mã độc. Trong những năm gần đây, đã có rất nhiều nghiên cứu triển khai mô hình ML, DL trong phát hiện mã độc nhằm tăng hiệu suất khi hoạt động của hệ thống. Tuy nhiên, theo một số bài khảo sát, các mô hình ML, DL có thể bị “qua mặt” dễ dàng bởi các cuộc tấn công đối kháng. Các tấn công đối kháng thường tạo ra những thay đổi không quá đáng kể dữ liệu gốc nhưng lại khiến cho mô hình phân loại đưa ra kết quả sai và giảm đi hiệu quả của mô hình. Để có thể phát hiện được những mẫu mã độc đã bị gây nhiễu để tấn công mô hình, phương pháp học tập tương phản (Contrastive learning) sẽ giúp giải quyết được vấn đề này khi đã đạt được những hiệu quả nhất định trong các công trình đã công bố. Tuy nhiên hiệu quả của học tương phản vẫn chưa được kiểm chứng nhiều dựa vào dữ liệu nhiều ngữ nghĩa cũng như việc thực hiện trên đa dạng các mô hình học sâu. Do đó, em đề xuất phương pháp phát hiện mẫu đối kháng mã độc bằng cách ứng dụng đồ thị không đồng nhất biểu diễn dữ liệu và kiểm nghiệm phương pháp học tập tương phản dựa trên nhiều mô hình học sâu khác nhau. Phương pháp bao gồm ba giai đoạn chính, đó là tạo dữ liệu đồ thị đính kèm với các chỉ số nhạy cảm, sau đó tiến hành tạo các đồ thị đối kháng dựa trên năm phương pháp tấn công khác nhau, cuối cùng đưa dữ liệu qua học tập tương phản sử dụng các mô hình GNN khác nhau để đưa ra kết quả phân loại.

Tính ứng dụng

Đề tài phát hiện mã độc được sử dụng dựa trên các tập dữ liệu thu thập từ thực tế cũng như sử dụng đa dạng các loại dữ liệu để kiểm chứng việc đưa vào thực tế liệu có khả thi hay không và khả năng ứng dụng vào các mô hình sau này.

Mục tiêu nghiên cứu

  • Nghiên cứu về khả năng tấn công của các loại phương pháp tấn công mô hình phân loại mã độc
  • Ứng dụng các mẫu tấn công nhằm tăng cường dữ liệu cho hệ thống học sâu phát hiện các mã độc bị làm rối
  • Thử nghiệm khả năng phát hiện mã độc dựa trên mô hình học tương phản
  • Đo đạc và đánh giá kết quả thực nghiệm

Cơ sở lý thuyết

1. Mạng Nơ-ron Đồ thị (GNN)

Mô hình học sâu sử dụng cho dữ liệu dạng đồ thị. Có khả năng ứng dụng trên các ngữ cảnh phức tạp như trong mạng lưới giao thông, mạng xã hội hoặc những đối tượng có quan hệ với nhau. GNN hoạt đông bằng cách truyền các thông tin qua các đỉnh và cạnh trong đồ thị và học thông qua việc cập nhập và kết hợp từ các đỉnh kề, giúp nắm bắt cấu trúc và tương tác giữa các đối tượng. Khả năng đáng chú ý của GNN là khả năng tích hợp các thông tin từ đặc trưng của các đỉnh và cấu trúc trong đồ thị, khiến mô hình có khả năng tích hợp thông tin từ đặc trứng các đỉnh và cấu trúc đồ thị, học được các mô hình phức tạp và biểu diễn mối quan hệ phức tạp giữa các đối tượng.

image 73

2. Học tương phản (Contrastive learning)

Học tương phản (Contrastive learning): là một ý tưởng phổ biến trong học tự giám sát. Mục tiêu của học tương phản là ánh xạ các dữ liệu đầu vào vào một không giang biểu diễn để kéo các mẫu dữ liệu tương tự lại gần nhau và các mẫu không tương tự đẩy xa nhau trong không gian. Contrastive learning dựa trên ý tưởng so sánh các cặp dữ liệu, bao gồm:

image 74
  • Cặp dương: Các mẫu dữ liệu được coi là tương tự nhau, có thể là phiên bản tăng cường của dữ liệu.
  • Cặp âm: Các mẫu dữ liệu không tương tự, thường là mẫu dữ liệu được gán nhãn khác, hoặc khác xa so với dữ liệu khác.

3. Tấn công đối kháng (Adversarial attacks)

Tấn công đối kháng là loại tấn công bằng cách thay đổi sao cho không thay đổi quá nhiều so với các giá trị đầu của tập dữ liệu nhằm đánh lừa khả năng phân loại của các mô hình học sâu để giảm hiệu năng mô hình. Tóm lại, tấn công đối kháng là việc tạo ra các mẫu dữ liệu đưa vào mô hình học sâu, khiến cho mô hình đoán sai chúng so với nhãn đã gán. Ví dụ hình ảnh bên dưới, sau khi thêm nhiễu, mô hình đã phán đoán sai nhãn

image 75

4. Mô hình nhúng ngôn ngữ

Mô hình nhúng ngôn ngữ (Word Embedding) là một phương pháp biểu diễn từ ngữ trong không gian vector nhiều chiều, trong đó các từ có ngữ nghĩa hoặc ngữ cảnh tương tự sẽ nằm gần nhau. Phương pháp này giúp mô hình học máy hiểu được mối quan hệ ngữ nghĩa giữa các từ dựa trên ngữ cảnh sử dụng.

Thiết kế hệ thống

Mô hình dưới đây được thừa hưởng từ công trình, được hình thành dựa trên 3 bước chính

image 76

Bước 1: Trích xuất các thông tin từ tập dữ liệu và đánh các chỉ số nhạy cảm cho các đặc trưng trích xuất được dựa trên tần suất xuất hiện trong các tệp mã độc hoặc lành tính (1 nếu xuất hiện nhiều trong mã độc và ngược lại)

  • Input: Các bộ dữ liệu thô sơ ban đầu
  • Output: Bộ dữ liệu đã làm sạch và được trích xuất các đặc trưng

Bước 2: Sử dụng cấu trúc dữ liệu đồ thị với Process là trọng tâm có quan hệ với nhiều loại đỉnh khác nhất và sử dụng các mô hình xử lý ngôn ngữ tinh chỉnh dựa trên các đặc trưng đã trích xuất. Sau đó, sử dụng các phương pháp tạo nhiễu trên các loại mã độc.

  • Input: Các bộ dữ liệu được làm sạch và đặc trưng.
  • Output: Các đồ thị đã được nhúng mô hình ngôn ngữ xử lý tự nhiên

Bước 3: Sử dụng các mô hình GNN học tương phản và đưa ra kết quả phân loại. Sử dụng tổng cộng 4 mô hình GNN bao gồm: GAT, GATv2, GIN, GraphSAGE để làm Encoder sử dụng để tính toán loss và đưa ra kết quả.

  • Input: Các đồ thị
  • Output: Kết quả phân loại mã độc dựa trên các mô hình GNN khác nhau.

Luồng hoạt động mô hình đề xuất

Hình 3.1 là sơ đồ của luồng hoạt động của hệ thống. Tuần tự các bước như sau:

  • Giai đoạn 1: Xử lý Dataset và đánh các đặc trưng nhạy cảm
  • Giai đoạn 2: Chuyển hóa thành cấu trúc đồ thị không đồng nhất cũng như tinh chỉnh đặc trưng
  • Giai đoạn 3: Sử dụng contrastive learning cũng như các mô hình GNN để đưa ra phân loại

Kết luận

Học đồ thị không đồng nhất và tăng cường dữ liệu đối kháng đã mở ra hướng tiếp cận mới trong việc phát hiện mã độc với hiệu quả vượt trội. Bằng cách khai thác cấu trúc phức tạp và đa dạng của đồ thị, phương pháp này không chỉ giúp nâng cao khả năng biểu diễn mối quan hệ giữa các thành phần trong mã độc mà còn cải thiện đáng kể độ chính xác và khả năng tổng quát hóa của mô hình. Đồng thời, việc sử dụng kỹ thuật tăng cường dữ liệu đối kháng đã chứng minh hiệu quả trong việc cải thiện độ bền vững của mô hình trước các tấn công tiềm ẩn, đảm bảo tính ổn định và tin cậy của hệ thống phát hiện. Qua việc xây dựng hệ thống phát hiện mã độc như trên, đã giúp bản thân hiểu sâu hơn về các hướng nghiên cứu liên quan, hiểu được các hạn chế để góp phần cải thiện dần. Đồ án này đã đạt được những kết quả sau:

  • Tạo được mô hình phát hiện mã độc với độ hiệu quả cao, đặc biệt trong các mẫu mã độc thu thập từ thực tế lên tới 99 phần trăm
  • Giải quyết được các vấn đề về phát hiện các mẫu mã độc bị làm rối cả về cấu trúc cũng như về các đặc trưng.

Hướng phát triển

  • Áp dụng thêm khả năng tạo nhiễu bằng hộp đen như GAN,…
  • Huấn luyện mô hình với các tập dataset khác để kiểm tra thêm khả năng phát hiện
  • Áp dụng mô hình có thể giải thích (Explainable Artificial Intelligent) để làm rõ các kết quả phát hiện mã độc.