Phát hiện tấn công cho hệ thống nhúng IoT bằng học liên kết

Detecting network attacks for embedded IoT devices using Federated Learning

Hiện nay, các thiết bị IoT xuất hiện ở mọi nơi trong cuộc sống của chúng ta. Việc các thiết bị này được kết nối với mạng Internet là một điểm yếu có thể bị khai thác sử dụng trong các cuộc tấn công mạng lớn như Mirai và các botnet xuất hiện gần đây. Các giải pháp phát hiện tấn công mạng dựa trên phương pháp học máy tập trung hiện nay không phản ánh được các đặc trưng của tấn công mạng giữa các mạng IoT khác nhau do dữ liệu lưu lượng mạng dùng để huấn luyện mô hình máy học không bao gồm dữ liệu được thu thập được trên các mạng này. Để giải quyết vấn đề thiếu hụt và bảo mật riêng tư của dữ liệu, học liên kết đem việc huấn luyện mô hình máy học đến các router, và liên kết các mô hình được cá nhân hóa dựa trên dữ liệu của mỗi router thành một mô hình phản ánh các thay đổi đó bằng các kỹ thuật như FedAvg hay Fed+.

TÁC GIẢ

PHAN VĂN ĐÔ, LÊ HOÀNG KHÁNH

GIẢNG VIÊN HƯỚNG DẪN

NGÀNH

Năm:

Tổng quan đồ án

Hiện nay, các thiết bị IoT xuất hiện ở mọi nơi trong cuộc sống của chúng ta. Việc các thiết bị này được kết nối với mạng Internet là một điểm yếu có thể bị khai thác sử dụng trong các cuộc tấn công mạng lớn như Mirai và các botnet xuất hiện gần đây. Các giải pháp phát hiện tấn công mạng dựa trên phương pháp học máy tập trung hiện nay không phản ánh được các đặc trưng của tấn công mạng giữa các mạng IoT khác nhau do dữ liệu lưu lượng mạng dùng để huấn luyện mô hình máy học không bao gồm dữ liệu được thu thập được trên các mạng này. Để giải quyết vấn đề thiếu hụt và bảo mật riêng tư của dữ liệu, học liên kết đem việc huấn luyện mô hình máy học đến các router, và liên kết các mô hình được cá nhân hóa dựa trên dữ liệu của mỗi router thành một mô hình phản ánh các thay đổi đó bằng các kỹ thuật như FedAvg hay Fed+.

image 62

Để giải quyết các vấn đề trên, cần xây dựng hệ thống học liên kết có khả năng ưu tiên các thiết bị có nhiều dữ liệu đa dạng hơn trong quá trình liên kết. Trong phạm vi nghiên cứu, xem dữ liệu người dùng như một phần của tập dữ liệu gốc và từ đó đánh giá mô hình đã liên kết.

Học liên kết là một phương pháp huấn luyện mô hình máy học dựa trên dữ liệu của người dùng mà vẫn đảm bảo tính bảo mật và riêng tư của dữ liệu. Việc phát hiện các thiết bị IoT bị tấn công bằng cách so sánh với biểu hiện mạng bình thường của người dùng của các giải pháp hiện tại bị ảnh hưởng bởi mức độ sai lệch lớn và thời gian phát hiện tấn công lâu. Học liên kết có thể giải quyêt vấn đề này do mỗi mô hình máy học được huấn luyện trên các thiết bị và dữ liệu khác nhau và tống quát hóa thành một mô hình máy học chung để làm tăng mức độ chính xác và hiệu năng phát hiện tấn công.

Tập dữ liệu CIC IoT 2023 được dùng để huấn luyện mô hình máy học phát hiện tấn công mạng theo hai hướng: đơn giản (có hay không có tấn công được phát hiện) và nâng cao (có hay không có một trong 8 nhóm hoặc 33 loại hình tấn công được phát hiện).

Đề xuất thiết kế hệ thống

image 63

Tập dữ liệu CIC IoT 2023[1] trích xuất các đặc điểm lưu lượng mạng trong môi trường mạng bị tấn công. Ngoài lưu lượng mạng thông thường (BenignTraffic), có 33 tấn công được thực hiện trên 105 thiết bị IoT tổng hợp thành 7 loại hình tấn công chính: tấn công từ chối dịch vụ phân tán (DDoS), tấn công từ chối dịch vụ (DoS), tấn công thăm dò (reconnaissance), tấn công web, tấn công vét cạn (brute-force), tấn công mạo danh (spoofing) và tấn công botnet Mirai.

Hiện nay các mô hình máy học cho dữ liệu dạng bảng đang trở nên phổ biến, với sự xuất hiện của Category Embedding, GANDALF, Feature Tokenizer Transformer, TabNet v.v phục vụ các công việc máy học khác nhau như phân loại hay dự đoán hồi quy. Trong phạm vi phát hiện tấn công mạng, cần quan tâm các mô hình có khả năng phân loại tốt và hiệu quả, do đó các mô hình có số lượng parameter thấp như Category Embedding, GANDALF, TabNet sẽ chạy ổn định hơn trên thiết bị IoT.

image 64
image 65

Tác giả đề xuất hệ thống học liên kết bao gồm máy chủ cung cấp các dịch vụ máy học và máy khách (thiết bị định tuyến mạng) huấn luyện mô hình cho công việc phân loại lưu lượng mạng.

Kết luận

Thông qua quá trình nghiên cứu và phát triển, đã bước đầu hiện thực hệ thống phát hiện tấn công mạng bằng học liên kết có giám sát trên tập dữ liệu CIC IoT 2023, bao gồm quá trình huấn luyện mô hình và thực hiện công việc phân loại tấn công.

Hướng phát triển

Phát triển hệ thống để có thể thực hiện việc học liên kết tự giám sát sử dụng các kỹ thuật bảo vệ tính riêng tư của dữ liệu như Differential Privacy. Khi áp dụng mô hình Pub-Sub vào hệ thống, người phát triển mô hình chỉ cần tạo một yêu cầu để hệ thống thông báo (Pub) tới các máy khách (Sub) để huấn luyện một cách tự động.

Đồng thời tác giả sẽ xem xét các kỹ thuật liên kết mô hình giúp cải thiện mô hình dựa trên các chỉ số đánh giá, chẳng hạn như so sánh ma trận nhầm lẫn giữa các máy khách và ưu tiên liên kết với các parameter có mức độ false negative thấp chẳng hạn.