Tổng quan
Trong bối cảnh mạng máy tính không ngừng phát triển cả về quy mô lẫn độ phức tạp, cùng với sự gia tăng nhanh chóng của các ứng dụng yêu cầu độ trễ thấp như hội nghị truyền hình, trò chơi trực tuyến hay điều khiển từ xa theo thời gian thực, các hệ thống mạng hiện đại buộc phải đảm bảo tính linh hoạt, khả năng mở rộng và hiệu quả trong việc giám sát, điều phối. Trước yêu cầu đó, mô hình Mạng điều khiển bằng phần mềm – Software Defined Networking (SDN) đã ra đời như một giải pháp mang tính cách mạng, cho phép tách biệt rõ ràng giữa mặt điều khiển và mặt dữ liệu, từ đó hỗ trợ quản lý mạng một cách tập trung, linh hoạt và dễ dàng mở rộng.
Tuy nhiên, bên cạnh những lợi thế vượt trội, SDN cũng đối mặt với nhiều thách thức về bảo mật. Với kiến trúc tập trung, nơi các thiết bị mạng phụ thuộc vào một hoặc vài controller trung tâm để ra quyết định điều khiển, SDN trở thành mục tiêu lý tưởng cho các cuộc tấn công mạng, đặc biệt là tấn công từ chối dịch vụ phân tán Distributed Denial of Service (DDoS). Những cuộc tấn công này có thể gây gián đoạn dịch vụ hoặc khiến toàn bộ hệ thống mạng bị tê liệt nếu controller bị quá tải hoặc bị đánh sập.
Để giải quyết thách thức này, khóa luận đã tập trung vào việc nâng cao khả năng phòng chống tấn công từ chối dịch vụ phân tán trong môi trường mạng điều khiển bằng phần mềm. Đề tài hướng đến việc đề xuất và triển khai một hệ thống đánh giá khả năng phát hiện tấn công từ chối dịch vụ phân tán dựa trên mô hình học máy phi tập trung – Swarm Learning.
Cụ thể, hệ thống được thiết kế để tận dụng khả năng học máy tại nhiều nút mạng mà không cần chia sẻ dữ liệu cục bộ. Điều này không chỉ giúp bảo vệ quyền riêng tư của dữ liệu mà còn giảm đáng kể lượng băng thông truyền tải. Mô hình học máy được huấn luyện trên tập dữ liệu CICDDoS2019 và InSDN và được tích hợp vào kiến trúc mạng điều khiển bằng phần mềm nhằm mô phỏng, sử dụng công cụ Mininet cùng với bộ điều khiển Ryu. Đặc biệt, thuật toán Convolutional Neural Network đã được sử dụng để huấn luyện cả mô hình tập trung và phi tập trung, nhằm phát hiện hiệu quả các dạng tấn công DDoS khác nhau.
Kết quả thực nghiệm cho thấy mô hình học máy phi tập trung có khả năng phát hiện các cuộc tấn công từ chối dịch vụ phân tán một cách hiệu quả, với độ chính xác cao. Điều này không chỉ chứng minh tiềm năng ứng dụng của phương pháp trong việc nâng cao mức độ bảo mật cho các hệ thống mạng hiện đại dựa trên kiến trúc mạng điều khiển bằng phần mềm, mà còn mở ra những hướng đi mới trong nghiên cứu và phát triển các giải pháp phòng chống tấn công từ chối dịch vụ phân tán trong tương lai.
Đối tượng nghiên cứu
Đối tượng nghiên cứu trong đề tài này là phương pháp học máy phân tán – Swarm Learning, được ứng dụng trong việc phát hiện và phòng chống các cuộc tấn công từ chối dịch vụ phân tán – DDoS trong mạng máy tính. Nghiên cứu tập trung vào việc phân tích, thiết kế và triển khai các mô hình học sâu dựa trên thuật toán Convolutional Neural Network (CNN) để xử lý dữ liệu lưu lượng mạng, từ đó phát hiện các dấu hiệu bất thường và ngăn chặn các cuộc tấn công mạng hiệu quả.
Ngoài ra, đề tài còn xem xét kiến trúc mạng điều khiển bằng phần mềm – Software Defined Network như một môi trường thử nghiệm cho các giải pháp phát hiện DDoS, giúp nâng cao khả năng bảo mật và quản lý lưu lượng mạng thông qua các mô hình học máy phân tán.
Phạm vi nghiên cứu
Đề tài khóa luận được phát triển dựa trên hướng nghiên cứu đã được công bố trong bài báo khoa học có tiêu đề: “A GRU deep learning system against attacks in software defined networks” của tác giả Adil Bin Bhutto và cộng sự, đăng trên tạp chí Future Generation Computer Systems, nhà xuất bản Elsevier, năm 2021, trong đó đề xuất một hệ thống phát hiện tấn công DDoS sử dụng thuật toán Gated Recurrent Unit (GRU) trong môi trường mạng SDN.
Khác với nghiên cứu gốc, đề tài này sử dụng mạng nơ-ron tích chập – Convolutional Neural Network (CNN) thay cho GRU nhằm khai thác khả năng tự động trích xuất đặc trưng không gian của dữ liệu mạng, qua đó cải thiện độ chính xác trong việc phát hiện các mẫu bất thường. Bên cạnh đó, đề tài còn tích hợp Swarm Learning để xây dựng một mô hình học máy phi tập trung, không cần chia sẻ dữ liệu huấn luyện giữa các nút mạng, từ đó tăng cường bảo mật và khả năng mở rộng của hệ thống.
Phạm vi nghiên cứu bao gồm việc thiết kế mô hình phát hiện tấn công DDoS dựa trên CNN kết hợp Swarm Learning trong kiến trúc mạng SDN, đồng thời đánh giá hiệu suất của hệ thống trong môi trường phân tán.
PHƯƠNG PHÁP THỰC HIỆN
Mô hình triển khai Swarm Learning
Mô hình kiến trúc tổng quát của hệ thống được thể hiện bởi hình ảnh dưới đây, các thành phần sẽ được giới thiệu trong các phần nhỏ tiếp theo:

Mô tả hệ thống triển khai

Chúng tôi sẽ tiến hành xây dựng mô hình triển khai thực nghiệm Swarm Learning sử dụng ví dụ huấn luyện mô hình MNIST trên nguyên mẫu HPE cung cấp ở Hình 3.1 với các địa chỉ IP của host 1, host 2 và host 3 được thay đổi. Hệ thống gồm một máy chủ điều phối (Swarm Learning Server) và hai nút học (Swarm Nodes) được triển khai trên các máy tính trong cùng một phòng máy.

Kết luận
Sau khi thực hiện khóa luận tốt nghiệp với đề tài “HỆ THỐNG ĐÁNH GIÁ KHẢ NĂNG NHẬN DIỆN CÁC CUỘC TẤN CÔNG DDOS SỬ DỤNG HỌC MÁY PHI TẬP TRUNG TRONG KIẾN TRÚC SDN”, chúng tôi đã xây dựng thành công hệ thống nhận diện tấn công DDoS sử dụng Swarm Learning trong kiến trúc SDN, đáp ứng đầy đủ các mục tiêu đề ra. Các đóng góp chính của đề tài này bao gồm:
- Đóng góp về mặt kỹ thuật: Triển khai kiến trúc Swarm Learning trên nhiều host độc lập kết hợp với hệ thống mạng SDN mô phỏng bằng Mininet và Ryu Controller, giúp phát hiện các cuộc tấn công nhanh và chính xác.
- Đóng góp về mặt khoa học: Chứng minh hiệu quả của thuật toán CNN và phương pháp gộp Geomedian trong việc cân bằng giữa tỉ lệ phát hiện tấn công và giảm cảnh báo sai
- Đóng góp về mặt ứng dụng: Đưa ra mô hình khả thi để giám sát lưu lượng mạng và phản hồi nhanh trước các mối đe dọa trong kiến trúc SDN. Khả năng áp dụng Swarm Learning vào các hệ thống bảo mật phân tán trong thực tế, nơi việc chia sẻ dữ liệu gặp giới hạn do quyền riêng tư
Hạn chế
Trong quá trình thực hiện khóa luận, tôi đã gặp một số hạn chế đáng kể, bao gồm:
- Phát hiện tấn công theo thời gian thực: Việc thu thập và phân tích lưu lượng mạng một cách liên tục đòi hỏi hệ thống phải có khả năng xử lý nhanh và chính xác. Tuy nhiên, trong nghiên cứu này, hệ thống này không có khả năng phát hiện theo thời gian thực mà phải cần một thời gian để các lưu lượng mạng được phân tích và dánh giá là có phải lưu lượng bất thường hay không.
- Hệ thống thực nghiệm đơn giản, cơ chế phòng thủ chưa tối ưu:Việc sử dụng Mininet và Ryu trong hệ thống thực nghiệm tồn tại những hạn chế nhất định. Mininet chỉ mô phỏng môi trường mạng ảo, chưa thể tái hiện chính xác các điều kiện mạng thực như độ trễ ngẫu nhiên, mất gói hay tải mạng cao. Bên cạnh đó, Ryu là một controller tương đối cơ bản, thiếu các tính năng nâng cao về bảo mật, tối ưu hiệu năng và khả năng mở rộng khi triển khai ở quy mô lớn. Do đó, hệ thống này chỉ phù hợp cho các thử nghiệm ở mức độ mô phỏng nhỏ, chưa đủ để đánh giá đầy đủ hiệu quả của mô hình trong môi trường thực tế. Hệ thống hỗ trợ chặn IP của máy tấn công đến interface bị tấn công và thông báo lại lên server cho dù ổn nhưng mà không có thểm cơ chế mở lại cho các IP đó nếu như gặp trường hợp IP được sử dụng bởi người dùng.
- Thuật toán sử dụng chưa phù hợp bài toán: Mặc dù thuật toán CNN đã chứng minh được hiệu quả vượt trội trong các bài toán xử lý ảnh nhờ khả năng tự động trích xuất đặc trưng không gian từ dữ liệu đầu vào có cấu trúc hai chiều như hình ảnh, tuy nhiên, kiến trúc này lại không thực sự phù hợp cho các bài toán phân tích lưu lượng mạng. Dữ liệu lưu lượng mạng là các flow có cấu trúc phi không gian, trong đó các đặc trưng không tồn tại theo trật tự không gian mà theo trình tự thời gian hoặc ngữ nghĩa logic. Do đó, việc sử dụng CNN trong các tác vụ như phát hiện tấn công DDoS hoặc phân tích hành vi mạng thường được cho là không phù hợp so với các kiến trúc phù hợp hơn như RNN, GRU hoặc LSTM, vốn được thiết kế để xử lý dữ liệu tuần tự theo thời gian.
- Huấn luyện dữ liệu là quá nhiều: Swarm Learning được thiết kế nhằm tận dụng ưu điểm của việc huấn luyện phân tán, đặc biệt trong các kịch bản mà mỗi nút chỉ sở hữu một phần nhỏ, không đồng nhất của tập dữ liệu toàn cục. Tuy nhiên, trong bài toán này khi mỗi nút phải xử lý một lượng dữ liệu huấn luyện quá lớn, điều này đã đi ngược lại tinh thần “cộng tác” ban đầu. Do đó, Swarm Learning hoạt động hiệu quả nhất khi dữ liệu ở mỗi nút là vừa đủ, không đồng nhất và phù hợp với năng lực xử lý của thiết bị.
Hướng phát triển
Trong tương lai chúng tôi có một số dự định được đề ra như sau:
- Về cơ chế phòng thủ: Mô hình sử dụng cơ chế phòng thủ chủ động bằng cách chặn các địa chỉ IP tấn công, tuy nhiên không thể mở lại cho IP đó có thể truy cập nếu nhận diện nhầm. Trong tương lai, hệ thống có thể được mở rộng khả năng giám sát đa giao diện để phát hiện tấn công trên toàn bộ các điểm khác nhau trong mạng cũng như tối ưu lại cơ chế phòng thủ một cách linh hoạt hơn.
- Về khả năng xử lý: Tối ưu hóa quy trình bắt và phân tích gói tin theo thời gian thực, đảm bảo hệ thống có thể phản hồi kịp thời trước các mối đe dọa tấn công mạng. Đồng thời, cần lựa chọn thuật toán học máy phù hợp với đặc thù của dữ liệu mạng và mô hình học máy phi tập trung. Việc sử dụng tập dữ liệu đúng ngữ cảnh hợp tác, phản ánh tính phân tán và không đồng nhất giữa các nút, cũng đóng vai trò quan trọng trong việc nâng cao hiệu quả và tính khả thi của hệ thống trong môi trường thực tế.
- Về mở rộng quy mô hệ thống: Trong môi trường thực tế, khi các công ty có thể liên kết với nhau để cung cấp dữ liệu training cục bộ, mở rộng mạng lưới collaboration. Tiến hành thử nghiệm và triển khai mô hình trên các kiến trúc mạng phức tạp hơn, bao gồm các hệ thống đa tầng, mạng diện rộng (WAN), hoặc môi trường đám mây


