Tổng quan
Tài liệu được thực hiện với các nội dung như sau: giới thiệu về đề tài, cơ sở lý thuyết, phương pháp thực hiện, thực nghiệm và đánh giá cuối cùng là kết luận và hướng phát triển. Trong phần giới thiệu, tôi đã tổng quan về các nghiên cứu liên quan đến phát hiện hiệu suất bất thường trong hạ tầng đám mây, từ các nghiên cứu đó tôi đã đặt vấn đề và đề xuất ra một hệ thống giải quyết vấn đề đó. Phần cơ sở lý
thuyết đề cập đến các khái niệm và kỹ thuật liên quan như học máy, học bầy đàn, kỹ thuật cân bằng dữ liệu, phát hiện hiệu suất bất thường, và quản lý hạ tầng đám mây.
Trong phần phương pháp thực hiện, tôi đã trình bày chi tiết các mô hình học máy đã nghiên cứu, đồng thời kiến trúc của nền tảng học bầy đàn và triển khai mô hình học máy đã nghiên cứu lên nền tảng học bầy đàn. Đồng thời tôi cũng trình bày về vấn đề thu thập dữ liệu cùng với xử lí những tập dữ liệu bị mất cân bằng nghiêm trọng. Phần thực nghiệm và đánh giá đã mô tả các kịch bản kiểm thử và đánh giá kết quả của nền tảng học bầy đàn so sánh với học máy tập trung.
Trong phần kết luận, tôi đã đánh giá những kết quả đạt được của mình , đồng thời thảo luận về những hạn chế và hướng phát triển trong tương lai. Cụ thể, hệ thống đã chứng minh được khả năng phát hiện hiệu suất bất thường một cách kịp thời và chính xác, góp phần nâng cao khả năng giám sát và quản lý hạ tầng đám mây. Tuy nhiên, tôi cũng đã nhận ra một số vấn đề cần được cải thiện như tối ưu các mô hình và tham số của mô hình, triển khai thêm nhiều mô hình, mở rộng phạm vi kiểm tra, và tích hợp với các công cụ quản lý đám mây khác.
Tóm lại, khóa luận này đã trình bày một hệ thống phát hiện hiệu suất bất thường dựa trên học bầy đàn cho cơ sở hạ tầng đám mây, với những đóng góp về mặt lý thuyết và ứng dụng thực tế. Kết quả nghiên cứu có thể được ứng dụng trong việc nâng cao độ tin cậy và bảo mật dữ liệu của các dịch vụ đám mây.
Mục tiêu và phạm vi nghiên cứu
- Nghiên cứu các mô hình học bày đàn phù hợp với bài toán phát hiện bất thường
- Nghiên cứu triển khai hệ thống phát hiện bất thường bằng các mô hình học
máy trên nền tảng học bày đàn - Đánh giá hiệu suất của nền tảng học bày đàn so với học máy tập trung
Phạm vi nghiên cứu: Điện toán đám mây, hiệu suất bất thường, học máy, nền tảng học bầy đàn, dữ liệu phân tán, bảo mật thông tin
Nội dung đề tài
Học máy bầy đàn – Swarm Learning là nền tảng học máy phi tập trung, sử dụng công nghệ Blockchain và điện toán biên (Edge computing) cho phép hoạt động mạng ngang hàng (peer-to-peer). Học máy bầt đàn cho phép các nút chia sẻ các kiến thức về dữ liệu mà không cần chia sẻ dữ liệu đó. bảo vệ quyền riêng tư và bảo mật dữ liệu đồng thời cho phép tất cả những nút cùng đóng góp được hưởng lợi từ việc học tập chung. Học máy bầy đàn còn cho phép đào tạo mô hình trên thiết bị mà không cần trao đổi dữ liệu thô, dữ liệu sẽ được lưu trữ tại mỗi nút, giảm đáng kể lưu lượng khi truyền các kiến thức đã học. Học máy bầy đàn sử dụng công nghệ Blockchain để tạo ra một mạng ngang hàng tự trị mà không cần một cơ nút trung tâm. Việc này sẽ đảm bảo tính bảo mật và phân tán dữ liệu.
Kiến trúc của học máy bầy đàn bao gồm hai lớp chính: lớp ứng dụng và lớp hạ tầng. Lớp ứng dụng bao gồm nền tảng học máy, blockchain, và các thư viện phục vụ học máy bầy đàn. Lớp phần cứng là nơi lưu trữ các nguồn dữ liệu và các mô hình. Hệ thống học máy bầy đàn bao gồm hai thành phần: các nút biên và mạng blockchain.
Thực hiện ví dụ chạy MNIST trên nền học máy bầy đàn, sử dụng Tensorflow làm backend. Ví dụ này thực hiện chạy MNIST trên mô hình 2 máy. Các nút ML được tự động khởi tạo bởi nút SWOP trên 2 máy. Quá trình huấn luyện được bắt đầu bởi nút SWCI và được điều phối bới 2 nút SN chạy trên 2 máy. Ví dụ này sẽ cho thấy cách dữ liệu được riêng tư và mô hình chia sẻ có thể được gắn vào các nút Machine Learning để đào tạo.
Ví dụ này sử dụng hai nút Swarm Network (SN). Tên của các container docker đại diện cho hai nút này là sn1 và sn2. sn1 là Nút Sentinel. sn1 chạy trên máy chủ 10.71.7.103. sn2 chạy trên máy chủ 10.71.7.104. Các nút Swarm Learning (SL) và Machine Learning (ML) được các nút Swarm Operators (SWOP) tự động sinh ra trong quá trình đào tạo và bị xóa sau khi đào tạo. Ví dụ sử dụng hai nút SWOP – một nút kết nối với mỗi nút SN. Tên của các vùng chứa docker đại diện cho hai nút SWOP này là swop1 và swop2. swop1 chạy trên máy chủ 10.71.7.103. swop2 chạy trên máy chủ 10.71.7.104. Quá trình đào tạo được bắt đầu bởi nút SWCI (swci1) chạy trên máy chủ 10.71.7.103. License Server đã chạy trên máy chủ 10.71.7.48. Tất cả các nút Swarm đều kết nối với License Server, trên cổng mặc định 5814.
Kết luận
Sau khi thực hiện khóa luận tốt nghiệp với đề tài “HỆ THỐNG PHÁT HIỆN HIỆU SUẤT BẤT THƯỜNG DỰA TRÊN HỌC BẦY ĐÀN CHO CƠ SỞ HẠ TẦNG ĐÁM MÂY”, chúng tôi đạt được một số kết quả sau:
- Học máy bầy đàn là một nền tảng có triển vọng. Các kết quả đánh giá gần như là tương đồng so với học máy tập trung, thậm chí có một số kịch bản kết quả nhỉnh hơn.
- Học máy bầy đàn giải quyết được các vấn đề về bảo mật dữ liệu khi sử dụng công nghệ Blockchain, đồng thời dữ liệu sẽ được lưu ở từng máy và không cần phải chia sẽ dữ liệu để huấn luyện.
- Vấn đề phân tán dữ liệu cũng được giải quyết bởi học máy bầy đàn khi các máy huấn luyện có thể học các tập dữ liệu không trùng nhau.
Nhìn chung, kết quả nghiên cứu cho thấy học máy bầy đàn là một giải pháp đáng được quan tâm. Nó không chỉ đạt hiệu suất tương đương hoặc hơn các so với học máy tập trung, mà còn có thể giải quyết các thách thức quan trọng như bảo mật và phân tán dữ liệu. Đây là một hướng phát triển đáng chú ý trong lĩnh vực học máy.