TỔNG QUAN
Trong quá trình vận hành mạng, việc giám sát thiết bị và theo dõi log là cần thiết để kịp thời phát hiện và xử lý sự cố. Tuy nhiên, nhiều hệ thống hiện nay vẫn chưa có giải pháp giám sát tập trung, hoặc chỉ sử dụng các công cụ đơn lẻ, gây khó khăn trong việc theo dõi và quản lý tổng thể.
Trong khi đó, các công cụ mã nguồn mở như Prometheus, Grafana và ELK Stack ngày càng phổ biến, nhưng quá trình triển khai và tích hợp chúng vào một mô hình mạng cụ thể không hề đơn giản nếu không có kinh nghiệm thực tế.
Chúng tôi chọn đề tài này vì muốn trực tiếp tìm hiểu cách xây dựng một hệ thống giám sát thực tế, có thể triển khai được, dễ sử dụng và phù hợp với mạng quy mô nhỏ đến vừa. Việc tự thiết kế và triển khai toàn bộ giúp chúng tôi hiểu rõ cách các công cụ hoạt động, cách chúng kết nối và xử lý dữ liệu trong một hệ thống hoàn chỉnh.
Mục tiêu
Mục tiêu của đề tài là xây dựng một hệ thống giám sát mạng có thể hoạt động ổn định, giám sát được cả hiệu năng thiết bị lẫn log hệ thống, đồng thời hỗ trợ cảnh báo khi có sự cố. Cụ thể, chúng tôi muốn:
- Thiết kế một mô hình mạng nhỏ gồm các thiết bị như router, switch, firewall,… để triển khai hệ thống giám sát lên đó.
- Dùng Prometheus để thu thập các chỉ số như CPU, RAM, băng thông, trạng thái cổng,…
- Dùng Grafana để hiển thị dữ liệu theo thời gian thực, dễ theo dõi và phát hiện bất thường.
- Thiết lập hệ thống phân tích log tập trung bằng ELK Stack, có khả năng lọc, tìm kiếm và lưu trữ log từ các thiết bị mạng.
- Tích hợp chức năng cảnh báo khi có dấu hiệu bất thường hoặc vượt ngưỡng đã đặt.
Ngoài ra, đề tài cũng nhằm giúp nhóm rèn kỹ năng thiết kế mạng, triển khai công cụ mã nguồn mở và xử lý các vấn đề phát sinh khi hệ thống vận hành thực tế.
Phạm vi thực hiện
Đề tài tập trung vào việc triển khai hệ thống trong môi trường nhỏ, có thể kiểm soát được, nhằm đảm bảo quá trình thu thập, xử lý và hiển thị dữ liệu diễn ra ổn định. Hệ thống được xây dựng trên môi trường ảo hóa để tiện thử nghiệm và dễ kiểm soát cấu hình. Việc thực hiện chủ yếu xoay quanh các bước cài đặt, kết nối các thành phần lại với nhau và kiểm thử khả năng hoạt động thực tế.
Các chức năng được triển khai ở mức cơ bản, đủ để quan sát dữ liệu, phân tích log và nhận cảnh báo khi có sự cố đơn giản.
Đề tài không mở rộng sang các bài toán xử lý dữ liệu lớn, tối ưu hiệu năng ở quy mô lớn, cũng không đi sâu vào các kỹ thuật bảo mật, phân quyền hay tính sẵn sàng cao. Ngoài ra, việc tích hợp với hệ thống thực tế của doanh nghiệp hoặc các giải pháp giám sát thương mại không nằm trong phạm vi của đồ án này.
Công cụ sử dụng
Đề tài được thực hiện theo phương pháp thực nghiệm: thiết kế mô hình mạng ảo, triển khai các thành phần giám sát trên hệ thống máy ảo và tiến hành kiểm thử trực tiếp. Toàn bộ hệ thống được dựng trên nền tảng GNS3, cho phép mô phỏng các thiết bị mạng như router, switch, firewall, đồng thời dễ dàng kết nối với các máy ảo chạy trên VMware.
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG
Kịch bản giả lập
Để thuận tiện cho việc xây dựng và kiểm thử hệ thống giám sát, nhóm thực hiện giả lập theo kịch bản sau: “Một công ty có trụ sở chính và một chi nhánh, mỗi nơi đều có hạ tầng mạng riêng bao gồm tường lửa (pfSense), switch layer 2, và web server. Hệ thống yêu cầu phải giám sát: Hiệu năng thiết bị, log hệ thống, trạng thái dịch vụ: khả năng truy cập web, độ trễ mạng giữa các điểm,… Ngoài ra, khi có sự cố như thiết bị quá tải, dịch vụ ngừng hoạt động, hoặc log cảnh báo nguy hiểm, hệ thống cần phải phát hiện kịp thời và gửi cảnh báo đến quản trị viên.”.
Mô hình mạng triển khai

Hệ thống được xây dựng mô phỏng theo mô hình thực tế của một doanh nghiệp có trụ sở chính và một chi nhánh từ xa, được kết nối với nhau thông qua đường hầm VPN IPsec nhằm đảm bảo kết nối bảo mật, ổn định và có thể giám sát tập trung. Mục tiêu của thiết kế là tạo ra một kiến trúc mạng phân vùng chức năng rõ ràng, có khả năng dự phòng, và đủ điều kiện để triển khai các công cụ giám sát mạng một cách hiệu quả.
TRIỂN KHAI HỆ THỐNG
Cài đặt và cấu hình mô hình mạng
Đầu tiên, hoàn tất việc kết nối vật lý như sơ đồ bên dưới

Tiếp đó tiến hành cấu hình địa chỉ IP, DHCP, trunking, VLAN, và các tính năng định tuyến nội bộ như Inter-VLAN Routing, OSPF, HSRP trên Core Switch. Trên các Access Switch cũng cần cấu hình VLAN, trunking. DHCP Pool trên 2 Core Switch phải khác nhau để tránh xung đột.

Pfsense cũng được cấu hình với các chính sách tường lửa cơ bản, NAT, và định tuyến IPsec để kết nối với chi nhánh.


Kết quả kiểm thử
Sau khi hoàn tất cài đặt và cấu hình, hệ thống giám sát hoạt động ổn định và đúng theo yêu cầu. Cụ thể:
- Prometheus đã thu thập đầy đủ thông tin từ các exporter và có thể thực hiện truy vấn PromQL chính xác.
- Grafana hiển thị các dashboard theo thời gian thực về: Tình trạng hệ thống, trạng thái thiết bị mạng, khả năng truy cập dịch vụ, container metrics qua cAdvisor.
- ELK Stack tiếp nhận và phân tích log, các log được hiển thị trực quan trên giao diện Kibana, có thể lọc, tìm kiếm, và phân tích nhanh.
Tuy nhiên, trong quá trình triển khai vẫn còn một số hạn chế và vấn đề chưa thực hiện được:
- Hệ thống cảnh báo qua email của Grafana chưa hoạt động ổn định: Dù đã cấu hình đầy đủ thông số SMTP và các máy giám sát có thể truy cập Internet, nhưng tốc độ kết nối ra ngoài quá chậm dẫn đến tình trạng timeout khi gửi mail, có thể là do máy GNS3.
- ELK Stack mới dừng lại ở mức hiển thị log dạng biểu đồ và truy vấn cơ bản: Chưa triển khai được các cơ chế phân tích bất thường (anomaly detection), cảnh báo theo hành vi, hoặc tích hợp với các công cụ phân tích bảo mật như SIEM.
Những vấn đề trên sẽ được tiếp tục hoàn thiện trong các giai đoạn phát triển tiếp theo của hệ thống.
ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN
Hệ thống hiện tại đã thiết lập được một nền tảng giám sát mạng khá hoàn chỉnh, bao gồm cả thu thập metrics lẫn phân tích log. Việc sử dụng Docker giúp triển khai linh hoạt, dễ tái cấu hình và mở rộng. Các thành phần chính như Prometheus, Grafana, và ELK hoạt động độc lập, rõ ràng, giúp dễ dàng quản lý.
Tuy nhiên, hệ thống vẫn còn khá đơn giản về mặt logic xử lý. Việc giám sát chủ yếu dừng ở mức thu thập và hiển thị thông tin, chưa khai thác nhiều khả năng tự động phát hiện sự cố hoặc phản ứng kịp thời. Các dashboard được tạo ra chủ yếu mang tính tổng quan, chưa có chiều sâu phân tích chuyên biệt cho từng loại dịch vụ hay thiết bị.
Trong tương lai, cần hướng đến việc tinh chỉnh các rule cảnh báo thông minh hơn, triển khai alerting hiệu quả, và áp dụng các công cụ hỗ trợ bảo mật, như tích hợp với Wazuh, Suricata hoặc Zeek. Bên cạnh đó, nên mở rộng hệ thống để có thể theo dõi lưu lượng chi tiết hơn ở lớp ứng dụng, hỗ trợ phân tích hành vi người dùng, hoặc áp dụng machine learning để nhận diện bất thường.
Những bước này sẽ giúp hệ thống tiệm cận với các giải pháp giám sát thực tế trong doanh nghiệp.


