Phương pháp nghiên cứu tập trung vào việc thay thế mô hình Word2Vec bằng ba biến thể của kiến trúc Transformer: DistilBERT, TinyBERT và CodeBERT. Một quy trình thực nghiệm toàn diện được triển khai để so sánh hiệu năng và chi phí tính toán của bốn phương pháp embedding này trên hai bộ dữ liệu tiêu chuẩn là DARPA OpTC và THEIA. Đặc biệt, để giải quyết vấn đề "sai lệch miền dữ liệu" (domain mismatch) trên tập THEIA vốn phụ thuộc nhiều vào định danh UUID, một giải pháp "nhân hóa" đặc trưng đã được đề xuất và kiểm chứng, giúp các mô hình Transformer có thể diễn giải và xử lý hiệu quả dữ liệu log đặc thù. Ngoài ra, khóa luận còn tích hợp thuật toán GNNExplainer và các Mô hình Ngôn ngữ Lớn (LLMs) để tự động hóa việc diễn giải các cảnh báo, tăng tính minh bạch cho hệ thống.
Vào thời đại tiên tiến hiện nay, khi ngày càng nhiều người sử dụng các thiết bị điện tử, đặc biệt là Laptop, máy tính bàn, thì đây cũng chính là tiền đề cho sự phát triển rộng rãi và đa dạng của mã độc. Trong bối cảnh đó, nhiều nhà nghiên cứu và các tổ chức đã và đang nghiên cứu và triển khai các biện pháp phát hiện cũng như ngăn ngừa các loại mã độc tấn công hệ thống máy tính.