Cải tiến mô hình phát hiện tấn công giả mạo bằng bộ dữ liệu mới và giải pháp học sâu

Advancing Phishing Attack Detection with A Novel Dataset and Deep Learning Solution

Nhận thấy những hạn chế của các hệ thống phát hiện dựa trên sự bất thường, chúng tôi đề xuất tập dữ liệu tự thu thập của mình với các tính năng và mẫu mở rộng cũng như mô hình học sâu dạng bảng để phát hiện các cuộc tấn công lừa đảo. Chi tiết hơn, tập dữ liệu được xây dựng từ các nguồn tấn công lừa đảo hiện đại, chẳng hạn như: OpenPhish, PhishTank, PhishStats và Alexa. Tất cả đều bao gồm các cuộc tấn công lừa đảo đang hoạt động vào năm 2023. Quy trình thu thập dữ liệu và trích xuất tính năng là cũng được trình bày chi tiết trong bài viết này. Ngoài ra, chúng tôi đề xuất mô hình học sâu dựa trên TabTransformer để phát hiện các cuộc tấn công lừa đảo và đánh giá hiệu suất của mô hình được đề xuất trên tập dữ liệu tự thu thập của chúng tôi.

TÁC GIẢ

Nguyễn Quốc An, Lê Quốc Khánh

GIẢNG VIÊN HƯỚNG DẪN

NGÀNH

Năm:

Tổng quan đồ án

Các cuộc tấn công lừa đảo là một mối đe dọa mạng phổ biến do chi phí thấp và yêu cầu kỹ thuật thấp. Một cuộc tấn công lừa đảo thường bắt đầu với một email rác chứa các URL độc hại dẫn đến một trang web lừa đảo. Trang web này được phát triển để bắt chước giao diện người dùng của các trang web nổi tiếng và được tin cậy rộng rãi, nơi người dùng có khả năng cung cấp thông tin cá nhân của họ, đặc biệt là thẻ ID và thẻ tín dụng. Do sự tương đồng cao, người dùng gặp khó khăn trong việc nhận biết sự khác biệt, khiến họ dễ bị tổn hại trước những cuộc tấn công lừa đảo này. Để đối phó với những cuộc tấn công này, cần phải phát triển một biện pháp phòng thủ để ngăn chặn mối đe dọa này và bảo vệ người dùng.

Một trong những phương pháp phát hiện lừa đảo phổ biến nhất là hệ thống signature based. Một hệ thống phát hiện signature-based thường bao gồm một danh sách đen các URL đáng nghi, khi một URL được truy cập thì nó được so sánh với tất cả các url trong danh sách. Nếu tìm thấy kết quả khớp chính xác, URL đến sẽ bị đánh dấu là độc hại và yêu cầu sẽ bị hủy hoặc cảnh báo sẽ được đưa ra cho người dùng. Mặc dù phương pháp này mang lại tỷ lệ false positive thấp và dễ triển khai nhưng nó có một số hạn chế. Thứ nhất, việc duy trì một cơ sở dữ liệu rộng lớn về các URL bị từ chối là một thách thức vì cơ sở dữ liệu càng lớn thì càng chiếm nhiều dung lượng lưu trữ và càng mất nhiều thời gian để xử lý một URL. Thứ hai, các hệ thống phát hiện signature-based nổi tiếng vì không có khả năng phát hiện các cuộc tấn công mới (tức là các URL lừa đảo chưa được nhìn thấy). Đặc biệt, những kẻ tấn công có thể thực hiện một thay đổi nhỏ đối với các URL độc hại của chúng, dẫn đến các URL không tồn tại trong danh sách đen và dễ dàng vượt qua trình phát hiện. Thật không may, việc cập nhật kịp thời danh sách đen đối với các cuộc tấn công lừa đảo mới là một thách thức vì việc này tốn thời gian và đòi hỏi kiến thức chuyên môn để phân tích và xây dựng các quy tắc mới.

Để khắc phục những hạn chế này, các nhà nghiên cứu đã hướng tới các phương pháp tiếp cận dựa trên sự bất thường, nổi tiếng với khả năng xác định các cuộc tấn công lừa đảo vô hình trong khi không yêu cầu cơ sở dữ liệu rộng lớn về các URL độc hại. Ở chế độ train, mô hình deep learning được nhúng trong hệ thống phát hiện dựa trên sự bất thường sẽ được đào tạo trên tập dữ liệu tấn công lừa đảo được chú thích đầy đủ, bao gồm các feature của các cuộc tấn công lừa đảo. Ở chế độ hoạt động (hoặc chế độ suy luận), mô hình được cung cấp các yêu cầu web đến và sau đó tạo ra xác suất các url này là độc hại. Mặc dù một số công trình đã chứng minh phương pháp này có hiệu quả nhưng vẫn còn một số thách thức. Thứ nhất, bộ dữ liệu hiện tại chứa dữ liệu lỗi thời, làm giảm khả năng phát hiện các cuộc tấn công lừa đảo gần đây. Ngoài ra, chúng tôi nhận thấy rằng những bộ dữ liệu này được xây dựng với một số tính năng và mẫu hạn chế, không đủ để đào tạo các mô hình học sâu. Một ví dụ điển hình là kho dữ liệu UCI được cập nhật lần cuối vào năm 2016. Đáng chú ý, bộ dữ liệu Website Phishing trong kho UCI chỉ có 1350 mẫu và 10 tính năng, trong khi bộ dữ liệu Phishing Websites chỉ có 30 tính năng và 2460 mẫu. Thứ hai, các công trình gần đây chưa khám phá rộng rãi khả năng của các mô hình học sâu dạng bảng (ví dụ: TabTransformer) trong việc phát hiện tấn công lừa đảo mặc dù tiềm năng của các mô hình này trên dữ liệu dạng bảng.

Nhận thấy những hạn chế của các hệ thống phát hiện dựa trên sự bất thường, chúng tôi đề xuất tập dữ liệu tự thu thập của mình với các tính năng và mẫu mở rộng cũng như mô hình học sâu dạng bảng để phát hiện các cuộc tấn công lừa đảo. Chi tiết hơn, tập dữ liệu được xây dựng từ các nguồn tấn công lừa đảo hiện đại, chẳng hạn như: OpenPhish, PhishTank, PhishStats và Alexa. Tất cả đều bao gồm các cuộc tấn công lừa đảo đang hoạt động vào năm 2023. Quy trình thu thập dữ liệu và trích xuất tính năng là cũng được trình bày chi tiết trong bài viết này. Ngoài ra, chúng tôi đề xuất mô hình học sâu dựa trên TabTransformer để phát hiện các cuộc tấn công lừa đảo và đánh giá hiệu suất của mô hình được đề xuất trên tập dữ liệu tự thu thập của chúng tôi.

Cuối cùng, chúng tôi so sánh hiệu suất của nó với các mô hình học máy và học sâu phổ biến, chẳng hạn như Linear Model, KNN, SVM, Decision Tree, Random Forest, và SAINT.

  • Tóm lại, những đóng góp của chúng tôi là:
    Chúng tôi đề xuất một bộ dữ liệu tấn công lừa đảo mới với số lượng mẫu lớn và có chiều sâu. Chúng tôi cũng cung cấp quy trình để xây dựng tập dữ liệu từ các nguồn có uy tín như OpenPhish, PhishTank, PhishStats và Alexa.
  • Chúng tôi đề xuất mô hình dựa trên Tabtransformer để phát hiện các cuộc tấn công lừa đảo, được thiết kế đặc biệt để phù hợp với dữ liệu dạng bảng và mang lại độ chính xác phát hiện cao.
  • Chúng tôi tiến hành thử nghiệm trên tập dữ liệu của mình và so sánh hiệu suất của mô hình được đề xuất với các mô hình cơ sở phổ biến như KNN, Decision Tree, Random Forest, SVM và SAINT.

Tổng quan hệ thống

Input: Hệ thống nhận được các URL đáng ngờ được thu thập từ người dùng internet. Thành phần xử lý tính năng: Chịu trách nhiệm trích xuất các tính năng URL dựa trên cấu trúc, cú pháp và nội dung của chúng, ngoài việc truy vấn các dịch vụ bên ngoài. Sau quá trình xử lý, các tính năng này được hình thành dưới dạng vectơ và sau đó được đưa vào mô hình phát hiện để phát hiện các URL lừa đảo.

Thành phần phát hiện lừa đảo: Có nhiệm vụ phát hiện các URL lừa đảo bằng cách sử dụng mô hình TabTransformer. Ban đầu, mô hình sẽ kiểm tra cấu trúc và cú pháp của URL để phát hiện các điểm bất thường. Sau đó, nội dung HTML được mô hình kiểm tra để tìm ra các tập lệnh độc hại được cho là có chứa các phần tử lừa đảo. Cuối cùng, truy vấn của các dịch vụ bên ngoài được phân tích và kết luận bằng mô hình đề xuất.

Output: Sau quá trình phân tích, mô hình sẽ xác định xem URL là hợp pháp hay lừa đảo và gửi kết quả cho quản trị viên để thực hiện hành động tiếp theo.

image 85
image 86

Các số liệu đánh giá của chúng tôi bao gồm: accuracy, f1-score, precision, recall, và AUC. Accuracy đo lường tỷ lệ dự đoán đúng trong số tất cả các dự đoán. Precision đo lường tỷ lệ URL thực sự độc hại trong số các URL độc hại được mô hình dự đoán. Recall đo lường tỷ lệ URL độc hại mà mô hình xác định trong số tất cả các URL thực sự độc hại. F1-score là giá trị trung bình của precision và recall. Và AUC đo diện tích dưới đường cong ROC.

Hình 4a và Hình 4b trình bày ma trận nhầm lẫn của mô hình của chúng tôi trên tập dữ liệu D1 và D2 tương ứng. Kết quả cho thấy mô hình đề xuất có độ chính xác cao, với hầu hết các mẫu lừa đảo được dự đoán chính xác. Hơn nữa, mô hình đề xuất của chúng tôi giới hạn tỷ lệ false positive ở mức rất thấp (24 mẫu hợp pháp không chính xác trong D1 và 42 mẫu tương ứng trong D2), giúp giảm cảnh báo sai cho quản trị viên.

image 87

Tổng kết

Các cuộc tấn công lừa đảo là một trong những mối đe dọa trực tuyến phổ biến nhất hiện nay, gây ra mối đe dọa đáng kể cho người dùng internet. Để đối phó với sự tấn công này, chúng tôi trình bày một giải pháp nâng cao nhằm bảo vệ người dùng internet khỏi các trang web lừa đảo. Đầu tiên, chúng tôi giới thiệu một thuật toán trích xuất tính năng toàn diện để cung cấp thông tin có giá trị và cung cấp tập dữ liệu mới với hơn 70.000 mẫu để huấn luyện các mô hình phát hiện. Hơn nữa, chúng tôi đã đề xuất một mô hình phát hiện lừa đảo tiên tiến được hỗ trợ bởi kiến trúc dựa trên học sâu mới – TabTransformer. Mô hình đề xuất đã được đánh giá với bộ dữ liệu mới và chứng tỏ được hiệu suất cao khi vượt trội so với các đối thủ khác. Cuối cùng, những phát hiện của chúng tôi và việc triển khai mô hình TabTransformer hiện tại cũng cung cấp cơ sở cho nghiên cứu sâu hơn và thậm chí là triển khai ứng dụng thực tế trong lĩnh vực dự đoán URL lừa đảo.