Tổng quan
Các trang web lừa đảo đang trở thành một trong những mối đe dọa trực tuyến phổ biến và nghiêm trọng đối với người dùng internet. Nhằm giải quyết vấn đề này, chúng em đã phát triển một giải pháp tiên tiến để bảo vệ người dùng trước các trang web lừa
đảo.
Hệ thống được xây dựng dựa trên việc tự động thu thập và trích xuất các đặc trưng từ URL giả mạo và URL hợp pháp, qua đó tạo ra một tập dữ liệu mới, được cập nhật liên tục để đào tạo các mô hình nhận diện.
Chúng em đề xuất một mô hình phát hiện lừa đảo tiên tiến sử dụng kiến trúc học sâu TabTransformer, được thiết kế đặc biệt để xử lý dữ liệu dạng bảng. Hiệu quả của mô hình đã được đánh giá trên các tập dữ liệu mới, và kết quả cho thấy mô hình vượt trội hơn so với các phương pháp học máy và học sâu khác.
Ngoài ra, chúng em tích hợp phương pháp nhận diện logo với công cụ tìm kiếm, góp phần cải thiện độ chính xác của hệ thống nhận diện URL lừa đảo. Giải pháp này thể hiện tiềm năng ứng dụng cao trong việc nâng cao an toàn mạng cho người dùng internet.
Mục tiêu và phạm vi nghiên cứu
Đề tài tập trung khắc phục các hạn chế hiện có trong bộ dữ liệu và các mô hình học sâu được ứng dụng trong hệ thống phát hiện URL lừa đảo nhằm phát triển một phương pháp nhận diện URL lừa đảo toàn diện và hiệu quả hơn.
Mục tiêu chính là giảm thiểu rủi ro mất thông tin và tài sản của người dùng khi truy cập vào các trang web giả mạo. Để đạt được mục tiêu này, đề tài sẽ triển khai các kỹ thuật học sâu tiên tiến, tích hợp các phương pháp phân tích từ vựng, nội dung, máy chủ của URL cũng như logo của trang web. Cách tiếp cận này không chỉ cải thiện độ chính xác trong việc phát hiện các URL độc hại mà còn mở rộng phạm vi phát hiện đối với các hình thức lừa đảo tinh vi và phức tạp hơn.
Ngoài ra, đề tài hướng tới việc xây dựng một hệ thống nhận diện có khả năng thích ứng cao trước các mối đe dọa ngày càng phát triển trong không gian mạng. Hệ thống này sẽ kết hợp hai phương pháp nhận diện URL lừa đảo hiệu quả hiện nay, tạo nên một công cụ bảo vệ mạnh mẽ và hiệu quả cho người dùng trước các nguy cơ tiềm ẩn.
Trong nghiên cứu này, chúng em tập trung vào việc phát triển một phương pháp nhận diện URL giả mạo dựa trên việc kết hợp các đặc trưng của URL và nhận diện logo trang web. Phạm vi nghiên cứu được chia thành hai phần chính: phân tích, nhận diện đặc trưng của URL và nhận diện logo trang Web.
Phân tích đặc trưng của URL: Phần này tập trung vào việc xác định và phân tích các đặc trưng của URL, bao gồm từ vựng URL, nội dung trang web và các dịch vụ bên ngoài. Các phương pháp học sâu sẽ được áp dụng để phát hiện sự bất thường trong các URL, từ đó đưa ra các cảnh báo để xác định khả năng là URL giả mạo.
Nhận diện logo trang web: Phần này này áp dụng các kỹ thuật nhận diện hình ảnh để phân tích và nhận diện logo của các trang web, với mục tiêu xác định các URL lừa đảo. Chúng tôi đã nghiên cứu và triển khai hai phương pháp chính:
- So sánh logo: Phương pháp này dựa trên việc đối chiếu logo của các trang web nghi ngờ với logo chính thức từ các trang web hợp pháp.
- Sử dụng công cụ tìm kiếm: Phương pháp này sử dụng tên logo và tên miền liên quan làm từ khóa tìm kiếm để xác định URL giả mạo.
Kết quả thực nghiệm cho thấy, phần lớn các URL lừa đảo hiện nay sử dụng logo được sao chép trực tiếp từ các trang web chính thống. Điều này làm giảm hiệu quả của phương pháp so sánh logo và khó đạt được độ chính xác cao.
Do đó, nghiên cứu chuyển sang ưu tiên phương pháp sử dụng công cụ tìm kiếm để xác định tính xác thực của các trang web. Phương pháp này chứng minh hiệu quả vượt trội, cung cấp khả năng nhận diện URL giả mạo một cách chính xác và đáng tin cậy hơn.
Phạm vi nghiên cứu tập trung vào việc cải thiện độ chính xác trong việc nhận diện URL giả mạo và nâng cao khả năng nhận diện các trang web qua việc kết hợp nhận diện logo. Các nghiên cứu trước đây về nhận diện URL giả mạo và nhận diện logo đã chỉ ra rằng sự kết hợp giữa cả hai yếu tố này có thể tạo ra một hệ thống phát hiện giả mạo hiệu quả hơn so với việc chỉ dựa vào một phương pháp đơn lẻ.
Phạm vi nghiên cứu này không tập trung mở rộng và triển khai trên quy mô lớn, mà tập trung vào việc phát triển các mô hình lý thuyết và đánh giá chúng trên một bộ dữ liệu thử nghiệm. Những kết quả này sẽ là cơ sở cho các nghiên cứu và ứng dụng thực tế trong tương lai.
Nội dung đề tài
Sau đây là mô tả hệ thống phát hiện URL lừa đảo bằng việc sử dụng phân tích thông tin tĩnh từ URL và nhận diện logo:
- Đầu vào: Hệ thống nhận các URL đáng ngờ được thu thập từ người dùng trên Internet. Tiếp theo, hệ thống sẽ bắt đầu chụp ảnh giao diện và logo, đồng thời trích xuất 82 đặc trưng của các URL đó. Hệ thống của nhóm em có hai nhánh riêng biệt: nhánh trên dùng để phân tích các đặc trưng của URL và nhánh dưới dùng để nhận diện logo và giao diện.
- Nhánh trên – phân tích tĩnh: Nhánh này sẽ chịu trách nhiệm trích xuất các đặc trưng của URL dựa trên cấu trúc, cú pháp và nội dung của chúng, đồng thời truy vấn các dịch vụ bên ngoài. Sau khi xử lý, các đặc trưng này được định dạng thành một vector và đưa vào mô hình phát hiện để nhận diện các URL lừa đảo. Tiếp sau đó, nhóm của chúng em sử dụng mô hình TabTransformer [13] để đảm nhận nhiệm vụ phát hiện các URL lừa đảo. Ban đầu, mô hình kiểm tra cấu trúc và cú pháp của URL để phát hiện các bất thường. Sau đó, nội dung HTML được kiểm tra để tìm các tập lệnh độc hại được cho là chứa các yếu tố lừa đảo. Cuối cùng, kết quả truy vấn từ các dịch vụ bên ngoài được phân tích và kết luận URL đó là lừa đảo hay hợp pháp. Nếu giá trị tĩnh bé hơn 0.35 hoặc lớn hơn 0.75 sẽ cho ra trực tiếp kết quả cuối cùng. Nếu nằm trong khoảng từ 0.35 đến 0.75 thì sẽ kết hợp nhánh dưới sau đó mới cho ra kết quả cuối cùng.
- Nhánh dưới – phân tích động: Ở nhánh còn lại này, chúng em sử dụng Selenium Webdriver phục vụ cho việc để chụp ảnh giao diện và logo. Sau đó, các mô hình Object Detection được sử dụng để phát hiện, nhận diện logo của các thương hiệu. Cụ thể, khi tên thương hiệu của một trang web được nhận diện từ logo, phương pháp tiếp tục sử dụng công cụ tìm kiếm để kiểm tra tính hợp pháp của URL liên quan. Quy trình kiểm tra hoạt động như sau: hệ thống thực hiện tìm kiếm với từ khóa kết hợp giữa tên thương hiệu và tên miền (“” ). Nếu tên miền của URL nghi vấn xuất hiện trong 5 kết quả đầu tiên do công cụ tìm kiếm cung cấp, URL đó được đánh giá là hợp pháp. Ngược lại, nếu không đáp ứng tiêu chí này, URL sẽ được xác định là có khả năng lừa đảo. Kết quả từ nhánh này sẽ được tổng hợp và so sánh với kết quả nằm trong khoảng khoảng từ 0.35 đến 0.75 từ nhánh phân tích tĩnh trên để đưa ra đánh giá toàn diện về tính hợp pháp của URL.
- Đầu ra: Sau khi so sánh cả hai nhánh trên lại với nhau để cho ra kết quả cuối cùng để hiển thị lên trang web tổng quan. Ngoài ra, trang web cũng sẽ hiện thị thêm các thông tin liên quan đến URL mà người dùng đang kiểm tra. Điều này sẽ giúp cho trải nghiệm của người dùng trở nên trực quan và thuận tiện hơn.
Các bộ dữ liệu chuẩn dùng cho việc phát hiện lừa đảo trên trang web hiện nay không có sẵn. Nguyên nhân dẫn đến vấn đề này là do thực tế các trang web lừa đảo chỉ tồn tại trong thời gian ngắn và các URL không còn hoạt động sẽ không thể được sử dụng để phân tích nội dung. Ngoài ra, hầu hết các bộ dữ liệu có sẵn đều chỉ chứa các giá trị của các tính năng được thử nghiệm mà không có thông tin về các URL đã sử dụng. Điều này làm ngăn cản việc sao chép và thử nghiệm các bộ dữ liệu đó với các tính năng khác nhau. Để giải quyết những thách thức trên, nghiên cứu của chúng em đã thu thập nguồn dữ liệu thô từ nhiều nguồn đáng tin cậy, tương tự như các nghiên cứu trước đây, và áp dụng phương pháp trích xuất các đặc trưng (Feature Extraction) để thu thập thông tin có giá trị.
Kết luận
Trong bài khóa luận này, nhóm của chúng em đã tìm hiểu và nghiên cứu một cách rất chi tiết cách trích xuất các đặc trưng của URL và cách chụp ảnh màn hình của một trang web. Từ nghiên cứu trên, nhóm đã đề xuất một hế thống phát hiện các URL lừa đảo bằng việc trích xuất các thông tin tĩnh của URL. Đây là một phương pháp phát hiện URL lừa đảo hiệu quả, tối ưu và nhanh chóng. Bên cạnh đó, để phát hiện một trang web phát hiện URL lừa đảo chính xác hơn, nhóm cũng đã xây dựng phương pháp phát hiện URL lừa đảo bằng logo và thương hiệu sử dụng các mô hình Object Detection mới nhất hiện nay. Phương pháp này đã giúp chúng em giải quyết được được các vấn đề nhận diện logo và thương hiệu lớn. Những nhận định của chúng em cho thấy rằng hệ thống của chúng em hoạt động tốt hơn các phương pháp tiếp cận hiện đại trên các thử nghiệm khi sử dụng bộ dữ liệu thực và đã được chọn lọc cùng với khả năng khám phá và luôn cập nhật không ngừng các trang lừa đảo mới mỗi ngày. Bên cạnh việc nhận diện một URL có phải là lừa đảo hay không, nhóm chúng em còn đưa ra những thông tin cụ thể và giao diện của URL đó.