Tên bài báo: “An empirical study on the impact of graph representations for code vulnerability detection using graph learning”
Nội dung:
Nghiên cứu mức độ ảnh hưởng của các loại biểu diễn đồ thị đối với việc phát hiện lỗ hổng bảo mật phần mềm bằng phương pháp học đồ thị.
Sinh viên:
- Lê Trần Gia Lạc (ATTT 2022)
- Nguyễn Cao Cường (ATTT 2022)
Chủ đề nghiên cứu:
Trí tuệ nhân tạo và An toàn thông tin
Giáo viên hướng dẫn:
- ThS. Phan Thế Duy
- TS. Phạm Văn Hậu
Bài báo của nhóm được chấp nhận đăng và trình bày tại chương trình hội nghị khoa học quốc “𝐈𝐧𝐭𝐞𝐫𝐧𝐚𝐭𝐢𝐨𝐧𝐚𝐥 𝐂𝐨𝐧𝐟𝐞𝐫𝐞𝐧𝐜𝐞 𝐨𝐧 𝐌𝐮𝐥𝐭𝐢𝐦𝐞𝐝𝐢𝐚 𝐀𝐧𝐚𝐥𝐲𝐬𝐢𝐬 𝐚𝐧𝐝 𝐏𝐚𝐭𝐭𝐞𝐫𝐧 𝐑𝐞𝐜𝐨𝐠𝐧𝐢𝐭𝐢𝐨𝐧 – 𝐌𝐀𝐏𝐑 2024”, trong phiên đặc biệt – “Special Session: Applying AI to build Security Solutions for Protecting Information Systems” – được tổ chức lần thứ 7 vào ngày 15.8.2024 tại thành phố Đà Nẵng.
Thông tin chung
Hội nghị “𝐈𝐧𝐭𝐞𝐫𝐧𝐚𝐭𝐢𝐨𝐧𝐚𝐥 𝐂𝐨𝐧𝐟𝐞𝐫𝐞𝐧𝐜𝐞 𝐨𝐧 𝐌𝐮𝐥𝐭𝐢𝐦𝐞𝐝𝐢𝐚 𝐀𝐧𝐚𝐥𝐲𝐬𝐢𝐬 𝐚𝐧𝐝 𝐏𝐚𝐭𝐭𝐞𝐫𝐧 𝐑𝐞𝐜𝐨𝐠𝐧𝐢𝐭𝐢𝐨𝐧 – 𝐌𝐀𝐏𝐑” là hội nghị quốc tế thường niên do Trường Đại học Công Nghệ Thông Tin (UIT) đồng sáng lập và tổ chức. Đây là hội nghị khoa học quốc tế thuộc danh mục Scopus-Index, được tài trợ bởi VAPR (Vietnamese Association on Pattern Recognition). Hội nghị là diễn đàn khoa học để giới học thuật, nghiên cứu trong và ngoài nước đến giao lưu, trao đổi kinh nghiệm. Mục tiêu của hội nghị là tập hợp các nhà nghiên cứu và học viên từ các lĩnh vực nhằm chia sẻ kết quả nghiên cứu mới nhất của họ và thúc đẩy sự hợp tác từ các lĩnh vực như nhận dạng mẫu, phân tích đa phương tiện và các lĩnh vực liên quan. Các lĩnh vực được hội nghị khuyến khích nộp nghiên cứu chưa xuất bản bao gồm Pattern Recognition and Machine Learning, Multimedia Analysis, Biomedical Image Analysis and Biometrics, Computer Vision and Robot Vision, Document Analysis and Recognition, Applications.
Ngoài các phiên chính, MAPR 2024 còn tổ chức 2 phiên đặc biệt (“𝐒𝐩𝐞𝐜𝐢𝐚𝐥 𝐒𝐞𝐬𝐬𝐢𝐨𝐧: 𝐀𝐩𝐩𝐥𝐲𝐢𝐧𝐠 𝐀𝐈 𝐭𝐨 𝐁𝐮𝐢𝐥𝐝 𝐒𝐞𝐜𝐮𝐫𝐢𝐭𝐲 𝐒𝐨𝐥𝐮𝐭𝐢𝐨𝐧𝐬 𝐟𝐨𝐫 𝐏𝐫𝐨𝐭𝐞𝐜𝐭𝐢𝐧𝐠 𝐈𝐧𝐟𝐨𝐫𝐦𝐚𝐭𝐢𝐨𝐧 𝐒𝐲𝐬𝐭𝐞𝐦𝐬”) và (“Special Session: Applications of Artificial Intelligence in Healthcare”) cho các nghiên cứu ứng dụng Trí tuệ nhân tạo (AI) trong lĩnh vực An toàn thông tin (cybersecurity) và Chăm sóc sức khỏe (healthcare) trong chương trình hội nghị năm nay.
Abstract
The increasing complexity of software systems has necessitated more sophisticated security measures, particularly in the domain of vulnerability detection. Traditional machine learning (ML) and deep learning (DL) techniques often fall short when source code is treated merely as text, prompting a shift toward graph learning methods that leverage specific graph representations of code to enhance detection capabilities. These representations, including Abstract Syntax Tree (AST), Control Flow Graph (CFG), Data Flow Graph (DFG), Program Dependence Graph (PDG), and Code Property Graph (CPG), encapsulate the structural and semantic intricacies of programming code, offering a robust framework for identifying vulnerabilities. Despite advances in this field, a comprehensive understanding of the impact that each graph representation has on the effectiveness of vulnerability detection is still lacking. Our paper introduces a general architecture for a graph-based vulnerability detection system and conducts empirical studies on two real-world datasets, BigVul and FUNDED. This research systematically assesses how variations in graph representations—AST, CFG, DFG, PDG, and CPG—affect the efficacy of software vulnerability detection, providing pivotal insights that could guide future research and enhance practical applications in cybersecurity.
Nguồn: Phòng thí nghiệm An toàn thông tin – UIT InSecLab