Tổng quan
Pháp luật là nền tảng quan trọng để đảm bảo công bằng, trật tự và bảo vệ quyền lợi của công dân trong xã hội. Tuy nhiên, vẫn còn tồn tại những hạn chế, khó khăn trong tiếp cận dịch vụ pháp lý với một bộ phận người dân, đặc biệt là người nghèo và đối tượng yếu thế.
Artifial Intelligence (AI) chatbot, đặc biệt là các hệ thống dựa trên mô hình ngôn ngữ lớn (Large Languague Models (LLM)), đang ngày càng phát triển và đóng vai trò quan trọng trong nhiều lĩnh vực, bao gồm giáo dục, tài chính, phần mềm, y tế, và pháp lý. Theo nghiên cứu, các mô hình ngôn ngữ lớn như GPT-4 và Claude-2 là những mô hình hàng đầu về hiệu suất trên nhiều tiêu chí, đặc biệt là khả năng sinh văn bản mạch lạc, hiểu ngữ cảnh sâu và xử lý các tác vụ phức tạp. Tuy nhiên, các mô hình này vẫn đối mặt với nhiều thách thức trong việc ứng dụng vào lĩnh vực chuyên biệt như tư vấn pháp lý. Cùng với đó, một số nghiên cứu về chatbot AI và Retrieval-Augmented Generation (RAG) cũng đã chỉ ra những hạn chế của LLM và giải pháp tiềm năng. Nghiên cứu nhấn mạnh các thách thức như tính cập nhật kiến thức, khả năng suy luận logic, và hiện tượng “ảo giác AI” (hallucination), trong khi nghiên cứu xác định khó khăn của LLM trong các truy vấn chuyên sâu thuộc lĩnh vực cụ thể. RAG được đề xuất như giải pháp giúp cải thiện độ chính xác bằng cách truy xuất dữ liệu từ nguồn bên ngoài trước khi tạo văn bản đầu ra, đặc biệt hiệu quả khi kết hợp với kho dữ liệu bản án phong phú.
Trong lĩnh vực pháp lý, AI chatbot đã có những bước tiến lớn, nhưng chưa thực sự đáp ứng tốt nhu cầu tư vấn. Các LLM hiện nay tuy mạnh về khả năng xử lý ngôn ngữ, nhưng vẫn tồn tại nhược điểm như khó kiểm chứng nguồn thông tin, và hạn chế trong việc đưa ra lời khuyên dựa trên tình huống cụ thể. Việc tích hợp mô hình LLM với kiến trúc RAG là một hướng đi tiềm năng để cải thiện độ chính xác và độ tin cậy
của AI chatbot trong tư vấn pháp lý.
Với mong muốn được học tập và nghiên cứu, nhóm chúng em đã lựa chọn hướng tiếp cận trên làm đề tài cho đồ án chuyên ngành của mình.
Đồ án chuyên ngành này trình bày về xây dựng hệ thống tư vấn pháp lý dựa trên mô hình ngôn ngữ lớn, kết hợp với phương pháp Retrieval-Augmented Generation. Mục tiêu chính của đề tài là tạo ra một giải pháp hỗ trợ tư vấn pháp lý một cách chính xác, nhanh chóng và dễ hiểu, tập trung chủ yếu vào Luật Hôn nhân và Gia đình Việt Nam.
Mục tiêu nghiên cứu
Đối với đề tài đồ án chuyên ngành này, nhóm chúng em hướng đến việc hoàn thành các mục tiêu như sau:
- Xây dựng cơ sở tri thức, bao gồm việc thu thập dữ liệu và tiền xử lý dữ liệu pháp lý.
- Phát triển một hệ thống AI chatbot tích hợp LLM và RAG để hỗ trợ tư vấn pháp lý dựa trên dữ liệu từ các bản án và quy định pháp luật.
- Cải thiện khả năng truy xuất của hệ thống và cung cấp thông tin pháp lý có thể tham khảo.
Đối tượng nghiên cứu
- Framework tự động hóa thao tác trên trình duyệt web: Selenium
- Framework xây dựng REST API phục vụ truy vấn người dùng: FastAPI
- Framework xây dựng ứng dụng dựa trên LLM: Langchain
- Mô hình học sâu và embedding: gemini-embedding-001
- Mô hình ngôn ngữ lớn: gemini-2.0-flash
- Cơ sở dữ liệu vector: Qrant
- Phương pháp phân mảnh văn bản: Recursive
Phạm vi nghiên cứu
- Sử dụng nguồn dữ liệu là các bản án và văn bản pháp lý về Luật Hôn nhân và Gia đình số 52/2014/QH13 của Việt Nam.
- Đề tài không bao gồm tư vấn pháp lý chuyên sâu cho các tình huống phức tạp hoặc đòi hỏi sự tham gia trực tiếp của luật sư.
Mô hình hệ thống đề xuất
Sơ đồ kiến trúc tổng thể

Hình 3.1 mô tả kiến trúc tổng thể của hệ thống tư vấn pháp lý mà nhóm đề xuất.
Giao diện người dùng được phát triển bằng Node.js, cho phép người dùng nhập câu hỏi và nhận câu trả lời. Câu hỏi được xử lý bởi mô hình nhúng (embedding model – Gemini) để tạo ra vector ngữ nghĩa, sau đó truy vấn đến cơ sở dữ liệu vector (Qdrant) nhằm tìm kiếm các ngữ cảnh phù hợp. Các ngữ cảnh truy xuất được kết hợp với lịch sử trò chuyện (chat history) và gửi đến Gemini API để sinh câu trả lời cuối cùng. Câu trả lời được trả về và hiển thị cho người dùng qua ứng dụng giao diện. Toàn bộ quy trình này được tổ chức thành một pipeline xử lý tuần tự, đảm bảo hiệu quả và khả năng mở rộng. Các thành phần chi tiết sẽ được trình bày trong các mục tiếp theo của chương này.
Cơ sở tri thức
Cơ sở tri thức trong một hệ thống RAG, đặc biệt trong lĩnh vực pháp lý cần đảm bảo tính minh bạch, uy tín, và có nguồn gốc rõ ràng. Các tài liệu trong cơ sở tri thức cần được kiểm chứng, trích dẫn đầy đủ và phản ánh chính xác nội dung gốc, nhằm tạo nền tảng đáng tin cậy cho quá trình truy xuất và sinh câu trả lời. Cơ sở tri thức của nhóm gồm hai loại dữ liệu chính:
Phán quyết tòa án
⋄ Được thu thập từ trang web chính thức của Thư viện Pháp luật (https://thuvienphapluat.vn).
⋄ Dữ liệu được trích xuất bằng công cụ Selenium, tự động hóa việc thu thập các bản án, đảm bảo tốc độ, tính hệ thống và nhất quán.
⋄ Danh sách bản án đã thu thập được lưu dưới dạng file JSON để theo dõi các bản án đã có trong hệ thống. Ví dụ:

⋄ Mục đích của định dạng JSON là để quản lý và theo dõi các bản án đã được thu thập, đảm bảo không trùng lặp và dễ dàng cập nhật.
- Văn bản luật
⋄ Bao gồm văn bản Luật Hôn nhân và Gia đình 2014, được lấy từ Cơ sở Dữ liệu Quốc gia về Văn bản Pháp luật.
⋄ Dữ liệu được lưu trữ dưới dạng file PDF, chứa các quy định pháp lý liên quan đến các vấn đề hôn nhân, gia đình và giải quyết tranh chấp. Dữ liệu sau đó sẽ được xử lý và đưa vào vector store để lập chỉ mục, chi tiết được trình bày ở phần sau.
Mô hình embedding và vector store
Xử lý dữ liệu đầu vào: Nhóm sử dụng hai class riêng biệt phục vụ cho các bản án và văn bản pháp luật để phân tách tài liệu thành các đoạn nhỏ , tối ưu hóa cho truy xuất ngữ nghĩa. Kỹ thuật chunking được áp dụng khác nhau cho từng loại tài liệu, sử dụng phương pháp Recursive Chunking với các thông số cụ thể:
Kĩ thuật chunking cho bản án
- Kỹ thuật chunking: Nhóm phân tách bản án dựa trên các tiêu đề đặc trưng, bao gồm “THÔNG TIN VỤ ÁN”, “NỘI DUNG VỤ ÁN”, “NHẬN ĐỊNH
CỦA TÒA ÁN”, và “QUYẾT ĐỊNH”. Các tiêu đề được xác định bằng biểu thức chính quy để tách nội dung thành các phần có ý nghĩa pháp lý riêng biệt. Kỹ thuật Recursive Chunking giúp chia các phần này thành các đoạn có kích thước hợp lý, tuân theo các thông số chunk_size và chunk_overlap.
- Metadata: Mỗi đoạn được gắn metadata chi tiết, ví dụ:

Đánh giá ứng dụng
Hệ thống được thử nghiệm trên các câu hỏi pháp lý thực tế liên quan đến hôn nhân và gia đình, chẳng hạn như các vấn đề về ly hôn, quyền nuôi con, và phân chia tài sản. Kết quả cho thấy hệ thống có khả năng trả lời đúng với tỷ lệ cao, thường đi kèm dẫn chứng rõ ràng từ các bản án hoặc điều luật liên quan. Cụ thể:

- Độ chính xác: Hệ thống trả lời chính xác các câu hỏi về quy định pháp lý (ví dụ: điều kiện ly hôn theo Luật Hôn nhân và Gia đình 2014) và cung cấp các dẫn chứng từ phán quyết tòa án phù hợp với ngữ cảnh.
- Trích dẫn nguồn: Các câu trả lời bao gồm thông tin nguồn, chẳng hạn như mã bản án hoặc số điều luật, giúp người dùng dễ dàng kiểm chứng thông tin.
- Tính phù hợp: Hệ thống duy trì ngữ cảnh pháp lý phù hợp, đặc biệt khi tích hợp lịch sử trò chuyện, giúp trả lời các câu hỏi nối tiếp một cách nhất quán. Tuy nhiên, một số trường hợp cho thấy hệ thống gặp khó khăn với các câu hỏi có ngôn ngữ phức tạp hoặc khi tài liệu gốc có định dạng không đồng nhất, dẫn đến việc truy xuất ngữ cảnh chưa tối ưu.
Kết quả đánh giá cho thấy hệ thống hoạt động hiệu quả trong việc cung cấp câu trả lời pháp lý chính xác kèm theo dẫn chứng. Hệ thống có hiệu suất khác nhau tùy theo loại tài liệu. Với văn bản luật, hệ thống đạt hiệu suất cao nhờ cấu trúc tài liệu rõ ràng và ngôn ngữ pháp lý chuẩn hóa. Với bản án, hiệu suất truy xuất thông tin thấp hơn do lượng tài liệu lớn hơn, định dạng tài liệu đa dạng hơn và ngôn ngữ tự nhiên phức tạp.
Kết luận
Sau quá trình nghiên cứu và triển khai, nhóm đã đạt được các kết quả sau:
- Xây dựng thành công một hệ thống chatbot tư vấn pháp lý tiếng Việt sử dụng kiến trúc RAG kết hợp với LLM. Hệ thống tập trung vào chủ đề Luật Hôn nhân và Gia đình, sử dụng dữ liệu từ hơn 800 bản án và văn bản luật chính thức để trả lời các câu hỏi pháp lý kèm theo dẫn chứng rõ ràng.
- Các thành phần quan trọng như LangChain, Qdrant, Google Embedding API, FastAPI và Node.js đã được tích hợp hiệu quả, giúp hệ thống truy xuất dữ liệu nhanh, sinh phản hồi chính xác và duy trì được ngữ cảnh trò chuyện. Giao diện người dùng đơn giản, trực quan, dễ sử dụng.
- Kết quả đánh giá qua framework RAGAS cho thấy hệ thống đạt hiệu suất tốt ở cả hai nguồn dữ liệu: bản án và văn bản luật, thể hiện qua các chỉ số như Answer Relevancy, Faithfulness, Context Precision và Context Recall.
Hạn chế
Mặc dù đã đạt được nhiều kết quả khả quan, hệ thống vẫn còn một số hạn chế:
- Hiện tại hệ thống chỉ tập trung vào Luật Hôn nhân và Gia đình, chưa mở rộng sang các lĩnh vực pháp lý khác như dân sự, hình sự,…
- Do hạn chế tài chính, nhóm sử dụng mô hình và dịch vụ có sẵn miễn phí, vì thể có thể ảnh hưởng đến hiệu suất và độ ổn định.
- Một thách thức lớn là mô hình ngôn ngữ lớn và embedding hiện nay chưa tối ưu cho tiếng Việt, dẫn đến một số câu hỏi phức tạp hoặc có cách diễn đạt tự nhiên chưa được hiểu đúng hoặc trả lời chưa sát nghĩa.
Hướng phát triển
Một số định hướng phát triển cho đồ án này như sau:
- Mở rộng chủ đề tư vấn sang các lĩnh vực pháp lý khác như Luật Lao động, Luật Đất đai, Luật Dân sự,…
- Có thể tích hợp mô hình hỗ trợ context dài hơn để cải thiện khả năng duy trì ngữ cảnh dài.
- Cân nhắc tinh chỉnh LLM (fine-tuning) hoặc huấn luyện thêm phần retriever trên dữ liệu pháp luật tiếng Việt.
- Mở rộng hệ thống để hiển thị rõ các đoạn văn bản đã được truy xuất


