NeoBot – Chatbot AI Đồng Hành Cùng Diễn Đàn Công Nghệ Thông Tin

NeoBot- AI Chatbot Companion for Information Technology Forum

Lĩnh vực công nghệ thông tin là một trong những ngành phát triển mạnh mẽ. Đặc biệt là trong kỷ nguyên công nghệ hiện đại. Các doanh nghiệp đã và đang liên tục tìm kiếm nguồn nhân lực trong lĩnh vực này. Tuy là Ngành công nghệ thông tin luôn là ngành đi đầu cho sự phát triển đất nước, nhưng lý do các doanh nghiệp luôn liên tục tìm kiếm nguồn nhân lực là vì có rất ít người thật sự giỏi trong lĩnh vực này. Mặc dù sinh viên theo ngành khá đông, song đó thì tỉ lệ có việc làm ở lĩnh vực này là cực kì hiếm vì yêu cầu kiến thức rất cao. Và đó chính là lý do khiến cho sinh viên và người lao động rơi vào trạng thái khủng hoảng vì phải cập nhật công nghệ mới liên tục.

Trong đề tài này, em đã xây dựng một website diễn đàn tích hợp với một chatbot nhằm giải quyết việc cải thiện kiến thức công nghệ cho sinh viên và người đi làm. Diễn đàn là nơi mọi người cùng chia sẻ kiến thức để cùng nhau đi lên, bên cạnh đó, để tiện lợi cho việc có câu trả lời ngay lập tức, chatbot chính là giải pháp tốt nhất để có thể giải quyết những vấn đề phổ biến của người dùng gặp phải trong việc thu nạp kiến thức.Tận dụng việc hiểu ngữ cảnh hai chiều trong câu của mô hình tiền huấn luyện BERT và XLM-R để có thể trả lời các câu hỏi về lĩnh vực IT cho sinh viên và người đi làm. Tích hợp công nghệ STT giúp người học có thể tìm kiếm bằng giọng nói. kết quả thực nghiệm cho chatbot đã tối ưu hóa thời gian của người dùng trong việc thu nạp kiến thức

Xem toàn văn báo cáo tại:

Tổng quan

Trong kỷ nguyên số 4.0 hiện nay, lĩnh vực Công nghệ Thông tin (CNTT) đang có những bước tiến vượt bậc và ngày càng giữ vị trí quan trọng trong nhiều mặt của cuộc sống . Công nghệ được ứng dụng rộng rãi trong nhiều lĩnh vực then chốt như y tế, giáo dục và các ngành dịch vụ, góp phần thúc đẩy sự tiến bộ của xã hội. Bên cạnh đó, sự bùng nổ của trí tuệ nhân tạo (AI) đã mở ra nhiều cơ hội mới, thu hút ngày càng nhiều người theo đuổi học tập và làm việc trong lĩnh vực CNTT.

Dẫu vậy, vẫn tồn tại một vấn đề khá phổ biến là liệu người học và người lao động có gặp thách thức trong quá trình phát triển học tập và sự nghiệp trong lĩnh vực CNTT về sau này hay không. Thực tế cho thấy, không ít sinh viên và người đi làm cảm thấy chán nản vì khó tiếp cận kiến thức chuyên ngành, đặc biệt khi không có cộng đồng hỗ trợ hay công cụ đồng hành phù hợp. Điều này dẫn đến tiến độ học tập bị chậm lại — với sinh viên, sẽ tác động khá tiêu cực đến công việc học tập ; với người đi làm, sẽ làm giảm hiệu quả công việc, ảnh hưởng đến hiệu suất và khả năng thích nghi với sự thay đổi nhanh chóng của công nghệ.

Xuất phát từ thực trạng đó, trong phạm vi nghiên cứu này, em đã hướng đến việc xây dựng một chatbot tích hợp trực tiếp vào diễn đàn công nghệ thông tin. Chatbot này giúp người dùng tra cứu và tìm kiếm thông tin một cách nhanh chóng, thay vì phải chờ đợi phản hồi từ cộng đồng. Hệ thống chatbot được xây dựng chuyên sâu trong lĩnh vực CNTT, vì vậy có khả năng đưa ra các câu trả lời chính xác hơn, hỗ trợ người dùng nâng cao kiến thức một cách hiệu quả.

Điểm nổi bật của chatbot là ứng dụng các công nghệ hiện đại như học máy (machine learning), chuyển đổi văn bản thành giọng nói và ngược lại. Nhờ đó, người dùng có thể tương tác với chatbot bằng cả văn bản và âm thanh, nâng cao trải nghiệm học tập và sử dụng. Đây là một bước cải tiến đáng kể nhằm hỗ trợ người học và người làm trong lĩnh vực công nghệ thông tin tiếp cận tri thức nhanh chóng, hiệu quả và thân thiện hơn.

Mục tiêu nghiên cứu

  • Xây dựng và triển khai chatbot bằng mô hình BERT trả lời tự động bằng tiếng Anh.
  • Xây dựng bộ dữ liệu bằng song ngữ ( tiếng Anh và tiếng Việt) phù hợp các thuật ngữ chuyên ngành và mô hình XLM-RoBERTa trong việc huấn luyện mô hình chatbot tư vấn bằng tiếng Việt.
  • Tích hợp và cải tiến phương pháp tìm kiếm hiện đại như giọng nói.
  • Xây dựng forum tích hợp với chatbot.
  • Công nghệ Speech-to-Text

Phạm vi nghiên cứu

Nội dung 1: Mô hình BERT

  • Trong phạm vi của khóa luận này là phát triển một hệ thống chatbot nhận diện câu hỏi của người dùng trong câu hỏi dựa trên mô hình biểu
    diễn mã hóa hai chiều. cụ thể là mô hình BERT đã huấn luyện trước

Nội dung 2: Mô hình XLM-RoBERTa cho song ngữ.

  • Vì có rất nhiều thuật ngữ chuyên ngành bằng tiếng Anh trong lĩnh vực công nghệ thông tin, nên khi dịch sang tiếng Việt thì sẽ khiến cho người dùng hiểu sai ý câu trả lời, vì vậy, để cho người dung tiếp thu kiến thức hiệu quả nhất thì mô hình XLM-RoBERTa là một lựa chọn phù hợp. Đây là một mô hình ngôn ngữ đa ngữ (multilingual language model) được phát triển bởi Facebook AI (Meta AI) vào năm 2019–2020.

Đối tượng nghiên cứu

Machine Learning (Học máy), Deep Learning (Học sâu), (NLP),Transformer, BERT, XLM-RoBERTa, Sentence-BERT, FAISS, BART / BARTpho,
Whisper, Langdetect TypeScript, Angular, NestJS, PostgreSQL, Docker, WSL, DigitalOcean

PHÂN TÍCH CHỨC NĂNG CỦA WEBSITE DIỄN ĐÀN

image 6
image 7
image 8

MÔ HÌNH ĐỀ XUẤT

Sơ đồ trực quan về mô hình được sử dụng trong chatbot

image 9

Giải thích:

Luồng xử lý của hệ thống bắt đầu khi người dùng nhập câu hỏi bằng văn bản hoặc giọng nói. Nếu là giọng nói, hệ thống sẽ sử dụng Whisper để chuyển sang văn bản. Sau đó, hệ thống tiến hành nhận diện ngôn ngữ đầu vào và phân loại sang tiếng Việt hoặc tiếng Anh. Dựa trên ngôn ngữ, câu hỏi sẽ được đưa vào truy xuất ngữ nghĩa bằng Sentence-BERT kết hợp FAISS để tìm câu hỏi gần nhất trong tập dữ liệu. Từ đó, đoạn văn bản liên quan sẽ được sử dụng làm ngữ cảnh cho mô hình trả lời câu hỏi (QA). Câu trả lời đầu ra sẽ được diễn đạt lại (paraphrasing) nếu không chứa mã nguồn, nhằm tăng tính tự nhiên. Cuối cùng, câu trả lời được gửi về giao diện người dùng.

Tổng kết lại trong đề tài khóa luận này, chúng ta cần thực hiện 5 mô hình:

  • Whisper – Chuyển giọng nói thành văn bản.
  • Sentence-BERT – Truy xuất câu hỏi tương tự.
  • XLM-R QA – Trả lời câu hỏi có chứa tiếng Việt.
  • BERT QA – Trả lời câu hỏi có chứa tiếng Anh .
  • BART + BartPho – Diễn đạt lại câu trả lời theo ngôn ngữ.

Mô hình Whisper cho tác vụ chuyển giọng nói thành văn bản

Whisper là mô hình mã nguồn mở do OpenAI phát triển, nổi bật với khả năng nhận dạng giọng nói tiếng Việt và tiếng Anh một cách chính xác, giúp hệ thống xử lý hiệu quả cả hai loại ngôn ngữ

Mô hình Sentence-BERT truy xuất câu hỏi tương tự (retrieval)

Mô hình Sentence-BERT, cụ thể là biến thể all-mpnet-base-v2, được áp dụng để mã hóa câu hỏi thành vector ngữ nghĩa. Sau đó, các vector này được so sánh bằng công cụ FAISS để truy xuất câu hỏi có ngữ nghĩa gần nhất. Việc sử dụng Sentence-BERT giúp nâng cao độ chính xác khi tìm kiếm câu hỏi tương tự trong hệ thống hỏi đáp.

Mô hình QA trích xuất câu trả lời từ văn bản

Tùy vào ngôn ngữ và độ dài của đoạn văn bản, hệ thống sử dụng các mô hình khác nhau:

Với câu hỏi chứa tiếng việt: sử dụng mô hình XLMRoberta

Với câu hỏi chứa tiếng Anh, context ngắn: sử dụng mô hình BERT

Mô hình Paraphrasing để diễn đạt lại câu trả lời

Hệ thống sử dụng hai mô hình paraphrase tương ứng với hai ngôn ngữ:

Tiếng Anh: sử dụng mô hình facebook/bart-large.

Tiếng Việt: sử dụng mô hình vinai/bartpho-word.

Mỗi mô hình trên đều được huấn luyện để tạo ra các câu có cùng ý nghĩa với đầu vào nhưng diễn đạt theo cách khác, giúp chatbot giao tiếp linh hoạt và tự nhiên hơn.

Kết luận

Qua quá trình thực hiện đề tài và đánh giá kết quả cuối cùng, em đã thống kê được những ưu điểm và hạn chế của hệ thống chatbot trong website diễn đàn công nghệ thông tin:

  • 1. Ưu điểm
  • Trang web có những tính năng cơ bản của một trang website diễn đàn công nghệ
  • Chatbot có những tính năng nhằm nâng cao trải nghiệm người dùng. Với khả năng hỗ trợ giải đáp những thắc mắc, hỗ trợ học ngành công nghệ thông tin hiệu quả, cả tiếng Anh lẫn tiếng Việt với độ chính xác khá cao.
  • Trải nghiệm tương tác với chatbot có độ mượt mà, do có quy định về luồng xử lý dữ liệu và mô hình cùng với hệ thống quản lý thông tin cuộc hội thoại.

2. Hạn chế

  • Tuy nhiên hệ thống chatbot vẫn còn nhiều hạn chế như là bộ dữ liệu chưa thật sự đa dạng và bao quát mọi vấn đề có thể xảy ra .
  • Khả năng xử lý ngữ cảnh của chatbot chưa thật sự liền mạch và chưa có khả năng chủ động cao.

Hướng phát triển

Đề tài này của chúng tôi còn rất nhiều tiềm năng để khai thác trong tương lai như:

  • Tối ưu hoá các ưu điểm như nâng cao khả năng hiểu ngữ cảnh và tự học hỏi từ mỗi cuộc trò chuyện để cải thiện phản hồi của chatbot
  • Khắc phục các hạn chế như xây dựng bộ dữ liệu đa dạng,
  • Tích hợp thêm đa ngôn ngữ cho chatbot.
  • Nâng cao khả năng xử lý và hiểu ngữ cảnh trong một đoạn hội thoại dài