Xây dựng hệ thống nhận diện khuôn mặt và nhận diện cảm xúc dùng để đánh giá và điểm danh trong môi trường lớp học

Building a facial recognition and emotion recognition system used for attendance and assessment in the classroom environment.

Nhận diện cảm xúc của con người đóng một vai trò quan trọng trong các hệ thống tương tác người máy. Có nhiều phương thức có thể dùng để nhận dạng cảm xúc của một con người, từ giọng nói, biểu cảm, đến cử chỉ, hay thậm chí là chỉ số điện não đồ (Electroencephalography). Nhìn vào con mắt khoa học, bằng việc phân tích cảm xúc của một người, chúng ta sẽ có thêm một yếu tố để phân tích và thấu hiểu con người. Do vậy mà nó có những tác động và ứng dụng rất lớn trong đời sống cũng như trong nghiên cứu của các lĩnh vực khác nhau

Đối với mục tiêu đề tài, Đồ án này tập trung vào xây dựng một hệ thống nhận diện khuôn mặt phục vụ cho trong môi trường giáo dục, nhằm cải thiện được thái độ học tập của học sinh, sinh viên cũng như phần nào nắm bắt được chất lượng, thái độ giảng dạy của giảng viên/giáo viên ảnh hưởng tới học sinh/sinh viên như thế nào.

TÁC GIẢ

Lê Trung Kiên

GIẢNG VIÊN HƯỚNG DẪN

NGÀNH

Năm:

Tổng quan

Nhận diện cảm xúc của con người đóng một vai trò quan trọng trong các hệ thống tương tác người máy. Có nhiều phương thức có thể dùng để nhận dạng cảm xúc của một con người, từ giọng nói, biểu cảm, đến cử chỉ, hay thậm chí là chỉ số điện não đồ (Electroencephalography). Nhìn vào con mắt khoa học, bằng việc phân tích cảm xúc của một người, chúng ta sẽ có thêm một yếu tố để phân tích và thấu hiểu con người. Do vậy mà nó có những tác động và ứng dụng rất lớn trong đời sống cũng như trong nghiên cứu của các lĩnh vực khác nhau

Về lối tiếp cận, cùng với sự phát triển mạnh mẽ và những thành tựu to lớn đạt được của kiến trúc mạng nơ-ron học sâu và các mô hình liên quan gần đây, tôi sẽ tập trung triển khai mô hình với các phương pháp học sâu hiện đại.

Về mặt dữ liệu, các cơ sở dữ liệu biểu cảm khuôn mặt công khai có sự khác nhau nhiều mặt bao gồm: môi trường thu thập, định dạng đầu vào (một hoặc nhiều ảnh liên tục – chuỗi ảnh), phân phối của biểu cảm, số lượng lẫn chất lượng của hình ảnh cũng như nhãn cho từng mẫu huấn luyện. Trong phạm vi đề tài này, tôi ràng buộc dữ liệu đầu vào của mô hình là dữ liệu thực tế phức tạp. Bộ dữ liệu tôi sử dụng sẽ được đặc tả ở phần sau.

Đối tượng nghiên cứu

Đồ án này tập trung vào xây dựng một hệ thống nhận diện khuôn mặt phục vụ cho trong môi trường giáo dục, nhằm cải thiện được thái độ học tập của học sinh, sinh viên cũng như phần nào nắm bắt được chất lượng, thái độ giảng dạy của giảng viên/giáo viên ảnh hưởng tới học sinh/sinh viên như thế nào.

Tổng quan mô hình

VGG16 được coi là một bước tiến của mô hình AlexNet nhờ việc thay thế các bộ lọc lớn (11 và 5) bằng nhiều bộ lọc kích thước 3×3. Việc sử dụng bộ lọc 3×3 cho phép thu thập các đặc trưng về hướng và vị trí một cách hiệu quả. Mô hình cũng sử dụng bộ lọc tích chập 1×1 để thực hiện các phép biến đổi tuyến tính giữa các kênh đầu vào. Quá trình tổng hợp không gian được thực hiện thông qua 5 lớp tổng hợp tối đa, theo sau là các lớp tích chập (mỗi lớp tích chập không được theo sau bởi tổng hợp tối đa). Sự kết hợp này được duy trì nhất quán trong toàn bộ kiến trúc. Ở phần cuối, VGG16 có 2 lớp kết nối đầy đủ, tiếp theo là lớp softmax để tạo ra đầu ra. Con số 16 trong VGG16 chỉ ra rằng mô hình có 16 lớp với trọng số. Học chuyển tiếp là một phương pháp quan trọng trong mô hình này, cho phép mượn kiến thức từ các nhiệm vụ đã học trước đó để cải thiện hiệu suất trên nhiệm vụ mới. Điều này rất hữu ích trong việc nhận diện khuôn mặt, đặc biệt khi dữ liệu huấn luyện cho nhiệm vụ cụ thể là hạn chế.

image 37
image 38

Độ Chính Xác Cao ở ‘Happy’ và ‘Neutral’:

Mô hình hoạt động rất tốt trong việc nhận diện cảm xúc ‘Happy’ và ‘Neutral’, với lần lượt 1259 và 696 dự đoán đúng.

Nhầm Lẫn Giữa Các Cảm Xúc Tương Tự:

  • Có sự nhầm lẫn đáng kể giữa ‘Fear’ và ‘Sad’, ‘Angry’ và ‘Sad’, và ‘Fear’ và ‘Surprise’. Những nhầm lẫn này có thể do các đặc điểm khuôn mặt tương tự nhau của các cảm xúc này.
  • Có thể cải thiện bằng cách tinh chỉnh mô hình hoặc sử dụng các kỹ thuật xử lý dữ liệu bổ sung để phân biệt tốt hơn các cảm xúc tương tự này.

Cải Thiện Việc Phát Hiện ‘Disgust’:

  • Mô hình gặp khó khăn trong việc nhận diện ‘Disgust’, chỉ có 49 dự đoán đúng. Điều này có thể cho thấy rằng các biểu hiện ‘Disgust’ hoặc không được đại diện đủ trong dữ liệu huấn luyện hoặc không được nhận dạng tốt bởi tập hợp đặc trưng hiện tại.
  • Xem xét bổ sung thêm các hình ảnh ‘Disgust’ vào tập dữ liệu hoặc sử dụng các kỹ thuật như oversampling hoặc augmentation để cân bằng tập dữ liệu.
Screenshot 2025 07 06 235902

Kết luận

Qua Đồ án tôi đã thực hiện được một mô hình nhận dạng cảm xúc với tập dữ liệu FER2013 , đạt được mục tiêu đề ra là xây dựng mô hình nhận diện cảm xúc phục vụ cho việc đánh giá trạng thái học tập của học sinh, sinh viên. Tổng quan tôi đã ứng dụng kiến thức về mạng học sâu một cách hiệu quả để giải quyết bài toán nhận dạng cảm xúc khuôn mặt trong mô trường thực tế