Tổng quan đồ án
Việc đếm số lượng người luôn là một vấn đề quan trọng và thách thức cho việc giám sát trực quan nhằm đo lường lưu lượng, theo dõi mật độ, và phân tích hành vi. Áp dụng các phương pháp đếm người hiệu quả, đặc biệt là trong môi trường kém thuận lợi do thiếu ánh sáng, sẽ mang lại nhiều lợi ích cho các tổ chức và doanh nghiệp, góp phần nâng cao hiệu suất hoạt động và tối ưu hóa chi phí.
Các giải pháp đếm người hiện nay chủ yếu dựa vào Thị giác máy tính (Computer Vision). Với sự phát triển của các mô hình Học sâu (Deep learning), độ chính xác trong phát hiện cá thể người đã được cải thiện. Tuy nhiên, công nghệ này phụ thuộc trực tiếp vào chất lượng hình ảnh đầu vào. Từ đó, yếu tố ánh sáng trong môi trường rất cần được chú trọng do ảnh hưởng lớn đến hình ảnh thu được của thiết bị ghi hình. Có một hướng giải quyết mới mẻ và đầy tiềm năng đang được phát triển, đó là sử dụng tín hiệu WiFi. Trái ngược với thị giác máy tính phụ thuộc vào ánh sáng để nhận diện hình ảnh, sóng WiFi hoạt động hoàn toàn độc lập với điều kiện ánh sáng. Do đó, phương pháp này có thể hoạt động hiệu quả trong môi trường tối hoàn toàn, nơi mà thị giác máy tính gặp nhiều hạn chế hoặc thậm chí không thể hoạt động. Một cách tiếp cận phổ biến trong phương pháp sử dụng sóng WiFi là trích xuất dữ liệu thông tin trạng thái kênh truyền (Channel State Information – CSI) trong tín hiệu WiFi thu được và đào tạo các mô hình học máy dựa trên đó. Dù vậy, việc chỉ sử dụng tín hiệu WiFi vẫn có hạn chế nhất định do chịu ảnh hưởng nhiều từ các yếu tố trong môi trường gây nhiễu tín hiệu. Theo đó, một giải pháp được đề xuất đó là sử dụng cả hai công nghệ Thị giác máy tính với công nghệ WiFi nhằm đào tạo mô hình máy học đa thể thức tận dụng được ưu điểm của cả hai. Giải pháp này được thực hiện bằng cách đồng bộ các điểm dữ liệu thu được từ tín hiệu WiFi, cùng với dữ hiệu hình ảnh thu được từ Camera để tạo ra bộ dữ liệu về mật độ cá thể được đặc tả bởi hai loại dữ liệu này. Với mong muốn được tìm hiểu sâu hơn hướng tiếp cận kết hợp nêu trên nhằm kiêm tra hiệu quả trong việc đếm người, nhóm chúng em chọn đó làm đề tài đồ án chuyên ngành của mình.
Nghiên cứu này nhằm mục đích giải quyết bài toán đếm người trong điều kiện thiếu sáng bằng sự kết hợp thị giác máy tính và tín hiệu WiFi. Hệ thống được triển khai trên máy tính nhúng Nvidia Jetson Nano nhằm giúp cho hiệu suất tính toán được tốt nhất. Để đạt được mục tiêu ấy, nhóm đã sử dụng đến các thiết bị nhúng như ESP32 và camera IMX-219 để thu thập dữ liệu đầu vào. Tận dụng những loại tài nguyên sẵn có, nhóm thu thập các tập dữ liệu trong hai điều kiện ánh sáng đủ và ánh sáng yếu. Bộ dữ liệu nhóm thu thập được sẽ được dùng cho mục đính chính đó là học tập và nghiên cứu sau này.
Mục đích thực hiện đề tài
Trong quá trình nghiên cứu và thực hiện đề tài, nhóm chúng em hướng đến hoàn thiện các mục tiêu như sau:
- Xây dựng framework thu thập dữ liệu hiệu quả và dễ sử dụng thông qua vi điều khiển ESP32.
- Phát triển một tập dữ liệu đa thể thức có giá trị cao cho bài toán đếm số lượng người trong môi trường thiếu sáng.
- Đánh giá hiệu quả của phương pháp tiếp cận kết hợp giữa thị giác máy tính và dữ liệu CSI từ sóng WiFi trong việc đếm số lượng người trong môi trường thiếu sáng.
- Triển khai giải pháp sử dụng mô hình học máy và máy tính Jetson Nano
Đối tượng nghiên cứu
- Thiết bị thu phát sóng: ESP32 Wroom 32.
- Máy tính nhúng: Jetson Nano.
- Thư viện xây dựng mô hình học sâu: TensorFlow – Keras.
- Các chuẩn cấu trúc mô hình học sâu: TensorFlow SavedModel, ONNX, TensorRT.
- Công cụ thu thập dữ liệu: ESP32-CSI Tool và GStreamer.
- Nền tảng xử lý dữ liệu và huấn luyện mô hình: Google Colab.
Phạm vi nghiên cứu
Nhằm tạo điều kiện thuận lợi cho quá trình nghiên cứu và bố trí thiết bị, phạm vi nghiên cứu của đồ án tập trung vào:
- Thu thập dữ liệu trong phòng học nhóm tại thư viện của trường.
- Triển khai và đánh giá mô hình dựa trên tập dữ liêu thu được.
Cơ sở lý thuyết
Machine learning
Máy học (Machine learning) là môn khoa học nhằm phát triển những thuật toán và mô hình thống kê mà các hệ thống máy tính sử dụng để thực hiện các tác vụ dựa vào khuôn mẫu và suy luận mà không cần hướng dẫn cụ thể. Các hệ thống máy tính sử dụng thuật toán máy học để xử lý khối lượng lớn dữ liệu trong quá khứ và xác định các khuôn mẫu dữ liệu. Việc này cho phép chúng dự đoán kết quả chính xác hơn từ cùng một tập dữ liệu đầu vào cho trước. Ví dụ: các nhà khoa học dữ liệu có thể đào tạo một ứng dụng y tế chẩn đoán ung thư từ ảnh chụp X-quang bằng cách lưu trữ hàng triệu ảnh quét và chẩn đoán tương ứng.
Thị giác máy tính
Thị giác máy tính (Computer vision) là một lĩnh vực của trí tuệ nhân tạo, sử dụng máy học (Machine learning) và mạng nơ-ron nhân tạo (Neuron network) để dạy cho máy tính cách để trích xuất thông tin từ hình ảnh, video hoặc các công cụ trực quan khác, sau đó đưa ra các khuyến nghị hoặc can thiệp khi nhận thấy sự bất thường dựa trên dữ liệu học được.
Cảm biến WiFi
Channel State Information (CSI) – Thông tin trạng thái kênh truyền là một tập hợp các dữ liệu mô tả đặc điểm của kênh truyền trong hệ thống truyền thông không dây. Kênh truyền là môi trường truyền dẫn sóng điện từ giữa máy phát và máy thu. CSI cung cấp thông tin về các yếu tố ảnh hưởng đến chất lượng tín hiệu truyền đi, chẳng hạn như:
- Độ suy hao: Mức độ tín hiệu bị suy yếu khi truyền qua môi trường.
- Độ trễ: Thời gian cần thiết để tín hiệu truyền từ máy phát đến máy thu.
- Sự nhiễu: Các tín hiệu không mong muốn ảnh hưởng đến chất lượng tín hiệu truyền đi.
- Sự phản xạ: Tín hiệu bị phản xạ bởi các vật cản trong môi trường truyền dẫn.
- Sự nhiễu xạ đa đường: Tín hiệu truyền đến máy thu theo nhiều đường truyền khác nhau.
Cảm biến con người dựa trên WiFi hoạt động thông qua việc nắm bắt những thay đổi nhỏ trong dữ liệu CSI do chuyển động của con người gây ra, từ đó nó có thể trích xuất thông tin có ý nghĩa được sử dụng để đưa ra dự đoán. Ý tưởng chính là tận dụng các biến thể của tín hiệu không dây được lan truyền trong điều kiện mờ dần đa đường – multi-path fading. Công nghệ này được hưởng lợi từ sự phổ biến của WiFi, làm cho nó trở thành một giải pháp dễ tiếp cận cho các ứng dụng khác nhau. Tuy nhiên, việc thu thập dữ liệu CSI trong tín hiệu WiFi có thể tốn nhiều công sức do quy trình hiệu chuẩn phức tạp, thời gian thu thập dữ liệu kéo dài và tác vụ gán nhãn dữ liệu thủ công. Do đó, số lượng các bộ dữ liệu CSI công khai còn hạn chế, điều này gây khó khăn cho việc tiến hành nghiên cứu trong lĩnh vực này.
Hệ thống đề xuất

Luồng xử lý CSI
Dữ liệu CSI được thu thập từ vi điều khiển ESP32 và gửi tới Jetson Nano thông qua kết nối serial. Sau đó, thực hiện các bước tiền xử lý bao gồm loại bỏ dữ liệu rỗng, trích xuất biên độ và áp dụng kỹ thuật khử nhiễu.
Dự đoán CSI: Mô hình hồi quy được sử dụng để dự đoán số lượng người từ dữ liệu CSI đã qua xử lý. Mô hình sẽ được huấn luyện bằng dữ liệu CSI thu thập được từ môi trường thực.
Luồng xử lý hình ảnh
Tiền xử lý: Dữ liệu hình ảnh được thu thập từ camera và tiền xử lý bằng các kỹ thuật như điều chỉnh kích thước, chuẩn hóa và khử nhiễu. Phát hiện đối tượng: Mô hình thị giác máy tính được sử dụng để phát hiện các đối tượng trong hình ảnh nhằm xuất ra số lượng người.
Đối chiếu kết quả
Độ tin cậy của kết quả phát hiện đối tượng từ mô hình thị giác máy tính và độ chính xác của giá trị CSI dự đoán từ mô hình hồi quy được so sánh. Dựa trên so sánh, hệ thống đưa ra dự đoán cuối cùng về số lượng người trong môi trường ở thời điểm hiện tại.



Đánh giá kết quả
So sánh các mô hình hồi quy
Thời gian huấn luyện trung bình cho các mô hình máy học tương đối thấp lần lượt là 13.2s, 26.8s và 2 phút 40 giây tương ứng với LRR, LGBMR và RFR. Ngược lại, với mô hình học sâu DNNR, thời gian huấn luyện mất tới hơn 20 phút 15 giây sau khi được ngừng lại bởi early stopping ở epoch thứ 122.
Như đã đề cập ở Chương 2, mục 2.5, các mô hình sử dụng cho việc huấn luyện bằng dữ liệu CSI đều là mô hình hồi quy. Do đó, các chỉ số mà nhóm sử dụng để đánh giá hiệu suất của các mô hình này là MSE và Mean Absoltute Error (MAE). MSE đo lường độ chính xác của mô hình bằng cách tính trung bình bình phương sai số giữa giá trị thực tế và giá trị dự đoán. Chỉ số này nhấn mạnh các sai số lớn, nghĩa là nếu mô hình mắc phải sai số lớn ở một vài điểm dữ liệu, MSE sẽ tăng đáng kể. Trong khi đó, MAE đo lường độ chính xác của mô hình bằng cách tính trung bình tổng các sai số tuyệt đối giữa giá trị thực tế và giá trị dự đoán. Chỉ số này mang lại một con số trực quan hơn về độ chính xác trung bình của dự đoán và ít bị ảnh hưởng bởi các ngoại lệ, vì nó sử dụng đơn vị giống như dữ liệu gốc.
Hình 3.1 là hai biểu đồ chỉ số MSE và MAE khi được đánh giá trên tập huấn luyện và tập xác nhận của mô hình DNNR. Trục hoành đại diện cho số epoch còn trục tung là giá trị của chỉ số đánh giá. Trong biểu đồ 3.1a, đường cong MAE huấn luyện có xu hướng giảm dần theo số epoch. Điều này cho thấy mô hình đang học hỏi hiệu quả và giảm thiểu lỗi trong quá trình huấn luyện. Đường cong MAE xác nhận cũng có xu hướng giảm dần theo số epoch. Xu hướng tương tự được nhận thấy cho chỉ số MSE ở biểu đồ 3.1b. Điều này cho thấy mô hình không chỉ học hỏi hiệu quả trên dữ liệu huấn luyện mà còn có khả năng tổng quát hóa tốt cho dữ liệu chưa nhìn thấy.



Kết luận
Kết quả thử nghiệm cho thấy cường độ ánh sáng của môi trường có tác động trực tiếp đến hiệu quả của mô hình thị giác máy tính. Tuy nhiên, yếu tố này không gây ảnh hưởng đến hiệu quả của mô hình sử dụng tín hiệu WiFi. Từ đó có thể cho thấy được việc kết hợp thị giác máy tính và tín hiệu WiFi sẽ khắc phục nhược điểm của chúng và làm tăng hiệu quả của mô hình đa thể thức. Trong tương lai gần, nhóm nghiên cứu sẽ tiếp tục hoàn thiện các chỉ tiêu chưa đạt được, tiến hành các thí nghiệm bổ sung nhằm củng cố và mở rộng kết quả hiện tại.


