Kết hợp tín hiệu wife và thị giác máy tính trong bài toán đếm người trong điều kiện thiếu sáng

COMBINED WIFI SIGNAL AND COMPUTER VISION FOR PEOPLE COUNTING IN DARK ENVIRONMENT

Trong đề tài này, nhóm chúng em đã trình bày một hệ thống đếm người kết hợp hiệu quả hai phương pháp: thị giác máy tính và cảm biến WiFi. Bằng cách tận dụng ưu điểm của mỗi phương pháp – độ chính xác cao của thị giác máy tính trong điều kiện lý tưởng và khả năng hoạt động trong môi trường thiếu sáng của WiFi – hệ thống đề xuất đã cho thấy tiềm năng to lớn trong việc giải quyết bài toán đếm người trong điều kiện bất lợi.

Xem toàn văn báo cáo tại:

TÁC GIẢ

Tống Võ Anh Thuận, Lê Huỳnh Quang Vũ

GIẢNG VIÊN HƯỚNG DẪN

NGÀNH

Năm:

Tổng quan

Trong lĩnh vực giám sát và phân tích đám đông, việc đếm người bằng mô hình máy học là một ứng dụng quan trọng, góp phần nâng cao hiệu quả quản lý không gian công cộng, giám sát an ninh và tối ưu hóa nguồn lực. Phương pháp đếm người dựa trên thị giác máy tính, sử dụng camera và các thuật toán học sâu như YOLO, đã chứng minh được tính hiệu quả nhờ khả năng nhận diện và đếm người trực tiếp từ hình ảnh. Tuy nhiên, độ chính xác của phương pháp này bị ảnh hưởng đáng kể trong môi trường thiếu sáng hoặc điều kiện quan sát bị hạn chế. Để khắc phục nhược điểm này, các phương pháp sử dụng dữ liệu CSI trong tín hiệu WiFi đã được nghiên cứu và phát triển. Khác với thị giác máy tính, phương pháp WiFi-CSI có thể hoạt động ổn định trong nhiều điều kiện ánh sáng khác nhau và mang lại tính khả thi cao trong các môi trường phức tạp.

Khóa luận này tập trung vào việc phát triển một hệ thống đếm người kết hợp giữa hai phương pháp: thị giác máy tính và cảm biến WiFi. Bằng cách tận dụng ưu điểm của từng phương pháp, hệ thống hướng tới sự linh hoạt và độ chính xác cao, đặc biệt trong các điều kiện ánh sáng không thuận lợi. Dữ liệu CSI được thu thập thông qua vi điều khiển ESP32, trong khi dữ liệu hình ảnh được ghi nhận từ camera. Hai luồng dữ liệu này được tiền xử lý riêng biệt trước khi đưa vào các mô hình học sâu: YOLO cho hình ảnh và DNNR cho dữ liệu CSI.

Sau khi hoàn thiện các bước xử lý và huấn luyện, hệ thống được triển khai trên nền tảng Jetson Nano, cho phép vận hành thời gian thực và giảm thiểu độ trễ. Kết quả đánh giá cho thấy phương pháp kết hợp mang lại độ chính xác vượt trội so với việc sử dụng riêng lẻ từng phương pháp. Đặc biệt, sự kết hợp này thể hiện rõ hiệu quả trong điều kiện thiếu sáng, khi mô hình thị giác máy tính gặp hạn chế nhưng dữ liệu từ cảm biến WiFi vẫn duy trì được độ tin cậy, giúp cải thiện đáng kể khả năng đếm người của hệ thống.

Mục tiêu và phạm vi nghiên cứu

  1. Phát triển hệ thống đếm người kết hợp thị giác máy tính và cảm biến WiFi: Tích hợp các phương pháp xử lý hình ảnh từ thị giác máy tính và phân tích tín hiệu WiFi để xây dựng một hệ thống đếm người hiệu quả, hoạt động tốt trong điều kiện môi trường khác nhau.
  2. Triển khai hệ thống trên máy tính nhúng Jetson Nano: Tăng tính thực tế của nghiên cứu thay vì sử dụng máy tính thông thường và kích thước nhỏ gọn của Jetson Nano giúp dễ dàng bố trí thiết bị trong môi trường hơn.
  3. So sánh hiệu năng giữa các phương pháp riêng lẻ và phương pháp kết hợp: Xây dựng một cơ sở dữ liệu gồm hình ảnh/video và dữ liệu WiFi phục vụ cho việc huấn luyện và kiểm thử hệ thống, đồng thời tạo tài liệu chi tiết để hỗ trợ nghiên cứu tiếp theo.
  4. Tạo tập dữ liệu đa thể thức và tài liệu tham khảo: Xây dựng một tập dữ liệu gồm hình ảnh và dữ liệu WiFi CSI phục vụ cho việc huấn luyện và kiểm thử hệ thống, đồng thời tạo tài liệu chi tiết để hỗ trợ nghiên cứu tiếp theo.

Nhằm tạo điều kiện thuận lợi cho quá trình nghiên cứu và bố trí thiết bị, phạm vi nghiên cứu của đồ án tập trung vào:

  • Thu thập dữ liệu và thử nghiệm hệ thống trong phòng học nhóm tại thư viện của trường, với điều kiện ánh sáng khác nhau.
  • Hệ thống được kiểm tra trên các bộ dữ liệu hình ảnh/video thu thập được từ camera và dữ liệu tín hiệu CSI từ thiết bị ESP32.
  • Phạm vi không bao gồm việc triển khai trên diện rộng hoặc xử lý dữ liệu trong môi trường phức tạp như đám đông lớn hoặc không gian rộng mở.

Phương pháp đề xuất

Mặc dù các phương pháp dựa trên CSI đã đạt được những tiến bộ đáng kể trong bài toán đếm người, nhưng những hạn chế về khả năng chống nhiễu, tính tổng quát hóa và khả năng khai thác thông tin không gian vẫn còn tồn tại. Bên cạnh đó, các phương pháp dựa trên thị giác máy tính, mặc dù đã có những bước phát triển mạnh mẽ, vẫn gặp nhiều khó khăn trong điều kiện ánh sáng yếu hoặc hoàn toàn tối. Với mục tiêu cải thiện hiệu quả đếm người trong điều kiện thiếu sáng, nhóm chúng em đề xuất sử dụng kết hợp dữ liệu từ hai nguồn: dữ liệu CSI trong tín hiệu WiFi và dữ liệu hình ảnh từ camera. Phương pháp này tận dụng ưu điểm của mỗi loại dữ liệu: tín hiệu CSI không bị ảnh hưởng bởi điều kiện ánh sáng và hình ảnh từ camera cung cấp thông tin trực quan chính xác về không gian. Việc xử lý và đưa ra dự đoán cho 2 nguồn dữ liệu sẽ được thực hiện song song trên một thiết bị để đảm bảo tính nhất quán về mặt thời gian.

image 60
Hình 4.1: Sơ đồ hệ thống đếm người sử dụng kết hợp CSI và hình ảnh

Luồng hoạt động của hệ thống đề xuất được thể hiện trong hình 4.1. Các bước diễn ra cụ thể như sau:

1.Thu thập dữ liệu:

  • ESP32 Wroom-32 được sử dụng để thu thập dữ liệu CSI từ tín hiệu WiFi.
  • Camera thu thập các khung hình từ môi trường giám sát.

2.Dữ liệu CSI từ ESP32 và hình ảnh từ camera được chuyển tiếp vào Jetson Nano để tiến hành tiền xử lý (preprocessing).

3.Xử lý dữ liệu:

  • Dữ liệu hình ảnh: tạo dataset tối, gán nhãn dữ liệu, tiền xử lý dữ liệu như trong document chính thức về model YOLO của untralytics.
  • Dữ liệu CSI: trích xuất biên độ, loại bỏ nhiễu, chuẩn hóa dữ liệu, và trích xuất đặc trưng. Ở bước trích xuất đặc trưng, nhóm em thực hiện tương tự như trong “Wi-Cal” của Hyuckjin Choi et al.

4.Áp dụng mô hình học máy:

  • Dữ liệu CSI được đưa vào mô hình hồi quy để dự đoán số lượng người dựa trên tín hiệu WiFi.
  • Hình ảnh sau khi tiền xử lý được đưa vào mô hình thị giác máy tính để nhận diện và đếm người trong khung hình.

5.Kết hợp dự đoán:

  • Kết quả từ cả hai mô hình (mô hình hồi quy với CSI và mô hình thị giác máy tính) được tổng hợp để đưa ra dự đoán chính xác hơn.
  • Phương pháp kết hợp sử dụng trọng số tùy theo điều kiện ánh sáng ở thời điểm đó.

6.Sau khi tổng hợp dự đoán từ hai nguồn dữ liệu, hệ thống xuất ra kết quả cuối cùng về số lượng người trong phạm vi giám sát.

Đối với dữ liệu hình ảnh, chúng em sử dụng phương pháp Biến đổi Gamma (Gamma correction) cho tập dữ liệu thô. Biến đổi Gamma là một phương pháp được sử dụng để điều chỉnh độ sáng của hình ảnh bằng cách áp dụng một hàm phi tuyến tính. Phương pháp này giúp bù đắp cho cách mà mắt người cảm nhận ánh sáng không tuyến tính; mắt chúng ta nhạy cảm hơn với các vùng tối.

image 61
Hình 5.5: Phương pháp Gamma correction

Kết luận

Trong đề tài này, nhóm chúng em đã trình bày một hệ thống đếm người kết hợp hiệu quả hai phương pháp: thị giác máy tính và cảm biến WiFi. Bằng cách tận dụng ưu điểm của mỗi phương pháp – độ chính xác cao của thị giác máy tính trong điều kiện lý tưởng và khả năng hoạt động trong môi trường thiếu sáng của WiFi – hệ thống đề xuất đã cho thấy tiềm năng to lớn trong việc giải quyết bài toán đếm người trong điều kiện bất lợi. Quá trình huấn luyện mô hình trên tập dữ liệu nhóm tự thu thập cho ra kết quả tích cực – mô hình YOLO có chỉ số AP là 0.978 và mô hình DNNR-CSI có chỉ số MAE là 0.224. Quan trọng hơn hết, kết quả khi thử nghiệm thực tế cho thấy hệ thống có khả năng đạt độ chính xác chấp nhận được trong môi trường có mật độ người nhỏ – 71.7% trong điều kiện thường và 66.7% khi thiếu sáng.

Hệ thống đếm người kết hợp đã được triển khai thành công trên nền tảng Jetson Nano, mở ra khả năng triển khai tại biên, giảm độ trễ và tiết kiệm băng thông. Mặc dù vậy, quá trình thử nghiệm cho thấy hệ thống đang sử dụng gần như toàn bộ tài nguyên CPU (99%) và thời gian suy luận khá chậm, khoảng 6 giây cho mỗi lần xử lý. Điều này cho thấy hệ thống hiện tại chưa tối ưu về hiệu suất và cần được cải thiện để đáp ứng yêu cầu về thời gian thực trong các ứng dụng thực tế.

Bên cạnh đó, hiệu suất của hệ thống còn bị ảnh hưởng bởi các yếu tố quan trọng như sự hạn chế trong khả năng khái quát hóa của mô hình DNNR-CSI đối với dữ liệu mới và việc mô hình YOLO gặp phải vấn đề khi các đối tượng trong tầm nhìn bị che khuất một phần hoặc hoàn toàn.