Thuật toán phân đoạn tín hiệu không giây cho bài toán nhận diện đồng thời hành động và vị trí

Automatic Wireless Signal Segmentation Algorithm For Joint Activity Recognition and Localization

Có một số nghiên cứu thú vị về khả năng kết hợp nhận diện hoạt động và xác định vị trí của con người đồng thời bằng tín hiệu WiFi. Những nghiên cứu này đã thành công chứng minh rằng có thể dự đoán các đặc điểm của hoạt động và vị trí trong cùng các mẫu CSI. Tuy nhiên, có một số hạn chế. Trong nghiên cứu, do tập dữ liệu không được công khai, việc tiến hành nghiên cứu bổ sung về chủ đề này được coi là khó khăn. Nghiên cứu đã công khai tập dữ liệu với 1394 mẫu CSI trong các hoạt động và vị trí khác nhau. Bộ truyền và bộ thu WiFi được kết nối bằng cáp cung cấp đồng bộ hoàn hảo về thời gian. Tuy nhiên, cáp đồng bộ này làm cho việc triển khai trong thực tế trở nên không khả thi. Do đó, trong nghiên cứu này chúng tôi đề xuất bài toán nhận diện đồng thời vị trí và hành động con người sử dụng tín hiệu wifi với mục tiêu củng cố kết quả cho hướng nghiên cứu, đóng góp bộ dữ liệu và giải quyết những vấn đề được nêu trên.

TÁC GIẢ

Võ Lê Thành Phát

GIẢNG VIÊN HƯỚNG DẪN

NGÀNH

Năm:

Tổng quan đồ án

Với sự phát triển của công nghệ nhận diện nói chung và nhận diện con người nói riêng thì các mô hình SmartHome đã trở nên vô cùng phổ biến. Một số hướng tiếp cận chủ yếu thường được sử dụng như camera, tia hồng ngoại,… mặc dù mang lại hiệu suất đáng kể, tuy nhiên lại tồn tại một số hạn chế về quyền riêng tư hay chịu sự ảnh hưởng của môi trường. Ngày nay, một số nghiên cứu đã chứng minh tính khả thi của việc sử dụng tín hiệu WiFi trong việc nhận diện con người với ưu điểm là bỏ qua các hạn chế của các mô hình truyền thống và có khả năng triển khai rộng rãi bởi sự phổ biến của tín hiệu WiFi. Các nghiên cứu đã chỉ ra việc sử dụng Chanel State Information (CSI) có thể nhận diện các hành động như gõ phím, chạy bộ. Ngoài ra việc nhận diện vị trí của con người cũng là khả thi. Phát triển từ những nghiên cứu trên, chúng tôi đề xuất mô hình nhận diện vị trí và hành động song song giúp tối ưu hóa việc triển khai các thiết bị thông minh, giúp người dùng Smart Home có thể xử lý dễ dàng hơn.

Có một số nghiên cứu thú vị về khả năng kết hợp nhận diện hoạt động và xác định vị trí của con người đồng thời bằng tín hiệu WiFi. Những nghiên cứu này đã thành công chứng minh rằng có thể dự đoán các đặc điểm của hoạt động và vị trí trong cùng các mẫu CSI. Tuy nhiên, có một số hạn chế. Trong nghiên cứu, do tập dữ liệu không được công khai, việc tiến hành nghiên cứu bổ sung về chủ đề này được coi là khó khăn. Nghiên cứu đã công khai tập dữ liệu với 1394 mẫu CSI trong các hoạt động và vị trí khác nhau. Bộ truyền và bộ thu WiFi được kết nối bằng cáp cung cấp đồng bộ hoàn hảo về thời gian. Tuy nhiên, cáp đồng bộ này làm cho việc triển khai trong thực tế trở nên không khả thi. Do đó, trong nghiên cứu này chúng tôi đề xuất bài toán nhận diện đồng thời vị trí và hành động con người sử dụng tín hiệu wifi với mục tiêu củng cố kết quả cho hướng nghiên cứu, đóng góp bộ dữ liệu và giải quyết những vấn đề được nêu trên.

Mục tiêu nghiên cứu

Trong nghiên cứu này, chúng tôi đề xuất một framework để thu thập các mẫu WiFi CSI cho bài toán nhận diện đồng thời vị trí và hành động. Framework được đề xuất bao gồm các thiết bị radio USRP với đồng bộ hóa thời gian không dây. Sử dụng framework này, chúng tôi đã thu thập được một tập dữ liệu gồm 1500 mẫu CSI cho các vị trí và hoạt động khác nhau và sau đó công khai tập dữ liệu đó. Các đóng góp chính của nghiên cứu của chúng tôi có thể được tóm tắt như sau:

  • Phát triển một framework SDR với đồng bộ hóa thời gian không dây để thu thập thông tin trạng thái kênh WiFi cho việc nhận dạng đồng thời hành động và vị trí con người.
  • Thu thập một tập dữ liệu mang tên WiARL-UIT với 1500 mẫu cho các vị trí và hoạt động khác nhau. Trong hướng nghiên cứu này, đây là tập dữ liệu công khai đầu tiên với đồng bộ hóa thời gian không dây và tập dữ liệu công khai thứ hai cho bài toán nhận diện đồng thời. Tập dữ liệu được chia sẻ công khai tại: https://github.com/F4tt/WiARL-UIT-Dataset).
  • Đánh giá hiệu suất của các mô hình học sâu khác nhau trên tập dữ liệu WiARLUIT dựa trên các chỉ số accuracy, precision, recall và F1-score.

Nội dung nghiên cứu

OFDM

OFDM (Orthogonal Frequency Division Multiplexing) là một kỹ thuật truyền dữ liệu không dây được sử dụng rộng rãi trong các hệ thống viễn thông hiện đại. OFDM cho phép truyền dữ liệu ở tốc độ cao đồng thời giảm thiểu hiện tượng nhiễu (interference) và giảm đa đường (multipath fading) trong môi trường không dây.

image 187

Deep Learning
Deep Learning được xem là nhánh phát triển của Machine Learning dùng mạng neural nhân tạo có nhiều lớp trừu tượng. Mạng nơ-ron trong Deep Learning phân tích dữ liệu bằng cách học các biểu diễn tương tự như cách mà con người tiếp cận vấn đề.

image 188

Với 2 Universal Software Radio Peripherals (USRPs), chúng tôi triển khai giao thức IEEE 802.11 tiêu chuẩn để thu thập mẫu CSI. USRP chủ yếu bao gồm một bo mạch chủ (USRP B200-Mini) và một ăng-ten WiFi (VERT-2450), được sử dụng để phát hoặc nhận tín hiệu WiFi dưới sự điều khiển của GNU Radio. Mô hình thiết bị được hiển thị trong Ảnh 3

image 189

Đối với việc truyền và nhận tín hiệu, chúng tôi đã sử dụng công nghệ OFDM, được ưa chuộng trong các truyền thông di động không dây hiện đại. Phần mềm mã nguồn mở GNU Radio có các khối tích hợp sẵn để truyền và nhận tín hiệu OFDM với đồng bộ hóa thời gian chính xác. Ảnh 4 minh họa cấu trúc của một khung OFDM được truyền đi. Khung bao gồm hai từ đồng bộ (một để ước tính độ lệch thời gian và một để ước tính độ lệch tần số) và phần tải. Phần tải chứa các tín hiệu tham chiếu BPSK (pilot) để trích xuất thông tin trạng thái kênh tại máy thu. Mỗi ký hiệu OFDM có tổng cộng 64 sóng con bao gồm 4 pilot, 49 ký hiệu dữ liệu và 11 băng bảo vệ trống. Tại máy thu, đồng bộ hóa thời gian được cung cấp hoàn hảo bằng thuật toán trong.

image 190

Xây dựng các mô hình học máy

MLP
MLP (Multilayer Perceptron) là một trong những mô hình phổ biến và nguyên thủy nhất trong mạng neural network. Mô hình MLP bao gồm ít nhất ba layers: input layer, một hoặc nhiều hidden layers, và output layer. Mỗi layer kết nối với layer tiếp theo thông qua các weighted connections. Các hidden layers đóng vai trò trong việc học các đặc trưng phức tạp của dữ liệu đầu vào, trong khi output layer thực hiện việc dự đoán hoặc phân loại.

image 191

CNN

Mô hình mạng neural tích chập (CNN) là một loại mô hình học sâu thường được sử dụng trong lĩnh vực xử lý ảnh và nhận dạng mẫu. Mỗi CNN bao gồm một số lớp chính như sau:

  • Lớp Convolutional (Conv): Là lớp chính của CNN, nơi mà các bộ lọc được áp dụng lên ảnh để tạo ra các tính năng đặc trưng.
  • Lớp Activation (Activation): Thường sử dụng hàm kích hoạt như ReLU để kích hoạt các giá trị tính toán từ lớp Conv.
  • Lớp Pooling: Thực hiện giảm kích thước của đầu ra từ lớp Conv để giảm chi phí tính toán và làm tăng tính bền vững (invariant) của mô hình.
  • Lớp Fully Connected (FC): Là lớp cuối cùng của mô hình, kết hợp các tính năng đặc trưng để phân loại đầu ra
image 192

K-Nearest Neighbors

Mô hình K-Nearest Neighbors (KNN) là một thuật toán học máy đơn giản và dễ hiểu. Thuật toán này được sử dụng để phân loại các điểm dữ liệu dựa trên các điểm dữ liệu gần nhất trong tập dữ liệu huấn luyện. Các đặc điểm chính của mô hình KNN bao gồm:

  • Không cần huấn luyện: Mô hình KNN không cần quá trình huấn luyện phức tạp. Thay vào đó, nó chỉ lưu trữ toàn bộ tập dữ liệu huấn luyện và dự đoán dựa trên sự tương quan vị trí của các điểm dữ liệu.
  • Thực hiện dự đoán: Để dự đoán một điểm dữ liệu mới, mô hình KNN tính toán khoảng cách giữa điểm đó và các điểm dữ liệu trong tập huấn luyện, sau đó chọn ra K điểm gần nhất để quyết định nhãn phân loại cho điểm đó.
  • Tham số K: K là một siêu tham số quan trọng của mô hình KNN, xác định số lượng điểm gần nhất sẽ được sử dụng để quyết định nhãn của điểm dữ liệu mới.
  • Đánh giá dựa trên đa số: Khi đã xác định được K điểm gần nhất, mô hình KNN sử dụng đa số phiếu bầu để quyết định nhãn cho điểm dữ liệu mới.

Tuy mô hình KNN đơn giản, nhưng có thể hiệu quả trong các trường hợp đơn giản và khi dữ liệu không quá lớn. Tuy nhiên, nó có thể gặp khó khăn với tập dữ liệu lớn và không hiệu quả trong việc xử lý dữ liệu có nhiễu.

SVM
Mô hình Support Vector Machine (SVM) là một phương pháp học máy dùng để phân loại và dự đoán. SVM hoạt động bằng cách tạo ra một siêu mặt phẳng trong không gian nhiều chiều, tối đa hóa độ rộng của các ranh giới giữa các nhóm dữ liệu khác nhau. SVM cố gắng tìm ra một siêu mặt phẳng sao cho khoảng cách từ các điểm dữ liệu gần nhất tới siêu mặt phẳng đó là lớn nhất, từ đó tạo ra một ranh giới phân chia rõ ràng giữa các lớp. Mục tiêu của SVM là tối thiểu hóa độ biến thiên của mô hình (còn gọi là biên lỗi) và đảm bảo rằng các điểm dữ liệu
được phân loại đúng. SVM cũng có khả năng xử lý dữ liệu phi tuyến tính bằng cách sử dụng các hàm kernel để ánh xạ dữ liệu vào không gian cao hơn, nơi mà việc phân loại trở nên dễ dàng hơn.

SVM là một trong những phương pháp phân loại mạnh mẽ và phổ biến trong lĩnh vực học máy, đặc biệt khi phải xử lý các bài toán phân loại phức tạp và dữ liệu có số chiều lớn.

KẾT QUẢ NGHIÊN CỨU

Để đạt được kết quả, chúng tôi đã sử dụng bộ dữ liệu WiARL-UIT thu thập được để huấn luyện các mô hình học máy. Tại đây, chúng tôi đề xuất sử dụng cả các mô hình mạng nơ-ron phức tạp như CNN và MLP, cũng như các mô hình học máy đơn giản như SVM và KNN. Kết quả được liệt kê trong Bảng 1.

image 193

Kết quả tương đối cao chứng tỏ tính khả thi của vấn đề nhận diện đồng thời. Tuy nhiên, có sự khác biệt trong kết quả giữa các mô hình mạng nơ-ron phức tạp và các mô hình học máy đơn giản. Với số lượng mẫu dữ liệu lớn (1500) hơn so với số lượng nhãn (6), các mô hình mạng nơron cho thấy sự vượt trội trong vấn đề nhận diện đồng thời. Đặc biệt, mô hình CNN đạt kết quả cao nhất là 97.0% về độ chính xác (Accuracy), độ chính xác (Precision), độ nhạy (Recall), và điểm F1 sau khi huấn luyện trong 100 epochs với kích thước batch là 128.

image 194

Learning Curve trong Ảnh 10 cho thấy mô hình CNN hoạt động tốt trên cả tập huấn luyện và tập kiểm tra, thể hiện khả năng tổng quát tốt và không có vấn đề quá khớp. Sự đồng nhất trong bốn tham số của mô hình CNN có thể được tính toán bằng ma trận nhầm lẫn trong Ảnh 11.

image 195

Kết quả tương ứng cho mỗi nhãn là 100%, 98%, 91.4%, 98.2%, 97.6%, và 95.4%. Theo sau CNN là MLP cho thấy sự khác biệt đáng kể trong kết quả với độ chính xác 82.6% cho mô hình MLP. Trong khi đó, các mô hình học máy đơn giản như KNN được huấn luyện trong 2 giây với độ chính xác 80.6%, và SVM được huấn luyện trong 90 giây với độ chính xác 76.6%. Kết quả của mô hình SVM có thể được cải thiện bằng cách tinh chỉnh các tham số siêu (hyperparameters), tối ưu hóa biên độ, v.v. Tuy nhiên, quá trình này phức tạp và đòi hỏi tài nguyên tính toán đáng kể, điều này có thể không lý tưởng khi so sánh với việc sử dụng các mô hình Mạng Nơ-ron.

KẾT LUẬN

Trong bài báo này, chúng tôi đã phát triển một khung thu thập bộ dữ liệu WiFi CSI, bao gồm 2 thiết bị SDR sử dụng đồng bộ hóa thời gian không dây. Hơn nữa, chúng tôi đã thu thập và chia sẻ công khai bộ dữ liệu WiARL-UIT – bộ dữ liệu CSI đầu tiên với đồng bộ hóa thời gian không dây cho nhận diện hoạt động của con người và định vị trong nhà đồng thời.

Trong số các mô hình được đánh giá, hiệu suất tốt nhất với độ chính xác 97% đã được đạt được bởi mô hình CNN. Nghiên cứu đã chứng minh tính khả thi của việc nhận diện tín hiệu dựa trên sự khác biệt đồng thời về vị trí và hành động để phân biệt giữa các nhãn tín hiệu khác nhau.

Điều này mở ra các hướng mới cho việc kết hợp nhận diện đồng thời nhiều thông tin mẫu CSI trong tương lai. Trong các nghiên cứu tương lai, mô hình ML nên được triển khai trên các thiết bị nhúng và kiểm tra trong các kịch bản thực tế.