Thiết kế mô hình học sâu kết hợp wavelet transform cho bài toán dự đoán chất lượng không khí

Deep learning based wavelet transform model for air quality prediction

Trong khóa luận này,chúng em đã xây dựng mô hình mutil input model dựa trên kiến trúc Bidirectional Long Short Term-Memory và kết hợp với phép biến đổi wavelet. Mô hình đề xuất của chúng em bao gồm nhiều đầu vào, mỗi đầu vào là dữ liệu không khí của mỗi khu vực, để tận dụng được dữ liệu không khí của các khu vực lân cận khu vực mục tiêu mà chúng em muốn dự đoán để tăng cường nguồn dữ liệu. Bên cạnh đó, chúng em sử dụng phép biến đổi wavelet để phân tách dữ liệu mỗi khu vực thành các thành phần tần số khác nhau để trích xuất các thông tin đặc trưng và các mối quan hệ trên miền tần số của dữ liệu. Cuối cùng, chúng em sử dụng Bi-Autoencoder để trích xuất đặt trưng dựa trên kết hợp dữ liệu đã phân tách với dữ liệu ban đầu

Xem toàn văn báo cáo tại:

TÁC GIẢ

Hồ Minh Hào, Trần Ngọc Quý

GIẢNG VIÊN HƯỚNG DẪN

NGÀNH

Năm:

Tổng quan

Chất lượng không khí ngày càng trở thành một vấn đề quan trọng đối với sức khỏe cộng đồng và môi trường. Việt Nam, với tốc độ đô thị hóa và công nghiệp hóa nhanh chóng, đang đối mặt với những thách thức lớn về ô nhiễm không khí. Để giải quyết vấn đề này, các công nghệ tiên tiến như trí tuệ nhân tạo (AI), học máy (machine learning) và học sâu (deep learning) đang được nghiên cứu và ứng dụng.

Trong khóa luận này, chúng em đề xuất một hệ thống dự đoán chất lượng không khí bằng cách thiết kế mô hình học sâu Multi-input BiLSTM Autoencoder kết hợp với Wavelet Transform. Trước tiên, từ bộ dữ liệu gốc bao gồm nhiều khu vực địa lý, chúng em chọn ra một khu vực mục tiêu cần dự đoán giá trị chất lượng không khí và các khu vực lân cận với khu vực mục tiêu, mỗi khu vực sẽ được tách thành bộ dữ liệu riêng biệt. Tiếp theo, chúng em sử dụng Wavelet Transform để phân tích và trích xuất các đặc trưng trên miền tần số của các bộ dữ liệu chất lượng không khí vừa được chọn. Sau đó, các đặc trưng này sẽ kết hợp với dữ liệu trước khi biến đổi để tạo thành bộ dữ liệu mới và được đưa vào các module của mô hình multi-input là các mô hình BiLSTM Autoencoder để tiến hành dự đoán chất lượng không khí. Mục tiêu của chúng em là xây dựng một mô hình cho ra kết quả với giá trị độ lỗi tối thiểu so với các bài báo sử dụng tập dữ liệu chất lượng không khí. Các thông số kỹ thuật của mô hình tốt nhất sẽ được đo đạc và kiểm chứng trên các thiết bị cảm ứng để đánh giá tính khả thi và ứng dụng thực tiễn.

Để hoàn thành, khóa luận này sẽ sử dụng một hệ thống mã nguồn mở OpenRemote đã được triển khai mô hình dự đoán chất lượng không khí dựa trên việc kết hợp mô hình học sâu và Wavelet Transform. Hệ thống này có thể triển khai trên trình duyệt và mở rộng ra các thiết bị cận biên, giúp người dùng dễ dàng tiếp cận và sử dụng. Dự kiến hệ thống này sẽ là nền tảng cho các nghiên cứu tiếp theo nhằm cải thiện hiệu suất và tốc độ dự đoán chất lượng không khí, từ đó góp phần vào việc bảo vệ môi trường và sức khỏe cộng đồng.

Mục tiêu và phạm vi nghiên cứu

Trong bài khóa luận này, mục tiêu nghiên cứu được đặt ra là xây dựng một hệ thống đánh giá chất lượng không khí với các chi tiết cụ thể như sau:

  • Xây dựng mô hình có khả năng ghi nhớ, trích xuất được thông tin của các đặc trưng trên cả miền thời gian và miền tầng số và có thể tận dụng dữ liệu của các thành phố lân cận để làm giàu nguồn thông tin. Cụ thể là xây dựng mô hình MultiInput Bidirectional Long Short Term Memory Autoencoder kết hợp với phép biến đổi Wavelet, mô hình này bao gồm nhiều đầu vào, sau khi qua phép biến đổi Wavelet được đưa vào các module, với mỗi module là mô hình BiLSTM Autoencoder giúp cho mô hình có cả khả năng phân tích dữ liệu trên miền tần số của phép biến đổi wavelet, vừa có khả năng ghi nhớ thông tin dài hạn và phân tích dữ liệu trên miền thời gian của LSTM.
  • So sánh mô hình đề xuất với các mô hình máy học phổ biến khác trên tập dữ liệu India AQI và cho thấy rằng mô hình đề xuất cho ra kết quả dự đoán chính xác hơn. Từ đó phân tích và đánh giá độ chính xác của các mô hình thu được rồi chọn ra mô hình tốt nhất để tối ưu và triển khai lên hệ thống dự đoán chất lượng không khí sử dụng công cụ mã nguồn mở OpenRemote và xây dựng hệ thống các thiết bị đo lường các chất độc hại trong không khí.

Phạm vi nghiên cứu

  • Tìm hiểu phép biến đổi wavelet để phân tích dữ liệu trên miền tần số.
  • Thử nghiệm các mô hình học sâu cho bài toán chuỗi thời gian và lựa chọn mô hình phù hợp.
  • Tìm hiểu về kiến trúc mô hình multi-input, sử dụng dữ liệu của các đơn vị địa lý lân cận để dự đoán giá trị ở khu vực mục tiêu.
  • Xây dựng mô hình học sâu theo kiến trúc Multi-input kết hợp với phép biến đổi Wavelet để dự đoán giá trị chất lượng không khí ở khu vực mục tiêu dựa trên các khu vực lân cận

Mô hình đề xuất

image 17
Hình 3-1: Tổng quan kiến trúc hệ thống.

Kiến trúc trên mô tả các bước trong hệ thống dự đoán chất lượng không khí được trình bày trong khóa luận này. Hệ thống gồm có ba bước:

  • Bước 1 – Xử lý dữ liệu: chúng em thu thập bộ dữ liệu chất lượng không khí của các thành phố ở Bắc Đài Loan được đăng công khai trên Kaggle. Do đây là bộ dữ liệu thô, chưa hoàn thiện nên bước tiếp theo cần phải tiền xử lý và tính thêm cột chỉ số AQI để phục vụ cho việc dự đoán.
  • Bước 2 – Huấn luyện mô hình dự đoán: Sau khi xử lý bộ dữ liệu xong, chúng em chọn ra các thành phố phù hợp rồi tách chúng thành những bộ dữ liệu riêng biệt. Sau đó, các bộ dữ liệu của các thành phố sẽ được đưa qua bước biến đổi Wavelet để phân tích các đặc trưng trên miền tần số và được tách thành tập huấn luyện và tập đánh giá. Tập huấn luyện của các bộ dữ liệu sẽ được đưa vào mô hình Multiinput BiLSTM Autoencoder để tiến hành huấn luyện.
  • Bước 3: Triển khai hệ thống Open Remote: sau khi đã huấn luyện xong mô hình chúng em sẽ đánh giá hiệu suất của mô hình trên tập dữ liệu đánh giá, nếu kết quả đạt đúng như mong đợi thì sẽ đến bước cuối cùng là tích hợp mô hình dự đoán vào OpenRemote Platform, ngược lại chúng em sẽ tiếp tục chỉnh sửa các siêu tham số mô hình và huấn luyện lại cho đến khi kết quả được như mong đợi.

Bộ dữ liệu thô khi vừa mới thu thập thường sẽ không tối ưu nếu dùng để huấn luyện mô hình do bộ dữ liệu thô thường sẽ có một vài hạn chế như kiểu dữ liệu không phù hợp, chứa dữ liệu khuyết, chứa các cột đặc trưng dư thừa, dữ liệu có quy mô (scale) khác nhau,… .Mục đích của việc tiền xử lý dữ liệu là để giảm thiếu các hạn chế của bộ dữ liệu đến mức tối thiểu. Để có thể huấn luyện ra được một mô hình tốt thì việc có một bộ dữ liệu huấn luyện tốt là điều kiện tiên quyết, vì vậy cho nên tiền xử lý dữ liệu là bước vô cùng quan trọng trong huấn luyện mô hình học máy.

image 18
Hình 3-7: Các bước tiền xử lý dữ liệu

Kết luận

Thông qua những thực nghiệm và kết quả được chúng em trình bày ở trên, khóa luận của chúng em đã cho thấy được sự tối ưu khi sử dụng mô hình học sâu tiên tiến, kết hợp các kĩ thuật hiện đại trong tác vụ dự đoán chất lượng không khí. Dựa vào kiến trúc multiinput, có thể tận dụng được các bộ dữ liệu của các khu vực lân cận để làm giàu thêm cho bộ dữ liệu huấn luyện. Bên cạnh đó, việc kết hợp mô hình BiLSTM với phép biến đổi Wavelet giúp cho mô hình dự đoán trích xuất được các đặc trưng của dữ liệu trên cả miền thời gian và tần số, từ đó nâng cao đáng kể khả năng dự đoán chính xác của mô hình. Việc tích hợp mô hình dự đoán hiện đại vào nền tảng Open Remote còn giúp cho khóa luận có tính ứng dụng cao, giúp người dùng có thể dễ dàng theo dõi chất lượng không khí trong khu vực. Ngoài ra, bài luận văn này của chúng em còn có thể dùng để làm tiền đề triển khai các bài toán tương tự trong cùng lĩnh vực hoặc nâng cấp, , thúc đẩy phát triển và nghiên cứu trong cộng đồng sinh viên nói riêng và trong lĩnh vực nghiên cứu nói chung.