Hệ thống đánh giá chất lượng đường bộ một cách tự động

Automated Road Quality Assessment System

Để khắc phục hạn chế trên, chúng em đã thiết kế một mô hình mới mang tên ResEViT-Road nhằm kết hợp ưu điểm của cả CNN và ViT. Mô hình này kết hợp RestNet và EfficientViT với hai nhánh và tích cực tương tác giữa chúng thông qua các khối tương tác (Interactive Block) và khối kết hợp đặc biệt (Combine Block). Nhờ đó, ResEViT-Road có khả năng học hỏi các đặc trưng một cách toàn diện và hiệu quả hơn, dẫn đến kết quả phân loại vượt trội với độ chính xác đạt 85,23% trên dataset CRDDC – 2022 và 98,31% trên dataset của Kaggle, tương ứng với các tác vụ phân loại nhị phân và phân loại đa lớp.

TÁC GIẢ

NGUYỄN TRÀ BẢO NGÂN, NGUYỄN CAO THI

GIẢNG VIÊN HƯỚNG DẪN

NGÀNH

Năm:

Tổng quan đồ án

Ngày nay, với sự phát triển mạnh mẽ của kinh tế xã hội, Việt Nam nói riêng và thế giới nói chung đã có những bước tiến nổi bật trong cơ sở hạ tầng giao thông với sự xuất hiện ngày càng nhiều các tuyến đường cao tốc, đường hầm, cầu vượt,… Tuy nhiên, bên cạnh những thành tựu to lớn đó là không ít những hạn chế từ nhiều tuyến đường bị hư hỏng, xuống cấp trầm trọng, gây ảnh hưởng trực tiếp đến an toàn giao thông cũng như sự phát triển nền kinh tế đất nước.

Ông Lê Hồng Điệp – Trưởng phòng Quản lý tổ chức giao thông, Cục đường bộ Việt Nam cho biết, việc bảo dưỡng chất lượng của toàn bộ các tuyến đường bộ trên khắp cả nước còn gặp nhiều tồn tại, hạn chế khi sử dụng các phương pháp quản lý thủ công. Những hạn chế này làm cho nhu cầu về một phương pháp cải tiến có thể thu thập và phân tích dữ liệu tình trạng đường bộ một cách hiệu quả trở nên cấp thiết hơn.

Cùng với sự phát triển của toàn cầu, trí tuệ nhân tạo ngày càng trở nên phổ biến và được ứng dụng rộng rãi trong đời sống hằng ngày. Đặc biệt, không thể không kể đến sự lớn mạnh của deeplearning – một nhánh con của machine learning. Deeplearning tập trung vào việc xây dựng các mạng thần kinh nhân tạo (neural networks) có nhiều lớp ẩn (deep neural networks), một tiềm năng to lớn cho lĩnh vực xử lý hình ảnh.

Từ đó, nhóm chúng em quyết định đề xuất một giải pháp mới nhằm cải thiện quá trình phân loại, đánh giá chất lượng đường bộ. Cụ thể, nhóm xây dựng một mô hình học sâu kết hợp kiến trúc CNN (Convolutional Neural Network) và ViT (Vision Transformer) để phân loại chất lượng đường bộ dựa trên các hình ảnh thu thập được từ hệ thống giám sát hoặc các thiết bị di động tên là ResEViT-Road.

Các nghiên cứu về phát hiện và phân loại hư hỏng đường bộ đã đạt được những tiến bộ đáng kể, với nhiều cách tiếp cận khác nhau, từ các phương pháp xử lý hình ảnh truyền thống đến các mô hình học sâu tinh vi. Trong đó, mạng nơ-ron tích chập Convolutional Neural Network (CNN) đã chứng minh được hiệu quả vượt trội trong việc phân loại các loại hư hỏng đường bộ. Với khả năng trích xuất đặc trưng hình ảnh, CNN trở thành phương pháp không thể thiếu trong lĩnh vực này. Song song đó, kiến trúc Vision Transformer (ViT), vốn được phát triển để xử lý dữ liệu hình ảnh ở cấp độ token, cũng đã cho thấy tiềm năng lớn trong việc phân loại các loại hư hỏng phức tạp. ViT có khả năng nắm bắt các mối quan hệ toàn cục giữa các phần khác nhau của hình ảnh, giúp cải thiện đáng kể độ chính xác của mô hình. Các kiến trúc như ViT và MobileNet đã đạt được những kết quả có giá trị trong việc phân loại các loại hư hỏng đường bộ khác nhau [2], [3], [4]. Ngoài ra, một số phương pháp tăng cường hình ảnh cũng đã được triển khai để cải thiện hiệu suất mô hình. Từ đó có thể thấy tiềm năng của các hệ thống tự động trong việc phát hiện và phân loại đường là rất cao.

Sự phát triển của CNN trong các tác vụ phân loại hình ảnh đường và sự kết hợp giữa ViT và CNN ở các tác vụ phân loại hình ảnh khác trong những năm gần đây đã đạt được nhiều thành quả tốt. Sự kết hợp giữa Vision Transformers và Convolutional Neural Networks đã mở ra một hướng đi mới đầy hứa hẹn trong lĩnh vực phân loại hình ảnh, đặc biệt là trong các tác vụ phức tạp như phân loại hư hỏng đường bộ. Trong khi ViT nổi bật với khả năng nắm bắt các mối quan hệ toàn cục trong hình ảnh, thì CNN lại tỏ ra ưu việt trong việc trích xuất các đặc trưng cục bộ. Tuy nhiên, các nghiên cứu trước đây về kiến trúc để phân loại hư hỏng đường bộ chưa tận dụng tối đa sức mạnh trong việc kết hợp hai kiến trúc này.

Để khắc phục hạn chế trên, chúng em đã thiết kế một mô hình mới mang tên ResEViT-Road nhằm kết hợp ưu điểm của cả CNN và ViT. Mô hình này kết hợp RestNet và EfficientViT với hai nhánh và tích cực tương tác giữa chúng thông qua các khối tương tác (Interactive Block) và khối kết hợp đặc biệt (Combine Block). Nhờ đó, ResEViT-Road có khả năng học hỏi các đặc trưng một cách toàn diện và hiệu quả hơn, dẫn đến kết quả phân loại vượt trội với độ chính xác đạt 85,23% trên dataset CRDDC – 2022 và 98,31% trên dataset của Kaggle, tương ứng với các tác vụ phân loại nhị phân và phân loại đa lớp.

Phương pháp tiếp cận

Kết hợp CNN và ViT

Để đạt được một kiến trúc nhẹ và hiệu quả, chúng em đã chọn hai phiên bản nhẹ nhất của ResNet là ResNet18 và EfficientViT là EfficientViT-b1. Mô hình của nhóm sẽ gồm hai nhánh được thiết kế song song gồm RestNet18 và EfficientVitb1. Giữa hai nhánh, chúng em còn thiết kế thêm hai block là Interactive Block và Combine Block. Interactive Block dùng để tương tác hai chiều giữa thông tin bản vá của ViT và khả năng biểu diễn ngữ cảnh của CNN. Combine Block dùng để tổng hợp thông tin từ hai nhánh. Kiến trúc của nhóm được thể hiện trong Hình 3.1.

image 61

Nhánh CNN

Với CNN, nhóm sử dụng kiến trúc ResNet18 [14] được thể hiện ở nhánh bên trái của Hình 3.1. ResNet18 được sử dụng để lấy khả năng học cục bộ của các mô hình CNN, kiến trúc gồm 1 Input Stemp và 4 Basic Module. Input Stemp có tác dụng làm giảm độ phân giải của ảnh, trích xuất những đặc trưng quan trọng và chuẩn hóa dữ liệu trước khi đưa vào block chính (Basic Module). Intput Stemp được thể tại Phương trình 1). Basic Module chính là residual block, giúp giảm thiểu vấn đề biến mất gradient bằng cách cộng trực tiếp đầu vào đầu ra, được thể hiện trong phương trình (2) và (3).

Với sự kết hợp hai nhánh song song ở cuối stage 3, nhóm đã lấy đầu ra của Basic Module đưa vào Interactive Block để tương tác với nhánh ViT, và đầu ra của Interactive Block được làm đầu vào cho Stage 4.

image 63

Nhánh ViT

Để cải thiện khả năng học toàn cục của ViT, nhóm triển khai kiến trúc EfficientViT-b1 cho nhánh ViT là nhánh bên phải trong Hình 3.1. Trong những mô hình ViT chúng em đã thử nghiệm với bài toán phân loại đường, kiến trúc EfficientViT chứng minh rằng nó hiệu quả và gọn nhẹ. EfficientViT-b1 được thiết kế với 4 stage, trong đó stage 1 và 2 sử dụng các khối MBConv với các phép tính tích chập đã được tối ưu hóa để đạt được hiệu quả tốt nhất. Stage 3 và 4 cũng sử dụng MBConv. Tuy nhiên sau khi qua MBConv, đầu ra sẽ được xử lý bởi EfficientViT Module – thể hiện trong phương trình (4) và (5). Điểm đặc biệt của EfficientViT Module là sử dụng multi-scale attention – hiệu quả hơn so với attention thông thường.

Tương tự trong nhánh CNN, đầu ra của stage 3 cũng được đưa vào Interactive Block để tương tác đặc tính với nhánh CNN. Và kết quả của Interactive Block tiếp tục là đầu vào của stage tiếp theo của EfficientViT-b1.

Interactive Block

Bởi vì nhánh CNN và nhánh ViT là hai nhánh hoàn toàn độc lập với nhau, do đó chúng sẽ thiếu thông tin của nhau. Từ đó Interactive Block được sinh ra để làm cầu nối giữa hai nhánh, cho phép khả năng học cục bộ của CNN và khả năng học toàn cục của ViT bổ sung thông tin cho nhau.

image 64

Đầu tiên, nhóm thiết kế một Interleaved Layer để gộp đầu ra của Basic Module và EfficientViT Module trong stage 3 bằng cách xen kẽ các kênh màu của cả hai theo tỉ lệ 2:1, được minh họa trong Hình 3.3, với mục đích chính là làm cho sự tương tác giữa hai nhánh trở nên hiệu quả hơn.

image 65

Tiếp đó, sau khi xen kẽ đặc trưng của hai nhánh, chúng em triển khai Cascaded Group Attention Block. Khối này cho phép thiết lập kết nối giữa các kênh, tạo điều kiện cho việc học các phép chiếu với thông tin phong phú về đặc trưng. Mỗi kênh màu có thể biết thông tin về nhau và sử dụng thông tin đó để học mà không cần tốn quá nhiều chi phí tính toán.

Ngoài ra, chúng em quyết định sử dụng Cascaded Group Attention Block bởi vì nhận thấy rằng có sự chênh lệch giữa các lớp convolution và attention, các lớp convolution đang chiếm tỉ lệ nhiều hơn nên chúng em muốn cân bằng tỉ lệ bằng cách tăng thêm lớp attention để tăng thêm khả năng học toàn cục.

Cuối cùng, chúng em sử dụng downchanel layer để giảm kênh màu phục vụ cho việc cộng kết quả của Cascaded Group Attention với đầu vào của mỗi nhánh trước đó, từ đó làm đầu vào cho stage tiếp theo của từng nhánh.

Combine Block

Combine Block gồm một concat layer, một depthwise convolution layer và một pointwise convolution layer, được thể hiện trong Hình 3.4. Concat layer ghép các đặc trưng từ hai nhánh, cho phép tổng hợp đặc điểm của CNN và ViT. Đồng thời đặc tính của hai nhánh vẫn còn tách biệt, do đó cần một lớp để kết hợp hai nhánh chặt chẽ với nhau, để thực hiện điều đó chúng em đã sử dụng depthwise convolution và pointwise convolution được giới thiệu trong MobileNet.

Không giống với tích chập truyền thống (áp dụng một bộ lọc cho toàn bộ kênh màu), depthwise convolution hoạt động trên từng kênh màu. Sau concat layer, số channel là 768, depthwise convolution layer sẽ xử lý trên từng kênh màu riêng lẻ. Sau đó, pointwise convolution layer có kích thước kernel 1×1, giúp các tính năng đã được xử lý trước đó kết nối chặt chẽ với nhau.

Cuối cùng trước khi đưa vào phân loại đường, chúng em đã sử dụng LayerNorm để chuẩn hóa dữ liệu.

image 66

Kết luận

Kết quả đạt được

  • Xây dựng được mô hình với sự kết hợp giữa ResNet18 và EfficientViT-b1 bằng cách triển khai hai nhánh song song. Kết quả cho ra mô hình vượt trội hơn các nghiên cứu trước đó với hai nhiệm vụ là phân loại nhị phân trên CRDDC – 2022 dataset và phân loại đa lớp trên KAGGLE Road Damage dataset.
  • Hiểu biết về các mô hình deeplearning phổ biến như RestNet, MobileNet, ViT, EfficientViT.

Hạn chế

  • Mô hình chưa được triển khai vào thực tế để đánh giá được độ hiệu quả, tính ứng dụng.
  • Chưa đo được hiệu năng trên các thiết bị có cấu hình yếu như các thiết bị IoT và điện thoại di động.

Hướng phát triển

Trong tương lai, nhóm sẽ định hướng triển khai mô hình trên Raspberry PI và gắn trên các phương tiện giao thông để thu thập vị trí các đường bị hư, phục vụ cho quá trình sửa chữa đường trở nên nhanh chóng hơn.