Đánh giá hiệu năng các mô hình học sâu đa kiến trúc trên thiết bị cận biên

Evaluating the performance of multi-architecture deep learning models on edge device

Trong nghiên cứu này, chúng tôi đánh giá các mô hình học sâu đa kiến trúc về hiệu suất nhận diện và thời gian chạy, từ đó tìm ra các mô hình tiềm năng có thể triển khai trên các thiết bị vi điều khiển. Hơn nữa, chúng tôi đề xuất một mô hình hybrid nhẹ mới gọi là FusionNet, kế thừa những ưu điểm của hai mô hình ShuffleNet-V2 và SepViT với kết quả hứa hẹn.

TÁC GIẢ

Trương Đặng Văn Linh, Trương Chí Bảo

GIẢNG VIÊN HƯỚNG DẪN

NGÀNH

Năm:

Tổng quan đồ án

Với sự tiến bộ liên tục của trí tuệ nhân tạo, việc áp dụng học sâu vào các nhiệm vụ nhận diện hình ảnh đã trở thành một xu hướng không thể tránh được. Các mô hình học sâu xoay quanh bốn loại kiến trúc chính: CNNs, Transformers, MLPs và Hybrid, được các nhà nghiên cứu liên tục phát triển để đóng góp các phương pháp mới mẻ và hiệu quả cho cộng đồng khoa học. Tuy nhiên, hầu hết các nghiên cứu vẫn tập trung vào triển khai và đánh giá các mô hình này trên các máy trạm hiệu suất cao, mà ít chú ý đến việc tiêu thụ tài nguyên trên các thiết bị có hạn. Điều này dẫn đến nhu cầu cần phải đánh giá toàn diện hiệu suất nhận diện và hiệu suất xử lý của các mô hình với các loại kiến trúc khác nhau, nhằm xác định các mô hình ít phức tạp, tiết kiệm tài nguyên có thể đạt được độ chính xác nhận diện đủ để hoạt động tốt trên các thiết bị vi điều khiển.

Trong nghiên cứu này, chúng tôi đánh giá các mô hình học sâu đa kiến trúc về hiệu suất nhận diện và thời gian chạy, từ đó tìm ra các mô hình tiềm năng có thể triển khai trên các thiết bị vi điều khiển. Hơn nữa, chúng tôi đề xuất một mô hình hybrid nhẹ mới gọi là FusionNet, kế thừa những ưu điểm của hai mô hình ShuffleNet-V2 và SepViT với kết quả hứa hẹn. Phần còn lại của bài báo được tổ chức như sau:

  • Một khảo sát về các công trình liên quan đến đánh giá mô hình học sâu được trình bày trong Phần II.
  • Phần trình bày về bộ dữ liệu, phương pháp đánh giá, các chỉ số sử dụng và môi trường được thể hiện trong Phần III.
  • Kết quả thực nghiệm của các mô hình được lựa chọn được mô tả trong Phần IV.
  • Kết quả thực nghiệm của các mô hình được lựa chọn được mô tả trong Phần V.
  • Kiến trúc của mô hình FusionNet đề xuất và chi tiết cơ chế sử dụng được mô tả trong Phần VI.
  • So sánh giữa FusionNet và các mô hình tiềm năng được thể hiện trong Phần VII.

Phương pháp thực hiện

A. Tập dữ liệu về sâu bệnh cây trồng

CCMT là một bộ dữ liệu về sâu bệnh cây trồng được công bố vào năm 2023 bởi Kwabena Adu và các cộng sự. Bộ dữ liệu này bao gồm 102.976 hình ảnh thuộc 22 lớp của 4 loài cây: Cashew (Dâu tây), Cassava (Củ sắn), Maize (Ngô), và Tomato (Cà chua). Tác giả đã chụp các hình ảnh bằng máy ảnh có độ phân giải cao và tất cả đều ở định dạng JPG với các kích thước khác nhau là (400 × 400), (487 × 1080), (1050 × 518), (3024 × 4032), và (4032 × 2024). Hiện tại, CCMT chưa được sử dụng rộng rãi với chỉ có 2 bài báo sử dụng bộ dữ liệu này. Phân bố của tập dữ liệu và mẫu hình ảnh được trình bày trong Hình 1 và Hình 2, tương ứng.

B. Phương pháp đánh giá hiệu suất

Trong nghiên cứu này, chúng tôi đánh giá các mô hình học sâu khác nhau trên bốn kiến trúc: CNNs, Transformers, MLPs và các mô hình Hybrid. Các mô hình đã được chuyển đổi từ PyTorch sang định dạng ONNX để dễ dàng phân tích về MAC (Multiply-Accumulate Operations) và số lượng tham số sử dụng tiện ích onnx-tools do Thanatos Shinji phát triển. Để so sánh, các mô hình được phân loại thành ba nhóm dựa trên giá trị MAC của chúng và đảm bảo tính đa dạng về kiến trúc trong mỗi nhóm: nhóm nhỏ (từ 0.1 đến 0.9 GMACs), nhóm trung bình (từ 1 đến 9 GMACs) và nhóm lớn (từ 10 đến 90 GMACs). Tổng quan về thông tin của các mô hình được trình bày trong Hình 3a.

Để đạt được kết quả tối ưu về độ chính xác, chúng tôi đã sử dụng kỹ thuật Kiểm định chéo K-Fold và điều chỉnh kích thước đầu vào thành 224 × 224 điểm ảnh. Hơn nữa, chúng tôi đã triển khai tối ưu hóa AdaBelief kết hợp với lập lịch tỷ lệ học CosineAnnealingWarmRestarts để điều chỉnh tỷ lệ học theo từng tham số, nhằm đạt được sự hội tụ nhanh hơn và thoát khỏi các điểm tối thiểu cục bộ. Ngoài ra, chúng tôi cũng áp dụng các kỹ thuật Dừng sớm (Early Stopping) và Chính xác kết hợp tự động (Automatic Mixed Precision) để giảm thiểu hiện tượng
quá khớp và tăng tốc quá trình huấn luyện.

Để đánh giá hiệu suất chạy tổng thể trên các thiết bị biên, chúng tôi đã đơn giản hóa mô hình ONNX đã chuyển đổi bằng công cụ NVIDIA Polygraphy. Sau đó, đồ thị được tối ưu hóa được chuyển đổi sang định dạng TensorRT để triển khai và dự đoán trên bo mạch nhúng Jetson Xavier NX bằng công cụ NVIDIA trtxec. Cuối cùng, thời gian chậm (latency) của từng loại lớp được tổng hợp và phân tích bằng công cụ NVIDIA TREx, cung cấp cái nhìn sâu sắc vào các đặc điểm hiệu suất của mô hình trên phần cứng đích.

C. Chỉ số thực nghiệm và môi trường

Đối với các chỉ số thực nghiệm, độ phức tạp của mô hình được đánh giá thông qua MAC (Multiply-Accumulate Operations) và số lượng tham số, trong khi Precision, Recall và F1-score được sử dụng để đánh giá hiệu suất phát hiện. Hơn nữa, chỉ số Latency (ms) đo lường thời gian mà mô hình tiêu tốn để xử lý một truy vấn, từ đó ước tính hiệu suất chạy của nó.

Đối với môi trường thực nghiệm, chúng tôi đã sử dụng hai máy chủ đám mây riêng trong nghiên cứu này. Máy chủ đầu tiên xử lý giai đoạn huấn luyện và đánh giá hiệu suất nhận dạng của tất cả các mô hình được chọn, trong khi máy chủ thứ hai được dành cho giám sát, lưu trữ trọng số đã được huấn luyện và chuyển đổi định dạng mô hình. Ngoài ra, bo mạch nhúng Jetson Xavier NX được sử dụng để ước tính tính tương thích khi triển khai mô hình trên các thiết bị có tài nguyên hạn chế. Các thông số chi tiết cho tất cả các thiết bị được cung cấp trong Bảng I.

image 51

Kết quả thực nghiệm

A. Hiệu suất phát hiện

Figure 4a trình bày tổng quan về kết quả thực nghiệm trên các mô hình được lựa chọn. Trong khi có một mối quan hệ tuyến tính giữa các chỉ số MAC và Parameter như được thể hiện trong Hình 3a, những chỉ số này không nhất thiết tương quan với độ chính xác của mô hình khi một số mô hình có số lượng MACvà Parameter cao vẫn thấp hơn trong các nhiệm vụ nhận dạng.

Ngược lại, các mô hình có chi phí tính toán thấp và độ phức tạp nhỏ đạt được hiệu suất cao. Các mô hình tiềm năng nhất nằm trong cụm ở góc trên bên trái, đạt điểm F1 lớn hơn 0.8 với khoảng 50 triệu tham số.

Như được minh họa trong Hình 4b, các mô hình SepViTLite và ShuffleNet-V2-2.0X nổi lên như các ứng cử viên tiềm năng đại diện cho các kiến trúc Transformer và CNN lần lượt khi đạt được sự cân bằng giữa hiệu suất và hiệu quả với tỷ lệ nhận dạng trung bình từ 90-92% trong khi chỉ cần MAC nhỏ và khoảng 5 triệu tham số. Trong khi đó, đối với kiến trúc MLP, các mô hình gMLP-Ti và gMLP-S cho thấy hiệu suất nhận dạng ấn tượng vượt qua 93%, trong khi các mô hình kiến trúc Hybrid như MobileViT-S và EdgeNeXt-S lại có độ chính xác không được ấn tượng với mức dưới 90%.

B. Hiệu suất thời gian chạy

Hình 5 minh họa độ trễ suy luận của các mô hình tiềm năng được xác định trong phần trước. Kiến trúc Hybrid ResViT-Ti và một số mô hình CNN bao gồm Xception-Legacy, ShuffleNet V2-2.0X, ShuffleNet-V2-1.5X và ResNeXt50-32x4d cho thấy hiệu suất vượt trội, đạt được độ trễ dưới 5ms. Các mô hình SepViT-Lite (Transformer) và MobileViT-S (Hybrid) cũng giảm thiểu chi phí tính toán hiệu quả, với độ trễ trung bình dao động từ 5-10ms. Các kiến trúc còn lại có tốc độ xử lý vượt quá 10ms, đặc biệt là mô hình CoaT-S (Transformer) có độ trễ suy luận đáng chú ý lên đến hơn 50ms.

image 52
image 53

Mô hình đề xuất

image 54
image 55
image 56

Kết luận

Trong nghiên cứu này, chúng tôi đã đánh giá hiệu quả nhận diện và hiệu suất xử lý của các mô hình học sâu trên bốn kiến trúc chính: CNN, Transformer, MLP và Hybrid. Chúng tôi xác định được những mô hình tiềm năng cung cấp cả độ chính xác nhận diện hàng đầu và hiệu suất tính toán. Đáng chú ý, mô hình hybrid nhẹ gọi là FusionNet, kết hợp những điểm mạnh của ShuffleNet và SepViT, đã đạt độ chính xác phát hiện là 90,32% với thời gian xử lý khoảng 9ms, sử dụng 0,8 triệu tham số và 0,4 tỷ phép tính nhân-ghi. Kết quả cho thấy rằng một số mô hình hybrid có khả năng cân bằng giữa độ chính xác và hiệu suất, tiềm năng làm cho chúng rất hữu ích cho nhiều ứng dụng. Cụ thể hơn, FusionNet đã cho thấy kết quả rất hứa hẹn, chỉ ra tiềm năng lớn trong việc kết hợp những điểm mạnh từ các kiến trúc khác nhau.