Tổng quan
Đề tài tập trung vào việc đánh giá hiệu suất của các mô hình phát hiện đối tượng tốt nhất hiện nay cho lĩnh vực ảnh y khoa. với mục tiêu là có thể đạt được kết quả khả quan trong lĩnh vực nghiên cứu liên ngành này. Bên cạnh đó giúp chứng minh được tính ứng dụng rộng rãi của các mô hình phát hiện đối tượng trong nhiều lĩnh vực. Đề tài còn nghiên cứu các kỹ thuật tiền xử lý ảnh được sử dụng nhiều với hình ảnh y khoa giúp cải thiện chất lượng ảnh và các kỹ thuật tăng cường dữ liệu làm tăng tính đa dạng của dữ liệu dùng cho việc huấn luyện. Cả hai kỹ thuật giúp nâng cao hiệu suất cũng như tính tổng quát của mô hình. Thông qua quá trình thực nghiệm hiệu suất đạt được không khả quan khi YOLOv10 lần lượt đạt được 0.287 mAP50 và 0.157 mAP50-95. Trong khi đó RT-DETR đạt được lần lượt là 0.252 mAP50 và 0.15 mAP50-95.
Mục tiêu nghiên cứu
Đề tài tập trung vào thử nghiệm các mô hình phát hiện đối tượng tốt nhất hiện nay để áp dụng cho việc phát hiện các tổn thương trên ảnh X-quang phổi. Bên cạnh đó còn áp dụng các kĩ thuật tiền xử lý ảnh nhằm tăng hiệu suất của mô hình.
Kết quả mà tôi mong muốn đạt được là điểm số mAP sẽ tăng lên sau khi áp dụng các kĩ thuật tiền xử lý và tính chỉnh kỹ càng các tham số của mô hình huấn luyện.
Nội dung đề tài
Một trong các mô hình sử dụng

YOLO trong đối tượng detection có nghĩa là “You only look once”. Tức là chúng ta chỉ cần nhìn 1 lần là có thể phát hiện ra vật thể. Tuy độ chính xác thì YOLO có thể không phải là thuật toán tốt nhất nhưng nó là thuật toán nhanh nhất trong các lớp mô hình đối tượng detection. Nó có thể đạt được tốc độ gần như real time mà độ chính xác không quá giảm so với các model thuộc top đầu.YOLO là thuật toán đối tượng detection nên mục tiêu của mô hình không chỉ là dự báo nhãn cho vật thể như các bài toán phân loại mà nó còn xác định location của vật thể. Do đó YOLO có thể phát hiện được nhiều vật thể có nhãn khác nhau trong một bức ảnh thay vì chỉ phân loại duy nhất một nhãn cho một bức ảnh.
Kiến trúc mô hình

Kiến trúc YOLO bao gồm: base network là các mạng convolution làm nhiệm vụ trích xuất đặc trưng. Phần phía sau là những Extra Layers được áp dụng để phát hiện vật thể trên feature map của base network. Base network của YOLO sử dụng chủ yếu là các convolutional layer và các fully conntected layer. Các kiến trúc YOLO cũng khá đa dạng và có thể tùy biến thành các version cho nhiều input shape khác nhau.
Thành phần Darknet Architecture được gọi là base network có tác dụng trích xuất đặc trưng. Output của based network là một feature map có kích thước 7x7x1024 sẽ được sử dụng làm input cho các Extra layers có tác dụng dự đoán nhãn và tọa độ bounding box của vật thể.
Trong YOLO version 3 tác giả áp dụng một mạng feature extraction là darknet-53. Mạng này gồm 53 convolutional layers kết nối liên tiếp, mỗi layer được theo sau bởi một batch normalization và một activation Leaky Relu. Để giảm kích thước của đầu ra sau mỗi convolution layer, tác giả down sample bằng các filter với kích thước là 2. Mẹo này có tác dụng giảm thiểu số lượng tham số cho mô hình.
Kết luận
Việc áp dụng CLAHE cho tiền xử lý giúp cải thiện độ tương phản của ảnh X-quang, làm nổi bật các chi tiết quan trọng, giúp mô hình dễ dàng nhận diện các đặc điểm bất thường hơn. Bên cạnh đo, các kỹ thuật tăng cường dữ liệu như Blur, Median Blur và Gaussian Blur cũng đóng góp quan trọng vào việc tăng tính đa dạng của tập dữ liệu huấn luyện, giúp mô hình học được các đặc điểm trong các ngữ cảnh khác nhau. Điều này giúp mô hình có tính tổng quát cao hơn, giúp hạn chế việc giảm hiệu suất khi dự đoán trên các tập dữ liệu ảnh X-quang phổi tương tự. Tuy nhiên hiệu suất của các mô hình vẫn chưa thật sự tốt khi huấn luyện và đánh giá trên tập dữ liệu trong đề tài. Có thể đây là hướng mà bản thân em hướng tới trong nghiên cứu sau đó giúp đạt được kết quả tối ưu khi thực hiện công việc phát hiện tổn thương hoặc bất thường trên bộ dữ liệu X-quang phổi này.


