Tổng quan
Trong những năm gần đây, sự phát triển vượt bậc của công nghệ robot di động và trí tuệ nhân tạo (AI) đã mở ra nhiều ứng dụng thực tiễn trong các lĩnh vực như giám sát an ninh, công nghiệp, y tế, và quản lý kho bãi. Các hệ thống robot hiện đại không chỉ thực hiện các nhiệm vụ cơ bản như vận chuyển hay kiểm tra mà còn có khả năng nhận diện vật thể, phát hiện và phân loại các đối tượng trong môi trường làm việc nhờ tích hợp công nghệ thị giác máy tính và AI. Điều này giúp tối ưu hóa quy trình làm việc, đảm bảo an toàn lao động và giảm thiểu sự phụ thuộc vào con người trong các môi trường nguy hiểm hoặc yêu cầu độ chính xác cao. Tuy nhiên, các hệ thống robot truyền thống vẫn tồn tại nhiều hạn chế, như độ chính xác thấp, khả năng phản ứng chậm, và thiếu tính tự động hóa trong việc nhận diện vật thể. Để giải quyết các thách thức này, việc nghiên cứu và phát triển các robot di động thông minh, tích hợp công nghệ AI và thị giác máy tính là một hướng đi cần thiết và cấp bách.
Dưới sự hướng dẫn của ThS. Nguyễn Khánh Thuật, đồ án “Robot nhận diện vật thể thờigian thực trong nhà kho”được thực hiện với mục tiêu xây dựng một hệ thống robot tự hành thông minh, có khả năng phát hiện và nhận diện vật thể trong môi trường kho bãi một cách nhanh chóng và chính xác. Hệ thống này cho phép robot phản ứng tự động với các đối tượng được nhận diện mà không cần sự can thiệp trực tiếp của con người, đồng thời hỗ trợ giám sát và điều khiển từ xa thông qua các thiết bị kết nối mạng như máy tính hoặc điện thoại. Với việc tích hợp công nghệ xử lý hình ảnh, thị giác máy tính và truyền thông không dây, hệ thống được kỳ vọng sẽ tối ưu hóa hoạt động của robot trong môi trường thực tế, giảm thiểu rủi ro cho con người và nâng cao hiệu quả quản lý kho.
Đề tài tập trung vào việc phát triển một hệ thống robot tự hành dành riêng cho môi trường kho bãi, nơi yêu cầu cao về tính chính xác, độ tin cậy, và khả năng hoạt động liên tục. Không chỉ dừng lại ở môi trường kho, hệ thống này còn có tiềm năng mở rộng sang các lĩnh vực khác như giám sát an ninh, cứu hộ, và y tế. Trong lĩnh vực giám sát an ninh, robot có thể phát hiện các vật thể nguy hiểm hoặc bất thường trong khu vực được giám sát, từ đó đưa ra các cảnh báo kịp thời. Trong cứu hộ, robot có thể hỗ trợ tìm kiếm và phân loại vật thể hoặc nạn nhân trong các tình huống khẩn cấp. Còn trong lĩnh vực y tế, robot có thể hỗ trợ vận chuyển vật tư y tế, nhận diện các đối tượng trong môi trường bệnh viện, và giảm thiểu rủi ro cho nhân viên y tế trong các tình huống nguy hiểm.
Đề tài sử dụng các phương pháp nghiên cứu và phát triển hiện đại, bao gồm công nghệ thị giác máy tính, thuật toán nhận diện vật thể, các cảm biến, truyền thông không dây và mô hình robot tự hành. Hướng đến mô hình robot tự hành được thiết kế với khả năng di chuyển linh hoạt, tránh vật cản, và hoạt động liên tục trong môi trường kho bãi
Mục tiêu nghiên cứu
- Thiết kế phần cứng robot di động tích hợp cảm biến dò line, cảm biến siêu âm, camera, vi xử lý Raspberry Pi phù hợp với môi trường kho hàng.
- Phát triển phần mềm điều khiển, tích hợp thuật toán nhận diện vật thể dựa trên YOLOv5, tối ưu cho xử lý thời gian thực trên thiết bị nhúng.
- Xây dựng hệ thống truyền thông không dây (Wi-Fi) giữa robot và máy chủ trung tâm, đảm bảo truyền dữ liệu hình ảnh, trạng thái, điều khiển từ xa ổn định, bảo mật.
- Thử nghiệm, đánh giá hiệu suất nhận diện, tốc độ xử lý, độ chính xác và tính ổn định trong môi trường nhà kho mô phỏng.
- Đề xuất các giải pháp cải tiến về phần cứng, thuật toán điều khiển, và bảo mật, hướng tới ứng dụng rộng rãi trong thực tế.
Kiến trúc hệ thống robot nhận diện vật thể

Hệ thống robot nhận diện vật thể được thiết kế với kiến trúc tích hợp giữa ba thành phần chính: phần cứng, phần mềm và hệ thống truyền thông. Các thành phần này phối hợp với nhau để đảm bảo robot có thể vận hành tự động, nhận diện vật thể chính xác và truyền dữ liệu thời gian thực. Sau đây là phân tích chi tiết về từng thành phần trong hệ thống:
- Phần cứng: Robot di động là trung tâm của hệ thống, được trang bị các thiết bị phần cứng sau:
◦ Camera: Thu thập hình ảnh từ môi trường thực tế, phục vụ cho việc nhận diện vật thể. Camera được kết nối trực tiếp với Flask Server để xử lý dữ liệu thời gian thực.
◦ Cảm biến dò line: Hỗ trợ robot di chuyển theo đường định sẵn trong môi trường. Dữ liệu từ cảm biến này được gửi đến Flask Server để điều chỉnh hướng di chuyển.
◦ Cảm biến siêu âm: Phát hiện vật cản trong môi trường, đảm bảo robot tránh va chạm khi di chuyển. Dữ liệu cảm biến siêu âm cũng được gửi đến Flask Server để xử lý và điều khiển robot.
◦ Module điều khiển động cơ: Điều khiển động cơ của robot dựa trên dữ liệu từ cảm biến và lệnh điều khiển từ Flask Server. Các hành động bao gồm tiến, lùi, rẽ trái/phải hoặc dừng.
- Phần mềm: Hệ thống phần mềm được triển khai trên Flask Server, nơi xử lý dữ liệu và điều khiển robot. Các thành phần chính của phần mềm bao gồm:
◦ Thuật toán YOLOv5 Nano: Được sử dụng để nhận diện vật thể trong hình ảnh thu thập từ camera. Thuật toán này được tối ưu hóa để chạy trên thiết bị nhúng, đảm bảo xử lý thời gian thực với độ chính xác cao. Kết quả nhận diện (loại vật thể, vị trí, kích thước) được gửi đến Raspberry Pi để hiển thị trên giao diện người dùng.
◦ API truyền video: Truyền video trực tiếp từ camera đến Raspberry Pi và giao diện người dùng, cho phép giám sát thời gian thực môi trường xung quanh robot.
◦ API quản lý trạng thái: Theo dõi trạng thái của các cảm biến (cảm biến dò line, cảm biến siêu âm) và trạng thái hoạt động của robot. Dữ liệu này được gửi đến Raspberry Pi để hiển thị trên giao diện người dùng.
◦ API điều khiển robot: Nhận lệnh điều khiển từ giao diện người dùng (qua Raspberry Pi) và gửi lệnh đến module điều khiển động cơ. Các lệnh điều khiển bao gồm di chuyển, dừng, né vật cản hoặc thay đổi hướng. - Hệ thống truyền thông: Raspberry Pi đóng vai trò là trung tâm giao tiếp giữa Flask Server và người dùng. Các chức năng chính của hệ thống truyền thông bao gồm:
◦ Hiển thị thông tin: Raspberry Pi nhận dữ liệu từ Flask Server (trạng thái cảm biến, trạng thái robot, kết quả nhận diện vật thể) và hiển thị trên giao diện người dùng. Người dùng có thể theo dõi trạng thái hoạt động của robot và môi trường xung quanh.
◦ Truyền video trực tiếp: Raspberry Pi nhận dữ liệu video từ API truyền video của Flask Server và hiển thị trên giao diện. Người dùng có thể xem video trực tiếp từ camera để giám sát hoạt động của robot.
◦ Giao diện người dùng: Cho phép người dùng gửi lệnh điều khiển đến robot (qua Raspberry Pi). Các lệnh điều khiển bao gồm di chuyển, dừng, né vật cản hoặc thay đổi hướng.
Kiến trúc tích hợp này đảm bảo hệ thống có khả năng vận hành tự động trong môi trường nhà kho, nhận diện vật thể chính xác và truyền dữ liệu thời gian thực. Các thành phần phần cứng, phần mềm và truyền thông phối hợp chặt chẽ để đáp ứng các yêu cầu về hiệu quả, an toàn và khả năng điều khiển từ xa.

Kết quả huấn luyện

Ma trận nhầm lẫn (Confusion Matrix) là công cụ quan trọng để đánh giá hiệu quả của mô hình. Nó thể hiện số lượng dự đoán đúng và sai giữa các lớp vật thể. Các điểm chính bao gồm:
- Dự đoán chính xác: Các ô màu xanh đậm trên đường chéo chính cho thấy mô hình dự đoán đúng các lớp như fire, gun, và unconsciousness với độ chính xác cao.
- Nhầm lẫn giữa các lớp: Một số nhầm lẫn xảy ra giữa các lớp như person with knife và background, điều này có thể do sự tương đồng về hình dạng hoặc đặc điểm của vật thể trong các lớp này.
- Kết luận: Kết quả này cho thấy mô hình hoạt động tốt trên các lớp có dữ liệu phong phú nhưng cần cải thiện trên các lớp có ít dữ liệu hơn.


Hình ảnh này là minh họa trực quan từ tập dữ liệu huấn luyện, cho thấy các vật thể như fire, gun, và person with knife được nhận diện chính xác trong khung hình. Các điểm chính bao gồm:
- Nhận diện chính xác: Các vật thể có kích thước nhỏ hoặc bị che khuất vẫn được nhận diện tốt, chứng tỏ mô hình hoạt động hiệu quả.
- Kết quả: Mô hình YOLOv5 đã học được các đặc điểm của vật thể nguy hiểm và có khả năng nhận diện chính xác trong nhiều bối cảnh.
Kết quả nhận diện
- Trong điều kiện ánh sáng tốt:
◦ Độ chính xác đạt 60%. Hệ thống nhận diện tốt các vật thể lớn và rõ ràng như súng, dao, và lửa.
◦ Các vật thể nguy hiểm được đánh dấu chính xác trong khung hình, với độ tin cậy trung bình từ 0.6 đến 0.8.
◦ Một số vật thể nhỏ hoặc bị che khuất vẫn bị bỏ sót.

- Trong điều kiện ánh sáng yếu:
◦ Độ chính xác giảm xuống còn khoảng 40%. Nguyên nhân chủ yếu là do chất lượng hình ảnh đầu vào giảm, dẫn đến mô hình không nhận diện được vật thể hoặc nhận diện sai.
◦ Các lớp vật thể như person with knife và unconsciousness bị bỏ sót trong một số trường hợp.
◦ Sự nhầm lẫn giữa các vật thể tăng lên, đặc biệt với các vật thể có hình dạng tương tự nhau.
Nguyên nhân nhận diện sai
- Độ tin cậy thấp: Ngưỡng model.conf = 0.5 dẫn đến việc mô hình chấp nhận các dự đoán không chắc chắn, gây ra nhận diện sai.
- Kích thước ảnh đầu vào: Kích thước 320×320 pixel chưa đủ để mô hình xử lý chi tiết các vật thể nhỏ hoặc phức tạp.
- Điều kiện ánh sáng yếu: Chất lượng hình ảnh đầu vào giảm, làm sai lệch dữ liệu và giảm hiệu quả của mô hình.
- Dữ liệu huấn luyện chưa đủ đa dạng: Tập dữ liệu huấn luyện chưa bao phủ đầy đủ các trường hợp ánh sáng yếu hoặc vật thể có hình dạng phức tạp.
Giải pháp khắc phục
Để cải thiện hiệu suất nhận diện, cần áp dụng các giải pháp sau:
- Tiền xử lý hình ảnh:
◦ Sử dụng các kỹ thuật lọc nhiễu và cân bằng sáng trực tiếp trên Raspberry Pi trước khi đưa hình ảnh vào mô hình.
◦ Áp dụng thuật toán giảm nhiễu Gaussian để làm mịn hình ảnh trong điều kiện ánh sáng yếu. - Giảm số lớp vật thể:
◦ Loại bỏ các lớp vật thể ít quan trọng hoặc khó nhận diện để giảm tải cho mô hình và tập trung vào các lớp nguy hiểm chính. - Huấn luyện lại mô hình:
◦ Tăng cường dữ liệu huấn luyện với hình ảnh trong điều kiện ánh sáng yếu để cải thiện khả năng nhận diện trong môi trường thực tế.
◦ Sử dụng các kỹ thuật tăng cường dữ liệu (Data Augmentation) như thay đổi độ sáng, xoay ảnh, và thêm nhiễu để tăng tính đa dạng của tập dữ liệu.
Kết luận
Hệ thống nhận diện vật thể thời gian thực đã đạt được các mục tiêu đề ra, bao gồm khả năng di chuyển tự động theo đường dẫn cố định, phát hiện vật cản và nhận diện một số vật thể nguy hiểm trong thời gian thực. Sử dụng phần cứng chi phí thấp như Raspberry Pi 4, Pi Camera và các cảm biến cơ bản, hệ thống vẫn đảm bảo vận hành ổn định trong môi trường thử nghiệm. Tuy nhiên, khả năng nhận diện vật thể của hệ thống còn hạn chế trong điều kiện ánh sáng yếu hoặc khi vật thể có hình dạng phức tạp. Một số trường hợp nhận diện sai hoặc bỏ sót vật thể cũng đã được ghi nhận.
Nguyên nhân chính dẫn đến các hạn chế này bao gồm khả năng xử lý hình ảnh còn hạn chế của Raspberry Pi 4, mô hình nhận diện YOLOv5 chưa được huấn luyện đầy đủ với dữ liệu đa dạng, và chưa áp dụng các kỹ thuật tiền xử lý hoặc hậu xử lý hình ảnh để cải thiện chất lượng dữ liệu đầu vào. Mặc dù còn tồn tại một số vấn đề, hệ thống đã chứng minh được tiềm năng ứng dụng trong các lĩnh vực như giám sát an ninh, quản lý kho hàng và hỗ trợ tự động hóa trong môi trường công nghiệp.
Hướng phát triển
Để khắc phục các hạn chế và nâng cao hiệu quả hoạt động, hệ thống cần được cải thiện cả về phần cứng lẫn phần mềm. Về phần cứng, việc nâng cấp bộ vi điều khiển lên các thiết bị mạnh hơn như NVIDIA Jetson Nano hoặc Raspberry Pi 5 sẽ giúp tăng khả năng xử lý hình ảnh và cải thiện tốc độ nhận diện. Bên cạnh đó, tích hợp camera có độ phân giải cao hơn sẽ giúp tăng chất lượng dữ liệu đầu vào, đặc biệt trong các điều kiện ánh sáng yếu.
Về phần mềm, mô hình YOLOv5 cần được huấn luyện lại với dữ liệu phong phú hơn, bao gồm các hình ảnh trong môi trường thực tế và các vật thể có hình dạng phức tạp. Ngoài ra, việc áp dụng các mô hình nhận diện tiên tiến hơn như YOLOv8 hoặc các mô hình dựa trên Transformer sẽ giúp tăng độ chính xác và hiệu suất của hệ thống. Đồng thời, tối ưu hóa quy trình xử lý hình ảnh thông qua các kỹ thuật tiền xử lý như cân bằng sáng, lọc nhiễu và tăng cường độ tương phản sẽ cải thiện chất lượng hình ảnh đầu vào. Các thuật toán hậu xử lý cũng cần được triển khai để lọc bỏ các dự đoán không hợp lý, tăng độ tin cậy của hệ thống.
Hệ thống cũng có thể được mở rộng ứng dụng bằng cách tích hợp thêm các cảm biến như cảm biến nhiệt, cảm biến khí độc để phát hiện các nguy cơ khác ngoài vật thể nguy hiểm, hoặc phát triển khả năng di chuyển linh hoạt hơn thay vì chỉ giới hạn ở đường dẫn cố định.


