Tổng quan đồ án
Ý tưởng thực hiện đề tài tới từ Kaggle PlantTrait2024 Challenge – FGVC11workshopnhằm tìm cách dự đoán 6 đặc tính của thực vật từ crowd sources images và ancillarydata.Các đặc tính của thực vật chính là chìa khóa quan trọng để hiểu về hệ sinh thái, tính đa dạng,khả năng sinh sản và thích nghi của các loài thực vật.
Đối tượng cần dự đoán là các đặc tính của cây từ những bức ảnh thực vật của cộng đồng.Các đặc tính của cây là những thuộc tính được sử dụng để mô tả hoạt động của cây và cách chúng tương tác với môi trường. Ví dụ, đặc tính chiều cao tán cây cho thấy khả năng của cây trong việc che bóng các cây lân cận để cạnh tranh ánh sáng mặt trời. Độ cứng cáp của lá (leaf masperleafarea) cho thấy cây tối ưu hóa để chịu đựng các điều kiện khắc nghiệt như gió mạnh hoặc hạn hán.Tuy nhiên, điều kiện môi trường luôn thay đổi và không ổn định. Do biến đổi khí hậu toàn cầu,sinh quyển đang bị biến đổi với tốc độ ngày càng nhanh. Đặc biệt, biến đổi khí hậu được cho là sẽ tác động mạnh mẽ đến cách thức hoạt động của các hệ sinh thái. Điều này bao gồm nhiều quá trình, chẳng hạn như sự thích nghi của cây và các đặc tính của chúng với các điều kiện mới hoặc thậm chí là sự thay đổi phân bố của các loài thực vật dẫn đến sự thay đổi phân bố của các đặc tínhcủa chúng. Tuy nhiên, chúng ta gần như không thể dự đoán trên quy mô toàn cầu cách các đặc tính và hệ sinh thái sẽ phản ứng với biến đổi khí hậu vì chúng ta không có đủ dữ liệu về các đặc tính thực vật.
Mục tiêu chính của đề tài này là sử dụng các mô hình hồi quy dựa trên học sâu, chẳng hạn như Mạng Nơ-ron Tích chập (CNN) như ConvNext hoặc Transformers, để dự đoán các đặc tính của cây từ các bức ảnh. Những đặc tính này, mặc dù có sẵn cho mỗi hình ảnh, lại không đạt được độ chính xác cao do tính không đồng nhất vốn có của dữ liệu công cộng. Các đặc tính khác nhau của cây mô tả các thuộc tính hóa học của mô, nhưng những thuộc tính này không có mối quan hệ rõ ràng tới vẻ bề ngoài có thể thấy được của cây trong hình ảnh. Mặc dù dự kiến độ chính xác có thể chỉ ở mức trung bình, mục tiêu khái quát là khám phá tiềm năng của hướng tiếp cận này.
Đối tượng nghiên cứu
Là một nguồn dữ liệu liên tục gia tăng của các bức ảnh từ cộng đồng. Hàng ngàn công dântrên khắp thế giới chụp ảnh cây cối bằng các ứng dụng nhận diện loài cây (ví dụ như iNaturalist hoặc Pl@ntNet). Các loài cây được nhận diện bằng các thuật toán trí tuệ nhân tạo, và các dự đoán, bức ảnh cùng với vị trí địa lý được lưu trữ trong các cơ sở dữ liệu mở. Hiện tại đã có hơn 20 triệu bức ảnh cây cối, bao gồm tất cả các loại hệ sinh thái từ khắp các châu lục.
Dữ liệu ban đầu chỉ cung cấp thông tin về tên loài của cây mà không cung cấp các đặc điểm của chúng. Tuy nhiên, một nghiên cứu tiên phong đã chỉ ra rằng trí tuệ nhân tạo có thể dự đoán các đặc điểm của cây từ những bức ảnh như vậy bằng cách sử dụng Mạng Nơ-ron Tích chập (Schiller et al., 2021). Đạt dược nhờ ghép nối các hình ảnh mẫu từ cơ sở dữ liệu iNaturalist với dữ liệu về đặc điểm của cây mà các nhà khoa học đã thu thập trong nhiều thập kỷ cho nhiều loài khác nhau. Thách thức lớn nhất ở đây là các hình ảnh và quan sát về đặc điểm của cây không được thu thập từ cùng một cá thể cây hoặc cùng một thời điểm. Tuy nhiên, việc sử dụng phương pháp weakly supervised learning cho thấy tiềm năng của phương pháp này đối với một số đặc điểm của cây. Tuy nhiên, tiềm năng này chỉ rõ ràng đối với một số ít đặc điểm của cây và vài nghìn hình ảnh. Đồ án này nhằm mục đích tìm cách khai phát thêm khả năng dự đoán các đặc điểm này từ lượng input lớn hơn (hơn 30.000 hình ảnh có nhãn).

Nội dung đồ án
1. Công nghệ sử dụng
Kagge Notebook
Kaggle Notebook là một môi trường tính toán trực tuyến mạnh mẽ, được cung cấp bởi nền tảng Kaggle, nơi người dùng có thể thực hiện các dự án về khoa học dữ liệu, học máy và phân tích dữ liệu một cách dễ dàng và tiện lợi. Được trang bị các công cụ và thư viện phổ biến, Kaggle Notebook cho phép người dùng viết mã, chạy thử nghiệm, và trực quan hóa dữ liệu mà không cần phải cài đặt bất kỳ phần mềm nào trên máy tính cá nhân.
Dataset
Dataset bao gồm 2 dạng dữ liệu: image với label và ancillary data ( data củavệ tinh,khí hậu, môi trường đất, …)

Dataset này được tạo thành từ cơ sở dữ liệu TRY (thông tin đặc tính) vàcơ sở dữ liệu iNaturalist (ảnh cây khoa học cộng đồng). Dựa trên các tên loài được tìm thấy trong cả hai cơ sở dữ liệu, các đặc tính quan sát được được liên kết từ cơ sở dữ liệu TRY(trung bình và độ lệch chuẩn theo loài) với các bức ảnh cây (iNaturalist). Dựa trên các tọa độ địa lý đi kèm với mỗi bức ảnh thực vật, các yếu tố dự bị, xuất phát từ dữ liệu raster có sẵn toàn cầu (WORLDCLIM,SOIL,VOD, MODIS) cũng được liên kết.
Feature extraction và image embedding

2. Quá trình thực hiện

Filter outliers
Các thuật toán boosting rất nhạy cảm với outliers, bởi vì các cây mới được thêmvàonhằmcố gắng sửa lỗi của những cây trước đó. Cụ thể, các mô hình tiếp theo sẽ tập trung vào việc giảm thiểu cost function hiện tại, tức là giảm thiểu sự khác biệt (gradient of the loss) giữa giá trị dự đoán và giá trị thực tế. Đặc biệt khi cost function là lỗi bình phương, các outliers sẽ tạo ra các giá trị gradient rất lớn. Điều này dẫn đến việc các cây mới trong boosting sẽ tập trung nhiều vào việc giảm sai số tại các outliers, có thể dẫn đến overfitting nếu không được kiểm soát đúng cách. Sau khi thử nghiệm thì traning với các data frame trong khoảng 0.1%- 98% cho hiệu quả tốt nhất.

Kết quả
Model đạt mức điểm kaggle là 0.5 so với nhóm đã chiến thắng challenge là 0.6.

Hướng cải tiến
Dựa trên solution của team Daft Vader đứng đầu challenge, model cóthểđượccảitiếnthêm như sau
1. Three – head solution
Tồn tại mối tương quan rõ ràng giữa các đặc điểm của thực vật và giống loài, và thậm chí các loài sống trong môi trường tương tự cũng chia sẻ các đặc điểm chung. Ví dụ, các loài từ các khu vực có lượng mưa cao thường có lá xanh hơn và diện tích lá lớn hơn. Vì vậy việc phân tách theo loài và khu vực sống có thể tăng độ chính xác của dự đoán.
- Regression head: Ước tính trực tiếp các đặc tính đã được chuẩn hóa.
- Classification head: Phân loại theo loài, và các đặc tính của loài tương ứng được chọn làm đặc tính dự đoán.
- Soft classification head: Giải quyết Long-tail Classification Issues: và tương quan giữacácloài bằng cách tính toán các giá trị đặc điểm cuối cùng thông qua tổng trọng số của các đặc điểm loài, với các trọng số được lấy từ ‘s softmax scores của classification head.
Cuối cùng cả 3 head được kết hợp từ đó thu được kết quả dự đoán với blending weight có thể thay đổi theo quá trình traning.
2. Self – attention
Mối tương quan giữa chính ancillary data và các đặc tính cần dự đoán có thể được nhận biết rõ ràng hơn qua việc áp dụng self – attention.
3. Fine tuning
Thay vì sử dụng một optimizer duy nhất cho cả head và backbone, các learning rate schedule khác nhau đã được áp dụng



