Real-Time Object Detection with Transformers for Aerial Edge Applications
Syvänen, Aapo (2025)
Syvänen, Aapo
2025
Tietotekniikan DI-ohjelma - Master's Programme in Information Technology
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2025-12-15
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-2025121511667
https://urn.fi/URN:NBN:fi:tuni-2025121511667
Tiivistelmä
This thesis investigates the feasibility of deploying state-of-the-art real-time DETR-based object detectors for aerial edge applications. The selected open-source models with non-restrictive licenses:RT-DETR, RT-DETRv2, D-FINE, DEIM, DEIMv2, LW-DETR, and RF-DETR were fine-tuned on the VisDrone dataset following the training configurations provided in their respective repositories. The models were trained on a limited-resource workstation and subsequently converted into TensorRT engines for evaluation on the NVIDIA Jetson Orin Nano, enabling assessment of accuracy,latency, and practical deployability in UAV-based detection environments.
The largest publicly available variants of each model achieved real-time throughput of approximately 20 FPS on the Jetson device. Despite the predominance of small objects in VisDrone, all detectors surpassed 25 AP, with the D-FINE-X model—pre-trained on Objects365 and further tuned on COCO—achieving the highest performance, reaching 31.65 AP0.5∶0.95 and 50.7 AP0.5. Notably, later architectures such as DEIM report higher accuracy in their original publications, yet in our experiments D-FINE-X remained the strongest model.
Several domain-specific detectors, including UAV-DETR, Drone-DETR, and the recently introduced RT-DETRv4, could not be included due to the absence of open-source implementations or permissible licenses at the time of the study. RT-DETRv3 was also omitted because the largest variants and configuration files were not released, and the sole PaddlePaddle implementation could not be integrated into the PyTorch-based evaluation pipeline used in this work.
The findings demonstrate that current real-time transformer-based detectors are suitable for edge inference in aerial environments and can be effectively adapted to UAV platforms through fine-tuning. Beyond empirical evaluation, this work provides an overview of the contemporary object detection landscape, situating real-time DETR approaches within the broader context of small object detection and aerial applications. The research questions were addressed satisfactorily, and deployment feasibility was demonstrated through quantitative and qualitative analysis. Tämä diplomityö tutkii viimeisintä tekniikkaa edustavien, reaaliaikaisten DETR-pohjaisten kohteentunnistusmallien soveltuvuutta ilmakuviin perustuvassa reunalaskennassa. Vertailuun valitut avoimen lähdekoodin mallit, joilla on ei-rajoittavat lisenssit, ovat RT-DETR, RT-DETRv2, D-FINE,DEIM, DEIMv2, LW-DETR, ja RF-DETR. Mallit hienosäädettiin VisDrone-kuva-aineistolla käyttäen kunkin julkaisijan tarjoamia alkuperäisiä koulutusmäärittelyjä. Mallit koulutettiin rajallisilla resursseilla varustetulla työasemalla, minkä jälkeen ne muunnettiin TensorRT-malleiksi ja arvioitiin NVIDIA Jetson Orin Nano -alustalla tarkkuuden, viiveen ja käytännön käyttöönotettavuuden mittaamiseksi UAV-pohjaisissa tunnistusympäristöissä.
Jokaisen mallinperheen suurimmat julkisesti saatavilla olevat variantit saavuttivat noin 20 FPS:n reaaliaikaisen suorituskyvyn Jetson-laitteella. Vaikka VisDrone sisältää pääosin pieniä kohteita,kaikki arvioidut mallit ylittivät 25 AP:n tason. Paras tulos saatiin D-FINE-X-mallilla, joka oli esikoulutettu Objects365-aineistolla ja jatkokoulutettu COCO-aineistolla; malli saavutti tarkkuutta kuvaavat arvot 31.65 AP0.5∶0.95 ja 50.7 AP0.5. Huomionarvoista on, että myöhemmät arkkitehtuurit, kuten DEIM, raportoivat alkuperäisissä julkaisuissaan korkeampaa tarkkuutta, mutta tässä työssä D-FINE-X pysyi vahvimpana mallina.
Useita ilmakuvaukseen erikoistuneita malleja, kuten UAV-DETR, Drone-DETR ja hiljattain esitelty RT-DETRv4, ei voitu sisällyttää vertailuun, koska niistä ei ollut saatavilla avoimen lähdekoodin toteutuksia tai riittävän sallivia lisenssejä tutkimuksen tekohetkellä. Myös RT-DETRv3 jätettiin arvioinnin ulkopuolelle, sillä suurimman mallivarianttien painot ja konfiguraatiotiedosto eivät olleet julkisia, ja ainoaa saatavilla olevaa PaddlePaddle-toteutusta ei voitu integroida tämän työnPyTorch-pohjaiseen arviointiprotokollaan.
Tulokset osoittavat, että nykyiset reaaliaikaiset transformer-pohjaiset tunnistusmallit soveltuvat reunalaskentaan ilmakuvausympäristöissä ja että niitä voidaan tehokkaasti mukauttaa UAV-käyttöön hienosäädön avulla. Empiirisen arvioinnin ohella työ tarjoaa katsauksen tämänhetkiseen kohteentunnistuksen tutkimuskenttään ja asemoi reaaliaikaiset DETR-mallit laajempaan pienten kohteiden tunnistuksen ja ilmakuvasovellusten kontekstiin. Käyttöönoton toteutettavuus osoitettiin sekä määrällisen että laadullisen analyysin avulla ja tutkimuskysymyksiin saatiin kiitettävät vastaukset.
The largest publicly available variants of each model achieved real-time throughput of approximately 20 FPS on the Jetson device. Despite the predominance of small objects in VisDrone, all detectors surpassed 25 AP, with the D-FINE-X model—pre-trained on Objects365 and further tuned on COCO—achieving the highest performance, reaching 31.65 AP0.5∶0.95 and 50.7 AP0.5. Notably, later architectures such as DEIM report higher accuracy in their original publications, yet in our experiments D-FINE-X remained the strongest model.
Several domain-specific detectors, including UAV-DETR, Drone-DETR, and the recently introduced RT-DETRv4, could not be included due to the absence of open-source implementations or permissible licenses at the time of the study. RT-DETRv3 was also omitted because the largest variants and configuration files were not released, and the sole PaddlePaddle implementation could not be integrated into the PyTorch-based evaluation pipeline used in this work.
The findings demonstrate that current real-time transformer-based detectors are suitable for edge inference in aerial environments and can be effectively adapted to UAV platforms through fine-tuning. Beyond empirical evaluation, this work provides an overview of the contemporary object detection landscape, situating real-time DETR approaches within the broader context of small object detection and aerial applications. The research questions were addressed satisfactorily, and deployment feasibility was demonstrated through quantitative and qualitative analysis.
Jokaisen mallinperheen suurimmat julkisesti saatavilla olevat variantit saavuttivat noin 20 FPS:n reaaliaikaisen suorituskyvyn Jetson-laitteella. Vaikka VisDrone sisältää pääosin pieniä kohteita,kaikki arvioidut mallit ylittivät 25 AP:n tason. Paras tulos saatiin D-FINE-X-mallilla, joka oli esikoulutettu Objects365-aineistolla ja jatkokoulutettu COCO-aineistolla; malli saavutti tarkkuutta kuvaavat arvot 31.65 AP0.5∶0.95 ja 50.7 AP0.5. Huomionarvoista on, että myöhemmät arkkitehtuurit, kuten DEIM, raportoivat alkuperäisissä julkaisuissaan korkeampaa tarkkuutta, mutta tässä työssä D-FINE-X pysyi vahvimpana mallina.
Useita ilmakuvaukseen erikoistuneita malleja, kuten UAV-DETR, Drone-DETR ja hiljattain esitelty RT-DETRv4, ei voitu sisällyttää vertailuun, koska niistä ei ollut saatavilla avoimen lähdekoodin toteutuksia tai riittävän sallivia lisenssejä tutkimuksen tekohetkellä. Myös RT-DETRv3 jätettiin arvioinnin ulkopuolelle, sillä suurimman mallivarianttien painot ja konfiguraatiotiedosto eivät olleet julkisia, ja ainoaa saatavilla olevaa PaddlePaddle-toteutusta ei voitu integroida tämän työnPyTorch-pohjaiseen arviointiprotokollaan.
Tulokset osoittavat, että nykyiset reaaliaikaiset transformer-pohjaiset tunnistusmallit soveltuvat reunalaskentaan ilmakuvausympäristöissä ja että niitä voidaan tehokkaasti mukauttaa UAV-käyttöön hienosäädön avulla. Empiirisen arvioinnin ohella työ tarjoaa katsauksen tämänhetkiseen kohteentunnistuksen tutkimuskenttään ja asemoi reaaliaikaiset DETR-mallit laajempaan pienten kohteiden tunnistuksen ja ilmakuvasovellusten kontekstiin. Käyttöönoton toteutettavuus osoitettiin sekä määrällisen että laadullisen analyysin avulla ja tutkimuskysymyksiin saatiin kiitettävät vastaukset.
