Precise detection of fiducials using machine learning
Nikula, Jonas (2023)
Nikula, Jonas
2023
Sähkötekniikan DI-ohjelma - Master's Programme in Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2023-06-09
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202305266186
https://urn.fi/URN:NBN:fi:tuni-202305266186
Tiivistelmä
Machine learning methods, specifically convolutional neural networks, can yield good results in many computer vision tasks. With a suitable model and good training data, machine learning models outperform more traditional methods in many fields.
In this thesis we investigate the capability of a machine learning system for detecting fiducials from images. Fiducials are markers in the image, that can be used for a variety of purposes. We collect and augment data, train different machine learning models, and then compare the results of the models with each other and a traditional baseline.
The results of a sliding window based approach, trained with an augmented dataset, are quite remarkable. Our real life application needs an accuracy of less than 1 pixel. Our object detection model, trained with an augmented dataset based on only 486 original images, has a 0.418 average precision (AP) at a distance threshold of 1 pixel, and a AP of 0.947 on a threshold of 2 pixels. It outperforms the non-machine learning baseline, and other trained and tested models by a clear margin. Its performance also suggests that with further work it can achieve the performance required in our real-life application. Koneoppimismenetelmät, erityisesti konvoluutioneuroverkot, yltävät hyviin tuloksiin monissa konenäkötehtävissä. Sopivalla mallilla ja hyvällä koulutusdatalla koneoppimismenetelmät suoriutuvat monessa tehtävässä paremmin kuin perinteiset menetelmät.
Tässä työssä tutkitaan koneoppimisjärjestelmän kykyä tunnistaa vertailumerkkejä kuvista. Vertailumerkit ovat merkkejä kuvassa, joita voi käyttää monenlaisiin tarkoituksiin, kuten esimerkiksi kuvassa olevan testikappaleen paikantamiseen. Työssä kerättiin ja generoitiin dataa, koulutettiin erilaisia malleja tällä datalla, ja lopuksi vertailtiin koneoppimismallien tuloksia sekä keskenään että perinteiseen malliin.
Liukuvaan ikkunaan perustuva malli tuottaa merkittäviä tuloksia. Oikea sovelluskohde tarvitsee alle pikselin tarkkuuden. Liukuvaan ikkunaan perustuva hahmontunnistusmalli, joka on koulutettu datalla joka perustuu vain 486 alkuperäiseen kuvaan, saavuttaa yhden pikselin etäisyydellä 0.418 keskimääräisen tarkkuuden (AP) arvon. Kahden pikselin etäisyydellä sen tarkkuus on 0.947. Se suoriutuu paremmin kuin perinteinen vertailumalli, ja on huomattavasti muita testattuja koneoppimismalleja parempi. Näiden tulosten perusteella uskomme että tarvittava tarkkuus voidaan saavuttaa oikeassa sovelluskohteessa suhteellisen pienellä lisätyöllä.
In this thesis we investigate the capability of a machine learning system for detecting fiducials from images. Fiducials are markers in the image, that can be used for a variety of purposes. We collect and augment data, train different machine learning models, and then compare the results of the models with each other and a traditional baseline.
The results of a sliding window based approach, trained with an augmented dataset, are quite remarkable. Our real life application needs an accuracy of less than 1 pixel. Our object detection model, trained with an augmented dataset based on only 486 original images, has a 0.418 average precision (AP) at a distance threshold of 1 pixel, and a AP of 0.947 on a threshold of 2 pixels. It outperforms the non-machine learning baseline, and other trained and tested models by a clear margin. Its performance also suggests that with further work it can achieve the performance required in our real-life application.
Tässä työssä tutkitaan koneoppimisjärjestelmän kykyä tunnistaa vertailumerkkejä kuvista. Vertailumerkit ovat merkkejä kuvassa, joita voi käyttää monenlaisiin tarkoituksiin, kuten esimerkiksi kuvassa olevan testikappaleen paikantamiseen. Työssä kerättiin ja generoitiin dataa, koulutettiin erilaisia malleja tällä datalla, ja lopuksi vertailtiin koneoppimismallien tuloksia sekä keskenään että perinteiseen malliin.
Liukuvaan ikkunaan perustuva malli tuottaa merkittäviä tuloksia. Oikea sovelluskohde tarvitsee alle pikselin tarkkuuden. Liukuvaan ikkunaan perustuva hahmontunnistusmalli, joka on koulutettu datalla joka perustuu vain 486 alkuperäiseen kuvaan, saavuttaa yhden pikselin etäisyydellä 0.418 keskimääräisen tarkkuuden (AP) arvon. Kahden pikselin etäisyydellä sen tarkkuus on 0.947. Se suoriutuu paremmin kuin perinteinen vertailumalli, ja on huomattavasti muita testattuja koneoppimismalleja parempi. Näiden tulosten perusteella uskomme että tarvittava tarkkuus voidaan saavuttaa oikeassa sovelluskohteessa suhteellisen pienellä lisätyöllä.