Comparative analysis of Neural Implicit Representation Methods for 3D Reconstruction
Oja, Atte (2024)
Oja, Atte
2024
Tieto- ja sähkötekniikan kandidaattiohjelma - Bachelor's Programme in Computing and Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2024-05-20
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202405065382
https://urn.fi/URN:NBN:fi:tuni-202405065382
Tiivistelmä
In recent years, advancements in artificial intelligence, robotics, augmented reality, and virtual reality have increased the volume of research that is done on one of the most intriguing topics in the field of computer vision, which is 3D reconstruction. 3D reconstruction is used to replicate the 3D structure of scenes and objects from 2D RGB images. In this thesis, a comparative analysis is done on the three base surface reconstruction methods of SDFStudio, a unified framework for surface reconstruction built on top of a previous project called Nerfstudio.
The three experimented methods are implemented on top of neural networks, which are used to estimate the 3D surfaces of objects and scenes as implicit functions. The experimented methods are NeuS, VolSDF, and UniSurf, which are all implemented based on the similar but older method called NeRF.
Experiments consist of training the models on two different scene-level datasets and two different object-level datasets, including one dataset captured with a consumer device to evaluate the methods’ performance in real-world use cases. Each of the methods is evaluated through both visual and numerical analysis. The numerical metrics are computed from the scene level datasets by comparing it to the ground truth model. In the end, we discuss the strengths and weaknesses of each method based on their visual fidelity and the computed metrics.
This thesis not only advances our knowledge of the latest deep learning-based 3D reconstruction methodologies but also gives us insight into how neural networks can be used in ways that are not ordinary, paving the way for even more innovative solutions in the future. Viimeaikaisten merkittävien kehitysaskelten myötä tekoälyn, robotiikan sekä lisätyn todellisuuden että virtuaalitodellisuuden parissa myös tietokonenäön piiriin kuuluvat 3D-rekonstruktiomenetelmät ovat päätyneet voimakkaan ja yhä kasvavan tutkimustyön kohteeksi. 3D-rekonstruktiota hyödynnetään 3D-rakenteen jäljentämiseen 2D RGB-kuvien perusteella. Tässä tutkielmassa suoritetaan vertaileva analyysi kolmesta erilaisesta 3D-rekonstruktiomenetelmästä, jotka kuuluvat SDFStudio-nimiseen projektiin. SDFStudio on aiemman Nerfstudio-projektin pohjalta kehitetty yhtenäinen kokoelma erilaisille neuraalisille 3D-rekonstruktiomenetelmille.
Tutkimuksessa hyödynnämme kolmea menetelmää, jotka on kehitetty neuroverkkomallien päälle. Neuroverkkoja menetelmissä käytetään ennustamaan tilojen sekä esineiden 3D-pinnan muotoa implisiittisinä funktioina. Tutkitut menetelmät ovat NeuS, VolSDF ja UniSurf, jotka perustuvat samantapaiseen, mutta hieman vanhempaan 3D-rekonstruktiomentelmään NeRF.
Työn kokeellinen osuus koostuu mallien kouluttamisesta neljällä eri kuvista ja kameran asennoista koostuvalla aineistolla. Kaksi aineistoa on kohdistettu tilatason ja kaksi esinetason rekonstruktioon. Esinetason aineistoista toinen on kerätty mobiililaitteella, mikä mahdollistaa menetelmien tehokkuuden vertailun myös todellisissa käyttötilanteissa. Jokaisen menetelmän suoriutumista arvioidaan visuaalisella sekä numeerisella analyysillä. Numeeriset metriikat lasketaan tilatason rekonstruktioista vertaamalla ennustettua 3D-mallia todelliseen tarkkaan malliin. Objektitason rekonstruktioita arvioidaan ainoastaan visuaalisella analyysillä. Lopussa tarkastellaan kunkin menetelmän vahvuuksia ja heikkouksia visuaalisesti jäljentämiskyvyn ja laskettujen metriikoiden perusteella.
Tutkielmassa käytetyt menetelmät ovat jo itse peräisin hyvin tuoreista tutkimuksista ja vastaavanlaisia metodeja tutkitaan ja kehitetään lisää jatkuvalla tahdilla. Tämä tutkielma ei ainoastaan edistä ymmärrystä viimeisimmistä neuraalisista 3D-rekonstruktiomenetelmistä, vaan avartaa myös näkökulmiamme neuroverkkojen hyödyntämiselle normaalista poikkeavilla tavoilla.
The three experimented methods are implemented on top of neural networks, which are used to estimate the 3D surfaces of objects and scenes as implicit functions. The experimented methods are NeuS, VolSDF, and UniSurf, which are all implemented based on the similar but older method called NeRF.
Experiments consist of training the models on two different scene-level datasets and two different object-level datasets, including one dataset captured with a consumer device to evaluate the methods’ performance in real-world use cases. Each of the methods is evaluated through both visual and numerical analysis. The numerical metrics are computed from the scene level datasets by comparing it to the ground truth model. In the end, we discuss the strengths and weaknesses of each method based on their visual fidelity and the computed metrics.
This thesis not only advances our knowledge of the latest deep learning-based 3D reconstruction methodologies but also gives us insight into how neural networks can be used in ways that are not ordinary, paving the way for even more innovative solutions in the future.
Tutkimuksessa hyödynnämme kolmea menetelmää, jotka on kehitetty neuroverkkomallien päälle. Neuroverkkoja menetelmissä käytetään ennustamaan tilojen sekä esineiden 3D-pinnan muotoa implisiittisinä funktioina. Tutkitut menetelmät ovat NeuS, VolSDF ja UniSurf, jotka perustuvat samantapaiseen, mutta hieman vanhempaan 3D-rekonstruktiomentelmään NeRF.
Työn kokeellinen osuus koostuu mallien kouluttamisesta neljällä eri kuvista ja kameran asennoista koostuvalla aineistolla. Kaksi aineistoa on kohdistettu tilatason ja kaksi esinetason rekonstruktioon. Esinetason aineistoista toinen on kerätty mobiililaitteella, mikä mahdollistaa menetelmien tehokkuuden vertailun myös todellisissa käyttötilanteissa. Jokaisen menetelmän suoriutumista arvioidaan visuaalisella sekä numeerisella analyysillä. Numeeriset metriikat lasketaan tilatason rekonstruktioista vertaamalla ennustettua 3D-mallia todelliseen tarkkaan malliin. Objektitason rekonstruktioita arvioidaan ainoastaan visuaalisella analyysillä. Lopussa tarkastellaan kunkin menetelmän vahvuuksia ja heikkouksia visuaalisesti jäljentämiskyvyn ja laskettujen metriikoiden perusteella.
Tutkielmassa käytetyt menetelmät ovat jo itse peräisin hyvin tuoreista tutkimuksista ja vastaavanlaisia metodeja tutkitaan ja kehitetään lisää jatkuvalla tahdilla. Tämä tutkielma ei ainoastaan edistä ymmärrystä viimeisimmistä neuraalisista 3D-rekonstruktiomenetelmistä, vaan avartaa myös näkökulmiamme neuroverkkojen hyödyntämiselle normaalista poikkeavilla tavoilla.
Kokoelmat
- Kandidaatintutkielmat [8996]