Enhancing information accessibility in infrastructure construction: Using retrieval-augmented generation for efficient parsing of information requirements
Junttu, Jaakko (2025)
Junttu, Jaakko
2025
Rakennustekniikan DI-ohjelma - Master's Programme in Civil Engineering
Rakennetun ympäristön tiedekunta - Faculty of Built Environment
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2025-08-28
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202508288537
https://urn.fi/URN:NBN:fi:tuni-202508288537
Tiivistelmä
Information management plays a central role in modern infrastructure projects, requiring the efficient interpretation of various project documents such as requests for proposals and requirement specifications. Identifying and summarizing the information requirements within these documents can be time-consuming and prone to error. Retrieval-Augmented Generation (RAG) combines the generative capabilities of Large Language Models (LLMs) with vector-based retrieval, potentially improving information access and interpretation in the context of infrastructure projects.
This thesis investigates whether a simple hybrid RAG implementation can serve as a useful tool for the automatic retrieval and summarization of information requirements. A RAG system is implemented in which project documents are converted into plain text, divided into smaller chunks, vectorized using an embedding model, and stored in a database. Based on this data, the language model is used to answer user queries.
The study is guided by three research questions: (1) How effectively can a hybrid RAG system retrieve relevant information requirements from infrastructure project documents? (2) Can the system accurately summarize and interpret the retrieved content? (3) What are the main challenges and limitations of such a system?
The system is tested on real-world datasets from infrastructure projects, and its performance is evaluated accordingly. The results suggest that the RAG approach shows potential in supporting information modeling tasks, particularly in preprocessing and extracting relevant content from large documents. However, challenges remain, especially in retrieval accuracy and the language model’s ability to consistently utilize the retrieved information. The findings offer a foundation for future research and the further development of RAG-based methods for information management in infrastructure projects. Tiedonhallinta on keskeinen osa nykyaikaisia infrahankkeita, ja sen onnistuminen edellyttää erilaisten projektidokumenttien, kuten tarjouspyyntöjen ja vaatimuserittelyjen, tehokasta tulkintaa. Näiden asiakirjojen sisältämien tietovaatimusten tunnistaminen ja yhteenveto voi kuitenkin olla aikaa vievää ja virhealtista. Retrieval-Augmented Generation (RAG) -menetelmä yhdistää suurten kielimallien (LLM) kyvyn tuottaa tekstiä vektoripohjaiseen tiedonhakuun, ja sen avulla voidaan mahdollisesti parantaa tiedon saavutettavuutta ja tulkintaa infrastruktuuriprojekteissa.
Tämän diplomityön tavoitteena on selvittää, voiko yksinkertaistettu ns. hybridi RAG -toteutus toimia hyödyllisenä työkaluna tietovaatimusten automaattisessa haussa ja tiivistämisessä. Tutkimuksessa toteutetaan RAG-järjestelmä, jossa dokumentit muunnetaan tekstimuotoon, jaetaan pienempiin osiin, vektoroidaan ja tallennetaan tietokantaan. Näiden tietojen perusteella kielimalli vastaa käyttäjän kyselyihin.
Tutkimus perustuu kolmen tutkimuskysymyksen tarkasteluun: (1) Kuinka tehokkaasti hybridi RAG -järjestelmä löytää infrahankkeiden dokumenteista olennaiset tietovaatimukset? (2) Onko järjestelmä kykenevä tiivistämään ja tulkitsemaan dokumenttien sisältöä tarkasti? (3) Mitkä ovat järjestelmän keskeisimmät haasteet ja rajoitukset?
Aineistona käytetään todellisia infraprojektien asiakirjoja, ja järjestelmän suorituskykyä arvioidaan niiden pohjalta. Tulosten perusteella RAG-menetelmällä on potentiaalia tukea tietomallintamista, erityisesti dokumenttien esikäsittelyssä ja olennaisen tiedon esiin nostamisessa. Haasteita liittyy kuitenkin erityisesti haun tarkkuuteen sekä kielimallin kykyyn hyödyntää haettua tietoa johdonmukaisesti. Tulokset tarjoavat suuntaa jatkotutkimukselle ja RAG-pohjaisten menetelmien kehittämiselle infrahankkeiden tiedonhallinnassa.
This thesis investigates whether a simple hybrid RAG implementation can serve as a useful tool for the automatic retrieval and summarization of information requirements. A RAG system is implemented in which project documents are converted into plain text, divided into smaller chunks, vectorized using an embedding model, and stored in a database. Based on this data, the language model is used to answer user queries.
The study is guided by three research questions: (1) How effectively can a hybrid RAG system retrieve relevant information requirements from infrastructure project documents? (2) Can the system accurately summarize and interpret the retrieved content? (3) What are the main challenges and limitations of such a system?
The system is tested on real-world datasets from infrastructure projects, and its performance is evaluated accordingly. The results suggest that the RAG approach shows potential in supporting information modeling tasks, particularly in preprocessing and extracting relevant content from large documents. However, challenges remain, especially in retrieval accuracy and the language model’s ability to consistently utilize the retrieved information. The findings offer a foundation for future research and the further development of RAG-based methods for information management in infrastructure projects.
Tämän diplomityön tavoitteena on selvittää, voiko yksinkertaistettu ns. hybridi RAG -toteutus toimia hyödyllisenä työkaluna tietovaatimusten automaattisessa haussa ja tiivistämisessä. Tutkimuksessa toteutetaan RAG-järjestelmä, jossa dokumentit muunnetaan tekstimuotoon, jaetaan pienempiin osiin, vektoroidaan ja tallennetaan tietokantaan. Näiden tietojen perusteella kielimalli vastaa käyttäjän kyselyihin.
Tutkimus perustuu kolmen tutkimuskysymyksen tarkasteluun: (1) Kuinka tehokkaasti hybridi RAG -järjestelmä löytää infrahankkeiden dokumenteista olennaiset tietovaatimukset? (2) Onko järjestelmä kykenevä tiivistämään ja tulkitsemaan dokumenttien sisältöä tarkasti? (3) Mitkä ovat järjestelmän keskeisimmät haasteet ja rajoitukset?
Aineistona käytetään todellisia infraprojektien asiakirjoja, ja järjestelmän suorituskykyä arvioidaan niiden pohjalta. Tulosten perusteella RAG-menetelmällä on potentiaalia tukea tietomallintamista, erityisesti dokumenttien esikäsittelyssä ja olennaisen tiedon esiin nostamisessa. Haasteita liittyy kuitenkin erityisesti haun tarkkuuteen sekä kielimallin kykyyn hyödyntää haettua tietoa johdonmukaisesti. Tulokset tarjoavat suuntaa jatkotutkimukselle ja RAG-pohjaisten menetelmien kehittämiselle infrahankkeiden tiedonhallinnassa.
