Parameter Optimization for Retrieval-Augmented Generation Systems
Kuusisto, Mikko (2025)
Kuusisto, Mikko
2025
Teknis-luonnontieteellinen DI-ohjelma - Master's Programme in Science and Engineering
Tekniikan ja luonnontieteiden tiedekunta - Faculty of Engineering and Natural Sciences
Hyväksymispäivämäärä
2025-12-31
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-2025123112279
https://urn.fi/URN:NBN:fi:tuni-2025123112279
Tiivistelmä
Retrieval-Augmented Generation (RAG) is a modeling approach that incorporates domainspecific context into Large Language Models (LLMs) in order to provide more accurate answers to user queries. This thesis investigates how answers generated by RAG models can be effectively evaluated using suitable metrics and identifies optimal context-related parameters for such models. The large language models used in this work are based on the transformer architecture, which predicts the most probable tokens using attention mechanisms. Retrieval-Augmented Generation employs hybrid search, combining semantic search with traditional keyword-based search to retrieve the most relevant segments of the context, referred to as chunks. Using the retrieved context, predefined instructions, and the user query, the RAG model generates a response.
The generated answers are evaluated using the RAGAS library, which provides multiple metrics for RAG validation. In this thesis, answer similarity, answer correctness, context precision, and context recall are used to assess overall accuracy and contextual relevance. Some of these metrics require a ground truth answer, which serves as a reference for comparison with the modelgenerated response. The ground truth is constructed by a domain specialist to ensure correctness and contextual appropriateness. Each metric evaluates a different aspect of the RAG pipeline, and together they provide a reliable validation framework.
Bayesian optimization techniques are employed to optimize the context parameters, specifically the number of retrieved chunks (Top-N) and the chunk size. Bayesian optimization is well suited for optimizing black-box functions with high evaluation costs, making it an appropriate choice given the computational expense of answer evaluation. In the test setup, the Top-N parameter is limited to the range 1–10, and the chunk size is selected from the set {500, 2000, 5000, 10000, 15000}.
The optimization results indicate that the best-performing values for Top-N lie between 6 and 8, with the strongest performance observed at 6, while 7 and 8 yield comparable results. The optimal chunk size is found to be 2000 tokens. The results indicate that very low or very high values of the Top-N parameter, as well as extremely small or large chunk sizes, lead to a decrease in the overall evaluation metric. In this thesis, the evaluation metrics are unweighted, which results in context precision and context recall having a greater influence on the overall score.
Future work may explore weighting the evaluation metrics according to the specific objectives of the RAG model. Additionally, the number of evaluation questions can be increased, and the evaluation methodology can be further refined to strengthen the validation of the results presented in this study. Hakupohjainen generointimalli (eng. RAG) on suuriin kielimalleihin perustuva malli, jonka avulla voidaan vastata tarkasti alakohtaisiin kysymyksiin. RAG malli hyödyntää valittuja dokumentteja kontekstina, josta suuri kielimalli hakee vastaukset kysymyksiin. Tässä työssä tutkitaan, miten RAG-mallien tuottamia vastauksia voidaan arvioida tehokkaasti ja millä kontekstiin liittyvillä parametreilla malli antaa parhaita vastauksia. Diplomityössä käytetyn suuren kielimallin arkkitehtuuri perustuu transformer-arkkitehtuuriin, joka ennustaa todennäköisimpää tekstin alkiota (eng. token). Transformer-arkkitehtuuri muodostaa tekstiä syöttämällä todennäköisimmän tekstin alkion huomiomekanismin (eng. Attention) avulla. RAG-malli käyttää hybridihaun menetelmää, joka yhdistää semanttisen ja avainsanahaun, jotta kontekstista voidaan löytää oleellisimmat kappaleet (eng. chunks). RAG-malli tuottaa vastauksen käyttäen kontekstia, ennalta määriteltyjä ohjeita ja käyttäjän kyselyä.
Tuotettuja vastauksia arvioidaan RAGAS-kirjaston avulla, joka tarjoaa useita mittareita RAGmallien tuottamien vastausten arviointiin. Tässä työssä käytetään mittareina vastausten samankaltaisuutta, oikeellisuutta, kontekstin tarkkuutta (eng. precision) ja kontekstin kattavuutta (eng. recall) arvioitaessa vastauksien tarkkuutta ja sitä, että annettu vastaus on kontekstuaalisesti tarkka. Osa mittareista vaatii ihmisen antaman vastauksen (eng. Ground Truth), johon mallin tuottamia vastauksia verrataan. Kyseiset vastauksen laatii alan asiantuntija varmistaakseen niiden oikeellisuuden. Kukin mittari arvioi RAG-prosessin eri osa-aluetta, ja yhdessä ne muodostavat luotettavan arviointikehyksen.
Kontekstiparametrien optimointiin käytetään Bayesilaista optimointia. Optimoitavia parametreja työssä ovat haettavien kappaleiden määrä (Top-N) ja kappaleiden koko (Chunk Size). Bayesilainen optimointi soveltuu hyvin määrittelemättömien funktioiden optimointiin, joiden arviointi on kustannuksiltaan kallista. Tässä työssä käytettävät evaluointimetriikat ovat laskennallisesti vaativia. Tästä syystä Bayesialainen optimointi soveltuu työn ongelman ratkaisemiseen. Testiasetuksissa Top-N-parametri on rajoitettu välille 1–10, ja chunkin koko valitaan joukosta {500, 2000, 5000, 10000, 15000}.
Optimointitulokset osoittavat, että parhaat Top-N-arvot sijoittuvat välille 6–8, ja paras suorituskyky havaittiin arvolla 6, kun taas arvot 7 ja 8 tuottivat lähes vastaavat tulokset. Optimaalinen chunkin koko on 2000 tokenia. Tuloksista havaitaan, että hyvin alhaiset tai hyvin korkeat Top-N-arvot, samoin kuin äärimmäisen pienet tai suuret chunkien koot, johtavat tulosten heikkenemiseen. Tässä työssä arviointimittarit on jätetty painottamatta. Työssä havaittiin kontekstin tarkkuuden (precision) ja kattavuuden (recall) vaikuttavat muita mittareita enemmän optimointituloksiin.
Tulevaisuudessa arviointimittareiden painotusta voidaan muokata RAG-mallin tavoitteiden mukaisesti. Lisäksi arvioitavien kysymysten määrää voidaan lisätä ja arviointimenetelmää edelleen kehittää tulosten validoinnin vahvistamiseksi.
The generated answers are evaluated using the RAGAS library, which provides multiple metrics for RAG validation. In this thesis, answer similarity, answer correctness, context precision, and context recall are used to assess overall accuracy and contextual relevance. Some of these metrics require a ground truth answer, which serves as a reference for comparison with the modelgenerated response. The ground truth is constructed by a domain specialist to ensure correctness and contextual appropriateness. Each metric evaluates a different aspect of the RAG pipeline, and together they provide a reliable validation framework.
Bayesian optimization techniques are employed to optimize the context parameters, specifically the number of retrieved chunks (Top-N) and the chunk size. Bayesian optimization is well suited for optimizing black-box functions with high evaluation costs, making it an appropriate choice given the computational expense of answer evaluation. In the test setup, the Top-N parameter is limited to the range 1–10, and the chunk size is selected from the set {500, 2000, 5000, 10000, 15000}.
The optimization results indicate that the best-performing values for Top-N lie between 6 and 8, with the strongest performance observed at 6, while 7 and 8 yield comparable results. The optimal chunk size is found to be 2000 tokens. The results indicate that very low or very high values of the Top-N parameter, as well as extremely small or large chunk sizes, lead to a decrease in the overall evaluation metric. In this thesis, the evaluation metrics are unweighted, which results in context precision and context recall having a greater influence on the overall score.
Future work may explore weighting the evaluation metrics according to the specific objectives of the RAG model. Additionally, the number of evaluation questions can be increased, and the evaluation methodology can be further refined to strengthen the validation of the results presented in this study.
Tuotettuja vastauksia arvioidaan RAGAS-kirjaston avulla, joka tarjoaa useita mittareita RAGmallien tuottamien vastausten arviointiin. Tässä työssä käytetään mittareina vastausten samankaltaisuutta, oikeellisuutta, kontekstin tarkkuutta (eng. precision) ja kontekstin kattavuutta (eng. recall) arvioitaessa vastauksien tarkkuutta ja sitä, että annettu vastaus on kontekstuaalisesti tarkka. Osa mittareista vaatii ihmisen antaman vastauksen (eng. Ground Truth), johon mallin tuottamia vastauksia verrataan. Kyseiset vastauksen laatii alan asiantuntija varmistaakseen niiden oikeellisuuden. Kukin mittari arvioi RAG-prosessin eri osa-aluetta, ja yhdessä ne muodostavat luotettavan arviointikehyksen.
Kontekstiparametrien optimointiin käytetään Bayesilaista optimointia. Optimoitavia parametreja työssä ovat haettavien kappaleiden määrä (Top-N) ja kappaleiden koko (Chunk Size). Bayesilainen optimointi soveltuu hyvin määrittelemättömien funktioiden optimointiin, joiden arviointi on kustannuksiltaan kallista. Tässä työssä käytettävät evaluointimetriikat ovat laskennallisesti vaativia. Tästä syystä Bayesialainen optimointi soveltuu työn ongelman ratkaisemiseen. Testiasetuksissa Top-N-parametri on rajoitettu välille 1–10, ja chunkin koko valitaan joukosta {500, 2000, 5000, 10000, 15000}.
Optimointitulokset osoittavat, että parhaat Top-N-arvot sijoittuvat välille 6–8, ja paras suorituskyky havaittiin arvolla 6, kun taas arvot 7 ja 8 tuottivat lähes vastaavat tulokset. Optimaalinen chunkin koko on 2000 tokenia. Tuloksista havaitaan, että hyvin alhaiset tai hyvin korkeat Top-N-arvot, samoin kuin äärimmäisen pienet tai suuret chunkien koot, johtavat tulosten heikkenemiseen. Tässä työssä arviointimittarit on jätetty painottamatta. Työssä havaittiin kontekstin tarkkuuden (precision) ja kattavuuden (recall) vaikuttavat muita mittareita enemmän optimointituloksiin.
Tulevaisuudessa arviointimittareiden painotusta voidaan muokata RAG-mallin tavoitteiden mukaisesti. Lisäksi arvioitavien kysymysten määrää voidaan lisätä ja arviointimenetelmää edelleen kehittää tulosten validoinnin vahvistamiseksi.
