Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Väitöskirjat
  • Näytä viite
  •   Etusivu
  • Trepo
  • Väitöskirjat
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Computational Modelling of Early Language Acquisition : Towards naturalistic simulations and robust model assessment

Cruz Blandón, María Andrea (2025)

 
Avaa tiedosto
978-952-03-4043-8.pdf (9.524Mt)
Lataukset: 



Cruz Blandón, María Andrea
Tampere University
2025

Tieto- ja sähkötekniikan tohtoriohjelma - Doctoral Programme in Computing and Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Väitöspäivä
2025-09-18
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:ISBN:978-952-03-4043-8
Tiivistelmä
Early language acquisition is a complex developmental process in which infants rapidly develop linguistic capabilities. During the first year of life, infants demonstrate superficially effortless early proficiency in this learning process despite cognitive and sensory constraints related to the developmental stage in which this process occurs. Studying infant language acquisition is inherently challenging, as infants cannot explicitly communicate their learning progress. This requires researchers to rely on indirect behavioural and neural measurements to assess their linguistic skills. Complementary computational modelling offers an approach to studying the process, enabling the testing of hypotheses about language learning mechanisms, required language input, and other developmental factors that are difficult to investigate experimentally. However, the effectiveness of computational models is affected by how ecologically valid the simulation setup is, including the assumptions and data used to model the learning environment, the decisions made about learning mechanisms (including, for example, naturalness of the processing and the model representations), and the robustness of evaluation methods used to compare the model’s behaviour against infant data.

This thesis addresses two key challenges in computational modelling of infant language acquisition: improving and extending the practices on comparing models against empirical infant data, especially when the available infant data is noisy, and increasing the ecological validity of the learning simulations. To tackle the first challenge, this work introduces a new evaluation framework that incorporates robust empirical data on infant language, accounts for multiple linguistic capabilities in parallel, and aligns with the experimental practices used to study infants’ language behaviours. This approach supports creating and assessing increasingly holistic models that better reflect infant learning trajectories and contributes to standardising model evaluation practices.

To address the second challenge, the thesis explores how computational models can simulate infant learning under more realistic conditions than in the past studies. The selected self-supervised neural network models rely solely on acoustic speech input without linguistic priors, simulating statistical learning as a core mechanism of language development. Furthermore, this work integrates empirical estimates of daily speech exposure and pioneers the inclusion of prenatal language experience in modelling studies, an aspect rarely considered in previous research. The results of these simulations suggest that statistical learning and other cognitive hypotheses, such as the “less is more” hypothesis, are not necessarily mutually exclusive, and that statistical learning can operate despite limitations in the speech signal available to infants.

Overall, the contributions of the thesis are bridging the gap between computational models of infant language learning and real-life language acquisition experiences by advancing more ecologically valid simulations of infant language learning and closer comparisons between models’ and infants’ linguistic behaviours that account for multi-capability learners and noisy behavioural data. The results of this thesis highlight the importance and challenges of developing more realistic simulations of language learning.
 
La adquisición temprana del lenguaje es un proceso de desarrollo complejo en el que los bebés desarrollan rápidamente sus capacidades lingüísticas. A pesar de las limita-ciones cognitivas y sensoriales propias de su etapa de desarrollo, los bebés demuestran una competencia temprana que parece darse sin esfuerzo durante el primer año de vida. Estudiar la adquisición del lenguaje en la infancia representa un desafío, ya que los bebés no pueden comunicar explícitamente su progreso en el aprendizaje. Por esta razón, los investigadores deben basarse en mediciones indirectas conductuales y neuronales para evaluar sus habilidades lingüísticas. Como enfoque complementario, la modelización computacional permite investigar este proceso, facilitando la formu-lación y prueba de hipótesis sobre los mecanismos de aprendizaje del lenguaje, el tipo de exposición lingüística necesaria y otros factores del desarrollo que son difíciles de analizar experimentalmente con los infantes. Sin embargo, la efectividad de los mod-elos computacionales depende de qué tan realistas sean las condiciones de simulación, lo que incluye las suposiciones y datos utilizados para modelar el entorno de apren-dizaje, las decisiones tomadas sobre los mecanismos de aprendizaje y la robustez de los métodos de evaluación empleados para comparar el comportamiento del modelo con los datos de comportamiento de los bebés.

Esta tesis aborda dos desafíos clave en la modelización computacional de la adquisi-ción del lenguaje: mejorar y ampliar las prácticas de comparación entre modelos com-putacionales y datos empíricos de bebés, especialmente cuando estos datos contienen ruido (perturbaciones en los datos), y aumentar la validez ecológica de las simu-laciones de aprendizaje. Para abordar el primer desafío, este trabajo introduce un nuevo marco de evaluación que incorpora datos empíricos robustos sobre el lenguaje infantil, considera múltiples capacidades lingüísticas en paralelo y se alinea con las prácticas experimentales utilizadas para estudiar el comportamiento lingüístico de los bebés. Este enfoque favorece la creación y evaluación de modelos más holís-ticos, que reflejan mejor las trayectorias de aprendizaje infantil, y contribuye a la standarización de las prácticas de evaluación de modelos.

Para abordar el segundo desafío, la tesis explora cómo los modelos computa-cionales pueden simular el aprendizaje infantil en condiciones más realistas que en estudios previos. Los modelos seleccionados, redes neuronales auto-supervisadas, dependen exclusivamente del habla acústica sin conocimientos lingüísticos previos, lo que permite simular el aprendizaje estadístico como un mecanismo central en el desarrollo del lenguaje. Además, este trabajo integra estimaciones empíricas de la ex-posición diaria al habla y es pionero en la incorporación de la experiencia lingüística prenatal en estos modelos, un aspecto raramente considerado en investigaciones an-teriores. Los resultados de estas simulaciones sugieren que el aprendizaje estadístico y otras hipótesis cognitivas, como la hipótesis de “menos es más”, no son necesari-amente excluyentes entre sí y que el aprendizaje estadístico puede operar incluso cuando la señal del habla disponible para los bebés es limitada.

En general, las contribuciones de esta tesis consisten en reducir la brecha entre los modelos computacionales del aprendizaje del lenguaje infantil y la experiencia real de adquisición del lenguaje. Esto se logra mediante el desarrollo de simulaciones más realistas del aprendizaje del lenguaje infantil y comparaciones más precisas entre el comportamiento lingüístico de los modelos y el de los bebés, teniendo en cuenta aprendices con múltiples capacidades y datos conductuales con ruido. Los resultados de esta tesis resaltan la importancia y los desafíos de desarrollar simulaciones más realistas del aprendizaje del lenguaje.

Traducido automáticamente con ChatGPT. Versión editada, traducción no textual del inglés.
 
Kokoelmat
  • Väitöskirjat [5325]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste