Radioamatöörilähetyksien puheentunnistus
Sundberg, Iiro (2023)
Sundberg, Iiro
2023
Master's Programme in Computational Big Data Analytics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2023-05-30
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202304254434
https://urn.fi/URN:NBN:fi:tuni-202304254434
Tiivistelmä
Viimeaikaiset edistysaskeleet tekoälyn käytössä (erityisesti syvät neuroverkot) ovat tehneet mahdolliseksi ns. päästä-päähän-puheentunnistusjärjestelmien suunnittelun ja rakentamisen. Aiemmat menetelmät perustuivat tutkijoiden tunnistamiin puheen toistuviin ominaisuuksiin kuten äänteisiin. Uudet menetelmät käyttävät tyypillisesti kielimallia korjaamaan tunnistettuja lauseita ja nämä on koulutettu häiriöttömällä ja selvillä äänillä, jotka on tallennettu hyvälaatuisella mikrofonilla.
Radioamatöörien puhelähetykset ovat kuitenkin usein kohinaisempia kuin esimerkiksi matkapuhelimen välityksellä käydyt (tallennetut) keskustelut, ja puhe saattaa häipyä radiotiellä olevien ilmastollisten ilmiöiden vuoksi hetkittäin lähes tai kokonaan kuulumattomiin. Lisäksi keskustelijoita voi olla samaan aikaan useita (yhtäaikaisia lähetyksiä) ja radiovastaanottimesta kuulua useita ääniä yhtä aikaa. Tässä opinnäytetyössä tutkitaan nykyaikaisten puheentunnistusmenetelmien toimintaa radioamatöörien puhelähetysten litteroinnissa tekstiksi. Työ aloitettiin tutustumalla kirjallisuuteen ja erilaisiin puheentunnistusmenetelmiin sekä etsittiin Internetistä litteroituja puhemateriaaleja ja esikoulutettuja neuroverkkoja. Tällä hetkellä on vain muutamia avoimesti käytettävissä olevia koulutettuja suomen kieltä osaavia neuroverkkoja. Muille kielille näitä kuitenkin löytyy ja näiden uudelleen kouluttamista suomenkielisellä materiaalilla tutkittiin.
Koulutusmateriaaliksi kerättiin 2021–22 aikana Internetiin liitetyllä ohjelmistoradiolla noin 100 tunnin aineisto. Tästä aineistosta litteroitiin käsin noin tunnin mittainen opetus- ja kahden tunnin todennusaineisto, jolla vertailtiin eri tunnistimien suorituskykyä. Lopputuloksena Microsoft Office 365 -puheentunnistuksella saavutettiin 64,17 %, Googlen SpeechRecognition-Python-kirjastolla 78,30 %, ja itsekoulutetuilla QuartzNet ja Conformer-CTC Large -puheentunnistusmalleilla 99,99 % ja 100,14 % sanavirhesuhteet. Työn lopputuloksena voidaan päätellä, että suurten materiaalien litteroimiseksi tehokkaasti tarvitaan suuri joukko henkilöitä ja että pieni koulutusmateriaalimäärä johtaa helposti ylisovittumiseen. Tämä puolestaan haittaa ennen kuulemattoman puheen tunnistusta, koska se ei vastaa opetusaineistoa. Recent advances in artificial intelligence (especially deep neural networks) have made it possible for designing and building automatic speech recognition systems which can be trained end to end with transcribed speech data. In comparison with earlier methods which utilized the repeatable characteristics of the speech - for example - phonemes, these new methods use a language model to correct the results of the recognized sentences. Typically, these systems are trained with non-disturbed and clear voices recorded with a good quality microphone.
However, the speech transmissions by the amateur radio enthusiasts are typically noisier than, e.g., speech transmitted by the mobile phones. In addition, the speech may temporarily fade away completely due to atmospheric phenomena. Also, several transmissions can exist simultaneously and thus several different voices heard in chorus with a radio receiver. This thesis concentrates on using the modern automatic speech recognition methods for transcrib-ing the noisy amateur radio speech to text. The thesis work was started by studying literature and different speech recognition methods and searching the web for transcribed speech sets and pre-trained neural networks. Currently, only a few openly available trained neural networks exist for Finnish language. However, there are several networks available for other languages. These are studied as a starting point for transfer learning, i.e., retrain the neural network with Finnish language material.
To collect the radio amateur speech for training of the neural networks over 100 hour of transmissions were recorded during the 2021-22 with a websoftwareradio and an hour of these was transcribed by hand for the training material of the neural networks and two hours was transcribed for validation material which was used to compare different speech recognition systems.
The results of the comparison were that Microsoft speech recognition engine could achieve word error rate of 64,17 %, Google speech recognition engine 78,30 %, and own implementa-tions with QuartzNet and Conformer-CTC Large achieved 99,99 % and 100,14 %. It can be concluded that transcribing such a large material requires several persons to be efficient and that the small amount of teaching data results easily to over-fitting which in turn leads to poor generalization (high word error rate for unheard speech).
Radioamatöörien puhelähetykset ovat kuitenkin usein kohinaisempia kuin esimerkiksi matkapuhelimen välityksellä käydyt (tallennetut) keskustelut, ja puhe saattaa häipyä radiotiellä olevien ilmastollisten ilmiöiden vuoksi hetkittäin lähes tai kokonaan kuulumattomiin. Lisäksi keskustelijoita voi olla samaan aikaan useita (yhtäaikaisia lähetyksiä) ja radiovastaanottimesta kuulua useita ääniä yhtä aikaa. Tässä opinnäytetyössä tutkitaan nykyaikaisten puheentunnistusmenetelmien toimintaa radioamatöörien puhelähetysten litteroinnissa tekstiksi. Työ aloitettiin tutustumalla kirjallisuuteen ja erilaisiin puheentunnistusmenetelmiin sekä etsittiin Internetistä litteroituja puhemateriaaleja ja esikoulutettuja neuroverkkoja. Tällä hetkellä on vain muutamia avoimesti käytettävissä olevia koulutettuja suomen kieltä osaavia neuroverkkoja. Muille kielille näitä kuitenkin löytyy ja näiden uudelleen kouluttamista suomenkielisellä materiaalilla tutkittiin.
Koulutusmateriaaliksi kerättiin 2021–22 aikana Internetiin liitetyllä ohjelmistoradiolla noin 100 tunnin aineisto. Tästä aineistosta litteroitiin käsin noin tunnin mittainen opetus- ja kahden tunnin todennusaineisto, jolla vertailtiin eri tunnistimien suorituskykyä. Lopputuloksena Microsoft Office 365 -puheentunnistuksella saavutettiin 64,17 %, Googlen SpeechRecognition-Python-kirjastolla 78,30 %, ja itsekoulutetuilla QuartzNet ja Conformer-CTC Large -puheentunnistusmalleilla 99,99 % ja 100,14 % sanavirhesuhteet. Työn lopputuloksena voidaan päätellä, että suurten materiaalien litteroimiseksi tehokkaasti tarvitaan suuri joukko henkilöitä ja että pieni koulutusmateriaalimäärä johtaa helposti ylisovittumiseen. Tämä puolestaan haittaa ennen kuulemattoman puheen tunnistusta, koska se ei vastaa opetusaineistoa.
However, the speech transmissions by the amateur radio enthusiasts are typically noisier than, e.g., speech transmitted by the mobile phones. In addition, the speech may temporarily fade away completely due to atmospheric phenomena. Also, several transmissions can exist simultaneously and thus several different voices heard in chorus with a radio receiver. This thesis concentrates on using the modern automatic speech recognition methods for transcrib-ing the noisy amateur radio speech to text. The thesis work was started by studying literature and different speech recognition methods and searching the web for transcribed speech sets and pre-trained neural networks. Currently, only a few openly available trained neural networks exist for Finnish language. However, there are several networks available for other languages. These are studied as a starting point for transfer learning, i.e., retrain the neural network with Finnish language material.
To collect the radio amateur speech for training of the neural networks over 100 hour of transmissions were recorded during the 2021-22 with a websoftwareradio and an hour of these was transcribed by hand for the training material of the neural networks and two hours was transcribed for validation material which was used to compare different speech recognition systems.
The results of the comparison were that Microsoft speech recognition engine could achieve word error rate of 64,17 %, Google speech recognition engine 78,30 %, and own implementa-tions with QuartzNet and Conformer-CTC Large achieved 99,99 % and 100,14 %. It can be concluded that transcribing such a large material requires several persons to be efficient and that the small amount of teaching data results easily to over-fitting which in turn leads to poor generalization (high word error rate for unheard speech).