Computational Audio Content Analysis in Everyday Environments
Heittola, Toni (2021)
Heittola, Toni
Tampere University
2021
Tieto- ja sähkötekniikan tohtoriohjelma - Doctoral Programme in Computing and Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Väitöspäivä
2021-06-18
Julkaisun pysyvä osoite on
https://urn.fi/URN:ISBN:978-952-03-2006-5
https://urn.fi/URN:ISBN:978-952-03-2006-5
Tiivistelmä
Arjen ympäristömme ovat täynnä ääniä jotka auttavat ihmisiä ymmärtämään mitä heidän ympärillään tapahtuu, ja sitä kautta näillä äänillä on keskeinen rooli tiedon hankinnassa ympäristöstämme. Ihmiset muodostavat vahvoja assosiaatioita ympäristössä olevien fyysisten tapahtumien sekä niiden tuottamien äänten välille. Näitä assosiaatioita kuvataan tekstuaalisilla nimikkeillä, äänitapahtumilla, ja näiden assosiaatioiden avulla voimme ymmärtää, tunnistaa ja tulkita äänien takana olevat käsitteet. Esimerkkejä tällaisista äänitapahtumista ovat muun muassa koiran haukkuminen, ihmisen huutaminen tai auton ohi ajaminen.
Tämä väitöskirja käsittelee laskennallisia menetelmiä äänisisällön analyysiin jokapäiväisissä ympäristöissä. Lisääntyneen digitaalisen äänen käytön myötä automaattisesta äänisisällön analyysistä on tullut yhä tarpeellisempaa. Äänen sisältöanalyysi mahdollistaa syvällisen ymmärryksen siitä mitä ympäristössä tapahtuu hetkellä jolloin ääni tallennettiin, ja tämä puolestaan mahdollistaa sovelluksia jotka reagoivat tarkasti tapahtumiin ympäristössä. Väitöskirjassa ehdotetut menetelmät keskittyvät äänitapahtumien havaitsemiseen, laskennalliseen tehtävään jossa tavoitteena on tunnistaa äänitapahtuma sekä löytää ajanhetki jolloin se on aktiivinen äänisignaalissa. Väitöskirjatyö keskittyy kehittämään menetelmiä jotka pystyvät käsittelemään suurta joukkoa tunnistettavia ääniluokkia ja havaitsemaan useita ääniluokkia yhtä aikaa. Lisäksi työ paneutuu näiden menetelmien suorituskyvyn arviointiin.
Tässä väitöskirjassa esitelty työ keskittyy sellaisten menetelmien kehittämiseen jotka mahdollistavat useiden päällekkäisten äänitapahtuminen havaitsemisen sekä robustien akustisten mallien oppimisen äänisignaaleista jotka sisältävät päällekkäisiä ääniä. Työ lähtee liikkeelle Markovin piilomalli (HMM) pohjaisesta tekniikasta yhden hallitsevan äänitapahtuman havaitsemiseen kulloisenakin ajanhetkenä josta työ etenee polyfoniseen havaitsemiseen käyttäen joko useita Viterbi-iteraatioita tai käyttäen äänilähteiden erottelua esiprosessointimenetelmänä. Nämä polyfoniset äänitapahtumien havaitsemisjärjestelmät perustuvat joukkoon generatiivisia luokittelijoita jotka tuottavat useita ääniluokkanimikkeitä samalle ajan hetkelle. Tämä lähestymistapa kaksinkertaisti tai joissakin tapauksissa jopa kolminkertaisti äänitapahtumien havaitsemisen tarkkuuden. Vaihtoehtoisena lähestymistapana polyfoninen havaitseminen toteutettiin myös käyttämällä ääniluokkakohtaisia aktiivisuuden ilmaisimia. Kunkin äänitapahtumaluokan aktiivisuus havaittiin itsenäisesti, ja yhdistämällä luokkakohtaiset tapahtumasarjat muodostettiin polyfoninen tunnistustulos. Polyfoninen havaitseminen lisäsi menetelmien soveltuvuutta jokapäivisissä ympäristöissä huomattavasti.
Menetelmien suorituskyvyn arviointiin väitöskirja ehdottaa uutta suorituskykymittaa joka ottaa huomioon äänitapahtumien polyfonian. Uusi suorituskykymitta, segmenttipohjainen F-score, tarjoaa tarkat määritelmät oikeille ja virheellisille havainnoille sekä soveltuu paremmin polyfonisten annotaatioiden ja järjestelmä ulostulojen vertailuun kuin aikaisemmin alalla käytetyt suorituskykymitat. Ehdotetusta mitasta on muodostunut sittemmin yksi vakiintuneista suorituskykymitoista tutkimusalalla.
Osa väitöskirjasta käsittelee äänitapahtumia osana äänimaisemaa käyttäen tapahtumien yhtäaikaista esiintyvyyttä kontekstuaalisena tietona. Tätä tietoa käytettiin sekä äänitapahtumien havaitsemisessa että äänimaisemien luokittelussa. Äänitapahtumien havaitsemisessa kontekstuaalista tietoa käytettiin rajaamaan mahdollisten äänitapahtumaluokkien joukko ensin tunnistamalla äänimaisemaluokka. Tämä lähestymistapa mahdollisti kontekstista riippuvien akustisten mallien sekä äänitapahtumien esiintyvyystodennäköisyyksien hyödyntämisen. Lähestymistapa lisäsi tasaisesti suorituskykyä kaikissa testatuissa äänimaisematyypeissä sekä mahdollisti järjestelmän toiminnan helpon laajentamisen uuden tyyppisiin äänimaisemiin. Äänimaisemien luokittelussa kontekstuaalista tietoa hyödynnettiin havaitsemalla maisemalle tyypillisiä äänitapahtumia. Tämä lähestymistapa saavutti saman tasoisen suorituskyvyn kuin perinteinen lähestymistapa, joka perustuu äänimaiseman yleiseen akustiseen sisältöön. Näiden kahden lähestymistavan yhdistäminen tuotti merkittävän suorituskyvyn kasvun. Väitöskirja sisältää merkittävän panoksen tutkimusalan avoimen tieteen työkalujen kehitykseen. Väitöskirjatyössä on luotu standardoituja protokollia äänitapahtumien havainnoinnin tarkkuuden arviointiin sekä julkaistu avoimia äänitietokantoja, avoimia vertailu-järjestelmiä ja avoimen lähdekoodin työkaluja.
Tämä väitöskirja käsittelee laskennallisia menetelmiä äänisisällön analyysiin jokapäiväisissä ympäristöissä. Lisääntyneen digitaalisen äänen käytön myötä automaattisesta äänisisällön analyysistä on tullut yhä tarpeellisempaa. Äänen sisältöanalyysi mahdollistaa syvällisen ymmärryksen siitä mitä ympäristössä tapahtuu hetkellä jolloin ääni tallennettiin, ja tämä puolestaan mahdollistaa sovelluksia jotka reagoivat tarkasti tapahtumiin ympäristössä. Väitöskirjassa ehdotetut menetelmät keskittyvät äänitapahtumien havaitsemiseen, laskennalliseen tehtävään jossa tavoitteena on tunnistaa äänitapahtuma sekä löytää ajanhetki jolloin se on aktiivinen äänisignaalissa. Väitöskirjatyö keskittyy kehittämään menetelmiä jotka pystyvät käsittelemään suurta joukkoa tunnistettavia ääniluokkia ja havaitsemaan useita ääniluokkia yhtä aikaa. Lisäksi työ paneutuu näiden menetelmien suorituskyvyn arviointiin.
Tässä väitöskirjassa esitelty työ keskittyy sellaisten menetelmien kehittämiseen jotka mahdollistavat useiden päällekkäisten äänitapahtuminen havaitsemisen sekä robustien akustisten mallien oppimisen äänisignaaleista jotka sisältävät päällekkäisiä ääniä. Työ lähtee liikkeelle Markovin piilomalli (HMM) pohjaisesta tekniikasta yhden hallitsevan äänitapahtuman havaitsemiseen kulloisenakin ajanhetkenä josta työ etenee polyfoniseen havaitsemiseen käyttäen joko useita Viterbi-iteraatioita tai käyttäen äänilähteiden erottelua esiprosessointimenetelmänä. Nämä polyfoniset äänitapahtumien havaitsemisjärjestelmät perustuvat joukkoon generatiivisia luokittelijoita jotka tuottavat useita ääniluokkanimikkeitä samalle ajan hetkelle. Tämä lähestymistapa kaksinkertaisti tai joissakin tapauksissa jopa kolminkertaisti äänitapahtumien havaitsemisen tarkkuuden. Vaihtoehtoisena lähestymistapana polyfoninen havaitseminen toteutettiin myös käyttämällä ääniluokkakohtaisia aktiivisuuden ilmaisimia. Kunkin äänitapahtumaluokan aktiivisuus havaittiin itsenäisesti, ja yhdistämällä luokkakohtaiset tapahtumasarjat muodostettiin polyfoninen tunnistustulos. Polyfoninen havaitseminen lisäsi menetelmien soveltuvuutta jokapäivisissä ympäristöissä huomattavasti.
Menetelmien suorituskyvyn arviointiin väitöskirja ehdottaa uutta suorituskykymittaa joka ottaa huomioon äänitapahtumien polyfonian. Uusi suorituskykymitta, segmenttipohjainen F-score, tarjoaa tarkat määritelmät oikeille ja virheellisille havainnoille sekä soveltuu paremmin polyfonisten annotaatioiden ja järjestelmä ulostulojen vertailuun kuin aikaisemmin alalla käytetyt suorituskykymitat. Ehdotetusta mitasta on muodostunut sittemmin yksi vakiintuneista suorituskykymitoista tutkimusalalla.
Osa väitöskirjasta käsittelee äänitapahtumia osana äänimaisemaa käyttäen tapahtumien yhtäaikaista esiintyvyyttä kontekstuaalisena tietona. Tätä tietoa käytettiin sekä äänitapahtumien havaitsemisessa että äänimaisemien luokittelussa. Äänitapahtumien havaitsemisessa kontekstuaalista tietoa käytettiin rajaamaan mahdollisten äänitapahtumaluokkien joukko ensin tunnistamalla äänimaisemaluokka. Tämä lähestymistapa mahdollisti kontekstista riippuvien akustisten mallien sekä äänitapahtumien esiintyvyystodennäköisyyksien hyödyntämisen. Lähestymistapa lisäsi tasaisesti suorituskykyä kaikissa testatuissa äänimaisematyypeissä sekä mahdollisti järjestelmän toiminnan helpon laajentamisen uuden tyyppisiin äänimaisemiin. Äänimaisemien luokittelussa kontekstuaalista tietoa hyödynnettiin havaitsemalla maisemalle tyypillisiä äänitapahtumia. Tämä lähestymistapa saavutti saman tasoisen suorituskyvyn kuin perinteinen lähestymistapa, joka perustuu äänimaiseman yleiseen akustiseen sisältöön. Näiden kahden lähestymistavan yhdistäminen tuotti merkittävän suorituskyvyn kasvun. Väitöskirja sisältää merkittävän panoksen tutkimusalan avoimen tieteen työkalujen kehitykseen. Väitöskirjatyössä on luotu standardoituja protokollia äänitapahtumien havainnoinnin tarkkuuden arviointiin sekä julkaistu avoimia äänitietokantoja, avoimia vertailu-järjestelmiä ja avoimen lähdekoodin työkaluja.
Kokoelmat
- Väitöskirjat [4943]