Tekstin tunnistus japanilaisesta mangasta
Auvinen, Miko (2025)
Auvinen, Miko
2025
Tietojenkäsittelytieteiden kandidaattiohjelma - Bachelor's Programme in Computer Sciences
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2025-08-26
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202508238416
https://urn.fi/URN:NBN:fi:tuni-202508238416
Tiivistelmä
Tämän kandidaatintutkielman tavoitteena on käydä läpi japanilaisen mangan tekstintunnistusta. Käsittelen aihetta sekä teknisestä näkökulmasta, käyden läpi erilaisia mangalle uniikkeja tekstintunnistuksen haasteita ja niiden ratkaisuja, että ihmisen näkökulmasta, jossa tarkastelen ihmisen tapaa lukea mangaa. Tutkielman lopussa vertailen tietokoneen ja ihmisen tapoja lukea mangaa, sekä teen yhteenvedon tutkielman tuloksista. Käytetty menetelmä on kirjallisuuskatsaus.
Optinen tekstintunnistus toimii nykyään yleisesti varsin tehokkaasti, mutta sillä on silti vaikeuksia tunnistaa mangan tekstiä aina oikein. Ongelmia syntyy japanin kielen uniikkiuden sekä mangasivujen tyylitellyn piirtämisen ja sommittelun vuoksi. Japanin kieli koostuu useista eri aakkosista, ei sisällä välejä, ja sen kirjoitussuunta voi vaihdella usein. Mangassa tekstin fontti, koko, tiheys ja asento vaihtelevat usein, ja jotkin visuaaliset elementit voidaan tunnistaa virheellisesti tekstiksi. Mangaa varten räätälöidyt algoritmiset ratkaisut näille ongelmille suoriutuvat säännöllisesti paremmin kuin muut yleisesti tekstiä kuvista tunnistavat mallit. Kehitetyt mallit usein eroavat toisistaan rakenteeltaan ja käyttävät vaihtelevasti algoritmeissaan hyväksi yhdistettyjä komponentteja, konvoluutioneuroverkkoja, tai molempia.
Kun ihminen lukee sarjakuvaa, hän lukee tekstiä ja katsoo kuvia, sekä muodostaa näiden perusteella mielessään syvällisen ja monipuolisen ymmärryksen tarinan tapahtumista ja juonesta. Manga poikkeaa länsimaalaisista sarjakuvista vapaamman tyylinsä takia. Tutkielmassa selvisi, että ihminen on mangaa lukiessaan länsimaalaisiin sarjakuviin verrattuna enemmän piirtäjän johdateltavissa ja poikkeaa perinteisistä silmänliikkeen reiteistä useammin.
Tietokone ja ihminen tunnistavat mangan tekstiä hyvin eri tavoilla. Mangan optinen tekstintunnistus toimii ihmistä nopeammin, mutta rajatun ymmärryksensä takia se ei vielä kykene samaan tarkkuuteen. Ihminen voi käyttää algoritmeja haittaavia visuaalisia elementtejä hyväkseen ymmärtääkseen mangan tekstiä ja sanomaa syvällisemmin. Tulevaisuudessa tekstintunnistuksen kehittyessä käytetyt metodit saattavat alkaa muistuttamaan enemmän ihmisen kaltaista kokonaisvaltaista visuaalista ymmärtämistä, kuin yksinkertaista tekstin etsimistä ja tunnistamista.
Optinen tekstintunnistus toimii nykyään yleisesti varsin tehokkaasti, mutta sillä on silti vaikeuksia tunnistaa mangan tekstiä aina oikein. Ongelmia syntyy japanin kielen uniikkiuden sekä mangasivujen tyylitellyn piirtämisen ja sommittelun vuoksi. Japanin kieli koostuu useista eri aakkosista, ei sisällä välejä, ja sen kirjoitussuunta voi vaihdella usein. Mangassa tekstin fontti, koko, tiheys ja asento vaihtelevat usein, ja jotkin visuaaliset elementit voidaan tunnistaa virheellisesti tekstiksi. Mangaa varten räätälöidyt algoritmiset ratkaisut näille ongelmille suoriutuvat säännöllisesti paremmin kuin muut yleisesti tekstiä kuvista tunnistavat mallit. Kehitetyt mallit usein eroavat toisistaan rakenteeltaan ja käyttävät vaihtelevasti algoritmeissaan hyväksi yhdistettyjä komponentteja, konvoluutioneuroverkkoja, tai molempia.
Kun ihminen lukee sarjakuvaa, hän lukee tekstiä ja katsoo kuvia, sekä muodostaa näiden perusteella mielessään syvällisen ja monipuolisen ymmärryksen tarinan tapahtumista ja juonesta. Manga poikkeaa länsimaalaisista sarjakuvista vapaamman tyylinsä takia. Tutkielmassa selvisi, että ihminen on mangaa lukiessaan länsimaalaisiin sarjakuviin verrattuna enemmän piirtäjän johdateltavissa ja poikkeaa perinteisistä silmänliikkeen reiteistä useammin.
Tietokone ja ihminen tunnistavat mangan tekstiä hyvin eri tavoilla. Mangan optinen tekstintunnistus toimii ihmistä nopeammin, mutta rajatun ymmärryksensä takia se ei vielä kykene samaan tarkkuuteen. Ihminen voi käyttää algoritmeja haittaavia visuaalisia elementtejä hyväkseen ymmärtääkseen mangan tekstiä ja sanomaa syvällisemmin. Tulevaisuudessa tekstintunnistuksen kehittyessä käytetyt metodit saattavat alkaa muistuttamaan enemmän ihmisen kaltaista kokonaisvaltaista visuaalista ymmärtämistä, kuin yksinkertaista tekstin etsimistä ja tunnistamista.
Kokoelmat
- Kandidaatintutkielmat [10830]
