Äänen fysikaalisesti perusteltuja augmentointimenetelmiä puheentunnistusjärjestelmää opetettaessa
Wingström, Akseli (2024-04-26)
Äänen fysikaalisesti perusteltuja augmentointimenetelmiä puheentunnistusjärjestelmää opetettaessa
Wingström, Akseli
(26.04.2024)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2024052840095
https://urn.fi/URN:NBN:fi-fe2024052840095
Tiivistelmä
Syvillä neuroverkoilla on viime vuosina saavutettu merkittäviä parannuksia useissa perinteisissä tekoälyyn kuuluvissa tehtävissä. Neuroverkkojen opettaminen vaatii kuitenkin edelleen valtavasti opetusdataa, jonka kerääminen ja annotoiminen on hidasta.
Puheentunnistusjärjestelmien ongelmana on ollut saatavilla olevan opetusdatan määrä sekä järjestelmien luotettavuus ympäristöissä, joissa järjestelmän syötteessä on mukana paljon häiriötä, kuten taustamelua tai säröilyä.
Augmentoinnilla tarkoitetaan valmiiksi annotoidun opetusdatan muokkaamista siten, että siihen lisätään erilaisia häiriöitä tai muita variaatioita, mutta sen alkuperäinen merkitys kuitenkin säilyy. Tämän avulla valmista opetusdataa voidaan hyödyntää uutena datana neuroverkon opetuksessa.
Opinnäytetyössä parannettiin puheentunnistusjärjestelmän robustisuutta kehittämällä ja optimoimalla fysikaalisesti perusteltuja augmentointimenetelmiä. Työssä keskityttiin hälyjen, säröjen, kaikujen ja taajuusvasteiden augmentointeihin.
Työssä suoritettiin akkumulaatio- sekä ablaatiotestejä, joissa puheentunnistusjärjestelmä opetettiin eri augmentaatiomenetelmiä ja niiden kombinaatioita käyttäen. Opetetut järjestelmät testattiin evaluointidatalla, josta laskettiin Levenshtein -editointietäisyys tulokseksi.
Editointietäisyyksistä arvioitiin Harrell-Davis -evaluointimenetelmällä lopullinen tulos testille, joita vertailtiin keskenään augmentointimenetelmien toimivuuden määrittämiseksi. Augmentointimenetelmien lisäksi vertailtiin opetusaikojen eroa ilman augmentointia ja augmentoinnin kanssa tapahtuneiden opetusten välillä.
Lopputuloksena jokainen augmentointimenetelmä paransi puheentunnistusjärjestelmän robustisuutta jo lyhyellä opetusajalla. Robustiuden parantamisen lisäksi augmentointimenetelmät nopeuttivat neuroverkkojen oppimista.
Puheentunnistusjärjestelmien ongelmana on ollut saatavilla olevan opetusdatan määrä sekä järjestelmien luotettavuus ympäristöissä, joissa järjestelmän syötteessä on mukana paljon häiriötä, kuten taustamelua tai säröilyä.
Augmentoinnilla tarkoitetaan valmiiksi annotoidun opetusdatan muokkaamista siten, että siihen lisätään erilaisia häiriöitä tai muita variaatioita, mutta sen alkuperäinen merkitys kuitenkin säilyy. Tämän avulla valmista opetusdataa voidaan hyödyntää uutena datana neuroverkon opetuksessa.
Opinnäytetyössä parannettiin puheentunnistusjärjestelmän robustisuutta kehittämällä ja optimoimalla fysikaalisesti perusteltuja augmentointimenetelmiä. Työssä keskityttiin hälyjen, säröjen, kaikujen ja taajuusvasteiden augmentointeihin.
Työssä suoritettiin akkumulaatio- sekä ablaatiotestejä, joissa puheentunnistusjärjestelmä opetettiin eri augmentaatiomenetelmiä ja niiden kombinaatioita käyttäen. Opetetut järjestelmät testattiin evaluointidatalla, josta laskettiin Levenshtein -editointietäisyys tulokseksi.
Editointietäisyyksistä arvioitiin Harrell-Davis -evaluointimenetelmällä lopullinen tulos testille, joita vertailtiin keskenään augmentointimenetelmien toimivuuden määrittämiseksi. Augmentointimenetelmien lisäksi vertailtiin opetusaikojen eroa ilman augmentointia ja augmentoinnin kanssa tapahtuneiden opetusten välillä.
Lopputuloksena jokainen augmentointimenetelmä paransi puheentunnistusjärjestelmän robustisuutta jo lyhyellä opetusajalla. Robustiuden parantamisen lisäksi augmentointimenetelmät nopeuttivat neuroverkkojen oppimista.