Transformer-arkkitehtuuri generatiivisessa tekstinluonnissa
Tolvanen, Annika (2025-03-27)
Transformer-arkkitehtuuri generatiivisessa tekstinluonnissa
Tolvanen, Annika
(27.03.2025)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
suljettu
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025040824924
https://urn.fi/URN:NBN:fi-fe2025040824924
Tiivistelmä
Transformer-arkkitehtuuri on syväoppimisen malli, jota hyödynnetään erityisesti luonnollisen kielen käsittelyssä (engl. Natural Language Processing, NLP). Sen ydin perustuu huomiontimekanismiin, joka mahdollistaa syötteen rinnakkaisen käsittelyn. Toisin kuin perinteiset neuroverkkopohjaiset mallit, jotka käsittelevät syötteen vaiheittain, transformer voi käsitellä laajoja tekstikokonaisuuksia samanaikaisesti. Tämä tekee siitä erityisen hyödyllisen monimutkaisten kielellisten riippuvuuksien hallinnassa ja pitkien tekstien generoinnissa.
Tutkielman tavoitteena on tarkastella transformer-arkkitehtuurin keskeisiä ominaisuuksia ja sen roolia generatiivisessa tekstinluonnissa. Erityisesti keskitytään vertailemaan transformer-arkkitehtuuria perinteisiin neuroverkkopohjaisiin malleihin, kuten toistuviin neuroverkkoihin (engl. Recurrent Neural Network, RNN). Lisäksi analysoidaan transformerin etuja ja haasteita erityisesti suomen kielen käsittelyssä, jossa kieliopilliset rakenteet ja pitkät kielelliset riippuvuudet asettavat vaatimuksia kielen mallintamiselle. Osana tutkimusta suoritetaan myös soveltava koe, jossa testataan eri ennakkoon koulutettujen transformer-mallien suorituskykyä suomen kielen käsittelyssä ja tuottamisessa. Kokeen tavoitteena on arvioida mallien kykyä käsitellä suomen kielen erityispiirteitä sekä tuottaa sujuvaa ja kieliopillisesti oikeellista tekstiä.
Tutkimuksen tulokset osoittavat transformerin tarjoavan merkittäviä etuja perinteisiin malleihin nähden ja osoittavat sen soveltuvuuden erityisesti monimutkaisten kielellisten tehtävien hallintaan generatiivisessa tekstinluonnissa.
Tutkielman tavoitteena on tarkastella transformer-arkkitehtuurin keskeisiä ominaisuuksia ja sen roolia generatiivisessa tekstinluonnissa. Erityisesti keskitytään vertailemaan transformer-arkkitehtuuria perinteisiin neuroverkkopohjaisiin malleihin, kuten toistuviin neuroverkkoihin (engl. Recurrent Neural Network, RNN). Lisäksi analysoidaan transformerin etuja ja haasteita erityisesti suomen kielen käsittelyssä, jossa kieliopilliset rakenteet ja pitkät kielelliset riippuvuudet asettavat vaatimuksia kielen mallintamiselle. Osana tutkimusta suoritetaan myös soveltava koe, jossa testataan eri ennakkoon koulutettujen transformer-mallien suorituskykyä suomen kielen käsittelyssä ja tuottamisessa. Kokeen tavoitteena on arvioida mallien kykyä käsitellä suomen kielen erityispiirteitä sekä tuottaa sujuvaa ja kieliopillisesti oikeellista tekstiä.
Tutkimuksen tulokset osoittavat transformerin tarjoavan merkittäviä etuja perinteisiin malleihin nähden ja osoittavat sen soveltuvuuden erityisesti monimutkaisten kielellisten tehtävien hallintaan generatiivisessa tekstinluonnissa.