Konekäännösten virheanalyysi eri tekstilajeissa
Kemppainen, Joona (2018-06-25)
Konekäännösten virheanalyysi eri tekstilajeissa
Kemppainen, Joona
(25.06.2018)
Tätä artikkelia/julkaisua ei ole tallennettu UTUPubiin. Julkaisun tiedoissa voi kuitenkin olla linkki toisaalle tallennettuun artikkeliin / julkaisuun.
Turun yliopisto
Tiivistelmä
Tutkimuksessa analysoitiin tilastollisen ja sääntöpohjaisen konekääntimen tekemiä kieli- ja käännösvirheitä erilaisissa tekstilajeissa englanti–suomi-kieliparissa.
Tutkimuksen aineistona käytettiin neljää englanninkielistä tekstiä (Euroopan unionin neuvoston direktiivi, Euroopan komission lehdistötiedote, The Guardian -lehden uutisartikkeli sekä Google Chrome -selaimen käyttöoikeussopimus), jotka käännettiin suomeksi sekä tilastollisellaMT@EC-kääntimellä että sääntöpohjaisella Sunda-kääntimellä. Käännöksissä esiintyneet kieli- ja käännösvirheet jaettiin ennalta määritellyn virheluokittelun perusteella eri luokkiin, ja tulokset analysoitiin.
Tutkimustulosten perusteella MT@EC:n yleisimmät virheet olivat sanan virheellinen muoto sekä sanojen väliltä puuttuva suhde. Sundan yleisemmät virheet olivat sanan virheellinen merkitys sekä sanan virheellinen muoto. Muuttuneet sanat olivat kummankin kääntimen yleisin sanavirhe ja puuttuva suhde yleisin suhdevirhe. Muuttuneisiin sanoihin luokiteltiin sanat, joiden sijamuoto tai verbitaivutus oli virheellinen, ja nämä virheet johtivat usein suhteiden puuttumiseen. Kumpikin käännin teki enemmän sanavirheiksi luokiteltuja virheitä kuin suhdevirheiksi luokiteltuja. MT@EC teki selvästi vähemmän virheitä EU-aiheisissa teksteissä verrattuna muihin teksteihin, kun taas Sundan virhemäärä pysyi melko samanlaisena tekstilajista riippumatta.MT@EC:n käännöksistä puuttui huomattava määrä sanoja.
Kääntimien tekemissä virheissä oli eroavaisuuksia tarkasteltaessa saman lähdetekstin käännöksiä. Direktiivin ja lehdistötiedotteen käännöksissä MT@EC teki enemmän suhdevirheitä ja Sunda enemmän sanavirheitä. Uutisartikkelin ja käyttöoikeussopimuksen käännöksissä MT@EC teki enemmän sekä sana- että suhdevirheitä kuin Sunda.
Tutkimuksen aineistona käytettiin neljää englanninkielistä tekstiä (Euroopan unionin neuvoston direktiivi, Euroopan komission lehdistötiedote, The Guardian -lehden uutisartikkeli sekä Google Chrome -selaimen käyttöoikeussopimus), jotka käännettiin suomeksi sekä tilastollisellaMT@EC-kääntimellä että sääntöpohjaisella Sunda-kääntimellä. Käännöksissä esiintyneet kieli- ja käännösvirheet jaettiin ennalta määritellyn virheluokittelun perusteella eri luokkiin, ja tulokset analysoitiin.
Tutkimustulosten perusteella MT@EC:n yleisimmät virheet olivat sanan virheellinen muoto sekä sanojen väliltä puuttuva suhde. Sundan yleisemmät virheet olivat sanan virheellinen merkitys sekä sanan virheellinen muoto. Muuttuneet sanat olivat kummankin kääntimen yleisin sanavirhe ja puuttuva suhde yleisin suhdevirhe. Muuttuneisiin sanoihin luokiteltiin sanat, joiden sijamuoto tai verbitaivutus oli virheellinen, ja nämä virheet johtivat usein suhteiden puuttumiseen. Kumpikin käännin teki enemmän sanavirheiksi luokiteltuja virheitä kuin suhdevirheiksi luokiteltuja. MT@EC teki selvästi vähemmän virheitä EU-aiheisissa teksteissä verrattuna muihin teksteihin, kun taas Sundan virhemäärä pysyi melko samanlaisena tekstilajista riippumatta.MT@EC:n käännöksistä puuttui huomattava määrä sanoja.
Kääntimien tekemissä virheissä oli eroavaisuuksia tarkasteltaessa saman lähdetekstin käännöksiä. Direktiivin ja lehdistötiedotteen käännöksissä MT@EC teki enemmän suhdevirheitä ja Sunda enemmän sanavirheitä. Uutisartikkelin ja käyttöoikeussopimuksen käännöksissä MT@EC teki enemmän sekä sana- että suhdevirheitä kuin Sunda.