Pienen datan ongelma koneoppimismallien koulutuksessa ja validoinnissa
Sippola, Henri (2025-03-17)
Pienen datan ongelma koneoppimismallien koulutuksessa ja validoinnissa
Sippola, Henri
(17.03.2025)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025031819088
https://urn.fi/URN:NBN:fi-fe2025031819088
Tiivistelmä
Tekoäly on osoittautunut tärkeäksi työkaluksi tieteellisessä tutkimuksessa. Sen tehokas ja luotettava käyttö on kuitenkin riippuvainen käytetyn aineiston koosta ja laadusta. Vaikka tallennettua tietoa ja käytettäviä aineistoja on saatavilla suuria määriä, tieteellisessä tutkimuksessa työskennellään usein rajallisempien aineistojen kanssa. Tämä vaikeuttaa tekoälyn koulutusta ja hyödyntämistä. Tästä huolimatta tekoälyn käyttäminen on tärkeää pienienkin aineistojen kanssa.
Tämä tutkielma on kirjallisuuskatsaus pienien aineistojen ongelmista ja ratkaisuista koneoppimisessa. Tutkielmassa esitetään pienen datan ongelma, siihen johtavia syitä ja sen seurauksia. Lisäksi syvennytään tarkemmin aineistojen ja koneoppimismallien väliseen yhteyteen eli mitkä asiat aineistossa vaikuttavat mallien koulutukseen. Lopuksi tarkastellaan yleisimmin käytettyjä ratkaisumenetelmiä löydettyihin ongelmiin. Tutkielmassa selitetään myös lyhyesti koneoppimisen peruskäsitteitä ja toimintaa, joita tarvitaan tuloksien ymmärtämiseksi.
Tutkielman tuloksena havaittiin pienten aineistojen ylisovittuvan helposti koneoppimismallien koulutuksessa. Tämä johtuu pääosin aineistojen pienestä koosta tai suuresta määrästä aineistoa kuvaavia piirteitä. Suuri määrä piirteitä on vaikea oppia pienestä määrästä esimerkkejä. Pienet aineistot ovat ongelma lukuisilla aloilla tieteellisessä tutkimuksessa. Aineistot, ja myös ratkaisut, vaihtelevat aloittain. Suosituimpia ratkaisuja koneoppimismallien suorituksien parantamiseen pienien aineistojen kanssa ovat aineiston täydennys, siirto-oppiminen, ulottuvuuksien vähennys ja ristiinvalidointi.
Tämä tutkielma on kirjallisuuskatsaus pienien aineistojen ongelmista ja ratkaisuista koneoppimisessa. Tutkielmassa esitetään pienen datan ongelma, siihen johtavia syitä ja sen seurauksia. Lisäksi syvennytään tarkemmin aineistojen ja koneoppimismallien väliseen yhteyteen eli mitkä asiat aineistossa vaikuttavat mallien koulutukseen. Lopuksi tarkastellaan yleisimmin käytettyjä ratkaisumenetelmiä löydettyihin ongelmiin. Tutkielmassa selitetään myös lyhyesti koneoppimisen peruskäsitteitä ja toimintaa, joita tarvitaan tuloksien ymmärtämiseksi.
Tutkielman tuloksena havaittiin pienten aineistojen ylisovittuvan helposti koneoppimismallien koulutuksessa. Tämä johtuu pääosin aineistojen pienestä koosta tai suuresta määrästä aineistoa kuvaavia piirteitä. Suuri määrä piirteitä on vaikea oppia pienestä määrästä esimerkkejä. Pienet aineistot ovat ongelma lukuisilla aloilla tieteellisessä tutkimuksessa. Aineistot, ja myös ratkaisut, vaihtelevat aloittain. Suosituimpia ratkaisuja koneoppimismallien suorituksien parantamiseen pienien aineistojen kanssa ovat aineiston täydennys, siirto-oppiminen, ulottuvuuksien vähennys ja ristiinvalidointi.