Datan imputointi eikä amputointi : Menetelmiä ja strategioita puuttuvan datan käsittelyyn
Kallio, Verneri (2024-12-14)
Datan imputointi eikä amputointi : Menetelmiä ja strategioita puuttuvan datan käsittelyyn
Kallio, Verneri
(14.12.2024)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe20241219104969
https://urn.fi/URN:NBN:fi-fe20241219104969
Tiivistelmä
Data-analytiikka on ala, joka kasvaa jatkuvasti, sillä dataa kerätään enemmän ja monipuolisemmin erilaisten laitteiden avulla. Samalla datan puuttuvien tai virheellisten arvojen oikeanlainen käsittely muuttuu tärkeämmäksi, sillä yhä enemmän päätöksiä ja tutkimuksia tehdään sen pohjalta. Tutkielmani pyrkii luomaan yleiskäsityksen siitä, millaisia menetelmiä ja strategioita käytetään puuttuvan datan hallitsemiseen ja hyödyntämiseen. Tutkielmassa keskitytään rakentamaan pohjustus, jotta voi ymmärtää puuttuvan datananalyysin teorian käsitteellisellä tasolla, joten syvempi matemaattinen näkökulma rajataan pois monien aiheiden kohdalla. Datamekanismit kuten MCAR, MAR ja MNAR ovat oleellisia puuttuvan datan oikeanlaiseen käsittelyyn, sillä niiden avulla voimme paremmin ymmärtää millaisia tekniikoita kannattaa soveltaa erilaisten vaillinaisten datasettien kohdalla. Tämän ymmärryksen parantamiseksi on olemassa monia muita strategioita kuten puuttuvuuden kuvioiden huomioiminen sekä selkeiden tavoitteiden määrittäminen imputoinneille. On kehitetty monenlaisia imputointi- ja poistomenetelmiä vuosikymmenien aikana ja vaikka monet niistä ovat vanhentuneet tai harvoin optimaalisin valinta niin niiden opettelu on edelleen hyödyksi, sillä ne auttavat käsittämään miten ja miksi edistyneemmät menetelmät toimivat. Nämä tutkielmassa esitetyt kehittyneemmät menetelmät ovat moni-imputointi ja MICE-algoritmi. Tutkielmassa keskitytään jatkuvaan ja numeeriseen taulukkomuodossa olevaan keinotekoiseen dataan, mutta useimpia esitettyjä tekniikoita ja strategioita voidaan soveltaa monen erilaisen datatyypin kohdalla.