Asuntojen vuokrahintojen ennustaminen GWR- ja Random Forest -menetelmillä
Talla, Jere (2022-11-23)
Asuntojen vuokrahintojen ennustaminen GWR- ja Random Forest -menetelmillä
Talla, Jere
(23.11.2022)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
suljettu
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2022120269204
https://urn.fi/URN:NBN:fi-fe2022120269204
Tiivistelmä
Tämän tutkielman tarkoituksena on selvittää ja vertailla spatiaalisen GWR-menetelmän ja Random Forest -koneoppimismenetelmän kykyä ennustaa Helsingin asuntojen vuok-rahintoja ennustemallien muodostamiseen käytetyn otoksen ulkopuolisille uusille havainnoille. Yksittäisten asuntojen hintojen ja vuokrahintojen muodostumista tutkitaan yleensä hedonisten hintojen teorian viitekehyksessä. Perinteisen pienimmän neliösumman regressioon perustuvat ennustemallit ovat olleet käytetyimpiä ennustemalleja asuntojen vuokrahintoja ennustettaessa. Niihin liittyvät tilastolliset oletukset eivät yleensä sovi hyvin asuntomarkkina-aineistojen käsittelyyn. Tietokoneiden laskentatehon ja eko-nometristen menetelmien kehityksen myötä erilaisten spatiaalisten regressiomenetelmien ja koneoppimismenetelmien suosio onkin kasvanut asuntojen vuokrahintoja tutkittaessa.
Aiemmassa tutkimuskirjallisuudessa on useasti vertailtu keskenään erilaisten spatiaalisten regressiomenetelmien ennustekykyä tai erilaisten koneoppimismenetelmien en-nustekykyä asuntojen vuokrahinnoille. Harvoissa tutkimuksissa on vertailtu koneoppi-mismenetelmien ennustekykyä spatiaalisiin regressiomenetelmiin. Lisäksi aiemmissa tutkimuksissa on usein käytetty etenkin spatiaalisten regressiomallien osalta ennustekyvyn mittaamiseen ennustemallin muodostamia estimaatteja samoille havainnoille, joilla ennustemallit on muodostettu. Tässä tutkielmassa ennustekykyä mitataan ennustemallien opettamiseen käytetyn otoksen ulkopuoliselle havainnoille, jotta ennusteet sisältäi-sivät mahdollisimman vähän aineistosta aiheutuvaa harhaa.
Tutkielman teoriaosiossa perehdytään tarkemmin maantieteellisesti painotettuun regressiomenetelmään eli GWR-menetelmään sekä Random Forest -koneoppimismenetelmään. Lisäksi tutkielmassa luodaan katsaus aiempiin merkittävimpiin mainituilla menetelmillä suoritettuihin tutkimuksiin, joissa selvitetään asuntojen hintojen ja vuokrahintojen ennustamista. Tutkielman tutkimusosiossa käytetty aineisto koostuu vuosien 2018 ja 2019 aikana kerätyistä Helsingissä sijaitsevien asuntojen vuokrailmoituksista. Tutkimuksessa vertaillaan GWR- ja Random Forest -menetelmällä tuotettujen ennustemallien ennustekykyä keskenään sekä perinteisen pienimmän neliösumman regressiomenetelmällä tuotetun mallin ennustekykyyn. Tutkimuksessa havaitaan Random Forest -menetelmän tuottavan tarkimpia ennusteita. GWR-menetelmällä tuotetuissa ennustemalleissa havaitaan käytettävän ydinfunktion valinnalla olevan erittäin suuri vaikutus mallien ennustekykyyn. Parhaat GWR-menetelmällä tuotetut ennus-temallit ovat ennustetarkkuudeltaan lähes yhtä hyviä kuin heikoin Random Forest -menetelmällä tuotetut ennustemallit. Heikoimman GWR-menetelmällä tuotetun ennustemallin ennustetarkkuus on PNS-regressiomallillakin tuotettuja menetelmiä heikompi. Toisaalta myös menetelmien välillä havaitaan eroja selittävien muuttujien vaikutusten tulkinnan helppoudessa.
Aiemmassa tutkimuskirjallisuudessa on useasti vertailtu keskenään erilaisten spatiaalisten regressiomenetelmien ennustekykyä tai erilaisten koneoppimismenetelmien en-nustekykyä asuntojen vuokrahinnoille. Harvoissa tutkimuksissa on vertailtu koneoppi-mismenetelmien ennustekykyä spatiaalisiin regressiomenetelmiin. Lisäksi aiemmissa tutkimuksissa on usein käytetty etenkin spatiaalisten regressiomallien osalta ennustekyvyn mittaamiseen ennustemallin muodostamia estimaatteja samoille havainnoille, joilla ennustemallit on muodostettu. Tässä tutkielmassa ennustekykyä mitataan ennustemallien opettamiseen käytetyn otoksen ulkopuoliselle havainnoille, jotta ennusteet sisältäi-sivät mahdollisimman vähän aineistosta aiheutuvaa harhaa.
Tutkielman teoriaosiossa perehdytään tarkemmin maantieteellisesti painotettuun regressiomenetelmään eli GWR-menetelmään sekä Random Forest -koneoppimismenetelmään. Lisäksi tutkielmassa luodaan katsaus aiempiin merkittävimpiin mainituilla menetelmillä suoritettuihin tutkimuksiin, joissa selvitetään asuntojen hintojen ja vuokrahintojen ennustamista. Tutkielman tutkimusosiossa käytetty aineisto koostuu vuosien 2018 ja 2019 aikana kerätyistä Helsingissä sijaitsevien asuntojen vuokrailmoituksista. Tutkimuksessa vertaillaan GWR- ja Random Forest -menetelmällä tuotettujen ennustemallien ennustekykyä keskenään sekä perinteisen pienimmän neliösumman regressiomenetelmällä tuotetun mallin ennustekykyyn. Tutkimuksessa havaitaan Random Forest -menetelmän tuottavan tarkimpia ennusteita. GWR-menetelmällä tuotetuissa ennustemalleissa havaitaan käytettävän ydinfunktion valinnalla olevan erittäin suuri vaikutus mallien ennustekykyyn. Parhaat GWR-menetelmällä tuotetut ennus-temallit ovat ennustetarkkuudeltaan lähes yhtä hyviä kuin heikoin Random Forest -menetelmällä tuotetut ennustemallit. Heikoimman GWR-menetelmällä tuotetun ennustemallin ennustetarkkuus on PNS-regressiomallillakin tuotettuja menetelmiä heikompi. Toisaalta myös menetelmien välillä havaitaan eroja selittävien muuttujien vaikutusten tulkinnan helppoudessa.