Koneoppimisen hyödyntäminen levinneisyysmallinnuksessa
Pyykkönen, Iida (2024-05-28)
Koneoppimisen hyödyntäminen levinneisyysmallinnuksessa
Pyykkönen, Iida
(28.05.2024)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
suljettu
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2024060747458
https://urn.fi/URN:NBN:fi-fe2024060747458
Tiivistelmä
Tutkielmassa käsitellään koneoppimismenetelmien hyödyntämistä eläin- ja kasvilajien levinneisyyden mallintamisessa. Luotettavat ennustukset levinneisyyden muutoksista ovat tärkeä työkalu ekologeille, jotta suojelutoimenpiteet voidaan kohdistaa oikein. Tutkielman tavoite on luoda katsaus eri menetelmien soveltuvuuteen esimerkkien avulla.
Koneoppimismenetelmät jaetaan neljään luokkaan, joista levinneisyysmallinuksessa hyödynnetään yleensä kahta: ohjattua ja ohjaamatonta oppimista. Algoritmit käyttävät erilaisia keinoja datan analysoimiseen, joten menetelmien ominaisuudet on tärkeää tuntea aineiston ominaisuuksille parhaiten soveltuvan valitsemiseksi. Levinneisyyden mallintaminen on vaikeaa perinteisin menetelmin, sillä lajin levinneisyyteen vaikuttavia tekijöitä on lukemattomia. Ongelma sopii kuitenkin erinomaisesti ratkaistavaksi koneoppimisen avulla, sillä opetusaineistoa on saatavilla runsaasti.
Tarkasteltavista muuttujista tärkeimmät ovat tutkittavan alueen ympäristömuuttujat. Levinneisyysmalli saadaan mallintamalla havaintojen suhde ympäristömuuttujiin. Mallinnuksessa saadaan tietoa lajin levinneisyyttä rajoittavista tekijöistä ja muunnettua moniulotteinen aineisto helpommin tarkasteltavaan muotoon. Levinneisyysmallinukseen hyvin soveltuvia koneoppimismenetelmiä ovat esimerkiksi satunnaismetsä, MaxEnt ja neuroverkot.
Tarkastellussa esimerkissä satunnaismetsää käytettiin mallintamaan japaninmattosimpukan levinneisyyttä Venetsian laguunissa. Saadut ennusteet olivat paikkaansapitäviä ja niitä hyödynnettiin viranomaisten hoitosuunnitelman arvioinnissa.
MaxEntin kohdalla tarkasteltiin kanahaukkojen pesäpaikkojen ennustamista Keski-Suomessa. Tulokset olivat linjassa aiempien kanssa ja mallin AUC-arvo oli 0.903. Tulos oli parempi kuin kokeessa myös käytetyllä satunnaismetsällä.
Neuroverkolla mallinnettiin koko Kalifornian alueen putkilokasvien levinneisyyttä. Malli eroaa perinteisistä, sillä sen kouluttamiseen voidaan käyttää ilmastotietojen sijasta vain havaintotietoja ja alueen satelliittikuvia. Ilmastomuuttujien lisääminen kuitenkin parantaa suorituskykyä. Vain satelliittikuvilla koulutetun verkon AUC-arvo oli 0.887 ja ilmastotietoja hyödyntäneen 0.901. Yksittäistä lajia satelliittikuvien perusteella mallintaessa AUC-arvo oli 0.979.
Kaikki menetelmät ovat soveltuvia levinneisyysmallinnukseen, mutta lupaavin on syvät neuroverkot. Niiden käyttöä kuitenkin rajoittaa koulutuksen vaikeus. Ongelma voitaisiin ratkaista lisäämällä poikkitieteellistä yhteistyötä.
Koneoppimismenetelmät jaetaan neljään luokkaan, joista levinneisyysmallinuksessa hyödynnetään yleensä kahta: ohjattua ja ohjaamatonta oppimista. Algoritmit käyttävät erilaisia keinoja datan analysoimiseen, joten menetelmien ominaisuudet on tärkeää tuntea aineiston ominaisuuksille parhaiten soveltuvan valitsemiseksi. Levinneisyyden mallintaminen on vaikeaa perinteisin menetelmin, sillä lajin levinneisyyteen vaikuttavia tekijöitä on lukemattomia. Ongelma sopii kuitenkin erinomaisesti ratkaistavaksi koneoppimisen avulla, sillä opetusaineistoa on saatavilla runsaasti.
Tarkasteltavista muuttujista tärkeimmät ovat tutkittavan alueen ympäristömuuttujat. Levinneisyysmalli saadaan mallintamalla havaintojen suhde ympäristömuuttujiin. Mallinnuksessa saadaan tietoa lajin levinneisyyttä rajoittavista tekijöistä ja muunnettua moniulotteinen aineisto helpommin tarkasteltavaan muotoon. Levinneisyysmallinukseen hyvin soveltuvia koneoppimismenetelmiä ovat esimerkiksi satunnaismetsä, MaxEnt ja neuroverkot.
Tarkastellussa esimerkissä satunnaismetsää käytettiin mallintamaan japaninmattosimpukan levinneisyyttä Venetsian laguunissa. Saadut ennusteet olivat paikkaansapitäviä ja niitä hyödynnettiin viranomaisten hoitosuunnitelman arvioinnissa.
MaxEntin kohdalla tarkasteltiin kanahaukkojen pesäpaikkojen ennustamista Keski-Suomessa. Tulokset olivat linjassa aiempien kanssa ja mallin AUC-arvo oli 0.903. Tulos oli parempi kuin kokeessa myös käytetyllä satunnaismetsällä.
Neuroverkolla mallinnettiin koko Kalifornian alueen putkilokasvien levinneisyyttä. Malli eroaa perinteisistä, sillä sen kouluttamiseen voidaan käyttää ilmastotietojen sijasta vain havaintotietoja ja alueen satelliittikuvia. Ilmastomuuttujien lisääminen kuitenkin parantaa suorituskykyä. Vain satelliittikuvilla koulutetun verkon AUC-arvo oli 0.887 ja ilmastotietoja hyödyntäneen 0.901. Yksittäistä lajia satelliittikuvien perusteella mallintaessa AUC-arvo oli 0.979.
Kaikki menetelmät ovat soveltuvia levinneisyysmallinnukseen, mutta lupaavin on syvät neuroverkot. Niiden käyttöä kuitenkin rajoittaa koulutuksen vaikeus. Ongelma voitaisiin ratkaista lisäämällä poikkitieteellistä yhteistyötä.