Traditional Chinese peonies investigated via means of data analytics: Morphological features and genetic connections in variety identification
Leino, Antti (2024-06-07)
Traditional Chinese peonies investigated via means of data analytics: Morphological features and genetic connections in variety identification
Leino, Antti
(07.06.2024)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2024062056551
https://urn.fi/URN:NBN:fi-fe2024062056551
Tiivistelmä
Chinese peony, and its many cultivar varieties, are the most popular type of peonies in Finnish home gardens. Natural Resources Institute Finland (Luonnonvarakeskus, LUKE) conducted a study and collected samples of traditional peony species from Finnish home gardens. In the original study, goal was to collect samples of mainly natural peony species. However, due to their popularity and how easy it is to mistakenly identify peonies, many collected samples were in fact Chinese peonies, which became the core sample material for this thesis work.
A fairly large amount of morphological feature data was collected from the samples during their time of prime blooming. This work lists the methods used for measurement and assesses the usability of each measured feature for variety recognition.
This work is a MSc thesis work in data analytics. Core concepts of data analytics are applied and explored on self-measured feature data and genetic marker data of the samples. These concepts include dimension reduction, cluster analysis, correlation coefficients, statistical entropy and data visualization. Analysis was performed with custom Python programming code using free industry standard libraries. Written code is available alongside other materials for referencing.
Sample plants are compared and explored using the aforementioned means of data analytics. Main distinguishing features are listed for groupings of samples of the same assumed variety. Variety names are suggested for the main groups of samples using literature references. An extensive photographic documentation of the samples was done to aid analysis after the short time of flowering and for later referencing. Kiinanpionit monine lajikkeineen ovat suosituimpia pioneja suomalaisissa kotipuutarhoissa. Luonnonvarakeskus (LUKE) keräsi tutkimuspellolle perinteisiä pionilajeja edustavia näytekasveja eri puolilta Suomea aiempaan tutkimukseensa liittyen. Aiemmassa tutkimuksessa keskityttiin pionien luonnonlajeihin. Kiinanpionien suosion ja pionilajien tunnistamisen vaikeuden takia useat kerätyistä näytteistä olivat kuitenkin kiinanpioneja, jotka muodostuivat tämän opinnäytetyön tutkimusmateriaaliksi.
Kukintakauden aikana pioneista kerättiin suuri määrä mittausdataa erinäisin menetelmin. Tässä työssä listataan käytetyt menetelmät ja arvioidaan niiden hyödyllisyyttä lajikkeiden tunnistamisessa.
Tämä työ on data-analytiikan linjan opinnäytetyö. Monia data-analyyttisia konsepteja sovelletaan ja tutkitaan itse kerätyllä mittausdatalla sekä geneettisellä merkkidatalla. Sovellettuja konsepteja ovat dimensioreduktio, klusterianalyysi, korrelaatiokertoimet, tilastollinen entropia ja datan visualisoinnit. Kaikki analyysi suoritettiin tarkoitusta varten kirjoitetulla Python-koodilla alalle tyypillisiä kirjastoja käyttäen. Kirjoitettu koodi on saatavilla muiden materiaalien ohella.
Näytekasveja tutkitaan ja vertaillaan toisiinsa edellämainittuja keinoja hyödyntäen. Oleellisimmat havaitut lajikkeita erottelevat ominaisuudet listataan ja niiden käyttökelpoisuutta arvioidaan lajiketunnistuksessa. Lajikenimiä ehdotetaan tutkituille kiinanpioneille kirjallisuuteen ja verkkolähteisiin viitaten. Näytteistä laadittiin kattava valokuvadokumentaatio lyhyen kukinta-ajan jälkeistä analyysia helpottamaan.
A fairly large amount of morphological feature data was collected from the samples during their time of prime blooming. This work lists the methods used for measurement and assesses the usability of each measured feature for variety recognition.
This work is a MSc thesis work in data analytics. Core concepts of data analytics are applied and explored on self-measured feature data and genetic marker data of the samples. These concepts include dimension reduction, cluster analysis, correlation coefficients, statistical entropy and data visualization. Analysis was performed with custom Python programming code using free industry standard libraries. Written code is available alongside other materials for referencing.
Sample plants are compared and explored using the aforementioned means of data analytics. Main distinguishing features are listed for groupings of samples of the same assumed variety. Variety names are suggested for the main groups of samples using literature references. An extensive photographic documentation of the samples was done to aid analysis after the short time of flowering and for later referencing.
Kukintakauden aikana pioneista kerättiin suuri määrä mittausdataa erinäisin menetelmin. Tässä työssä listataan käytetyt menetelmät ja arvioidaan niiden hyödyllisyyttä lajikkeiden tunnistamisessa.
Tämä työ on data-analytiikan linjan opinnäytetyö. Monia data-analyyttisia konsepteja sovelletaan ja tutkitaan itse kerätyllä mittausdatalla sekä geneettisellä merkkidatalla. Sovellettuja konsepteja ovat dimensioreduktio, klusterianalyysi, korrelaatiokertoimet, tilastollinen entropia ja datan visualisoinnit. Kaikki analyysi suoritettiin tarkoitusta varten kirjoitetulla Python-koodilla alalle tyypillisiä kirjastoja käyttäen. Kirjoitettu koodi on saatavilla muiden materiaalien ohella.
Näytekasveja tutkitaan ja vertaillaan toisiinsa edellämainittuja keinoja hyödyntäen. Oleellisimmat havaitut lajikkeita erottelevat ominaisuudet listataan ja niiden käyttökelpoisuutta arvioidaan lajiketunnistuksessa. Lajikenimiä ehdotetaan tutkituille kiinanpioneille kirjallisuuteen ja verkkolähteisiin viitaten. Näytteistä laadittiin kattava valokuvadokumentaatio lyhyen kukinta-ajan jälkeistä analyysia helpottamaan.