Paikkatiedon laatutiedon automaattinen tuottaminen ja visualisointi : Esimerkkinä Digiroad-aineisto
Autere, Jenni (2024-06-02)
Paikkatiedon laatutiedon automaattinen tuottaminen ja visualisointi : Esimerkkinä Digiroad-aineisto
Autere, Jenni
(02.06.2024)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2024061854659
https://urn.fi/URN:NBN:fi-fe2024061854659
Tiivistelmä
Paikkatiedon kasvava saatavuus ja rinnakkaiset aineistot lisäävät yhä enemmissä määrin tarvetta paikkatiedon laadun arvioimiselle. Tietoaineistojen koon kasvaessa laadun manuaalinen arviointi käy yhä hankalammaksi, jolloin automaattisista menetelmistä muodostuu hyödyllinen osa arviointiprosessia. Tutkielmassa kehitetään automaattinen, Python-ohjelmointikieleen perustuva paikkatiedon laadun arviointi- ja visualisointimenetelmä, jota testataan joukkoliikenteen pysäkkitietoihin. Joukkoliikenteen pysäkkitiedot saadaan Digiroadista, joka on Väyläviraston ylläpitämä kansallinen tie- ja katuverkon tietojärjestelmä.
Tutkielmassa arvioidaan joukkoliikennepysäkkien sisällöllistä täydellisyyttä, alueellista täydellisyyttä, ajallista tarkkuutta sekä sijaintitarkkuutta. Alueellisen täydellisyyden ja sijaintitarkkuuden arvioimiseen käytetään referenssiaineistona avoimesta OpenStreetMap-paikkatietopalvelusta saatavia pysäkkitietoja. Laatutietojen tuottamisen jälkeen ne visualisoidaan tilastollisin kuvaajin sekä Suomen kuntajakoon pohjautuvasti interaktiivisella web-kartalla.
Pysäkkitiedon laatu on Suomessa lähtökohtaisesti hyvällä tasolla. Alueellista vaihtelua on erityisesti sisällöllisessä täydellisyydessä sekä ajallisessa tarkkuudessa. Digiroadissa olisi tärkeää kehittää tietojen sisältöä sekä tiedon laadusta viestimistä käyttäjän näkökulmasta hyödyllisellä tavalla. Esimerkiksi tarkat sijaintitiedot sekä aikaleima pysäkkitiedon viimeisimmästä tarkastusajankohdasta olisivat tarpeellisia kehityskohteita. Lisäksi Digiroadissa kannattaisi pyrkiä kehittämään erillisiä laatutietokuvauksia metatietokuvauksien ohelle huomioiden sekä ulkoiset että sisäiset laatutekijät.
Python-ohjelmointikieli soveltuu pistemäisen paikkatiedon automaattisen laadun arviointimenetelmän kehittämiseen hyvin, sillä se on nopea, monipuolinen ja helposti saavutettava kieli. Laadun arvioinnin automatisointi kokonaan tai osittain nopeuttaa arviointiprosessia, vähentää inhimillisten virheiden riskiä, ja mahdollistaa suurten tietoaineistojen kattavan laadun arvioinnin helposti. The increasing availability of geospatial data and parallel datasets are significantly raising the need for assessing the quality of geospatial data. In the era of big data, manual quality assessment becomes increasingly difficult, making automated methods a useful option to be utilized in the evaluation process. This thesis pursues to develop an automatic data quality assessment and visualization method based on the Python programming language. The method is then tested on public transportation stop data. The public transportation stop data is sourced from Digiroad, a national road and street network information system maintained by the Finnish Transport Infrastructure Agency.
Within this thesis the attribute completeness, spatial completeness, temporal accuracy, and positional accuracy of public transportation data is evaluated. For assessing spatial completeness and positional accuracy, reference data from the open geospatial service OpenStreetMap is utilized. After automatically generating the quality information, the quality information is then visualized using statistical charts and an interactive web map based on the Finnish municipal data.
In Finland, the quality of public transportation stop data is generally at a good level. However, there is some regional variation, particularly in attribute completeness and temporal accuracy of the stop data. It is crucial to develop the data content in Digiroad and communicate data quality better in a way that is useful from the user's perspective. For example, accurate positional information and timestamps of the most recent inspection of the stop information would be necessary areas for improvement. Additionally, there is a need to strive to develop separate quality descriptions alongside metadata in Digiroad, considering both external and internal quality factors.
The Python programming language is well-suited for developing an automated point-based geospatial data quality assessment method, as it is a fast, versatile, and easily accessible language. Automating quality assessment entirely or partially speeds up the evaluation process, reduces the risk of human-based errors, and makes it easy to assess the quality of datasets regardless of their size.
Tutkielmassa arvioidaan joukkoliikennepysäkkien sisällöllistä täydellisyyttä, alueellista täydellisyyttä, ajallista tarkkuutta sekä sijaintitarkkuutta. Alueellisen täydellisyyden ja sijaintitarkkuuden arvioimiseen käytetään referenssiaineistona avoimesta OpenStreetMap-paikkatietopalvelusta saatavia pysäkkitietoja. Laatutietojen tuottamisen jälkeen ne visualisoidaan tilastollisin kuvaajin sekä Suomen kuntajakoon pohjautuvasti interaktiivisella web-kartalla.
Pysäkkitiedon laatu on Suomessa lähtökohtaisesti hyvällä tasolla. Alueellista vaihtelua on erityisesti sisällöllisessä täydellisyydessä sekä ajallisessa tarkkuudessa. Digiroadissa olisi tärkeää kehittää tietojen sisältöä sekä tiedon laadusta viestimistä käyttäjän näkökulmasta hyödyllisellä tavalla. Esimerkiksi tarkat sijaintitiedot sekä aikaleima pysäkkitiedon viimeisimmästä tarkastusajankohdasta olisivat tarpeellisia kehityskohteita. Lisäksi Digiroadissa kannattaisi pyrkiä kehittämään erillisiä laatutietokuvauksia metatietokuvauksien ohelle huomioiden sekä ulkoiset että sisäiset laatutekijät.
Python-ohjelmointikieli soveltuu pistemäisen paikkatiedon automaattisen laadun arviointimenetelmän kehittämiseen hyvin, sillä se on nopea, monipuolinen ja helposti saavutettava kieli. Laadun arvioinnin automatisointi kokonaan tai osittain nopeuttaa arviointiprosessia, vähentää inhimillisten virheiden riskiä, ja mahdollistaa suurten tietoaineistojen kattavan laadun arvioinnin helposti.
Within this thesis the attribute completeness, spatial completeness, temporal accuracy, and positional accuracy of public transportation data is evaluated. For assessing spatial completeness and positional accuracy, reference data from the open geospatial service OpenStreetMap is utilized. After automatically generating the quality information, the quality information is then visualized using statistical charts and an interactive web map based on the Finnish municipal data.
In Finland, the quality of public transportation stop data is generally at a good level. However, there is some regional variation, particularly in attribute completeness and temporal accuracy of the stop data. It is crucial to develop the data content in Digiroad and communicate data quality better in a way that is useful from the user's perspective. For example, accurate positional information and timestamps of the most recent inspection of the stop information would be necessary areas for improvement. Additionally, there is a need to strive to develop separate quality descriptions alongside metadata in Digiroad, considering both external and internal quality factors.
The Python programming language is well-suited for developing an automated point-based geospatial data quality assessment method, as it is a fast, versatile, and easily accessible language. Automating quality assessment entirely or partially speeds up the evaluation process, reduces the risk of human-based errors, and makes it easy to assess the quality of datasets regardless of their size.