ICD-koodien automaattinen määritys luonnollisen kielen käsittelyn menetelmillä
Heinonen, Henrik (2024-05-27)
ICD-koodien automaattinen määritys luonnollisen kielen käsittelyn menetelmillä
Heinonen, Henrik
(27.05.2024)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2024060646337
https://urn.fi/URN:NBN:fi-fe2024060646337
Tiivistelmä
Terveydenhuollon potilasasiakirjojen sähköistymisen myötä on tullut mahdolliseksi
asiakirjojen koneellinen käsittely. Tämän johdosta voidaan myös käyttää luonnol-
lisen kielen käsittelyn menetelmiä näihin tekstiaineistoihin. Maailmanlaajuisesti on
käytössä YK:n alaisen Maailman terveysviraston ylläpitämä ICD tautiluokitusjär-
jestelmä, jossa taudit kuvataan ICD-koodeina. Tutkielmassa keskitytään tautiluo-
kitusjärjestelmän ICD-9 ja ICD-10 versioihin. Tutkielma on toteutettu kirjallisuus-
katsauksena etsien tietoa siitä miten koodien automaattista määrittämistä tutki-
taan tällä hetkellä, millä luotettavuustasolla järjestelmät ovat ja mitkä ovat keskei-
simmät ongelmat tutkimusalueessa. Keskeisessä roolissa ovat nykyaikaiset BERT:iä
tekstin käsittelyn menetelmänä käyttävät syväoppivat esikoulutetut kielimallit joi-
den suorituskykyä verrataan tunnettuihin luokittelumenetelmiin logistisesta regres-
siosta takaisinkytkettyihin neuroverkkoihin ohjatun koneoppimisen saralla. Järjes-
telmien vertailemiseen on käytetty MIMIC-tietoaineistoja saavutettavuuden vuoksi.
Nykytasolla automaattinen ICD-koodien määrittäminen ei ole yksinkertainen teh-
tävä koneoppimisluokittelijalle, vaikkakin kehitystä on tapahtunut edellisiin järjes-
telmiin. Yleisimmät tautiluokat onnistutaan luokittelemaan oikein harvinaisempia
useammin. Ongelmaksi on muodostunut tietoaineistojen heikko saatavuus ja koodi-
luokkien epätasapaino olemassa olevissa aineistoissa, luokkien lukumäärä ja nyky-
järjestelmien suorituskyky sekä muistinhallintaongelmat.
asiakirjojen koneellinen käsittely. Tämän johdosta voidaan myös käyttää luonnol-
lisen kielen käsittelyn menetelmiä näihin tekstiaineistoihin. Maailmanlaajuisesti on
käytössä YK:n alaisen Maailman terveysviraston ylläpitämä ICD tautiluokitusjär-
jestelmä, jossa taudit kuvataan ICD-koodeina. Tutkielmassa keskitytään tautiluo-
kitusjärjestelmän ICD-9 ja ICD-10 versioihin. Tutkielma on toteutettu kirjallisuus-
katsauksena etsien tietoa siitä miten koodien automaattista määrittämistä tutki-
taan tällä hetkellä, millä luotettavuustasolla järjestelmät ovat ja mitkä ovat keskei-
simmät ongelmat tutkimusalueessa. Keskeisessä roolissa ovat nykyaikaiset BERT:iä
tekstin käsittelyn menetelmänä käyttävät syväoppivat esikoulutetut kielimallit joi-
den suorituskykyä verrataan tunnettuihin luokittelumenetelmiin logistisesta regres-
siosta takaisinkytkettyihin neuroverkkoihin ohjatun koneoppimisen saralla. Järjes-
telmien vertailemiseen on käytetty MIMIC-tietoaineistoja saavutettavuuden vuoksi.
Nykytasolla automaattinen ICD-koodien määrittäminen ei ole yksinkertainen teh-
tävä koneoppimisluokittelijalle, vaikkakin kehitystä on tapahtunut edellisiin järjes-
telmiin. Yleisimmät tautiluokat onnistutaan luokittelemaan oikein harvinaisempia
useammin. Ongelmaksi on muodostunut tietoaineistojen heikko saatavuus ja koodi-
luokkien epätasapaino olemassa olevissa aineistoissa, luokkien lukumäärä ja nyky-
järjestelmien suorituskyky sekä muistinhallintaongelmat.