Regression Discontinuity Design for AI-assisted histopathology data
Kettunen, Jouni (2023-03-10)
Regression Discontinuity Design for AI-assisted histopathology data
Kettunen, Jouni
(10.03.2023)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2023032833525
https://urn.fi/URN:NBN:fi-fe2023032833525
Tiivistelmä
The aim of the thesis was to review use of quasi-experimental regression discontinuity
design method in histopathological data-analysis and to assess the technical
possibility of using the method with algorithmic data. Regression discontinuity design
is a rarity in medical research and little used in histopathological data-analysis.
The data produced in histopathological analysis relies on cut-offs when reviewing
eligibility to diagnose/treatment and fulfils the main assumption of continuity. Also,
data around the divisive cut-off can be proven to be randomly divided. Proof-ofconcept
for regression discontinuity design was done using digitalized breast tissue
slides (n = 129) analyzed in Aiforia Cloud. The observations were divided by using
a proliferation protein Ki-67’s positivity ratio as a cut-off; < 14% were in moderate
group (pathologist n = 37, algorithm n = 47) and ≥14% positives (pathologist n =
92, algorithm n = 82). Outcome was chosen to be severity of the decease (CFR%),
derived from five-year survival. Thesis used a pre-made API to fetch algorithmic
results to R, where the data handling and analysis were done. For realistic study
one needs thousands of observations, thus used dataset with n = 129 subjects was
too small, also there were only nine observations in outcome. For the reasons, thesis
can’t give any clinically relevant judgments. Technically it was possible to make a
pipeline from Aiforia Cloud to R and proceed to regression discontinuity design. In
the future one might consider repeating this study with enough observations and
more robust outcome. Diplomityön tarkoituksena oli selvittää kirjallisuuskatsauksen ja konseptitodistelun
avulla kvasikokeisiin kuuluvan regressioepäjatkuvuusasetelman käyttöä histopatologisen
aineiston analysoinnissa. Kirjallisuuskatsauksen perusteella regressioepäjatkuvuusasetelma
on vähän käytetty menetelmä lääketieteellisessä tutkimuksessa,
eikä sitä ole juurikaan sovellettu histopatologian alalla, toisin kuin ekonomiassa
ja sosiologiassa. Edellä mainittujen alojen tutkimus kuitenkin osoittaa regressioepäjatkuvuusasetelman
olevan monipuolinen menetelmä useisiin tutkimuskysymyksiin.
Histopatologiassa tuotettava syöpädiagnostiikkaa tukeva tieto soveltuu kirjallisuuden
perusteella käytettäväksi regressioepäjatkuvuusasetelmassa, sillä tärkeimmät
ennakko-oletukset jatkuvuuden ja jakavan kynnysarvon satunnaisuuden suhteen
täyttyvät. Regressioepäjatkuvuusasetelma-analyysi toteutettiin käyttäen digitalisoiduista
rintakudosleikkeistä Aiforia Cloud pilvipalvelussa tuotettua tietoa.
Havainnot (n = 129) jaettiin kahteen ryhmään käyttäen prosenttiosuutta proliferaatioproteiini
Ki-67 värjäytyneistä soluista jakavana tekijänä siten, että <14% olivat
kohtalaisia (patologidatassa n = 37, algoritmilla n = 47) ja ≥14% positiivisia (patologidatassa
n = 92, algoritmilla n = 82). Lopputulemaksi valittiin taudin vakavuutta
kuvaava CFR% luku, joka johdettiin potilaiden viiden vuoden selviytymisseurannasta.
Työssä käytetty ohjelmointirajapinta haki algoritmilla analysoidut tulokset
pilvipalvelusta ja tietoja käsiteltiin R-ohjelmointikielellä. Regressioepäjatkuvuusasetelma-
analyysiin luotettava toteutus vaatii tuhansien havaintojen joukkoja, joten
diplomityössä täytetty havaintojoukko oli liian pieni. Myös käytetty lopputulema
oli osittain soveltumaton johtuen rintasyöpäpotilaiden hyvästä eloonjäännistä
viiden vuoden aikana, näistä syistä työn kliinistä merkittävyyttä ei voida luotettavasti
arvioida. Teknisesti toteutus oli onnistunut osoittaen Aiforia Cloud pilvipalvelusta
voitavan noutaa analyysituloksia, joita pystytään käyttämään tehtäessä
regressioepäjatkuvuusasetelma-analyysia. Jatkotutkimuksena suositellaan kokeen
toistamista käyttäen suurempaa havaintojoukkoa sekä soveltuvampaa lopputulemaa.
design method in histopathological data-analysis and to assess the technical
possibility of using the method with algorithmic data. Regression discontinuity design
is a rarity in medical research and little used in histopathological data-analysis.
The data produced in histopathological analysis relies on cut-offs when reviewing
eligibility to diagnose/treatment and fulfils the main assumption of continuity. Also,
data around the divisive cut-off can be proven to be randomly divided. Proof-ofconcept
for regression discontinuity design was done using digitalized breast tissue
slides (n = 129) analyzed in Aiforia Cloud. The observations were divided by using
a proliferation protein Ki-67’s positivity ratio as a cut-off; < 14% were in moderate
group (pathologist n = 37, algorithm n = 47) and ≥14% positives (pathologist n =
92, algorithm n = 82). Outcome was chosen to be severity of the decease (CFR%),
derived from five-year survival. Thesis used a pre-made API to fetch algorithmic
results to R, where the data handling and analysis were done. For realistic study
one needs thousands of observations, thus used dataset with n = 129 subjects was
too small, also there were only nine observations in outcome. For the reasons, thesis
can’t give any clinically relevant judgments. Technically it was possible to make a
pipeline from Aiforia Cloud to R and proceed to regression discontinuity design. In
the future one might consider repeating this study with enough observations and
more robust outcome.
avulla kvasikokeisiin kuuluvan regressioepäjatkuvuusasetelman käyttöä histopatologisen
aineiston analysoinnissa. Kirjallisuuskatsauksen perusteella regressioepäjatkuvuusasetelma
on vähän käytetty menetelmä lääketieteellisessä tutkimuksessa,
eikä sitä ole juurikaan sovellettu histopatologian alalla, toisin kuin ekonomiassa
ja sosiologiassa. Edellä mainittujen alojen tutkimus kuitenkin osoittaa regressioepäjatkuvuusasetelman
olevan monipuolinen menetelmä useisiin tutkimuskysymyksiin.
Histopatologiassa tuotettava syöpädiagnostiikkaa tukeva tieto soveltuu kirjallisuuden
perusteella käytettäväksi regressioepäjatkuvuusasetelmassa, sillä tärkeimmät
ennakko-oletukset jatkuvuuden ja jakavan kynnysarvon satunnaisuuden suhteen
täyttyvät. Regressioepäjatkuvuusasetelma-analyysi toteutettiin käyttäen digitalisoiduista
rintakudosleikkeistä Aiforia Cloud pilvipalvelussa tuotettua tietoa.
Havainnot (n = 129) jaettiin kahteen ryhmään käyttäen prosenttiosuutta proliferaatioproteiini
Ki-67 värjäytyneistä soluista jakavana tekijänä siten, että <14% olivat
kohtalaisia (patologidatassa n = 37, algoritmilla n = 47) ja ≥14% positiivisia (patologidatassa
n = 92, algoritmilla n = 82). Lopputulemaksi valittiin taudin vakavuutta
kuvaava CFR% luku, joka johdettiin potilaiden viiden vuoden selviytymisseurannasta.
Työssä käytetty ohjelmointirajapinta haki algoritmilla analysoidut tulokset
pilvipalvelusta ja tietoja käsiteltiin R-ohjelmointikielellä. Regressioepäjatkuvuusasetelma-
analyysiin luotettava toteutus vaatii tuhansien havaintojen joukkoja, joten
diplomityössä täytetty havaintojoukko oli liian pieni. Myös käytetty lopputulema
oli osittain soveltumaton johtuen rintasyöpäpotilaiden hyvästä eloonjäännistä
viiden vuoden aikana, näistä syistä työn kliinistä merkittävyyttä ei voida luotettavasti
arvioida. Teknisesti toteutus oli onnistunut osoittaen Aiforia Cloud pilvipalvelusta
voitavan noutaa analyysituloksia, joita pystytään käyttämään tehtäessä
regressioepäjatkuvuusasetelma-analyysia. Jatkotutkimuksena suositellaan kokeen
toistamista käyttäen suurempaa havaintojoukkoa sekä soveltuvampaa lopputulemaa.