Re-evaluating the revisioned S800 Dataset for Species Recognition: A Cross-Corpus Approach Using BioBERT
Toivonen, Harttu (2024-06-13)
Re-evaluating the revisioned S800 Dataset for Species Recognition: A Cross-Corpus Approach Using BioBERT
Toivonen, Harttu
(13.06.2024)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2024062558185
https://urn.fi/URN:NBN:fi-fe2024062558185
Tiivistelmä
The S800 dataset is utilized for identifying named entities in biomedicine. However, the S800 under-performs many other biomedical datasets designed for named entity recognition. Consequently, the S800 dataset was re-annotated. This Master’s thesis focuses on a comparative evaluation of the new and old versions of the dataset from the perspective of species entities. Employing natural language processing and named entity recognition, the research aims to train a BioBERT-based model to recognize species in texts by leveraging context. The study uncovers inconsistencies in the old S800 dataset, particularly in the naming of species subtypes, affecting its performance. Comparing the new and old S800 datasets and contrasting them with the LINNAEUS dataset yielded results indicating an improvement in species recognition but also highlighted issues within the LINNAEUS dataset. Efforts were made to identify the dataset sections that produced the most errors, and species were examined by subcategories. Metrics were developed, potentially applicable to broader error analysis in biomedical texts. S800 on aineisto, jota hyödynnetään nimettyjen entiteettien löytämiseen biolääketieteessä. S800 toimii kuitenkin huonommin kuin monet muut nimettyjen entiteettien tunnistamiseen tarkoitetut biolääketieteelliset aineistot. Tämän takia S800- aineisto annotointiin uudestaan. Tässä maisterintutkielmassa keskitytään sen uuden ja vanhan aineiston keskinäiseen arviointiin lajientiteettien näkökulmasta. Luonnollista kielenkäsittelyä ja nimettyjen entiteettien tunnistusta käyttäen tutkimuksen tavoitteena on kouluttaa BioBERT-pohjainen malli tunnistamaan lajit tekstistä hyödyntäen kontekstia. Tutkimus paljastaa epäjohdonmukaisuuksia vanhasta S800- aineistossa, erityisesti lajien alatyyppien nimeämisessä, mikä vaikuttaa sen suoritukykyyn. Vertaillessa uutta ja vanhaa S800-aineistoa ja vertaamalla sitä LINNAEUSaineistoon, saimme tuloksia, jotka viittaavat lajien tunnistuksen parantumiseen, mutta myös viittavaat ongelmiin LINNAUES-aineistossa. Lisäksi pyrittiin löytämään aineistosta niitä osia, jotka tuottivat kaikista eniten virheitä ja lajeja tutkittiin myös alakategorioittain. Tähän laadittiin metriikoita, joita voi mahdollisesti hyödyntää myös laajemmin virheanalyysistä biolääketieteellisessä tekstissä.