Tiedon eristäminen materiaalitieteiden teksteistä suurilla kielimalleilla
Nuutinen, Viljami (2024-06-19)
Tiedon eristäminen materiaalitieteiden teksteistä suurilla kielimalleilla
Nuutinen, Viljami
(19.06.2024)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2024062457409
https://urn.fi/URN:NBN:fi-fe2024062457409
Tiivistelmä
Materiaali-informatiikka on materiaalitieteen haara, jossa hyödynnetään laskennallisia metodeja materiaalien ja niiden ominaisuuksien tutkimiseen ja kehittämiseen. Materiaali-informatiikan tutkimus vaatii kuitenkin suuria määriä dataa, jonka saatavuus on haastavaa johtuen materiaalitieteiden tietokantojen vajavaisuudesta. Materiaalitieteen julkaisujen määrä kasvaa jatkuvasti, mutta alan monimuotoisuuden vuoksi tiedon esittämistavat ovat vaihtelevia ja halutun tiedon löytäminen työlästä.
Suurilla kielimalleilla (kuten BERT (Bidirectional Encoder Representations from Transformers) tai GPT (Generative Pre-trained Transformer)), voidaan analysoida suuria määriä tekstiä automaattisesti ja eristää niistä arvokasta dataa materiaaleista, josta voidaan luoda tietokantoja hyödynnettäväksi materiaali-informatiikan sovelluksissa. Tiedon eristäminen materiaalitieteiden teksteistä on haastavaa, koska erilaisia tutkittavia materiaaliluokkia on paljon ja merkintätavat vaihtelevat alalla. Teksti on myös vaikea datan laji, koska se voi esiintyä erilaisissa muotoiluissa, mikä mutkistaa sen käsittelyä.
Tutkielmassa tarjotaan katsaus kieliteknologioiden käyttöön materiaalitieteissä, aiheeseen liittyvään termistöön ja materiaalitekniikan käyttöön kehitettyihin kielimalleihin. Tutkielma keskittyy käsittelemään tekstimuotoista tiedon eristämistä BERT-kielimalleilla. Suurilla kielimalleilla tiedon eristäminen on materiaalitieteissä alkutekijöissään ja siihen liittyviä haasteita on paljon. Kieliteknologioiden kehittyessä tiedon eristäminen suurilla kielimalleilla on vaikeuksista huolimatta lupaava työkalu tulevaisuuden materiaalien kehityksessä.
Suurilla kielimalleilla (kuten BERT (Bidirectional Encoder Representations from Transformers) tai GPT (Generative Pre-trained Transformer)), voidaan analysoida suuria määriä tekstiä automaattisesti ja eristää niistä arvokasta dataa materiaaleista, josta voidaan luoda tietokantoja hyödynnettäväksi materiaali-informatiikan sovelluksissa. Tiedon eristäminen materiaalitieteiden teksteistä on haastavaa, koska erilaisia tutkittavia materiaaliluokkia on paljon ja merkintätavat vaihtelevat alalla. Teksti on myös vaikea datan laji, koska se voi esiintyä erilaisissa muotoiluissa, mikä mutkistaa sen käsittelyä.
Tutkielmassa tarjotaan katsaus kieliteknologioiden käyttöön materiaalitieteissä, aiheeseen liittyvään termistöön ja materiaalitekniikan käyttöön kehitettyihin kielimalleihin. Tutkielma keskittyy käsittelemään tekstimuotoista tiedon eristämistä BERT-kielimalleilla. Suurilla kielimalleilla tiedon eristäminen on materiaalitieteissä alkutekijöissään ja siihen liittyviä haasteita on paljon. Kieliteknologioiden kehittyessä tiedon eristäminen suurilla kielimalleilla on vaikeuksista huolimatta lupaava työkalu tulevaisuuden materiaalien kehityksessä.