Nuottikirjoituksen tunnistus graafien ja konvoluutioverkkojen avulla
Salo, Sami (2024-03-20)
Nuottikirjoituksen tunnistus graafien ja konvoluutioverkkojen avulla
Salo, Sami
(20.03.2024)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2024032512840
https://urn.fi/URN:NBN:fi-fe2024032512840
Tiivistelmä
Nuottikirjoituksen tunnistuksella tarkoitetaan sen piirteiden erottelemista ja muuntamista koneelle luettavaan muotoon. Piirteiden erottelemista voi lähestyä ongelmana monesta eri näkökulmasta, mutta yleisesti graafien ja konvoluutioverkkojen
on todettu olevan hyödyllisiä työkaluja. Nuottikirjoituksen koneellista tunnistamista varten tulee kuitenkin huomioida syötteen laatu, ja tunnistamisen jälkeen vaaditut toimenpiteet tiedon tallentamiseksi koneelle ymmärrettävään muotoon. Nuotinluvun tunnistamista, esi- ja loppukäsittelyä yhdistää OMR:n, eli Optical Music Recognitionin, tutkimusala.
Ennen nuottikirjoituksen varsinaista tunnistamista voidaan syötekuvaa esikäsitellä tarpeellisten menetelmien avulla, joista yleisimpiä ovat binärisaatio, vinoumankorjaus, kohinanvaimennus ja tarkennus. Esikäsittelytoimenpiteiden tarkoituksena on kohentaa syötteen laatua, jotta syötettä käsittelevät algoritmit voisivat antaa mahdollisimman tarkkoja ennusteita. Vasta esikäsittelytoimenpiteiden jälkeen voidaan aloittaa merkintöjen tunnistus.
Nuottikirjoituksen merkintöjen tunnistus voidaan jakaa kahteen vaiheeseen: nuottiviivaston tunnistus ja symbolien tunnistus. Nuottiviivaston tunnistaminen toimii pohjana yksittäisten merkintöjen tunnistamiseen, koska monelle merkinnälle on tärkeää erottaa suhteellinen sijainti nuottiviivastoa kohden. Graafeja voidaan hyödyntää tehokkaasti tässä vaiheessa. Yksittäisten merkintöjen tunnistaminen puolestaan tapahtuu konvoluutioverkoilla kuten muissakin kuvantunnistusalgoritmeissa.
Merkintöjen tunnistamisen jälkeen tulee kuitenkin vielä huomioida nuottikirjoituksen semanttiset piirteet ennen tiedon lopullista tallentamista. Sovellettuja kielioppimalleja käyttämällä tunnistettujen symbolien piirteet ja laajemmat kokonaisuudet voidaan yhdistää merkityksellisesti, jolloin tiedostoon voidaan sisällyttää myös monet korkeamman tason nuottikirjoituksen ominaisuudet, joita syötteen tekijä on halunnut soittajan huomioivan. Valittu tiedon tallennusmuoto voi kuitenkin vaikuttaa lopulliseen tulokseen, sillä kaikki tarkoitukseen soveltuvat vaihtoehdot eivät kuitenkaan ole yhtä laadukkaita.
on todettu olevan hyödyllisiä työkaluja. Nuottikirjoituksen koneellista tunnistamista varten tulee kuitenkin huomioida syötteen laatu, ja tunnistamisen jälkeen vaaditut toimenpiteet tiedon tallentamiseksi koneelle ymmärrettävään muotoon. Nuotinluvun tunnistamista, esi- ja loppukäsittelyä yhdistää OMR:n, eli Optical Music Recognitionin, tutkimusala.
Ennen nuottikirjoituksen varsinaista tunnistamista voidaan syötekuvaa esikäsitellä tarpeellisten menetelmien avulla, joista yleisimpiä ovat binärisaatio, vinoumankorjaus, kohinanvaimennus ja tarkennus. Esikäsittelytoimenpiteiden tarkoituksena on kohentaa syötteen laatua, jotta syötettä käsittelevät algoritmit voisivat antaa mahdollisimman tarkkoja ennusteita. Vasta esikäsittelytoimenpiteiden jälkeen voidaan aloittaa merkintöjen tunnistus.
Nuottikirjoituksen merkintöjen tunnistus voidaan jakaa kahteen vaiheeseen: nuottiviivaston tunnistus ja symbolien tunnistus. Nuottiviivaston tunnistaminen toimii pohjana yksittäisten merkintöjen tunnistamiseen, koska monelle merkinnälle on tärkeää erottaa suhteellinen sijainti nuottiviivastoa kohden. Graafeja voidaan hyödyntää tehokkaasti tässä vaiheessa. Yksittäisten merkintöjen tunnistaminen puolestaan tapahtuu konvoluutioverkoilla kuten muissakin kuvantunnistusalgoritmeissa.
Merkintöjen tunnistamisen jälkeen tulee kuitenkin vielä huomioida nuottikirjoituksen semanttiset piirteet ennen tiedon lopullista tallentamista. Sovellettuja kielioppimalleja käyttämällä tunnistettujen symbolien piirteet ja laajemmat kokonaisuudet voidaan yhdistää merkityksellisesti, jolloin tiedostoon voidaan sisällyttää myös monet korkeamman tason nuottikirjoituksen ominaisuudet, joita syötteen tekijä on halunnut soittajan huomioivan. Valittu tiedon tallennusmuoto voi kuitenkin vaikuttaa lopulliseen tulokseen, sillä kaikki tarkoitukseen soveltuvat vaihtoehdot eivät kuitenkaan ole yhtä laadukkaita.