Katsaus transformer-arkkitehtuureihin ja niiden hyödyntämiseen konenäkötehtävissä
Haapanen, Juuso (2024-12-05)
Katsaus transformer-arkkitehtuureihin ja niiden hyödyntämiseen konenäkötehtävissä
Haapanen, Juuso
(05.12.2024)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe20241212101584
https://urn.fi/URN:NBN:fi-fe20241212101584
Tiivistelmä
Konvoluutioneuroverkkoihin perustuvat kuvantunnistusalgoritmit ovat pitkään hallinneet konenäön menetelmiä. Viime vuosina alun perin luonnollisen kielen käsittelyä varten kehitetyt transformer-arkkitehtuurit ovat kuitenkin saavuttaneet merkittävää suosiota myös konenäön tehtävissä, kuten kuvien luokittelussa, hahmontunnistuksessa ja semanttisessa segmentoinnissa. Tässä työssä tarkastellaan transformer-arkkitehtuureja, erityisesti konenäön tarpeisiin kehitettyjä transformer-malleja, sekä analysoidaan niiden menetelmällisiä ja suorituskyvyn eroja.
Transformer-arkkitehtuureita vertaillaan työssä konvoluutioneuroverkkoihin sekä kirjallisuudessa raportoitujen tuloksien perusteella sekä kokeellisin menetelmin.
Kokeelliset tulokset osoittavat, että transformer-pohjaiset mallit ovat kilpailukykyisiä verrattuna konvoluutioneuroverkkoihin. Tässä työssä hienosäädetty ViT-malli saavutti 91,2% ja Swin Transformer 85,78% tarkkuuden, kun taas EfficientNet-malli, joka edustaa konvoluutioneuroverkkoja, saavutti 82,01% tarkkuuden kuvien luokittelutehtävässä. Semanttisen segmentoinnin osalta tuloksia arvioitiin kirjallisuudessa raportoitujen arvojen perusteella, ja niiden pohjalta voidaan todeta transformer-mallien olevan hyvin vertailukelpoisia suhteessa konvoluutioneuroverkkoihin.
Tulosten perusteella transformer-arkkitehtuureja voidaan pitää konenäön ongelmien ratkaisemisessa tarkkuuden suhteen kilpailukykyisinä konvoluutioneuroverkkoihin verrattuna. Lisäksi transformer-arkkitehtuurit osoittautuvat monikäyttöisemmäksi, mahdollistaen erilaisten konenäkötehtävien ratkaisemisen yhdenmukaisella lähestymistavalla. Convolutional networks have dominated machine vision methods, but transformer architectures developed initially for natural language processing have also gained popularity in machine vision tasks such as image classification, pattern recognition, and semantic segmentation. In this study, we will learn about transformer architectures and models developed especially for machine vision and their methodical and performance differences.
The study compares transformer architectures to convolutional network-based architectures, comparing the results presented in the literature with experimental work.
Based on this study, models based on transformer architecture are comparable to convolutional neural networks. In image classification, the fine-tuned ViT model achieved 91.2% accuracy, Swin Transformer 85.78% accuracy, while the EfficientNet model based on convolutional networks achieved 82.01% accuracy. The semantic segmentation results were evaluated based on the values presented in the literature, and it appeared that the transformer models were very comparable to the best models based on convolutional networks.
According to this study, transformer architectures are comparable in accuracy to architectures based on convolutional networks in machine vision problems. Transformer architectures are more general-purpose than convolutional networks and can solve several machine vision tasks.
Transformer-arkkitehtuureita vertaillaan työssä konvoluutioneuroverkkoihin sekä kirjallisuudessa raportoitujen tuloksien perusteella sekä kokeellisin menetelmin.
Kokeelliset tulokset osoittavat, että transformer-pohjaiset mallit ovat kilpailukykyisiä verrattuna konvoluutioneuroverkkoihin. Tässä työssä hienosäädetty ViT-malli saavutti 91,2% ja Swin Transformer 85,78% tarkkuuden, kun taas EfficientNet-malli, joka edustaa konvoluutioneuroverkkoja, saavutti 82,01% tarkkuuden kuvien luokittelutehtävässä. Semanttisen segmentoinnin osalta tuloksia arvioitiin kirjallisuudessa raportoitujen arvojen perusteella, ja niiden pohjalta voidaan todeta transformer-mallien olevan hyvin vertailukelpoisia suhteessa konvoluutioneuroverkkoihin.
Tulosten perusteella transformer-arkkitehtuureja voidaan pitää konenäön ongelmien ratkaisemisessa tarkkuuden suhteen kilpailukykyisinä konvoluutioneuroverkkoihin verrattuna. Lisäksi transformer-arkkitehtuurit osoittautuvat monikäyttöisemmäksi, mahdollistaen erilaisten konenäkötehtävien ratkaisemisen yhdenmukaisella lähestymistavalla.
The study compares transformer architectures to convolutional network-based architectures, comparing the results presented in the literature with experimental work.
Based on this study, models based on transformer architecture are comparable to convolutional neural networks. In image classification, the fine-tuned ViT model achieved 91.2% accuracy, Swin Transformer 85.78% accuracy, while the EfficientNet model based on convolutional networks achieved 82.01% accuracy. The semantic segmentation results were evaluated based on the values presented in the literature, and it appeared that the transformer models were very comparable to the best models based on convolutional networks.
According to this study, transformer architectures are comparable in accuracy to architectures based on convolutional networks in machine vision problems. Transformer architectures are more general-purpose than convolutional networks and can solve several machine vision tasks.