ChatGPT:n hyödyntäminen arvioinnissa : Kokemuksia aineenopettajaopiskelijan näkökulmasta
Hautala, Severi (2024-05-06)
ChatGPT:n hyödyntäminen arvioinnissa : Kokemuksia aineenopettajaopiskelijan näkökulmasta
Hautala, Severi
(06.05.2024)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2024060444566
https://urn.fi/URN:NBN:fi-fe2024060444566
Tiivistelmä
ChatGPT on herättänyt suurta kiinnostusta yhteiskunnan eri aloilla, niin kuin myös koulutuksessa. Tutkimustulokset osoittavat, että ChatGPT:tä voi hienosäätämisen ansiosta hyödyntää arvioinnissa luotettavana apuvälineenä. Tulosten käytännön sovellettavuutta kuitenkin heikentää se, että tekoälymallin hienosäätäminen vaatii syvällistä ymmärrystä ohjelmoinnista ja tekoälymallien toimintaperiaatteista, joita opettajalla ei välttämättä ole. Tämän tutkimuksen tarkoituksena on selvittää, voiko ChatGPT:tä ohjeistaa arviointiin sopivaksi käyttäjäystävällisesti räätälöityjen GPT-4-chattibottien luomistyökalun avulla, jossa tekoälymallin toiminnan ohjaus perustuu kehotemenetelmiin hienosäätämisen sijasta. Tutkimuksessa luotiin neljä eri kehotemenetelmien avulla ohjeistettua chattibottia, joiden arviointia verrattiin ihmisen suorittamaan arviointiin. Tarkastelemalla arvioinnin tuloksia yhdessä kehotemenetelmien kanssa luotiin käsitys ChatGPT:n soveltuvuudesta arviointiin.
Tutkimusaineisto koostui 96:sta sensorien arvioimasta ja pisteyttämästä vastauksesta syksyn 2023 maantieteen ylioppilaskokeen koetehtävään 2.1 Kuvaile kaikki kolme sadetyyppiä ja nimeä kullekin sadetyypille yksi ominainen esiintymisalue. Vastaukset jaettiin kahteen ryhmään, joista yhtä käytettiin chattibottien arvioinnin kohdejoukkona ja toistachattibottien ohjeistuksessa. Lisäksi tutkimuksessa hyödynnettiin Ylioppilastutkintolautakunnan julkaisemaa Hyvän vastauksen piirteet -dokumenttia, jossa kuvataan sensorien käyttämät arviointiohjeet. Käsitys tarkemmasta arviointiohjeidensoveltamisesta luotiin teoriaohjassa sisällönanalyysissä tarkastelemalla yhdessä Hyvän vastauksen piirteitä ja sensorien antamia pisteitä.
Tutkimuksessa luotiin neljä chattibottia, jotka arvioivat jokaisen vastauksen 10 kertaa. Ensimmäisen botti ohjeistettiin Hyvän vastauksen piirteillä nollakehotemenetelmää hyödyntäen. Toisen botin ohjeistus perustui ajatusketjukehotemenetelmään sisällönanalyysin tuloksista johdetuilla tarkemmilla arviointiohjeilla. Kolmas botti ohjeistettiin samalla menetelmällä kuin botti kaksi, minkä lisäksi sille syötettiin oppimateriaalia kahdesta lukion maantieteen oppikirjasta, joissa kuvailtiin sadetyyppien syntytapoja. Neljännen botin ohjeistus perustui bottien 2 ja 3 menetelmien lisäksi vähäisen ohjauksen kehottamiseen, jossa botille näytettiin pisteittäin luokiteltuja esimerkkivastauksia. Chattibottien arvioinnin tuloksia vertailtiin tilastollisesti keskenään ja sensorien arvioinnin kanssa. Lisäksi bottien 1 ja 4 palautteelle tehtiin sisällönanalyysi, jonka avulla lisättiin ymmärrystä siitä, miten botit sovelsivat arviointiohjeita.
Tutkimustulokset osoittivat, että chattibottien arviointi poikkesi toisistaan samoin kuin sensorien arvioinnista. Keskimäärin chattibotit antoivat vastauksille enemmän pisteitä kuin sensorit. Arviointi oli yhdenmukaisinta botin 4 ja sensorien välillä ja poikkeavinta botin 1 osalta. Bottien 2, 3 ja 4 vertailussa ei havaittu merkittävää eroa arvioinnin yhdenmukaisuudessa. Sisäkorrelaatiokertoimen tulosten mukaan chattibottien arviointi oli johdonmukaista ja yhtenevää sensorien kanssa. Sisällönanalyysi ja chattibottien tarkkuusmittaukset kuitenkin paljastivat, että bottien arvioinnin validiteetti oli alhainen. Tutkimustuloksista voitiin päätellä, että paras tapa ChatGPT:n ohjeistamiseen oli ajatusketjukehotemenetelmän hyödyntäminen tarkemmilla arviointiohjeilla. Lisäksi tuloksia tarkastelemalla havaittiin ChatGPT:n toimintaperiaatteen asettamat haasteet arviointitehtävissä, joissa vaaditaan ihmisen kaltaista joustavaa ajattelua ja ymmärrystä. Tämä näkyi chattibottien arvioinnissa muun muassa arviointiohjeiden epäjohdonmukaisena noudattamisena ja väärien asioiden arvioimisena. ChatGPT has gained a lot of popularity and interest in different fields of society including education. Research has shown that it can be a reliable tool in assessment when fine-tuned for this purpose. However, the technical knowledge required for fine-tuning the AI-model makes the results irrelevant for most teachers who might not have the coding skills or deep understanding of the AI principles. This study explores whether ChatGPT can be effectively utilized for assessment purposes using a custom GPT creation tool. This tool facilitates the instruction of the AI model using prompting methods, eliminating the need for coding skills. The study was conducted by creating four different custom GPT chatbots with different prompting methods which performance in assessment was compared against human raters. The results of chatbots assessment were then compared with the human raters together with the prompting methods used to understand which methods work the best and if ChatGPT can be utilized successfully for assessment without fine-tuning.
The research data consistent of 96 human rated student answers for the autumn 2023 geography matriculation exam question 2.1 Describe all three precipitation types and name a typical area for each precipitation type. The answers were divided into two groups which half were used for the chatbots assessment and the other half for the prompting methods. In addition, a document named “Hyvän vastauksen piirteet” was used which described the assessment guidelines used by the human raters. This document was then used in content analysis with the scores given by the human raters to understand how the assessment guidelines described were applied in practice. Four custom GPT-4-chatbots were created to assess the answers 10 times each. The first chatbot was instructed using a zero-shot-prompting with the Hyvän vastauksen piirteet. The second chatbot was instructed using chain-of-thought-prompting with the specified assessment guidelines created from the results of the content analysis. The third chatbot was instructed using the same methods as for model two in addition study material from two upper secondary high school textbooks describing the formation precipitation types. The fourth chatbot was instructed using few-show-prompting with human rated student answers in addition with the methods used in chatbots 2 and 3. The results of the AI-models assessment were then statistically compared with the human raters. Also, content analysis was made for the feedback given the chatbots 1 and 4 to understand how ChatGPT applied the assessment guidelines in practice.
The results revealed that chatbots assessment different form each other and the human raters. Generally, chatbots tend to give answers more scores than human raters. The assessment results with the human rates were closest between the chatbot 4 and far off with chatbot 1. No significant differences were seen in the results between the chatbots 2, 3 and 4. Intra correlation coefficient results indicated high reliability in chatbots assessment and with the human raters. However, the results from the content analysis in addition with the accuracy measurements revealed that the validity of chatbots assessment was low. According to the results the best method used for to instruct ChatGPT for assessment was chain-of-thought-prompting with the specified assessment guidelines. Also, the study revealed some limitations utilizing ChatGPT for assessment due to its lack on context understanding with different types of answers.
Tutkimusaineisto koostui 96:sta sensorien arvioimasta ja pisteyttämästä vastauksesta syksyn 2023 maantieteen ylioppilaskokeen koetehtävään 2.1 Kuvaile kaikki kolme sadetyyppiä ja nimeä kullekin sadetyypille yksi ominainen esiintymisalue. Vastaukset jaettiin kahteen ryhmään, joista yhtä käytettiin chattibottien arvioinnin kohdejoukkona ja toistachattibottien ohjeistuksessa. Lisäksi tutkimuksessa hyödynnettiin Ylioppilastutkintolautakunnan julkaisemaa Hyvän vastauksen piirteet -dokumenttia, jossa kuvataan sensorien käyttämät arviointiohjeet. Käsitys tarkemmasta arviointiohjeidensoveltamisesta luotiin teoriaohjassa sisällönanalyysissä tarkastelemalla yhdessä Hyvän vastauksen piirteitä ja sensorien antamia pisteitä.
Tutkimuksessa luotiin neljä chattibottia, jotka arvioivat jokaisen vastauksen 10 kertaa. Ensimmäisen botti ohjeistettiin Hyvän vastauksen piirteillä nollakehotemenetelmää hyödyntäen. Toisen botin ohjeistus perustui ajatusketjukehotemenetelmään sisällönanalyysin tuloksista johdetuilla tarkemmilla arviointiohjeilla. Kolmas botti ohjeistettiin samalla menetelmällä kuin botti kaksi, minkä lisäksi sille syötettiin oppimateriaalia kahdesta lukion maantieteen oppikirjasta, joissa kuvailtiin sadetyyppien syntytapoja. Neljännen botin ohjeistus perustui bottien 2 ja 3 menetelmien lisäksi vähäisen ohjauksen kehottamiseen, jossa botille näytettiin pisteittäin luokiteltuja esimerkkivastauksia. Chattibottien arvioinnin tuloksia vertailtiin tilastollisesti keskenään ja sensorien arvioinnin kanssa. Lisäksi bottien 1 ja 4 palautteelle tehtiin sisällönanalyysi, jonka avulla lisättiin ymmärrystä siitä, miten botit sovelsivat arviointiohjeita.
Tutkimustulokset osoittivat, että chattibottien arviointi poikkesi toisistaan samoin kuin sensorien arvioinnista. Keskimäärin chattibotit antoivat vastauksille enemmän pisteitä kuin sensorit. Arviointi oli yhdenmukaisinta botin 4 ja sensorien välillä ja poikkeavinta botin 1 osalta. Bottien 2, 3 ja 4 vertailussa ei havaittu merkittävää eroa arvioinnin yhdenmukaisuudessa. Sisäkorrelaatiokertoimen tulosten mukaan chattibottien arviointi oli johdonmukaista ja yhtenevää sensorien kanssa. Sisällönanalyysi ja chattibottien tarkkuusmittaukset kuitenkin paljastivat, että bottien arvioinnin validiteetti oli alhainen. Tutkimustuloksista voitiin päätellä, että paras tapa ChatGPT:n ohjeistamiseen oli ajatusketjukehotemenetelmän hyödyntäminen tarkemmilla arviointiohjeilla. Lisäksi tuloksia tarkastelemalla havaittiin ChatGPT:n toimintaperiaatteen asettamat haasteet arviointitehtävissä, joissa vaaditaan ihmisen kaltaista joustavaa ajattelua ja ymmärrystä. Tämä näkyi chattibottien arvioinnissa muun muassa arviointiohjeiden epäjohdonmukaisena noudattamisena ja väärien asioiden arvioimisena.
The research data consistent of 96 human rated student answers for the autumn 2023 geography matriculation exam question 2.1 Describe all three precipitation types and name a typical area for each precipitation type. The answers were divided into two groups which half were used for the chatbots assessment and the other half for the prompting methods. In addition, a document named “Hyvän vastauksen piirteet” was used which described the assessment guidelines used by the human raters. This document was then used in content analysis with the scores given by the human raters to understand how the assessment guidelines described were applied in practice. Four custom GPT-4-chatbots were created to assess the answers 10 times each. The first chatbot was instructed using a zero-shot-prompting with the Hyvän vastauksen piirteet. The second chatbot was instructed using chain-of-thought-prompting with the specified assessment guidelines created from the results of the content analysis. The third chatbot was instructed using the same methods as for model two in addition study material from two upper secondary high school textbooks describing the formation precipitation types. The fourth chatbot was instructed using few-show-prompting with human rated student answers in addition with the methods used in chatbots 2 and 3. The results of the AI-models assessment were then statistically compared with the human raters. Also, content analysis was made for the feedback given the chatbots 1 and 4 to understand how ChatGPT applied the assessment guidelines in practice.
The results revealed that chatbots assessment different form each other and the human raters. Generally, chatbots tend to give answers more scores than human raters. The assessment results with the human rates were closest between the chatbot 4 and far off with chatbot 1. No significant differences were seen in the results between the chatbots 2, 3 and 4. Intra correlation coefficient results indicated high reliability in chatbots assessment and with the human raters. However, the results from the content analysis in addition with the accuracy measurements revealed that the validity of chatbots assessment was low. According to the results the best method used for to instruct ChatGPT for assessment was chain-of-thought-prompting with the specified assessment guidelines. Also, the study revealed some limitations utilizing ChatGPT for assessment due to its lack on context understanding with different types of answers.