Sähköisten tenttien esseekysymysten automaattinen arvioiminen
Salo, Joonas (2020)
Salo, Joonas
2020
Teknis-luonnontieteellinen DI-ohjelma - Master's Programme in Science and Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2020-11-23
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202011168010
https://urn.fi/URN:NBN:fi:tuni-202011168010
Tiivistelmä
Tässä tutkimuksessa tavoitteena on etsiä vaihtoehtoisia arviointikeinoja sähköiseseti tehtävil-le tenteille. Nykypäivään mennessä suurin osa tenteistä tarkistetaan ja arvioidaan edelleen kä-sin. Sähköisiä tenttejä on otettu enenevässä määrin viime vuosina otettu käyttöön koulutuksenkaikilla asteilla ja niillä on monia hyötyjä paperisiin tentteihin nähden. Tenttien aikataulut voi ol-la joustavia, jolloin oppilas voi varata itselleen parhaan mahdollisen ajan ennakkoon päätetyltäaikaväliltä. Tentit eivät myöskään käytä paperia lainkaan, ja opetushenkilöstön ei tarvitse valvoatenttimistilaisuuksia erikseen. Sähköisiä alustoja kuten esimerkiksi STACK-ympäristöä voidaankäyttää numeeristen laskutehtävien ja sanallisten täydennystehtävien automaattiseen arviointiin.Tämä jättää ainoastaan täysin sanalliset esseetehtävät ja matemaattiset todistustehtävät täysinkäsin arvioitavaksi. Koska sähköisten tenttien vastaukset ovat joko tekstiä tai kuvia, ne voidaanaina muuttaa binääriseen muotoon, ja koneoppimisen yleistymisen ansiosta on mahdollista tuo-da automatisointia arviointiprosessiin. Tarkoituksena ei siis ole automatisoida tenttien arviointiatäysin, vaan antaa opettajan arvioida osa vastauksista jonka jälkeen vastaukset ja arvioinnit an-netaan algoritmille opeteltavaksi. Tästä saadaan automaattinen malli, joka sitten arvioi loput tentitparhaansa mukaan.Tutkimusta varten luotiin neljä lyhyttä kysymystä, jotka jotka kysyttiin eräässä ensimmäisenvuoden matematiikan kurssin tentissä. Opettaja arvioi tehtävät käsin, jonka jälkeen vastauksetja pisteet annettiin neljälle eri algoritmille opeteltavaksi. Vastaukset vektorisoitiin ja niistä pois-tettiin välimerkit sekä isot alkukirjaimet, jonka jälkeen vastauksien sanoista muodostetaan sana-säkki, jossa yksi rivi vastaa yhtä vastausta ja yksi sarake vastaa yhtä sanaa. Täällä tavalla saa-tiin vastaukset puhtaasti numeeriseen muotoon. Tutkimuksessa käytettyjä algoritmejä oli neljä,joista ensimmäisessä käytettiin Latent Semantic Analysis -mallia yhdessä k:n lähimmän naapu-rin algoritmin kanssa. Toinen algoritmi hyödynsi syväoppimista, joka pyrkii mallintamaan ihmisenajattelutapaa. Kolmas algoritmi oli satunnaismetsäalgoritmi, joka optimoitiin vertailemalla eri oppi-misnopeuksia sekä päätöspuiden pituuksia. Neljännessä algortimissa käytettiin myös satunnais-metsäalgoritmia, mutta tällä kertaa se optimoitiin automaattisesti.Tuloksia tarkastellessa nousi esille ongelma, joka vaikutti suuresti varsinkin sanavaraston suu-ruuteen. Suomen kielessä muodostetaan eri sanamuotoja liittämällä eri päätteitä sanojen lop-puun, mikä paisuttaa sanasäkin kokoa turhaan. Konjunktiot, prepositiot ja muut apusanat voivatpasiuttaa sanasäkkiä myös. Koska otoksien koot olivat pienet ja pistemäärät eivät jakautuneet ta-saisesti tehtävien sisäisesti. Tämä vaikutti varsinkin probabilististen mallien luokitteluvarmuuteen,sillä annettujen luokkien todennäköisyydet eivät olleet selkeästi suurimpia. The aim of this thesis is to search for alternatives to grading electronic exams by hand. Elec-tronic exams are becoming more and more common in the school environment and it has manypositive sides. They can be done on the student’s own time, they save paper, and they free teach-ers from supervising the examinations. Still, the grading of these exams is largely done by handby the teaching staff. STACK-environment offers fully automated numerical evaluation and grad-ing for questions with multiple choice, algebraic and "fill in the blanks" -questions. This has leftquestion types such as proofs and essays as the only ones requiring grading done by hand. Withthe emergence of machine learning, and because the answers of the exams are just bits of data,there is a possibility to introduce automation to the grading process. The end goal is not to replacehuman grading entirely but for the teacher to grade a portion of the exams and the machine thengrades the rest based on a model it creates based on the teachers grading.To test this, a set of short essay-type questions was devised for this purpose as part of anexam in a first-year mathematics course. The answers were gathered, graded by hand, and af-terwards put through four different machine learning algorithms, which then created models toassign points to each answer. The first model used a combination of a natural language process-ing method called Latent Semantic Analysis andk-Nearest Neighbor. The second model usedDeep Learning, which tries to mimic the human thought process. The third and fourth methodswere different implementations of the random forest algorithm, one of which optimizes itself au-tomatically and the other uses 5-fold cross-validation. The different models were then comparedto each other by accuracy and partial accuracy, where the impact of assigning points incorrectlyby one was decreased. The completion time was also an important comparison, since some pro-grams are designed to be fast but are prone to overfitting, whereas some algorithms specialize ineliminating overfitting but are slower in comparison. The answers are vectorized in all models andthen converted to a bag of words, where each word is assigned a row and each answer a columnin a vocabulary matrix. The elements are the occurrences of each word in each different answer.This is done to transform string data into purely numerical data.When analyzing the answers, a problem arises in the most common words in every question.Since the Finnish language is one that forms most of its grammar by using inflections on words,a lot of the most common words are different cases of the same word, which artificially bloats themodel’s vocabulary. Another problem regarding the vocabulary is stop words, which are commonconjunctions, prepositions etc that just add noise to the data. The small sample sizes and the factthat the points were not evenly distributed also means that while the probabilistic models, i.e. thesecond, third and fourth models, have decent accuracies, the probabilities for the choices werenot clearly above the other choices. This means that models are not exactly confident of theirclassifications.