Arvutikasutaja motoorsete andmete abil järelduste tegemine

Similar documents
From the brain to intelligent systems: The attenuation of sensation of self-generated movement

TARTU ÜLIKOOL. Profileerimise tajumisest internetis gümnaasiumiõpilaste seas. Sotsiaalteaduste valdkond. Ühiskonnateaduste instituut

RIIGI MAJANDUSARENGU JA INDIVIIDI SUBJEKTIIVSE HEAOLU HINNANG PALGATÖÖTAJATE LÕIKES

Infootsing ravijuhendite koostamiseks. Ravijuhendid. Pärnu Otsime: ravijuhendeid. süstemaatilisi ülevaateid

OMA HALDJARIIKI KAITSTES

Maitsjast maitseni Santa Maria moodi. Rainer Tammet 29. aprill 2015

Humanistlikud pedagoogilised süsteemid II. Ene-Silvia Sarv Kursus: kasvatusteadus ja kasvatusfilosoofia Kasvatusteaduste Instituut 2009

MAJANDUSLIKE OSTUOTSUSTE MÕJUTAMINE AASTASTE NOORTE NÄITEL

EESTI KOOLINOORTE LUGEMISHARJUMUSED MEEDIA NÄITEL

MILLIST KIRJAOSKUST VAJAB TÄNAPÄEVA INIMENE? 1

SÜNDMUSTE TURUNDUS MTÜ PÜHA LOOMAAED NÄITEL

TALLINNA TEHNIKAÜLIKOOL INTELLIGENTSED SÜSTEEMID*

TARTU ÜLIKOOL Matemaatika-informaatikateaduskond Arvutiteaduse instituut. Referaat. XP vs. RUP. Autor: Martin Mäe. Juhendaja: Erik Jõgi

Data Mining Research Project Report Generating Texts in Estonian Language. Author: Robert Roosalu Supervisor: Tambet Matiisen

KÄSIRAAMAT. Organisatsiooni ARENDAMINE. KIRJUTAS Kristina Mänd

Diana Aronia ENESEKOHASTE TUUMIKHINNANGUTE MÕÕTMINE VABATAHTLIKULT LISAKOHUSTUSI VÕTNUD ÜLIÕPILASTEL. Seminaritöö

STATISTILINE OLULISUS VALIMIVÕTT JA VALIMIMAHT

Õpilaste käitumise arendamine aktiivse vahetunni abil ühe kooli näitel õpetajate hinnangul

Bo Hejlskov Elvén ja Tina Wiman PAHURAD LAPSED. Miks lapsed tujutsevad ja kuidas sellega toime tulla?

Adaptation of the KOOS questionnnaire for the use in Estonia Ann Tamm University of Tartu, Estonia ;

Sülearvuti õpilastele Tiigrihüppe Sihtasutuse uurimuse lõppraport. Piret Luik, Eno Tõnisson, Hasso Kukemelk

Tartu Ülikool Sotsiaal- ja Haridusteaduskond Haridusteaduste Instituut Eripedagoogika õppekava. Anne Mereküla

Noorte Uurides identiteeti ning selle rolli rahvusvahelises noorsootöös mõistmine

DEVELOPING METHODS FOR ANALYSIS AND EVALUATION OF REGRESSION TESTING PROCESS

NÜÜDISKULTUURI HÄÄLEKANDJA KOLMEKÜMNE VIIES number : JUUNI/JUULI 2014 HIND 2 / VABALEVIS TASUTA #35

Nutiseadmete kasutajate turvateadlikkuse ja turvalise käitumise uuring. Uuringuaruanne TNS Emor. Tellija: Riigi Infosüsteemi Amet

ENESEKONTROLLITESTIDE KASUTAMINE ÕPPEPROTSESSIS KURSUSE STATISTIKA JA ANDMEANALÜÜS NÄITEL

KAASAMISE. käsiraamat AMETNIKELE JA VABAÜHENDUSTELE

Liberaalne vähiravikorraldus keskhaiglad versus regionaalhaiglad

KÄRGPERES ELAVAD LAPSED: LAPSE PERSPEKTIIV

BRÄNDIMISE TÄHENDUS EESTI ERAETTEVÕTETES

Tartu Ülikool Psühholoogia instituut. Triinu Puussaar MITTEDEMENTSETE PARKINSONI TÕVEGA PATSIENTIDE KOGNITIIVSE PROFIILI HINDAMINE.

T-COFFEE. Journal club in bioinformatics by Tõnu Margus

Graafikud ja animatsioonid

NÜÜDISKULTUURI HÄÄLEKANDJA KUUEKÜMNE NELJAS NUMBER : MAI 2017 HIND 2 #64 : RÄNNUD

Photoplethysmographic signal rising front analysis for the discrimination of subjects with increased arterial ageing

Kognitiivse pöörde puhul ei saa vist väita, et pööre puudutas ainult

Meeskonnatöö mängude kogumik

(Kasutatud on Penker'i UML Toolkit-i, Fowler'i UML Destilled ja Larman'i Applying UML and Patterns)

Tartu Ülikool Psühholoogia instituut. Karmen Vool ÄREVUSE JA DEPRESSIOONI TESTIDE TULEMUSED KAITSTUD ÜLIÕPILASTÖÖDE ANDMETEL.

VARIATIONS IN TACTILE SIGNING THE CASE OF ONE-HANDED SIGNING

NÜÜDISKULTUURI HÄÄLEKANDJA NELJAKÜMNE KOLMAS number : APRILL 2015 HIND 2 #43

IGAMEHE-AJAKIRJANDUS RADA7 KOGUKONNA NÄITEL

PERSONALI MOTIVEERIMINE JA TÖÖRAHULOLU AS NARVA JÕESUU SANATOORIUMI NÄITEL

Köögikubu juhtimine mikrokontrolleri baasil

SÕNAJÄRG, INFOSTRUKTUUR JA OBJEKTI KÄÄNE EESTI KEELES

FÜSIOLOOGILISTE JA KESKKONNATEGURITE SEOSED AKTIIVSUS- JA TÄHELEPANUHÄIRE SÜMPTOMITEGA ELIKTU VALIMI NÄITEL

Noorsootöö muutuvas maailmas NOORTE VABATAHTLIK TEGEVUS ETTEVÕTLIKKUS MIHUS 06/11 1

IT-revolutsiooniks Gartneri uuring Nõuandeid

Mobiiliäpid turunduses must auk?

Eesti Ettevõtluskõrgkool Mainor. Ettevõtluse Instituut Turunduse eriala

Indrek Otsus Ott Kiivikas

LAPS LASTEKAITSETÖÖ KLIENDINA LASTEKAITSETÖÖTAJATE KÄSITUSES

TARTU ÜLIKOOLI NARVA KOLLEDŽ EESTI KEELE JA KIRJANDUSE LEKTORAAT

Ajakiri Sotsiaaltöö 2001/5 Eessõna

Sooline palgalõhe. Teoreetilise ja empiirilise kirjanduse ülevaade. Sten Anspal. Helen Biin. Epp Kallaste. Marre Karu. Liis Kraut

NAIS- JA MEESTARBIJATE MOTIIVID KOSMEETIKA OSTMISEL JA KASUTAMISEL

TAVAKOOLI II KLASSI LASTE KIRJALIKU TEKSTI LOOME OLUPILDILE TOETUDES NING ÕPETAJATE HINNANGUD LASTE TEKSTIDELE

Tartu Ülikool Geograafia Instituut

Tartu Ülikool Sotsiaal- ja Haridusteaduskond. Haridusteaduste õppekava. Ave Viirma

Kultuur ja isiksus. Jüri Allik, Anu Realo. Teaduse sõjad

B.E. Haley and T. Small/Medical Veritas 3 (2006) 1 14

KÄSIRAAMAT A M E T N I K E L E J A VABAÜHENDUSTELE KAASAMINE. avalikus sektoris ja vabakonnas. KIRJUTASID Urmo Kübar ja Hille Hinsberg

ASPERGERI SÜNDROOMIGA TÄISKASVANUTE SOTSIAALNE SUHTLEMINE

Poiss, keda kasvatati nagu koera

PRIVAATSUSÕIGUS INIMÕIGUSENA JA IGAPÄEVATEHNOLOOGIAD

TÖÖRAHULOLU JA SEDA KUJUNDAVAD TEGURID EESTI RAAMATUKOGUDE NÄITEL

Sotsiaalne kaasatus. Sotsiaalne kaasatus. Sotsiaalne kaasatus

Isikuandmete kaitse delikaatsetes registrites

SPORDIORGANISATSIOON JA -KORRALDUS

aastat ravimistatistikat Eestis Years of Estonian Statistics on Medicines

TARTU ÜLIKOOL Loodus- ja tehnoloogiateaduskond Füüsika Instituut. Marietta Lõo

KESKKONNAMÕJU HINDAMISE ALTERNATIIVIDE VÕRDLE- MISMETOODIKATE ANALÜÜS PÄRNU- JA VILJANDIMAAL AJAVAHEMIKUL TEHTUD ARUANNETE PÕHJAL

TURUNDUS SOTSIAALMEEDIAS: EESTI ETTEVÕTETE KOGEMUS PÕHJUSED, INFO JA TULEMUSED

STRUKTUURIVAHENDITE RAKENDAMISE HINDAMISTE LÄBIVIIMISE TÖÖVIHIK

Saatesõna eestikeelsele väljaandele

LOOMADE POOLT Kadri Taperson

FACEBOOKI KASUTAMINE ÕPIKOGUKONNA TOETAMISEKS

TARTU ÜLIKOOL SOTSIAALTEADUSTE VALDKOND NARVA KOLLEDŽ ÜHISKONNATEADUSTE LEKTORAAT

Tartu Ülikool. Psühholoogia Instituut. Annika Kask. SKEMAATILISTE NÄGUDE AUTOMAATNE TÖÖTLUS SÕLTUVALT NENDE KULMUNURGAST Seminaritöö

1. KLASSI LASTE ENESEHINNANGUTE SEOSED ÕPETAJATE JA VANEMATE USKUMUSTEGA JA LASTE TEGELIKE OSKUSTEGA

Lev Võgotski teooria täna

Noorsootöö identiteet ja tulevik

PRIVAATSUSÕIGUS INIMÕIGUSENA JA IGAPÄEVATEHNOLOOGIAD

Praktikum 8 Klaster- ja peakomponentanalüüs

MITMIKE PEREDE RAHULOLU JA TOIMETULEK IGAPÄEVAELUGA

Hüpertensiooni geneetilise riskiskoori prognoosivõime hindamine: analüüs Tartu Ülikooli Eesti Geenivaramu andmebaasi põhjal

TAGASISIDESTAMISE MÕJU TÖÖTULEMUSTELE CREATIVE UNION I NÄITEL

Privaatsus sotsiaalvõrgustikes. Privacy in Social Networks. Bakalaureusetöö. Autor: Polina Rubtsova. Juhendaja: Birgy Lorenz. Autor:...

Juhtimine. Juhi Sina majandust! TTÜ majandusteaduskond annab selleks parima hariduse! TEADMISTE KAUDU EDUKAKS!

Head oskused. Aune Valk. Head

TEADUSLIKU MÕTLEMISE ALUSED

Tartu Ülikool Sotsiaalteaduste valdkond Haridusteaduste instituut Kutseõpetaja õppekava

Kiiresti muutuv maailm eeldab pidevat valmisolekut muudatusteks ning muutumisvõimet. Muutuvad kliendid, konkurendid, turud, tehnoloogiad,

Eakate digipädevus hoiakud ja probleemid nutitelefoni kasutamisel

nr 1 (59) talv 2014 Terves kehas hea kodanik

TARTU ÜLIKOOL Sotsiaal- ja haridusteaduskond Sotsioloogia ja sotsiaalpoliitika instituut

AASTAST 1925 HUGO TREFFNERI GÜMNAASIUM JUUNI 2016 MIILANG

TARTU ÜLIKOOL SOTSIAAL- JA HARIDUSTEADUSKOND ÜHISKONNATEADUSTE INSTITUUT Sotsiaaltöö ja sotsiaalpoliitika

LÄÄNE-VIRUMAA GÜMNAASIUMIDE KLASSIDE NOORTE MUUSIKAINFORMATSIOONI VAJADUSED NING RAAMATUKOGUDE ROLL MUUSIKAINFORMATSIOONI VAHENDAJANA

Transcription:

Toila Gümnaasium Raigo Tarassov ja Heiti Oja Arvutikasutaja motoorsete andmete abil järelduste tegemine Uurimistöö Juhendaja: Avar Pentel Toila 2016

Sisukord Sissejuhatus 1.Kirjanduse ülevaade 2. Meetodid 2.1. Eksperimendi kirjeldus 2.1.1. Eksperimendi jaoks loodud testide kirjeldus 2.1.2. Eksperimendis osalenud isikud 2.1.3. Testide läbiviimine 2.1.4. Testide läbiviimisel kasutatud tehnoloogia 2.1.5. Motoorsete andmete kogumine 2.2. Andmete eeltöötlus 2.3. Andmete analüüs 2.3.1. Valitud andmeanalüüsi meetodid 2.3.2. Valideerimine 2.3.3. Mudelid 3. Tulemused 3.1. Emotsioon 3.2. Vanus 3.3. Sugu 4. Arutelu ja kokkuvõte Resümee Kasutatud allikad 1

Sissejuhatus Inimese ja arvuti vahel on teatud arvutikasutaja tegevused teadlikud ja teised ebateadlikud. Arvutiprogrammide kasutajakeskkonnad on enamasti tehtud vastu võtma vaid kasutaja teadlikke korraldusi ja reageerima vastavalt nendele. Kuid kasutaja ebateadlik tegevus sisaldab samuti olulist infot, mille abil saab programme paremaks muuta. Meie uurimustöö ongi seotud sellise info kogumisega ja analüüsimisega. Kuid kõigepealt selgitame, mida täpsemalt mõtleme arvutikasutaja ebateadlike tegevuste all ja millist infot see meile võib anda. Näiteks vaadake esimest tänaval vastutulevat võõrast inimest ja mõelge, mida te oskaksite tema kohta kohe öelda. Arvatavasti pole raske öelda tema sugu ja füüsilisi omadusi, ka vanuse kohta saab kohe mingi hinnangu anda, võib olla teatud detailid reedavad ka sotsiaalmajandusliku tausta, teinekord isegi huvisid. Kui inimene on rõõmus, siis see paistab ka välja ning samuti paistavad välja muud tugevad emotsioonid. Kui meil oleks vaja selle inimese kohta rohkem teada, siis järgnegem talle mõtteliselt ja vaadakem, mis poodidesse ta sisse astub, milliseid asju ostab, milliseid asju vaatab, millises söögikohas ta peatub ja mida sööb, kuidas veedab oma vaba aega, kus ta töötab jne. Kogu selle vaatluse tulemusel peaks välja tulema ka perekonnaseis, sõprade ring ja palju muud, mis loob meile sellest inimesest juba palju detailsema pildi. Kui see pilt on koos, siis on meil palju kergem teha mingeid otsuseid, mis seda konkreetset inimest puudutavad. Näiteks, kas temaga oleks tore koos aega veeta? Mida talle kinkida? Kas me tahaks teda endale klassikaaslaseks? Kõik seda isikut puudutavad otsused tugineksid nii märksa paremale alusele. Ja mõelgem nüüd peale oma edukat jälitustegevust selle peale, et ka arvuti vahendusel siseneb see inimene tõenäoliselt sarnasesse maailma ja võtab seal ette tegevusi, mis temast ehk üsna sarnase jälje maha jätaks. 2

Kui me just leidsime, et sellest infos on mitmete otsuste langetamise abi, siis ka arvutisüsteem võiks oma kasutajat sarnaselt tundma õppida ning oma otsustes seda infot kasutada. On teada, et paljud tegevused jätavad arvutis jälje. Meie tahtsime teada saada, kuidas ning milliseid jälgi jätavad inimesed arvutit kasutades ja kogutud andmete põhjal üritada välja selgitada inimese sugu, vanust ja emotsioone. Järgnevalt anname ülevaate sellest, kuidas meie uurimistöö on liigendatud. Kirjanduse ülevaates räägime sellest, mida on meie uurimisteemaga seoses varem uuritud. Metoodikas kirjeldame ning ka näitame täpsemalt mida testid sisaldasid, millised olid küsimused ning mida tahtsime nende küsimuste abil teada saada. Anname ülevaate, mis vanuseklassidest olid meie testitavad isikud, ning mille järgi me neid valisime. Kirjeldame testide läbiviimst ja kasutatud tehnoloogiat ja kuidas toimus meie testitavate motoorsete andmete kogumine. Andmete eeltöötluse peatükis kirjeldame, mida tegime, et muuta kogutud andmed analüüsiprogrammidele sobivaks. Andmete analüüsi peatükis seletame täpsemalt lahti, milliseid algoritme ja tehnoloogiat kasutasime ja kuidas nende abil andmete põhjal ennustada toimus. Tulemuste peatükis anname ülevaate sellest, kui täpselt õnnestus meil kasutajate emotsioone, sugu ja vanust ennustada hiire ning klaviatuuri kasutamise andmete põhjal. 3

1.Kirjanduse ülevaade Sissejuhatuse kirjeldatud jälitustegevus arvutisüsteemides võib endast kujutada näiteks inimese veebisurfamise ajaloo talletamist. Xerox on patenteerinud [1] tehnoloogia, mis seisnebki selles, et arvutikasutaja surfamisharjumuste põhjal tehakse tema kohta järeldusi. Nende uurimused näitavad, et kasutaja veebisurfamise ajalugu on seotud tema sotsiaalse ja demograafilise taustaga. Surfamise all on siin mõeldud teekonda läbi erinevate veebilehtede. Selleks võrreldakse tundmatu kasutaja surfamisharjumusi andmebaasis olevate tuntud inimeste (kelle üldised demograafilised andmed on teada) surfamismustritega. Teise näite võib tuua inimestevahelisest suhtlemisest. Suhtluspartneri paremaks mõistmiseks on väga tähtis inimest kuulda ja näha. Esiteks on meile ju oluline see kellega me räägime. Me suhtleme erinevalt, kui partneriks on väike laps, täiskasvanu või vanur, mees või naine. Samuti on alati oluline, kuidas midagi öeldakse, milliseid žeste selle juurde tehakse, milline on hääletoon. Mitteverbaalse ja verbaalse kommunikatsiooni vahekorda iseloomustab psühholoogiast tuntud 7% 38% 55% reegel [2]. Reegli nimetuses olevad protsendid väljendavad kommunikatsiooni elementide osakaalu. Selle reegli järgi on kommunikatsioonis verbaalse komponendi osakaal vaid 7%, hääletoon moodustab 38% ning mitteverbaalne käitumine 55%. Kui tuua võrdluseks inimese ja arvuti vaheline kommunikatsioon, siis piltlikult väljendudes piirdubki see vaid 7% verbaalse komponendiga, see tähendab, et arvuti kasutajaliidesed on loodud inimeselt vastu võtma konkreetseid käske, aga mitte seda, kuidas ja millises situatsioonis või millises meeleolus kasutaja neid käske annab. Kuid tänapäeval on kasvav huvi, et panna arvuteid kasutajat paremini mõistma. Arvutikasutaja ei kontrolli tahtlikult oma motoorikat ja kui ta on üheduses avutihiirega, puuteplaadi, puutetundliku ekraani või klaviatuuriga, siis on tõenäoline, et need mittetahtlikud jäljed tema kohta midagi reedavad. Nii on püütud leida seoseid näiteks kasutaja hiirekasutuse või klaviatuurikasutuse ning kasutajate muude omaduste vahel. 4

On ammu teada, et inimestel on klaviatuurikasutusel teatud unikaalne rütm, mille järgi saab isikut tuvastada 99% täpsusega [3]. Hiire ja klaviatuuri kasutuse järgi on ennustatud kasutaja demograafilisi andmeid [5], hiljuti tehti uuring, mis hiire reakstiooniajaga seoses tuvastas inimese vanuse. On otsitud ja leitud seoseid ka emotsioonide ja klaviatuurikasutuse vahel [5,6]. Ka meie koolis on uuritud õpilaste mittetahtliku motoorika ja emotsioonide vahelisi seoseid, analüüsides hiireliiikumise mustreid [7,9]. Käesolevas töös keskendume just hiire ja klaviatuuri andmete kogumisele ja analüüsimisele. 5

2. Meetodid 2.1. Eksperimendi kirjeldus Viisime läbi neli eksperimenti kahe erineva katsealuste rühmaga, mille käigus tuli osalejatel iga kord täita sarnaseid ülesandeid. Selle jaoks koostasime neli erinevat testi. 2.1.1. Eksperimendi jaoks loodud testide kirjeldus Iga test algas mingit emotsiooni tekitava videoklipi vaatamisega (Joonis 1). Joonis 1. Ekraanipilt emotsiooni esile kutsumiseks mõeldud videost. Sarnased videod võivad inimestes esile kutsuda erinevaid emotsioone, selleks küsisime osalejatelt kohe peale video vaatamist tagasisidet. Russeli [8] emotsioonide kahemõõtmelisel skaalal (joonis 2). 6

Joonis 2. Ekraanipilt sellest, kuidas testitavad oma emotsioone hindasid Eeldasime, et video vaatamisest saadud emotsioonid ei pruugi kesta väga kaua ja selleks panime esimeseks ülesandeks kõigis neljas testis korduva ülesande, mis seisnes Eesti hümni kirjutamises võimalikult kiiresti (joonis 3). Samal ajal mõõtis ja salvestas meie programm iga klaviatuuri klahvivajutuse sooritamiseks kulunud aega. Joonis 3. Ekraanipilt testi osast, kus tuli kiiruse peale kirjutada peast Eesti hümn 7

Järgnevad ülesanded olid igas testis erinevad, aga tüübi ja raskusastmete poolest sarnased. Kolm ülesannet olid inglise keele C1 taseme testidest [10] (joonis 4) ja kolm (joonis 5) Raveni progresseeruvate maatriksite [11] testidest. Nende testide puhul talletas meie süsteem kõik hiireliikumised. Eeldasime, et selleks ajaks on video tekitatud emotsiooni mõju juba väiksem ning peamine eesmärk oli uurida vanuse ja soo ning hiireliikumiste vahelisi seoseid. Joonis 4. Ingliskeelse lause jätkamine. Joonis 5. Raveni maatriksite test, milles tuli valida sobilik puuduv kujund 8

2.1.2. Eksperimendis osalenud isikud Kokku valisime 11. ja 12. klassist 10 inimest 4 poissi ja 6 tüdrukut, vanuses 17 18 aastat ja 6. klassist valisime kokku 14 inimest 6 poissi ja 8 tüdrukut vanuses 12 13 aastat. Tegime valiku tuttavatest inimestest selle järgi, et isikud keda me testime oleksid kaasamõtlejad mitte ei tegeleks testi ajal kõrvaliste asjadega. 2.1.3. Testide läbiviimine Testimiseks valisime neli nädalat järjest sama aja, kooli arvutiklassis. Testid olid veebipõhised. Tagasime selleks hetkeks vaikse ja rahuliku keskkonna, ise viibisime teistest eemal ega häirinud neid. Testitavad kasutasid koguaeg samu arvuteid. 2.1.4. Testide läbiviimisel kasutatud tehnoloogia Nagu eelnevalt mainitud, olid testid veebipõhised ning kõik osalejad kasutasid Google Chrome veebibrauserit. Arvutitel on Windows 7 Proffessional operatsioonisüsteem, ning kasutasime koguaeg ühe tootja tüüpi klaviatuure (Qwerty tüüpi) ja hiiri. Ekraanid olid 19 tollised ja 1366x768 resolutsiooniga. 2.1.5. Motoorsete andmete kogumine Peale testi vastuste, kogus meie süsteem klaviatuuri ja hiireliikumise andmeid. Iga klaviatuuri klahvi vajutusest talletati kolm numbrit vajutatud klahvi koodnumber, eelmisest klahvivajutusest selleni kulunud aeg ja klahvi allhoidmise aeg. Klaviatuuri andmete kogumisel kasutasime ära selle, et kõik brauserid interpreteerivad JavaScripti ja selles on võimalik registreerida klaviatuuri sündmusi keyup ja keydown, samuti saab talletada nende sündmuste toimumise hetke, millisekundi täpsusega. Hiireliikumise talletamisel kasutasime varasemates töödes kasutatud algoritmi [7,9]. Alati, kui hiirekursori asukoht muutus rohkem kui 10 pikselit, siis talletasime uue andmekolmiku. 9

1. // mouse move event listener function 2. function mouselogger(e) { 3. x = mouse(e).x; // current mouse 4. y = mouse(e).y; // x and y coordinates 5. if((x sx)*(x sx)+(y sy)*(y sy)>100){ 6. /* if the difference between last logged 7. mouse position (sx,sy) and the current 8. position is greater than 10 pixels */ 9. sx = x; // update global variables 10. sy = y; // for stored mouse position 11. nt = new Date().getTime(); 12. mlogs.push([x,y,nt]); 13. // add new triple to mlogs array 14. } 15. } 16. document.onmousemove = mouselogger; 17. // start event listener function Tulemuseks olid numbrikolmikud, mis tähistasid hiirekursori x ja y koordinaate ja aega. 2.2. Andmete eeltöötlus Klaviatuuriandmete töötlemisel võtsime arvesse klaviatuuri erinevate klahvide allhoidmise keskmiseid aegu. Inimeste üldine klaviatuuri kasutamise kiirus võib olla väga erinev ja sellepärast on need andmed võrreldavad eelkõige iga konkreetse kasutaja teiste testide andmetega. Näiteks, kas testitava klaviatuurikasutus kurva emotsiooni korral oli sama, mis mingi teise emotsiooni korral. Selleks, et võrrelda kõikide osalejate andmeid omavahel tuli klaviatuuri andmed standardiseerida. See tasandab individuaalsed erinevused üldises trükkimise 10

kiiruses ja toob välja erinevused eri klahvide vajutamise vahelistes kiirustes. Näiteks mõne inimese jaoks on kõige kiirem klahvivajutus A, aga teise inimese jaoks B. Standardiseerimine seisneb selles, et leitakse andmete keskmine ja standardhälve ja kõikide andmete erinevus sellest keskmisest jagatakse standardhälbega (1). x μ z = σ z = standardiseeritud väärtus x = algne väärtus μ = a lgsete väärtuste keskmine σ = algsete väärtuste standardhälve (keskmine erinevus keskmisest) (1) Hiireliigutuste analüüsiks filtreerisime hiire logidest välja samad andmed, mida on kasutatud eelnevatest uuringutes [7,9]. Tulemuseks olid atribuudid, mis on kirjeldatud järgmises tabelis (Tabel 1). Tabel 1. Hiireliigutuste atribuudid Atribuut Vahem3, Vahem4 Vahem5, Vahem6 Selgitus Iga n järjestikuse hiireliigutuse (n on 3 6) ja selle algus ning lõpp punktide vahelise kauguse suhe. Arvutatud kõigi liigutuste kohta ja leitud keskmine. Kiiruse std SuundX Kiiruse standardhälve. Kiirus on mõõdetud eraldi iga 10 pikselise liikumise kohta. Hiire liikumine mingis kindlas suunas. Me jagasime võimalikud liikumissuunad kaheksaks sektoriks nagu põhi, kirre, ida, jne. 11

Loendasime kõik liikumised mingis kindlas suunas ja jagasime liikumiste koguarvuga. PööreA Pööre10, Pööre20,... Pööre180 PööreA+ Keskmine pöördenurk Nurga std Mõõtsime iga nurga kahe järgneva liikumise vahel ja leidsime nii 18 atribuuti, mis esindavad pöördeid vahemikus 0 kuni 180 kraadi 10 kraadise sammuga. Loendatud tulemused jagati kõigi liigutuste arvuga. Järgnevate pöörete summa, mis on suurem kui nurk A (A on loendatud 45 kraadise sammuga), tulemus on jagatud kõigi liigutuste arvuga. Kõigi suunamuutuste nurkade summa jagatud liigutuste arvuga 1 Pöördenurkade standardhälve 2.3. Andmete analüüs 2.3.1. Valitud andmeanalüüsi meetodid Analüüsimeetoditeks kasutame ennustava statistika meetodeid, milles olemasolevate hiire või klaviatuuri andmete põhjal püüame ennustada inimese emotsiooni, vanust ja sugu. Selleks me kasutame üht osa andmeid treeningandmetena. Treeningandmete puhul on meil kaks gruppi andmeid, kus näiteks üks grupp andmeid vastab positiivse emotsiooniga katsealustele ja teine grupp andmeid vastab negatiivse emotsiooniga katsealustele. Treeningandmete puhul on meil kasutaja emotsioon tema enda tagasisidest teada. Nende andmete põhjal genereeritakse mudel, mis hakkab ennustama, millised andmed vastavad nendele emotsioonidele. Loodud mudeli headust saame testida, katsetades mudelit nende andmetega, mida mudeli loomisel ei kasutatud. Nii testides, saame teada, kui suur on selle mudeli ennustustäpsus. Seda testimist nimetatakse valideerimiseks. Andmete analüüsiks kasutasime vabavaralist andmeanalüüsi paketti Weka [12]. 12

2.3.2. Valideerimine Ennustustäpsuse hindamiseks kasutasime 10 osalist rist valideerimist. See tähendab, et me jagasime andmed kümneks sama suurusega juhuslikuks osaks ning siis kasutasime ühte osa valideerimiseks ja ülejäänut 9 osa treeningandmetena. Tegime nii 10 korda ja võtsime kõigi valideermiste tulemuste keskmise. Tulemuste peatükis esitame mudelite täpsused, mis ongi selle selle kümnekordse ristvalideerimise tulemused. 2.3.3. Mudelid Mudelite genereerimiseks kasutasime logistilist regressiooni, toetatud vektorite masinat (SVM), lähima naabri, C4.5 ja Random Forest algoritmne. Nende mudelite genereerimiseks kasutasime andmeanalüüsi paketti Weka [12]. Logistiline regressioon ja SVM on algoritmid, mis genereerivad treeningandmete põhjal funktsiooni. See funktsioon kasutab argumentidena tundmatu kasutaja andmeid ning ennustab selle põhjal tundmatu kuuluvuse mingisse klassi. Näiteks klaviatuuri andmete puhul võtab see funktsioon argumentidena kasutaja klaviatuuri klahvivajutuste ajad iga klahvi kohta ja selle põhjal väljastab tulemusena, kas kasutaja kuulub ühte või teise klassi (on kurb või rõõmus, noor või vana, mees või naine, vastavalt sellele, mille eristamiseks on mudel treenitud). C4.5 ja Random Forest algoritme liigitatakse puu algoritmideks, sest need genereerivad treeningandmete põhjal puukujulise struktuuri, mille okste hargnemiskohtades võrreldakse kasutaja kindlate tunnuste väärtuseid ja selle põhjal otsustatakse, millist haru mööda edasi minna. Kõik harud lõppevad ühe või teise klassiga. Hiljem võib sellest puust arvutis ka funktsiooni teha, aga selle erinevus eelmise grupi funktsioonidest oleks see, et seal oleks väga palju tingimuslauseid (if else), esimese grupi algoritmide poolt genereeritud funktsioonid on matemaatilised, tehted funktsiooni argumentide ja nendele vastavate koefitsientidega. 13

Lähima naabri algoritmi liigitatakse laisaks algoritmiks, sest see ei genereeri funktsiooni ega puud. Selle asemel kasutab ta ennustuste tegemisel pidevalt treeningandmeid, millest otsib sarnaseimat vastet tundmatu kasutaja andmetele. Kujutame näiteks ette olukorda, kus me tahame teada, kas arvutikasutaja on naine või mees ja meil on naiste meeste treeeningandmeid nii nagu kujutatud järgmises tabelis (Tabel 2). Ja oletame, et selle sama tabeli viimases reas on on andmed tundmatu arvutikasutaja kohta. Tabel 2. Näide lähima naabri algoritmi treeningandmetest ja läheduse arvestamisest x 1 x 2 x 3 x 4 Sugu Tundmatu eukleidilise distantsi arvutamine 1 3 2 1 naine (1 1) 2 +(3 2) 2 +(2 1) 2 +(1 0) 2 = 0+1+1+1 3 2 1 2 3 mees (2 1) 2 +(1 2) 2 +(2 1) 2 +(3 0) 2 = 1+1+1+9 9 1 2 1 2 naine (1 1) 2 +(2 2) 2 +(1 1) 2 +(2 0) 2 = 0+0+0+4 4 0 0 2 3 mees (0 1) 2 +(0 2) 2 +(2 1) 2 +(3 0) 2 =1+4+1+9 15 1 2 1 0 tundmatu x 1, x 2, x 3 ja x 4 on mingid tunnused, mida me saame kasutaja kohta koguda nagu antud töös klaviatuuri või hiireliigutused. Lähima naabri algoritm töötab nii, et vaatab läbi selle tabeli andmed ja otsib selle rea, mille andmed on tundmatu kasutaja omale kõige lähemal ning liigitab tundmatu kasutaja selle tuntud kasutaja järgi [13]. See milline on lähemal või kaugemal arvutatakse välja näiteks eukleidilise distantsiga. Selleks lahutatakse tabeli iga rea tunnustest tundmatu vastavad tunnused, võetakse need ruutu ja liidetakse (Tabel 2). Lähem rida on see, mille erinevuste ruutude summa (eukleidiline distants) tuleb väiksem. Selles näites on tundmatu kõige lähemal esimese rea andmetele, mis kuuluvad naisele ja selle põhjal ennustataks lähima naabri algoritm, et ka tundmatu kasutaja on naine. 14

3. Tulemused 3.1. Emotsioon Emotsiooni esilekutsumiseks mõeldud video vaatamine, nagu näha jooniselt (6), mõjus kõigile pisut erinevalt, küll positiivselt, negatiivselt, kui ka passiivselt ning aktiivselt. Kasutaja emotsioonina arvestasime seda, kuhu nad ise tagasisides oma emotsiooni paigutasid, mitte seda, millist emotsiooni arvasime, et vaadatud video võis tekitada. Joonis 6. Inimeste emotsioonide jaotuse näide peale sama video vaatamist Kuna emotsiooni esilekutsumise järel oli hümni kirjutamise ülesanne, siis eeldasime, et sellele järgnevate ülesannete ajal pole emotsioon enam nii tugev. Sellepärast kasutasime vaid hümnikirjutamise klaviatuuri andmeid, et emotsioone ennustada. Jagasime andmed kahe erineva põhimõtte järgi: 1. aktiivsed vs passiivsed, 2. negatiivsed vs positiivsed. 15

Kõik, kes olid märkinud oma emotsiooni horisontaaljoonest (Joonis x) allapoole, liigitasime passiivse emotsiooni esindajateks, ülemised aktiivse emotsiooni esindajateks. Teise ennustuse jaoks liigitasime samad andmed selle järgi, kas emotsioon oli positiivne või negatiivne (paremal või vasakul). Järgnevalt esitame ennustuste tulemused nende gruppide vahel (Tabel 3). Nende saamiseks kasutasime atribuutidena vaid klaviatuuri klahvide allhoidmise keskmiseid aegu. Tabel 3. Emotsioonide ennustamise tulemused. Mudel Ennustuse täpsus Aktiivne vs passivne Positivne vs negatiivne Logistiline regressioon 71,34% 68,29% SVM 67.07% 65,24% Lähim naaber 83.54% 82,93% C4.5 76.83% 76,83% Random Forest 79.88% 76,22% 3.2. Vanus Vanuse ennustamisel kasutasime andmeid, mis olid kogutud kõigi testi ülesannete jooksul. Need ennustused on tehtud eraldi klaviatuuri andmete põhjal ja hiire andmete põhjal. Andmed olid jagatud kahte vanusegruppi 6. klassi andmed ja 11. ning 12. klassi andmed. Kõige paremini ennustas vanust lähima naabri algoritm hiire andmete põhjal ja liigitas 94,88% õigesse vanusegruppi, klaviatuuri andmete põhjal tehtud ennustused nii täpsed ei olnud, Random Forest algoritmiga loodud mudel suutis 73,33% andmetest õigesti liigitada (Tabel 4). 16

Tabel 4. Vanusegruppide ennustamise tulemused. Mudel Ennustuse täpsus klaviatuur hiir Logistiline regressioon 60.04% 85.5% SVM 65.72% 85.75% Lähim naaber 60% 94.88% C4.5 64.76% 86.25% Random Forest 73.33% 92.13% 3.3. Sugu Kasutajate sugu ennustasime samuti eraldi klaviatuuri andmete ja hiire andmete abil. Ennustamise tulemused järgmises tabelis (Tabel 5). Parim mudel oli taas lähima naabri algoritm, mis suutis ennustada sugusid 94.38% täpsusega hiire andmete abil. Klaviatuuri andmete põhjal suutis SVM algoritmiga loodud mudel eristada tüdrukuid ja poisse 73,13% täpsusega Tabel 5. Soo ennustamise tulemused. Mudel Ennustuse täpsus klaviatuur hiir Logistiline regressioon 68.66% 69.19% SVM 73.13% 68.95% Lähim naaber 72.54% 94.38% C4.5 66.57% 81.17% Random Forest 72.84% 87.90% 17

4. Arutelu ja kokkuvõte Kõik testitud mudelid suutsid eristada emotsioone kahel skaalal ning vanust ja sugu täpsemini kui saaks juhusliku pakkumisega. Parimate mudelite ennustuse täpsus oli väga kõrge, üle 90% vanuse ja soo korral ja üle 80% emotsioonide korral. Kõige kõrgema ennustustäpsusega mudeli tulemustesse tuleb siiski suhtuda ettevaatlikult, sest see võib tulla lähima naabri algoritmi eripärast, mida selgitasime meetodite peatükis. Meie andmestikus oli iga testis osaleja kohta 32 erinevat hiirelogide faili ja 4 klaviatuurilogide faili. Lähima naabri algoritm otsib testitavale treeningandmetest kõige sarnasema ja liigitab tundmatu selle lähima naabri järgi. Kuigi valideerimisel vahetatakse treeningandmeid ja testandmeid 10 korda, on siiski suur tõenäosus, et treeningandmete seas leidub nende samade inimeste hiire või klaviatuuri logisid, mida testitakse. Nii võib tulla üks osa selle mudeli täpsusest hoopis võimest eristada konkreetseid inimesi nende hiire või klaviatuurikasutuse põhjal, aga mitte võimest eristada emotsioone, sugu või vanust. Seda kahtlust kinnitavad ka hiire andmete põhjal saadud paremad tulemused, sest hiire andmeid oli iga kasutaja kohta rohkem. Emotsioonide ennustamisel sellist probleemi ei ole, sest üks ja sama inimene pidigi tundma erinevates testides erinevaid emotsioone. See, et sama inimese andmed leiduvad erinevate emotsioonide gruppides, viib pigem ennustustulemuse alla. Kui sama inimese kohta on andmed negatiivses ja positiivses meeleolus, siis võivad need olla omavahel sarnasemad, kui teistega, kellega on jagatakse sama emotsiooni. Nii võib öelda, et emotsioonide ennustamise tulemused lähima naabri algoritmi abi kinnitavad kaudselt, et sama inimese andmete sarnasus ei saa ka soo ja vanuse ennustamist väga palju mõjutada. Teine tegur, mis võis mõjutada eriti vanuse järgi eristamist, oli selles, et kogu test oli üles ehitatud justkui teadmiste kontrollina ja ülesanded ei olnud ka mõnede gümnasistide jaoks kerged. Samad ülesanded tekitasid palju rohkem probleeme 6. 18

klassi õpilastele. Nende ülesannete täitmise ajal kogutud hiireliikumise andmed võisid sisaldada jälgi stressist ning segadusest, mida tuntakse keeruliste ülesannete lahendamisel. Nii võib hiire andmete põhjal vanuse ennustamise edukusest üks osa tuleneda hoopis ülesandega seotud emotsioonidest ja mõnes teises situatsioonis ei pruugi need mudelid enam sama hästi ennustada. Meie uurimuse tulemuste põhjal võib siiski järeldada, et hiireliigutuste ja klaviatuuri kasutamise stiili järgi on võimalik ennustada inimese emotsioone, sugu ja vanust. Selle uurimusega võiks edasi minna ja uurida välja, millised on need konkreetsed erinevused kasutajagruppide vahel, mille järgi meie testitud mudelid neid gruppe eristasid. Huvitav oleks ka välja uurida, millised on need inimesed, kes liigitatakse valedesse gruppidesse. Loodame, et meie kogutud andmeid saab keegi ka tulevikus kasutada ning edasi uurida. Nendele tulemustele toetudes saab luua arvutiprogrammi, mis inimese klaviatuuri ja hiire kasutamise põhjal pakuks kohe ennustuse tema emotsionaalse seisundi, vanuse ja soo kohta. 19

Resümee Toila Gümnaasium Raigo Tarassov, Heiti Oja Juhendaja: Avar Pentel Arvuti kasutajate motoorsete andmete abil järelduste tegemine Uurimistöö 2016 Meie uurimustöö eesmärgiks oli arvutikasutajate motoorsete andmete kogumine ning nende seostamine kasutaja vanuse, soo ning emotsioonidega. Palusime teha testitavatel meie koostatud teste, mis salvestasid hiire liikumise ning klaviatuuri kasutamise andmeid. Kogutud andmete põhjal lõime viis erinavat ennustusmudelit kasutades tuntud klassifitseerimise algoritme. Parimad mudelid suutsid eristada vanust ja sugu üle 90% lise täpsusega ning emotsioone üle 80% lise täpsusega. Nendele tulemustele toetudes on võimalik järeldada, et hiire ja klaviatuuri motoorsete andmete põhjal on võimalik ennustada üsna täpselt arvutikasutajate sugu, vanust ning emotsioone. The purpose of our research project was to collect computer users motor behaviour data and to relate them to users age, sex and emotions. We asked the users to do the test s we made for them, which saved the mouse movements and keyboard data. Based on collected data, we created five different prediction models used well known classification algorithm s. Best models discriminated between age and sex over 90 percent precision and between emotions over 80 percent precision. Based on the results we can conclude, that using mouse movement and keyboard data it is possible to predict quite accurately computer users sex, age and emotions. 20

Kasutatud allikad [1] Adar, E. et al (2007), User Profile Classification By Web Usage Analysis, Patent No 8 005 833 U.S Patent U.S. Patent and Trademark Office [2] Mehrabian, A. (1971), Silent Messages, Belmont, CA: Wadsworth. [3] Garcia, J. (1986), Personal identification apparatus. Patent No. 4 621 334, U.S. Patent and Trademark Office [4] Biever, C. (2007), Robots Helping People Helping Robots. New Scientist. 193.2591: 26 26 [5] Griffin, B. (2015), Think you're a driving good? Test your reaction time here, Recombu, https://recombu.com/cars/article/think you re a driving god test your reactions times here [6] Zimmermann, P., Guttormsen, S. et al. (2003), Affective computing a rationale for measuring mood with mouse and keyboard. International Journal of Occupational Safety and Ergonomics. 9, 4, 539 551 [7] Pentel, A. (2015), Employing Think Aloud Protocol to Connect User Emotions and Mouse Movements. Smart Innovation, Systems and Technology: 6th International Conference on Information, Intelligence, Systems and Applications (IISA2015), IEEE, ieeexplore. [8] Russell, J. A. (1980). A Circumplex Model of Affect. Journal of Personality and Social Psychology. Vol. 39, No. 6. 1161 1178 (1980) [9] Pentel, A. (2015), Patterns of Confusion: Using Mouse Logs to Predict User s Emotional State. 23rd Conference on User Modelling, Adaptation and Personalization (UMAP 2015). Trinity College, Dublin, 2015. CEUR WS. [10] EnglishJet, English C1 level Cambridge first certificate test, http://www.englishjet.com/english_courses_files/test_cambridge_first_certificate.asp, vaadatud 10.2015. [11] Domino, G., Domino, M. L. (2006), Psychological Testing: An Introduction. Cambridge University Press. [12] M. Hall, E. Frank, G. Holmes, B. Pfahringer, P. Reutemann, I. H. Witten, (2009), The WEKA data mining software: an update, SIGKDD Explorations, vol 11, 1. [13] D.W Aha, D.Kibler, & M.K. Albert (1991), Analyses of Instance Based Learning Algorithms, AAAI. 21