Lugupeetud Riigikogu liikmed! Külalised! Suur au on siin teie ees seista. Olen tänulik, et saan sellest aruandest rääkida. Mina toimetasin seal ühe peatüki, aga ma ütleksin, et selle peatüki laiem mõte kajastub ka nendes teistes peatükkides väga põhjalikult. Nimelt see, kuidas andmeid natukene paremini, süstemaatilisemalt kasutada.
Näitan teile siin numbreid, mida natukene on juba mainitud Eneli Kindsiko poolt tema ettekandes ja ka meediaesinemistes. Siin on kolm numbrit: 13%, 26% ja 50%.
Esimene number on PISA testist ehk [leiti, et] matemaatika[testi] tulemuste ja lapse perekondliku, sotsiaal-majandusliku tausta vahel on seos ehk [13%] sellest tulemusest on seletatav [vanemate] taustaga. PISA uuring on väga hea. Meil on põhjust selle üle uhke olla, Eesti tulemused on väga head. [PISA] teeb hariduse kvaliteedi võrdlevat mõõtmist väga hästi. Aga mõnda asja PISA uuring tingimata väga hästi ei tee. Seda on ka eraldi uuritud ja sel teemal [tulemusi] publitseeritud. Näiteks lapse perekonna sotsiaal-majanduslikku tausta see väga hästi ei mõõda ehk seal on probleem teatud indikaatoritega. Seal küsitakse vara kohta, klasside kaupa, aga laps tihtilugu ei oska võib-olla hästi vastata. Aga need ei ole ka väga head ekvivalendid kõigi erinevate kontekstide puhul. Näiteks Eestis küsitakse, kas lapsel on mängukonsool ja õppimiseks oma laud, Soome ekvivalent sellele on, kas tal on koduvalvesüsteem ja autogaraaž. Kas need on ekvivalendid, mis mõõdavad selle pere majanduslikku heaolu? Ma nii väga kindel ei ole. Nii et mõned sihukesed mõõdikud tekitavad küsimusi ja tegelikult kohati ka [raskusi] probleemi [ulatuse], selle suuruse [mõistmisel].
Teine number on 26%. See on kaks korda suurem. See on meie enda registritest. See on matemaatika koolieksami keskmiste tulemuste ja lapsevanemate keskmise sissetuleku, nende kahe näitaja seos: kui suures ulatuses [mõjutab] lapsevanemate sissetulek matemaatika koolieksami tulemusi. Kaks korda suurem number! Jah, see on teistmoodi arvutatud kui PISA testi tulemus, aga ma julgen pakkuda, et meie enda registrid, mis on väga hea kvaliteediga ja otseselt eksamitulemustega seotud, näitavad seda, et kui läheksime lapse kooli, klassi tasemele, siis me näeksime seal samasugust seost. Seda on juba siin mainitud.
Kolmas number on 50%. See on Tallinna number. Seesama näitaja, mis Eestis on 26%, on Tallinnas 50%. Ehk lapse põhikooli matemaatikaeksami tulemuste varieeruvusest 50% on seletatav kas ema või isa palgaga, olenevalt sellest see number natukene kõigub.
Ma kujutan ette, et teiepoolne poliitikakujundus oleks väga erinev olenevalt sellest, kas probleemi suurus on 13%, 26% või 50%. [Iga järgmine näitaja on eelmisest] kaks korda [suurem]. Ehk see lähenemine sõltub sihtmärgi suurusest. Selleks et üldse aru saada, kui suur see probleem on, peaksime neid andmeid natukene põhjalikumalt ristkasutama ja ära kasutama, sest siis me oskaksime natukene selgemat poliitilist lahendust pakkuda. Nii et selline moraal. Meie enda andmed, meie enda registrid on väga head, kõrge kvaliteediga, me saame tegelikult oluliselt täpsema pildi probleemi ulatusest ja see hakkab ka natuke ette kirjutama, kui tõsiselt me seda võtame.
Teine küsimus, mis siin tekib, on see, et kus on näiteks 2024. aasta pilt või 2025. aasta pilt. [Nende andmete] saamisega oleks võib-olla ajaliselt natukene liiga kiire olnud. Need andmed selles konkreetses alapeatükis, mis vaatavad seost, lõppevad 2021. ja 2022. aastaga. [Edasisi] andmeid enam ei saanud. Seda aegrida sooviti pikendada, aga selgus, et vahepeal on andmekaitsereegleid karmimaks keeratud ja enam ei saanud. Me räägime siin aritmeetilise keskmise arvutamisest koolide kaupa.
See analüüs, mis tehti ja kust need numbrid, näiteks 26% ja 50%, välja tulid – ma natukene utreerin, liialdan siin –, on Statistikaameti poolt kokku pandud registrid. Statistikaameti analüütikutel kulus selle peale kuskil 6 töötundi ja selle eest maksti 360 eurot. Edasi me sihukest andmestikku hetkel pikendada ei saa, sest ei ole võimalik, reeglid on natuke liiga karmid selle jaoks. Mis me siis nüüd teeme? Kas me sellesama asja teadasaamiseks peaksime tellima näiteks 30 000-eurose uuringu, pool aastat sellele otsa vaatama või aasta aega otsa vaatama ja maksma 130 000 eurot – me räägime siin 80–300 korda suuremast summast –, et sama asja teada saada, versus 360 eurot ja 6 töötundi? Meil ei ole vaja siin üldse rakendada mingeid keerulisi privaatsust kaitsvaid või säilitavaid tehnoloogiaid, sest aritmeetiline keskmine teatud tingimustel tagab selle niikuinii. Jah, mingitel erijuhtudel on võimalik hakata identifitseerima isikuid või näiteks isikute neid väärtusi, mille pealt arvutatakse, aga see on ainult teatud piirtingimuste juures, mille mitterikkumist me garanteerida saame.
Ma ütleksin, et soov andmete kaitset maksimeerida tegelikult kahjuks minimeerib nende teisese kasutamise võimalusi ja see on niisugune väga vale vastendus, milles me elame. Teoreetiline privaatsuse riive esineb alati, aga meil on tegelikult vahendeid tagamaks, et seda tegelikult praktiliselt ei juhtuks. Nii et selleks, et üldse pildist aru saada, [aru saada,] kui suur probleem on, võiksime arvestada, mis eesmärgil me need andmed kokku paneme. [Ei ole mõistlik] andmekaitset maksimeerida olukorras, kus me tahame parandada koolisüsteemi kvaliteeti ja seda, mida need lapsed sealt saavad. Ma arvan, et praktiline kasu kaalub teoreetilise riive tugevalt üles.
Need enne näidatud numbrid – üks on registrist ja teine on uuringust. On sihuke truism, et registrid katavad väga palju, populatsiooni tasemel katavad ära, aga need on väga infovaesed ehk seal on üksikud infokillud sees, mis on küll kogu populatsiooni kohta olemas, aga üksikuna ütlevad meile suhteliselt vähe. Ja uuringud, vastupidi, on tegelikult väga inforikkad, aga katavad vähe, sest me teeme valimi ja küsime selle spetsiifilise nähtuse kohta väga palju küsimusi, korjame väga spetsiifilist andmestikku. Seal on sihuke dilemma.
Ma ütleksin, et tegelikult see Eestis ei kehti või vähemalt enam ei kehti, ja seda kahel põhjusel. Esiteks on meil väga head registrid. Sellessamas peatükis, mida ma toimetasin, on Statistikaameti poolt toodud rida näiteid, kuidas on võimalik registrid risti panna ja kuidas näiteks sellest olukorrast, et iga üksikregister üksikuna vaadatuna on natuke infovaene, on võimalik üle saada nii, et me lihtsalt paneme neid risti piisavalt palju. Näiteks viimases rahvaloenduses käis elukoha leidmine läbi 20 erineva registri risti panemise ja selle tulemusena on olemas suhteliselt täpne info versus see, et me peaks minema näiteks 60 000 inimese juurde koju ja küsima järele nende käest. Ehk jällegi, registrite kvaliteet ja mitmekesisus ning [võimalus] neid risti panna annab sellise tulemuse, mis on väga lähedal sellele väga spetsiifilisele, väga kalli uuringu [tulemusele]. Nii et tegelikult selle vastuolu valguses me võiksime kaaluda seda, et mitte veel rohkem uuringuid teha, vaid rohkem registreid kokku panna ja omakorda liidestada registreid uuringutega ehk panna see laia populatsiooni kattev andmestik kokku kitsa, spetsiifilise nähtuse kohta andmeid korjava uuringuga. Ehk siis teha tegelikult natukene vähem [uuringuid] ja kasutada seda, mis meil [juba olemas] on.
Avaliku teabe seadus ütleb, et avalike ülesannete täitmiseks registrisse andmeid korjav asutus peab lähtuma ühekordse küsimise printsiibist selle loogika alusel, et kui need andmed on näiteks kodaniku käest või juriidilise isiku käest ühe korra küsitud, siis sellisel kujul ei peaks neid uuesti küsima ja teised peaksid neid ristkasutama. Uuringute puhul me tegelikult seda ei tee. Eneli Kindsiko tõi siin esile neid numbreid, et väga palju uuringuid on tehtud, väga tihti on seal hästi palju korduvaid küsimusi. Jah, need on olulised, neid on [tehtud eri aegadel], me saame mingisuguse pildi, mis ajas muutunud on, aeg-ajalt ongi vaja neid korduvalt teha. Aga ma ütleksin, et me võiksime mõelda natuke rohkem ka selles suunas, et kõige kohta, mida on võimalik sellisel spetsiifilisel kujul registritest kätte saada, me ei peaks eraldi uuringuid tellima. Vähemalt mitte niisuguses mahus, nagu me seda praegu teeme, sest see ei ole mõistlik ressursikasutus.
Ma olen siin teie ees ikkagi Tartu Ülikooli teadustöötajana ja ma ütleksin, et need, kes neid uuringuid läbi viivad, kes on samamoodi haridusteadlased, selle väiksema mahu üle õnnetud ei oleks, sest tegelikult tahavad ka nemad registrite alusel neid uuringuid teha, sest see on oluliselt odavam ja kiirem viis. Jah, olenevalt küsimusest on see hea või halb mõte, aga teatud küsimuste puhul on see tegelikult kõige mõistlikum viis üldse probleemi lahendada. Nii et kasutaks neid natuke rohkem ja lähtuks võib-olla sellest printsiibist, et kui on võimalik mujalt andmeid leida, siis küsime need sealt, sest seal on need enam-vähem kõige kohta olemas.
Mida siis selle andmekoguga teha, mis on registritesse korjatud, ja kõikide nende uuringutega, mida on aastate jooksul tehtud? Mulle väga meeldib Milton Friedmani tsitaat, väikese täpsustusega: ärgem hinnakem poliitikaid nende üllaste eesmärkide, vaid nende tulemuste alusel. Ehk siis poliitika, mille eesmärgid on üllad, aga tulemused on halvad, on tegelikult lõppkokkuvõttes ikkagi halb poliitika. Kullastandard igasuguse poliitika elluviimisel on põhimõtteliselt see, mis töötab. Inglise keeles öeldakse selle kohta what works.
Me teeme mõjuhinnanguid. Ka siin seaduseelnõusid arutades näete te eelnõude mõjuhinnanguid, aga nagu siin juba kõlanud on, need kipuvad olema tehtud reeglina tugevalt otsust kinnitavas suunas. Me tahaksime loomulikult näha neid positiivseid efekte. Eelhinnangute tegemine, enne kui poliitikat on rakendatud, on loomulikult oluliselt keerulisem, see nõuab teistsugust metodoloogiat. Tagantjärele hinnata on oluliselt lihtsam. Ja tagantjärele hinnata on veel palju lihtsam, kui selle eelhinnangu juures on juba järelhindamise võimalik metoodika välja toodud ja seda ka poliitika rakendamisel otseselt arvestatud, et me tahame siin korjata mingeid indikaatoreid selleks, et hiljem [midagi] teada saada.
Kuidas seda võiks teha või kas tulevikus oleks mõistlikum seda natuke teistmoodi teha? Hetkel on kõik need raportid – ja ma ei kritiseeri nende raportite sisu, ma arvan, et need on väga kõrge kvaliteediga –, olgem ausad, hunnik PDF-e, kus on sees, kui analoogiates mõelda, mingisugune foto minevikust. Unikaalne teadmine, sellesse on töötunde sisse pandud, aga see on staatiline raport, mis juhul, kui allolev pilt on aja jooksul muutunud, on tegelikult aegunud, kuigi omal ajal on olnud kõrge kvaliteediga.
Aga mis oleks, kui me nende staatiliste piltide asemel teeksime dünaamilised rakendused, kus me saaksime neid pidevalt monitoorida? Mida see pilt, mida me siin joonistasime, tegelikult endast kujutab aasta pärast, kahe aasta pärast või kolme aasta pärast, eriti veel olukorras, kus näiteks andmed on tulnud registritest? See tähendab, et registrites on olemas isetekkelised andmed, sellest raportist sõltumatult. Koolisüsteem toimib, Eesti avalikke teenuseid osutatakse samamoodi, nende kohta on jäljed olemas – tegelikult me saaksime seda automatiseerida.
Mida see tähendaks? See tähendaks seda, et alguses on kulu suur, nagu ikka igasuguse uuringu tegemisel, aga hiljem, kui mingisugused olulisemad vaated on tegelikult dünaamiliseks, isemuutuvaks raportiks tehtud, siis kulud lähevad alla, aga tulud hakkavad minema ülespoole. See on selle asja mõte, et me ei teeks ühekordseid suuri kulutusi, vaid me teeksime ühekordse kulutuse, millest saadav tulu hakkab tegelikult hiljem ajas suurenema. Dünaamiliste vaadete juhtimislaudade puhul see tegelikult sellisel kujul kehtib. Algul on suur töömaht, mis hiljem kukub, tulu võib-olla algul ei tundu nii suur, aga hiljem hakkab see ajas suurenema, monitoorimise abil.
Nii et ma pakuksin, et selle inimarengu aruande esimene sihuke tehniline järeltegevus võiks olla see, et vaadata ka teie poolt kriitiliselt otsa nendele analüütilistele vaadetele ja piltidele, mis seal on, ja otsustada, millistest [andmetest], juhul kui need on näiteks registrite põhjal saadud, oleks mõistlik teha dünaamiline monitoorimisraport. Näiteks Haridussilm on tehniliselt juba sihuke keskkond. Mitmed selle analüütilised vaated sobiksid, ma arvan, selleks väga hästi. Neid võiks seal implementeerida, sest selle tagajärg oleks see, et jääks natukene pikem jääv väärtus ka. Ja nagu ikka, aja jooksul hakkame me asjade monitoorimisel nägema, kuidas dünaamika muutub vastavalt sellele, kuidas me sekkunud oleme. Nii et see oleks suhteliselt madalal rippuv õun, mille abil saaks tegelikult pikka [aega] analüütilist kasu.
Üks näide selle kohta, mis võib-olla siis hakkaks juhtuma, on seesama siin juba korduvalt kõlanud haridusliku ebavõrdsuse pilt. Andmete hoiustamine ja kokku korjamine, nende hõivamine ja hoiustamine on puhas kulu, need on kaetud niikuinii. [Andmete] teisese kasutamise võlu on see, et tegelikult kulud on kaetud, edaspidi on ainult tulu. Hea küll, kasutamine toob ka mingisuguse kulu endaga kaasa, aga kõige kallim asi igasuguse uuringu puhul ja ka registri puhul on selle püsti panemine, andmehõive. Teisese kasutamise puhul on keegi teine selle kulu ära kandnud ja kannab kogu aeg. Erinevad Eesti avaliku sektori asutused või rakendusasutused, kes tegelikult registreid haldavad, korjavad neid andmeid kokku oma protsesside kaudu. Meie teisese kasutamise kaudu saaksime lihtsalt majanduslikku tulu sealt välja pigistada.
Te näete siin sellel pildil – vabandust, see on väga väike teie ekraanil –, et selles aruandes on kaks graafikut lehekülgedel 107 ja 108. Vasakul on keskmine matemaatikaeksami tulemus, selle jaotus, mis on koolide pealt välja arvutatud, selle jaotus üle kõikide koolide. Me monitooriks seda aja jooksul. Selles aruandes on hetkel kaetud nelja-aastane periood, 2017–2021. Vabandust, ma olen unustanud [järgmise] pildi panna. Neli aastat on lühikene periood. Aga kui te vaatate seda graafikut, siis [te näete,] et omavahel on võrreldud aastaid 2017 ja 2021 ja on juhtunud niisugune asi, et see jaotus, mis on matemaatikaeksami tulemus, on nii-öelda lapikumaks vajunud. Varem oli see natukene kesksema tipuga. See tähendab, et matemaatikaeksami tulemused on natuke suurema variatsiooniga, need on veninud laiali nende madalamate ja kõrgemate tulemuste poole. Selle tagajärjel on keskmine natuke kukkunud. Aga mida te veel märkate, mida on tugevamalt näha 2021. aastal, on see, et on hakanud tekkima kaks eraldi tippu. Statistikas on sihuke naljakas ütlus, et kui pea on külmkapis ja jalad on ahjus, siis keskmiselt on hea olla. See tegelikult tähendab, et see keskmine hakkab eksitama. See jaotus hakkab muutuma kahe tipuga jaotuseks, keskmine tuleb kuhugi sinna keskele. Me vaatame, et keskmine skoor on väga hea, süsteem tegelikult toimib. See on seni olnud väga hea. Veel kord, PISA järgi on Eesti matemaatikatulemuste poolest rahvusvahelises võrdluses väga tugev.
Aga mida me seal tegelikult hakkame nägema? See hakkab natukene polariseeruma. See tähendab, et keskmine võib püsida samas kohas, aga meil hakkavad eri tipud tekkima. Kui neid jaotusi ajas võrrelda, siis hakkab see pilt välja tulema, üllataval kombel juba nelja aasta jooksul. See on natukene kiire isegi, haridussüsteemis, nagu siin mainiti, need muutused on natukene inertsed, aeglased, nelja aasta jooksul sihukest vahet näha on natukene üllatav.
Mida te seal paremal näete? [Need andmed] on ühe aasta kohta ja [näitlikustavad] seost matemaatikaeksami tulemuse ja emade keskmise aastase sissetuleku vahel, seal on [näha] aritmeetiline keskmine. Kui seda ajas graafida, siis hakkab seal juhtuma niisugune asi, et selle sirge, mida te seal näete, mis nii väga terava nurga all hetkel ei ole, tõusunurk hakkab ajas muutuma. Teine asi, mis sealjuures juhtub, on see, et need punktid, mis graafikul on, hakkavad tihedamalt selle joone ümber olema. Need kaks asjaolu ütlevad meile, et tegelikult see seos sissetuleku ja matemaatikaeksami tulemuse vahel tugevneb ehk see läheb ajas järjest tugevamaks. Ja nii kiire perioodi jooksul, nelja aasta jooksul – tavaliselt on see ikkagi suhteliselt pikem periood, kus me nii drastilisi muutusi näeme –, on tegelikult mingisugune probleem tulemas.
Mis selle asja mõte on? Näiteks sellelsamal graafikul, mis on registriandmete alusel kokku pandud, me näeksime, kui me teeksime selle dünaamiliseks, kiiret ajalist muutust. Iga aasta tuleb siia vastavalt hulk andmepunkte juurde. [Need on] isetekkelised andmed. Inimesed käivad tööl, teenivad palka, Maksu- ja Tolliamet korjab selle andmestiku meie jaoks kokku. Lapsed [käivad] koolis, iga kohort teeb vastaval aastal eksameid – jälle isetekkelised andmed. Paneme need kaks asja kokku, hinnalipikuga 360 eurot, ja tegelikult näeme seda pilti juba.
Nii et kokkuvõttes, ma ütleksin, on siin väga palju analüütilist teadmist selles aruandes. Me saame [selle põhjal] konkreetseid poliitikasoovitusi genereerida, vaadata [andmetele] otsa ja mõelda, mida see tähendaks, kui me sellist empiirilist pilti tahame tugevdada või võimendada. Üks asi, mida me kindlasti tegema peaksime, on tekitada käegakatsutav jääv väärtus, nii et need pildid jääksid meile tulevikus dünaamiliselt monitoorimiseks näha. See on suhteliselt kiire ja odav tegevus, arvestades seda, kui kallis on uuringuid teha. Aitäh!