Tekoälyn rooli vastuullisessa tutkimuksen arvioinnissa

Virpi Slotte

Miksi tutkimuksen arvioinnista on puhuttava juuri nyt? Vastaus on selkeä: tutkimuksen arviointi määrittää tutkijoiden ja TKI-asiantuntijoiden urakehitystä, rahoituksen saantia ja koko tieteen suuntaa. On kuitenkin meneillään murrosvaihe, jossa tätä kriittistä valtaa ollaan yhä useammin siirtämässä työkaluille, jotka ovat luonteeltaan läpinäkymättömiä, alttiita manipuloinnille ja toimivat epätasaisella tarkkuudella eri kielten sekä instituutioiden välillä. Kun tekoäly ja automatisoidut järjestelmät hiipivät osaksi arviointiprosesseja, herää perustavanlaatuisia kysymyksiä siitä, miten varmistetaan, että tutkimusta arvioidaan vastuullisesti, oikeudenmukaisesti ja laadulliset kriteerit säilyttäen.

Eurooppalainen tutkimuksen arvioinnin koalitio CoARA (Coalition for Advancing Research Assessment) ja sen asettama erityistyöryhmä ERIP (Ethics and Research Integrity Policy for Responsible Research Assessment in Data and Artificial Intelligence) ovat tarttuneet tähän haasteeseen (Kirbas ym., 2025).

Tekoäly tutkimuksen arvioinnissa: mahdollisuus vai eettinen sudenkuoppa?

Tekoäly muuttaa parhaillaan sitä, miten tietoa luodaan ja miten tutkimusta tehdään. Samalla se haastaa perinteiset arviointimetriikat ja -tavat, joilla tutkimuksia ja TKI-hankkeita arvioidaan. ERIPin laatima katsaus (Kirbas ym., 2025) tunnistaa tekoälyn tuovan mukanaan merkittäviä etuja, kuten esimerkiksi asiantuntija-arvioinnin saavutettavuuden. Tekoälyn käyttö voi auttaa kääntämään ja murtamaan kielellisiä sekä maantieteellisiä esteitä tutkijoiden väliltä. Se voi myös nopeuttaa arviointisyklejä ja tiivistää tulosten julkaisuaikatauluja.

Kolikon kääntöpuolella on kuitenkin mittavia eettisiä ja rakenteellisia riskejä. Kielimallien vinoumat (language model bias) asettavat eri kielet ja kulttuuriset kontekstit eriarvoiseen asemaan. Jos automaattiset järjestelmät suosivat englanninkielistä ja tietyn kaavan mukaista valtavirtaistutkimusta, vaarana on tutkimuksen monimuotoisuuden (epistemological diversity) kaventuminen (van den Hooff & Colet, 2026).

Katsaus nostaa esiin myös ajoittaisen epäsymmetrian hakijoiden ja arvioijien välillä. Tämä ilmenee tutkimusrahoituksen hauissa, joissa voidaan rohkaista tekoälyn innovatiiviseen käyttöön, mutta samaan aikaan rahoittajat kieltävät arvioijia käyttämästä tekoälytyökaluja hakemusten käsittelyssä. Tämä luo ristiriitoja ja johtaa ainakin osittaiseen tekoälyn käyttöön luvatta. Frontiersin (2025) maailmanlaajuisen ja 1645 aktiivisen tutkijan mukaan 53 prosenttia vertaisarvioijista myönsi käyttävänsä generatiivista tekoälyä arviointiprosessin tukena. Suuri osa tästä käytöstä tapahtuu kustantajien tai lehtien virallisten ohjeistusten vastaisesti. Monet lehdet kieltävät käsikirjoitusten syöttämisen tekoälyalustoille tietosuojan ja tekijänoikeuksien vuoksi.

Uudistettavien arviointijärjestelmien on kyettävä erottamaan toisistaan se, milloin tekoälyä käytetään pakon sanelemana resurssipulan vuoksi (esimerkiksi kielenhuollon korvaajana pienemmissä instituutioissa) ja milloin sitä käytetään innovaation ajurina. Tämän vuoksi arviointikehikoilta vaaditaan aitoa läpinäkyvyyttä, selitettävyyttä (explainability) sekä kykyä tunnistaa ja valvoa tekoälyn käyttöä yhä monimutkaisemmin ketjuttuneissa tutkimusprosesseissa (Kirbas ym., 2025).

Ammattikorkeakoulujen TKI-toiminta ja vastuullinen arviointi

Suomalaisessa kontekstissa tämä keskustelu koskettaa syvästi ammattikorkeakoulujen tutkimus-, kehitys- ja innovaatiotoimintaa (TKI), koska se on luonteeltaan soveltavaa, aluekehitystä tukevaa, monialaista ja usein tiiviissä yhteistyössä työelämän kanssa tehtävää verkostomaista työtä.

Diakonia-ammattikorkeakoulussa (Diak) sosiaalisen vaikuttavuuden ja heikoimmassa asemassa olevien ihmisten osallisuuden vahvistaminen on toiminnan strategisessa ytimessä. Tämän asiantuntijatyön todentamiseksi Diak on kehittänyt konkreettisia sosiaalisen vaikuttavuuden mittaristoja, kuten digitaaliset 3X10D®- ja ZekkiPro-elämäntilannemittarit, jotka mahdollistavat inhimillisen hyvinvoinnin muutoksen seuraamisen ja yhteiskunnallisen vaikuttavuuden tunnistamisen. Vaikuttavuusmittarien avulla voidaan varmistaa, että tutkimuksen monimuotoisuus ja yhteiskunnallinen merkityksellisyys voidaan huomioida arvioinnissa.

Arviointijärjestelmän joustava mukautettavuus (configuration) yhdistettynä tiukkaan laadunvarmistukseen on ratkaisevaa, sillä se mahdollistaa tutkimuksen monimuotoisuuden ja yhteiskunnallisen merkityksellisyyden huomioimisen arvioinnissa.

Käytännössä tämä tarkoittaa sitä, että arvioinnissa huomioidaan moninaisia TKI-tuotoksia, kuten osallistamisen ja yhteiskehittämisen menetelmiä, uusia digitaalisia ratkaisuja sekä konkreettista arjen työssä syntyvää sosiaalista arvoa.

Työkaluja tulevaisuuteen: EAAM ja MAC

Pelkän ongelmien luettelun sijaan CoARA-ERIP-aloite tarjoaa konkreettisia ratkaisuja, jotta eettiset arvot saadaan siirrettyä osaksi käytännön digitaalisia työkaluja. Katsauksessa esitellään kaksi uudenlaista ja toisiaan täydentävää lähestymistapaa:

EAAM (Ethics Assessment Alignment Matrix) on matriisi, joka yhdistää eettiset periaatteet (kuten avoimuus ja sosiaalinen vastuu) arvioitaviin tutkimuksen osa-alueisiin. Analyysit osoittavat, että juuri tekoäly ja automaatio tutkimuksen arvioinnissa vaativat kaikkein vahvimman eettisen perustan ja tiukimman laadunvarmistuksen.
MAC (Modular Assessment Configurator) on digitaalinen työkalu, jonka avulla organisaatiot ja rahoittajat voivat rakentaa joustavia, läpinäkyviä ja omien missioidensa mukaisia arviointiprosesseja. MAC mahdollistaa kriteerien räätälöinnin ja painotuksen siten, että ne vastaavat eri tieteenalojen ja instituutioiden, kuten ammattikorkeakoulujen erityistarpeita.

Arviointijärjestelmän joustava mukautettavuus (configuration) yhdistettynä tiukkaan laadunvarmistukseen on ratkaisevaa, sillä se mahdollistaa tutkimuksen monimuotoisuuden ja yhteiskunnallisen merkityksellisyyden huomioimisen arvioinnissa.

Tällaisen joustavan mutta tarkasti kontrolloidun arvioinnin toimivuudesta on jo saatu käytännön näyttöä. Tuore pilotti (Biswas ym., 2026) osoitti, että laaja ja monivaiheinen tekoälyavusteinen arviointi kykenee tekemään merkityksellisiä tieteellisiä arvioita jopa laajassa konferenssitason mittakaavassa. Onnistuminen kuitenkin vaati täysin avointa lähestymistapaa sekä arviointiprosessin pilkkomista selkeisiin osiin: tarinaan, esitystapaan, kokeellisiin tuloksiin, oikeellisuuteen ja merkittävyyteen. Lisäksi laadun takaamiseksi järjestelmään tarvittiin sisäänrakennettu automaattinen varmistus (Quality-Checking Critic) sekä kriittinen ihmisen tekemä valvontakerros (Human Oversight).

Kohti tekoälylukutaitoista TKI-kulttuuria

Jotta tutkimuksen arviointia ei ulkoistettaisi algoritmeille, rahoittajien ja korkeakoulujen on huolehdittava laaja-alaisen tekoälylukutaidon (AI literacy) varmistamisesta. Ammattikorkeakouluilla on tässä kaksoisrooli. Niiden on paitsi huolehdittava omien TKI-asiantuntijoidensa ja arvioijiensa osaamisesta, myös integroitava uudenlainen ”arviointilukutaito” osaksi opetusta ja YAMK-koulutusta. Kun tulevaisuuden asiantuntijat oppivat jo opintojensa aikana laatimaan narratiivisia ansioluetteloita ja tunnistamaan algoritmisia vinoumia, pystytään rakentamaan kestävämpää ja reilumpaa pohjaa koko tutkimusekosysteemille.

CoARA:n suuntaviivat ja kehitteillä olevat työkalut tarjoavat ammattikorkeakouluillekin erinomaisen mahdollisuuden olla eturintamassa muotoilemassa tieteen ja soveltavan tutkimuksen vastuullista tulevaisuutta.

Lähteet

Biswas, J., Schoepp, S., Vasan, G., Opipari, A., Zhang, A., Hu, H., Joseph, S., Lease, Junyi Jessy, L., Stone, P., Wagstaff, K.L., Taylor, M.E., & Chadwicke Jenkins, O. (15.4.2026). AI-assisted peer review at scale: The AAAI-26 AI review pilot. Cornell University. https://doi.org/10.48550/arXiv.2604.13940

Frontiers survey. (2025). Unlocking AI’s untapped potential: responsible innovation in research and publishing. Dec. 2025

Kirbas, Z. S., Arpaci, S., Ekmekci, P. E., Crawley, F. P., Karaman, B. B., De Sousa Freitas, M. C., Stoka, V., Walther, C., & Tzouganatou, A. (2025). CoARA-ERIP (Ethics and research integrity policy). A whitepaper on reforming research assessment for a digital and AI-driven science future. https://zenodo.org/records/17308056

van den Hooff, S., & Colet, M. 2026. Ethical implications of AI integration in research assessment. https://zenodo.org/records/17433296