Piirroskuva, jossa ilmassa leijuvia paperiarkkeja.

Tekoäly opinnäytteiden lähdeluetteloiden analysoinnissa

Markku Hiltunen

Tekoälyn hyödyntäminen kirjastoissa on jo arkipäivää. Tekoäly auttaa muun muassa aineiston asiasanoituksessa ja poistojen käsittelyssä. Kirjastojärjestelmien lukusuositukset ovat myös tekoälyn tuottamia. Tekoälysovellukset voivat auttaa myös tiedonhaussa. Monissa kirjastoissa on myös käytössä erilaisia chatbotteja ja palautusrobotteja. Mutta voisiko tekoälyä hyödyntää lähdeanalyysissä?

Lähdeanalyysissä aineisto on koottu julkaisun lähdeluettelosta. Siitä saadun tiedon avulla kirjastot voivat arvioida erilaisia asioita kuten kokoelmien käyttöä ja uusia hankintoja (Forsman, 2016, s. 35). Lähdeanalyysia kuitenkin pidetään ongelmallisena muun muassa siksi, että lähdeluettelot eivät sinänsä kerro, kuinka lähteitä on käytetty ja mitkä käytetyistä lähteet ovat olleet loppujen lopuksi tutkimuksen kannalta merkittäviä (Holopainen, 2012, s. 1).

Kokeilu tekoälyn hyödyntämiseen lähdeanalyysissä

Diakin henkilöstölle järjestettiin syksyllä 2025 tekoälykoulutuksia. Ne innostivat miettimään, voisiko tekoälyn avulla nopeammin ja tehokkaammin tutkia opinnäytteiden lähdeluetteloita ja lähteiden laatua.

Microsoft Copilotilta (ja osin myös Chatgpt:ltä) pyydettiin listausta lähdetyypeittäin vuoden 2025 Diakin opinnäytetöiden lähdeluetteloista. Promptin tekeminen ja muokkaus oli haastavaa ja kehotteita piti muokata useamman kerran.

Tekoäly teki listauksen nopeasti. Se arvioi Diakin opiskelijoiden opinnäytetöiden lähdeluetteloiden sisältävän 45 prosenttia vertaisarvioituja tieteellisiä artikkeleita. Kirjojen ja monografioiden osuus oli 25 prosenttia, yliopiston opinnäytteitä 10 prosenttia, väitöskirjoja 5 prosenttia ja virallisia raportteja ja ohjeistuksia 8 prosenttia ja muita 7 prosenttia.

Oman kokemukseni mukaan tekoälyn antama arvio on liian optimistinen tieteellisten artikkeleiden osalta. Vaikea kuitenkin on tietää, tekikö Copilot listauksen kaikista opinnäytetöistä vai valikoiko se vain jonkun tietyn otoksen. Päätin siis tehdä vertailevan kokeilun selvittääkseni, miten samaa mieltä olimme tekoälyn kanssa lähteiden eri tyypeistä.

Valitsin satunnaisesti kymmenen sosiaalialan opinnäytetyötä vuodelta 2025. Tein oman jaotteluni seuraavanlaisin kriteerein: kirjat, ammattilehtiartikkelit, tieteelliset artikkelit, väitöskirjat, tilastot, lainsäädäntö ja vieraskieliset lähteet. Pyysin myös Copilotia tutkimaan näiden samojen yksittäisten opinnäytetöiden lähdeluetteloita.

Osasta lähteiden tyypeistä olin samaa mieltä tekoälysovelluksen kanssa. Promptia tarkentamalla sai tietoon kaikki ne lähteet, joita tekoäly piti tieteellisinä. Copilot piti esimerkiksi pro graduja ja kandidaatintutkielmia tieteellisinä, kun taas itse merkitsin ne opinnäytetöiksi.

Joidenkin opinnäytteiden kohdalla tekoäly laski väärin lähdeluettelon lähteiden lukumäärän. Kun laskuvirheestä huomautti Copilotille, sai huomautuksen jälkeen oikean lähteiden lukumäärän.

Lähdeluettelon kertomaa

Tutkimissani kymmenessä opinnäytetyössä keskimääräinen lähteiden määrä oli 40 kpl/opinnäytetyö. Toisaalta lähteiden määrissä oli suuri vaihteluväli – osassa oli 75 lähdettä ja osassa 25. Lähteet olivat suhteellisen tuoreita, joskin joissain oli myös vanhempia lähteitä. Tieteellisten artikkeleiden ja väitöskirjojen osuus oli 15 prosenttia.

Joidenkin opinnäytteiden kohdalla tekoäly laski väärin lähdeluettelon lähteiden lukumäärän.

Maanpuolustuskorkeakoulussa on tehty laajempi tutkimus lähteidenkäytöstä kandidaatintutkielmissa, pro graduissa ja erilaisissa diplomitöissä. Kyseisen tutkimuksen mukaan opinnäytetöissä vertaisarvioitujen lähteiden määrä oli 7 prosenttia. (Vankka, 2013, s.149-150.) Tuohon tutkimukseen verrattuna Diakin otoksen opinnäytteissä oli kaksinkertainen määrä vertaisarvioituja lähteitä.

Samantyyppistä tutkimusta on tehty myös väitöskirjojen lähteidenkäytöstä. Väitöskirjoissa artikkeleiden osuus oli 25 prosenttia. Väitöskirjoissa tieteellisten artikkeleiden osuus on suurempi kuin ammattikorkeakoulujen opinnäytetöissä, vaikka tutkija ei jaotellutkaan artikkeleita tieteellisiin ja ei-tieteellisiin. (Holopainen, 2012, s. 2.)

Yksi huomiota herättävä piirre näissä lähdeluetteloissa oli, että nettilähteiden osuus oli hyvin suuri. Joissakin yli puolet lähteistä oli nettisivuja, vaikka aiheisiin olisi voinut hakea myös tieteellisemmän lähteen. Usein tieto oli haettu organisaatioiden tai järjestöjen kotisivuilta. Myös menetelmään liittyvät lähteet oli usein haettu avoimilta internet-sivuilta.

Osassa opinnäytetöitä oli käytetty useita englanninkielisiä lähteitä. Joissain niitä ei ollut lainkaan. Yleensä vieraskielisiä lähteitä oli käytetty vähintään yksi. Yhdessä opinnäytetyössä oli käytetty myös ruotsinkielistä lähdettä.

Kuinka hyvin kirjaston kokoelmat palvelevat?

Lähteiden käytön tutkimisessa yksi näkökulma on se, kuinka kattavasti aineistot löytyvät kirjaston kokoelmista. Eräässä amerikkalaistutkimuksessa katsottiin liiketalouden opinnäytetöiden lähteiden ja niiden saatavuuden välistä suhdetta. Käytetyt lähteet olivat pääsääntöisesti kirjastojen kokoelmissa. Tutkimuksessa jäi kuitenkin selvittämättä löysivätkö opiskelijat ne kirjaston kautta. (Vaaler, 2018, s. 163.) Suomessa on aiemmin tutkittu väitöskirjojen lähteitä. Niiden saatavuus kirjastojen kokoelmissa oli varsin hyvä, sillä 87 prosenttia lähteistä oli saatavilla joko painettuna, e-aineistona tai vapaasti verkossa. (Holopainen, 2012, s. 4.)

Suurin osa painetuista kirjoista, joita Diakin opiskelijat käyttivät tutkituissa opinnäytteissä, löytyivät myös Diakin kirjaston kokoelmista. Tieteellisiä artikkeleita tarjotaan ennen kaikkea Finnan ja Medicin kautta, joten tietoa siitä, mitä kautta opiskelijat saivat ne käsiinsä, on hankalampi jäljittää.

Pohdintaa tulevaisuudesta

Opinnäytetöiden aiheet olivat erilaisia, eivätkä ne ole täysin vertailtavissa keskenään, joten ei voi vetää suoria johtopäätöksiä niissä käytetyistä lähteistä. Kyseessä oli myös kapea otos ja pelkkä tekninen kokeilu.

Yksi asia, mikä on syytä huomioida tulevaisuudessa, on tekoälysovellusten muokkaamat valheelliset lähteet. Tekoäly keksii aitojen tutkijoiden nimiä ja yhdistää niitä oikeisiin kirjoihin ja lehtiin, mutta täysin mielivaltaisella tavalla. Ensinäkemältä ne näyttävät oikeilta, mutta kun viitteitä katsoo tarkemmin, huomaa, että ne ovat täysin keksittyjä. (Watson, 2024, s. 173.)

Opiskelijoille markkinoidaan ja viestitään säännöllisesti tiedonhaun ohjauksista. Opiskelijoita myös opastetaan tiedonhaussa, mutta ovatko kirjaston opetukset oikeassa kohtaa opintojaksoilla? Yksi keino voisi olla, että tiedonhaun opetuksen painopiste olisi nimenomaan opintojen loppuvaiheissa.

Osasiko tekoäly luokitella lähteet oikein? Kyllä ja ei. Sitä voi jatkossakin käyttää apuna, mutta opinnäytetöiden arvioijien on edelleen syytä myös luottaa omaan arvioonsa opinnäytetöissä käytetyistä lähteistä.

Lähteet

Forsman, M. (2016). Julkaisut ja tieteen mittaaminen: Bibliometriikan käännekohtia. Enostone.

Holopainen, M. (2012). Väitöskirjojen lähteet ja niiden saatavuus valtiotieteissä – lähdeanalyysin tuloksia. Signum : kirjasto- ja tietopalvelulehti, 1, 012.

Vaaler, A. (2018). Sources of resources: A business school citation analysis study. Journal of Business & Finance Librarianship, 23(2), 154–166. https://doi-org.anna.diak.fi/10.1080/08963568.2018.1510252

Vankka, J. (2013). Sotatekniikan kandidaatin, maisterin, esiupseerikurssin ja yleisesikuntaupseerin opinnäytetyöt Maanpuolustuskorkeakoulussa vuosina 2006-2011. Tiede ja ase : Suomen sotatieteellisen seuran vuosijulkaisu, 71(1), 138-151.

Watson, A. P. (2024). Hallucinated Citation Analysis: Delving into Student-Submitted AI-Generated Sources at the University of Mississippi. Serials Librarian, 85(5/6), 172–180. https://doi.org/10.1080/0361526X.2024.2433640

Pysyvä osoite: https://urn.fi/URN:NBN:fi-fe2025090494511