7.10.2012

Tuloksia plagiaatintunnistimista

Turun yliopiston lehti UTUonline kirjoitti plagiaatintunnistimen käyttöönotosta maaliskuussa 2012 otsikolla Plagioinnista jää aina kiinni. Onko otsikon lause totta vai tarua - vai liekö otsikko tarkoitettukin vain pelokkeeksi opiskelijoille, jotta opiskelijat paneutuisivat kirjoittamiseen eivätkä tarjoaisi opettajille osittain tai kokonaan plagioituja tehtäviä, esseita tai jopa opinnäytetöitä?

Miten sähköiset plagiaatintunnistusjärjestelmät sitten selviävät tehtävästään? Olen kirjoittanut aiheesta ennenkin, esim. 8.1.2011 julkaisemassani tekstissä Miten hyvin plagiaatintunnistimet toimivat?

Vuoden 2012 plagiarismikonferenssissa esiteltyjen tutkimusten joukosta löytyi Tukholman yliopistossa toteutettu tutkimus, jossa testattiin kolmen eri plagiaatintunnistimen kykyä tunnistaa plagiaatti. Kirjoittajat Frey Appelgren Heyman, Mattias Olofsson, Henrik Hansson, Jan Moberg ja Ulf Olsson esittivät konferenssissa paperin otsikoltaan Can we rely on text originality check systems? Kirjoittajat käyttävät tarkastelemistaan järjestelmistä nimeä "tekstin alkuperäisyyden tarkastusjärjestelmä" (text originality check systems, TOCS).

Tutkimuksessa tutkittiin kolmea eri järjestelmää: Turnitin, GenuineText ja Urkund. Järjestelmiin syötettiin tätä tutkimusta varten laaditut esimerkkitekstit, jotka laadittiin aiemmin julkaistujen tekstien katkelmista. Esimerkit tehtiin yhteistyössä yliopiston kirjaston kanssa, ja testiteksteissä oli katkelmia yliopiston omien ja käytössä olevien sähköisten julkaisutietokantojen sisältämista dokumenteista, satunnaisesti netistä valituista tutkimustyypisistä teksteistä, eri laitoksilta kootuista erikoisalan teksteistä ja nettisivuilla julkaistuja yleistajuisia, mutta yliopiston aloihin liittyviä tekstejä. Mukana olivat humanististen tieteiden, oikeustieteen, luonnontieteiden ja yhteiskuntatieteiden tekstit. Eri laitoksilta tulleet testiin sisällytetyt tekstit olivat opettajien valitsemia sellaisista kohteista, joita he tietävät opiskelijoiden usein käyttävän: Wikipedia, National Encyklopedia (NE.se) ja ruotsalaisten organisaatioiden sivut. Kirjoittajat olettavat, että myös Ruotsalaisessa korkeakoulutuksessa - Yhdysvaltojen tapaan - yleisin plagioinnin lähde on Wikipedia.

Testiin valituista teksteistä laadittiin seitsemän dokumenttia (erilaisten tekstien yhdistelmiä), ja ne oli syötetty kuhunkin tarkasteltavana olleeseen järjestelmään. Yhteensä nämä seitsemän testiplagiaattitekstiä sisälsivät 167 tekstikappaletta. (Käytetyt esimerkkitekstit ovat liitteenä Heymanin ja Olofssonin kandidaatin tutkielmassa.) Tuloksissa esitetään muun muassa se, kuinka suuren osan plagioiduista teksteistä kukin järjestelmä tunnisti.  Päätulos tiivistettynä on seuraava: Turnitin tunnisti 50%, Urkund 38% ja GenuineText 12% plagioiduista tekstikappaleista. Järjestelmien välillä oli eroa siinä, miten hyvin ne tunnistivat eri lähteistä plagioitua tekstiä. Jokainen voi lukea tuosta konferenssiesityksestä tarkemman analyysin siitä, missä määrin kukin järjestelmä tunnistaa eri lähteistä kopioitua tekstiä. Huonoiten plagiaatintunnistimet tunnistivat sellaisia tekstejä, jotka oli plagioitu ns. tilkkutäkkimenetelmällä sekä tietokannoista että internetsivuilta. Turnitin tunnisti näistä teksteistä (mixed references) 35/50, Urkund 18/50 ja GenuineText 0/50.

1 kommentti:

  1. Kyllä on Suomessa touhu taas pahasti myöhässä: Euroopassakin eroaa ministereitä plagioinin takia. Suomessa otetaan suurieleisesti käyttöön ikivanhoja menetelmiä ja niitä vielä pidetään ylivertaisina "totuuskoneina". Todella surkuhupaisaa!

    VastaaPoista