8.1.2011

Miten hyvin sähköiset plagiaatintunnistimet toimivat?

Debora Weber-Wulff on jatkanut sähköisten plagiaatintunnistusohjelmien testausta ja hän on julkaissut tulokset vuonna 2010 testaamiensa plagiaatintunnistimien toimivuudesta. Tulokset ovat luettavissa täältä: Softwaretest 2010. Weber-Wulffin johtama tutkimusryhmä testasi 27 plagiaatintunnistusohjelmaa nykyisin käytössä olevista 46 ohjelmasta. Testauksen päätulos on, että plagiaatintunnistimet eivät toimi kovin hyvin!

Softwaretest 2010 toteutettiin niin, että kuhunkin testattavaan plagiaatintunnistusohjelmaan syötettiin juuri tätä testausta varten laadittuja keinotekoisia plagiaatteja, testitekstejä. Tekstit eivät siis olleet kenenkään julkaisemia tekstejä, artikkeleita tai opintosuorituksia. Testauksessa selvitettiin, miten hyvin ohjelma tunnistaa tiedetyn plagiaatin.

Mikään plagiaatintunnistusohjelma ei päässyt Weber-Wulffin ryhmän tekemissä testauksissa hyvään tai erinomaiseen tulokseen. Parhaimmat tunnistimet huomasivat tekstien samankaltaisuden vähän vajaassa 70%:ssa tapauksia. Testatuista plagiaatintunnistimista viisi ylsi luokkaan "osittain hyödylliset" tunnistimet, ne tunnistivat 60-70% internetistä kopioiduista teksteistä.

Plagiaatintunnistimia on testattu vuodesta 2004 lähtien. Mielenkiintoista Weber-Wulffin julkaisemissa tuloksissa on se, että vuonna 2008 sähköiset plagiaatintunnistimet selvisivät tehtävästään paremminkuin vuonna 2010. Nyt ohjelmat tunnistavat entistä huonommin muunnettua sanajärjestystä, sanojen korvaamista synonyymeillä tai joidenkin sanojen poisjättämistä/joidenkin sanojen lisäämistä plagioituun tekstiin.

Viittasin aiemmassa blogikirjoituksessani (10.2.2010) Jonathan Baileyn tekemiin havaintoihin plagiaatintunnistimien toimivuudesta. Kirjoituksessaan 5 Reasons Google is My Primary Plagiarism Checker Bailey perustelee näkemystään siitä, miksi Google toimii hyvin myös plagiaatintunnistimena: se on halpa, nopea, tarkka, yksinkertainen käyttää. Mahdollisen plagioinnin toteaa aina ihminen, eikä minkään ohjelman antama raportti voi olla päätöksen ainoa perustelu. Googlen käyttöä plagiointia tunnistettaessa rajoittaa se, että monet tieteellisten aikakauslehtien julkaisutietokannat ovat suljettuja ja niihin Google ei päässe. Toisaalta Suomessa Google toimii plagiaatin toteamisessa mainiosti, meillähän julkaistaan paljon erilaisia opinnäytetöitä ja väitöskirjoja sähköisesti, ja Google löytää hyvin tekstien samankaltaisuudet. Googlen käyttöä tässä tarkoituksessa voi harjoitella kirjoittamalla hakuun jonkun yleisesti käytetyn lauseen ja katsoa, kuinka monta osumaa tai samankaltaisuutta tulee. Sitten voikin katsoa, että mihin lauseessa on viitattu vai onko kyseessä tekijän oma ajattelu (=ei ole viitattu mihinkään).

- - - "Tieto on hyvin perusteltu tosi uskomus" (Lähde: Wikipedia)- - -

2 kommenttia:

  1. Tervehdys!
    Olipa mielenkiintoinen tutkimus, jonka Weber-Wulff on tehnyt. On uskottavaa, että plagiaattitunnistinten käyttöönotto muuttaa plagioijien toimintatapoja. Suoran lainauksen sijasta lainattua tekstiä ruvetaan modifioimaan. Tiedätkö, miten aktiivisesti plagiaattitunnistimia kehitellään, esimerkiksi synonyymien tunnistamiseen. Liisa Räsänen

    VastaaPoista
  2. Hello!
    Kiitos kommentista! Kyllä plagiaatintunnistimia kehitellään, ja niitä on ohjelmoitu tunnistamaan synonyymeja, mutta nyt tosiaan tulokset olivat heikompia kuin vuonna 2008. Suomen kieli on plagiaatintunnistimille haasteellinen, en tiedä miten hyvin ne pystyvät ottamaan huomioon joustavan sanajärjestyksemme tai vaikkapa moninaiset sijapäätteemme ja possessiivisuffiksimme.
    Jonathan Bailey muuten kertoo tarkemmin tunnistimien ominaisuuksista blogissaan 13.1.2011. Hän kertoo, että tunnistimet ovat kehittyneet esim. ääkkösten lukemisessa, aluksihan ne osasivat vain englantia:)
    terveisin Erja

    VastaaPoista