Bibliometriikkaa vai numerologiaa – amkien julkaisujen viittaustietoja etsimässä

01.10.2019

Kuva: Pauliina Nyqvist CC BY 4.0

CSC – Tieteen tietotekniikan keskus tehdessään bibliometrisiä raportteja suomalaisten tutkimusorganisaatioiden julkaisutoiminnasta tuli samalla verranneeksi VIRTA-tietovarannon sisältöä Web of Scienciin ja Scopukseen sisältyvään aineistoon. Ammattikorkeakoulujen A- ja C-tyypin julkaisut sisältyivät näihin alle 20 prosenttisesti. Se ei ole kummoinen luku bibliometristen analyysien pohjaksi. Millainen vaihtoehto Google Scholar on ammattikorkeakouluille julkaisujen viittausten seuraamiseen? Voiko eri tietokantojen luokituksia tai indeksien laskemiseen käytettyjä kertoimia yhdistellä? Artikkelissa kokeillaan Google Scholarin ja Web of Sciencin käyttöä Haaga-Helian vuosien 2015–2018 julkaisujen viittausindeksien laskemiseen.

 

Mikä bibliometriikka?


Bibliometriikalla tarkoitetaan erityisesti tieteellisten julkaisujen tutkimista kvantitatiivisilla menetelmillä. Alan tausta on kytköksissä modernin tieteen, julkaisutoiminnan ja kirjastolaitoksen kehittymiseen uuden ajan alussa. Sen käytännön menetelmiä on kehitelty erityisesti yhteiskuntatieteellisesti suuntautuneen tieteentutkimuksen sekä informaatiotutkimuksen piirissä.

Julkaisujen kvantitatiivinen tutkiminen voi tuottaa esimerkiksi julkaisun viittauksiin perustuvia indeksilukuja ja muita julkaisujen keskinäisiä suhteita kuvaavia lukuja, mallintaa erilaisia julkaisuprofiileja, aiheiden tai tekijöiden muodostamia verkostoja.

Näitä menetelmiä on erityisesti 2000-luvun alun jälkeen käytetty yhtenä korkeakoulujen ja tutkimuslaitosten toiminnan arvioinnin työkaluna. Tieteellisen tutkimuksen kehittymisen, yhteiskunnallisen vaikuttavuuden ja kirjastojen hankintapolitiikan kysymykset on sovellettu käytettäväksi myös yksittäisen tutkijan tuloksellisuuden tai tutkimusryhmien tehokkuuden ja vaikuttavuuden mittaamiseksi.

 

Bibliometriikan tuottamille indeksiluvuille annetaan kerkeästi suuri painoarvo, vaikka bibliometriikan parissa työskentelevät vaikuttavat monessa yhteydessä painottavan, että lukuihin ja varsinkin niiden vertailuun tulisi suhtautua varauksella ja että ne vaativat aina rinnalle asiantuntijan arvioinnin. Kokeilu Haaga-Helian julkaisujen viittausten ja viittausindeksien laskemisessa konkretisoi hyvin sitä, kuinka viittausindeksien laskeminen, luotettavuus ja vertailtavuus riippuvat monesta tekijästä, varsinkin kun joudutaan yhdistelemään tietoja eri lähteistä.

 

Kaupalliset viittaustietokannat hallitsevat kenttää, mutta kattavat huonosti ammattikorkeakoulujen julkaisuja


Viittaustietokantojen ja niihin liittyvien analyysityökalujen ja -palvelujen tuottaminen on muutaman kaupallisen toimijan hallitsema liiketoiminnan ala. Korkeakoulujen ja tutkimuslaitosten sekä niiden toimintaa arvioivien tahojen tekemät tai tilaamat viittausanalyysit yleensä perustuvat Clarivate Analyticsin Web of Science (WoS)- tai Elsevierin Scopus -viittaustietokantoihin.

Ne ovat ammattikorkeakouluillekin erittäin hyödyllisiä ja monipuolisia tiedonlähteitä, mutta tarjoavat kovin kapean näkökulman ammattikorkeakoulujen, Haaga-Heliankin, julkaisutoimintaan. Lähtökohtaisestikin tieteellisen julkaisemisen tietokantoina suurin osa ammattikorkeakoulujen julkaisuista jää niiden ulkopuolelle, koska ammattikorkeakoulut julkaisevat enimmäkseen yleistajuista ja ammatillista sisältöä, mihin niitä myös kannustetaan esimerkiksi julkaisuihin liittyvällä rahoitusmallilla.

Esimerkiksi katsottaessa vuosia 2015–2018 Haaga-Helialta ilmoitettiin 1268 julkaisua OKM:n tiedonkeruuseen. Näistä 619 kpl (48 %) on yleistajuisia julkaisuja, 433 kpl (34 %) ammatillisia julkaisuja, 150 kpl (11 %) tieteelliselle yleisölle suunnattuja vertaisarvioituja artikkeleja, 57 kpl (4 %) ei-vertaisarvioituja tieteellisissä kanavissa julkaistuja, ja 5 kpl (0,3 %) tieteellisten kustantajien julkaisemia monografioita tai tieteellisten lehtien erikoisnumeroiden toimituksia.

Lisäksi suunta näyttäisi olevan se, että julkaisujen kokonaismäärän kasvusta vastaavat yhä voimakkaammin yleistajuiset, suurelle yleisölle suunnatut julkaisut.

 

Suurin osa näistä 150 tieteellisen A-julkaisuluokan julkaisuista ovat joko lehtiartikkeleja tai konferenssiartikkeleja (n. 80 %). Kokoomateosten artikkeleja on noin 20 % tästä julkaisuluokasta. Katsausartikkeleja ei Haaga-Heliasta juurikaan julkaista (3 kpl 2015–2018). Konferenssiartikkelien ja journaaliartikkelien osuus A-julkaisuluokan julkaisuista vaihtelee vuosittain 30–50 prosentin välillä.

Julkaisufoorumin julkaisukanavien tasoluokituksessa (JUFO) Haaga-Helian A1–A4-luokkien julkaisut sijoittuvat pääsääntöisesti joko tasolle 1 (perustaso) tai hieman useammin tasolle 0 (luokittelematon tai ei täytä JUFO:n tieteellisen julkaisukanavan kriteerejä).

 

Ilahduttavaa kuitenkin on, että  vuosina 2015–2018 julkaisuja löytyy kaikista JUFO-luokista. JUFO-luokitus on tarkoitettu alun perin yliopistojen tuottamien julkaisujen ja suurten julkaisumäärien keskimääräiseen laadunarviointiin.

 

 

WoS tai Scopus kattavat myös näitä tieteellisiä julkaisuja huonosti, eivätkä ne oikein tarjoa perusteita näiden julkaisujen bibliometriselle analyysille. Esimerkiksi WoS keskittyessään luonnon- ja lääketieteisiin kattaa vain noin 20 prosenttia näistä pääasiassa kaupan, tietojenkäsittelyn ja yhteiskuntatieteiden alojen tieteellisistä julkaisukanavista, joissa Haaga-Helialaiset julkaisevat. WoS:n käyttämä tieteenalaluokittelu ei yhteiskuntatieteellisellä, kaupallisella tai humanistisella alalla ole myöskään kovinkaan erottelukykyinen. Scopus kattaa WoS:a vielä pienemmän osuuden julkaisuista.

Lisäksi tieteelliset julkaisut muodostavat vain noin 10 prosenttia ammattikorkeakoulujen ja Haaga-Heliankin julkaisutoiminnasta. Jos maksullisista viittaustietokannoista tuotetaan käsitystä ammattikorkeakoulun julkaisutoiminnasta, perustuu se kovin marginaaliseen aineistoon, kymmenyksen kymmenyksiin.

 

Jos kuitenkin halutaan tarkastella Haaga-Helian ja yleisemminkin ammattikorkeakoulujen tieteellistä julkaisutoimintaa viittaustietojen valossa, tai laajemmin WoS:n huonosti edustamia aloja, on Google Scholar (GS) ja sen dataan perustuva sovellus Publish or Perish parempi vaihtoehto.

 

No katotaan Googlesta


Riippuen julkaisuvuodesta ja tieteenalasta, Google Scholar indeksoi Haaga-Helian tieteelliset julkaisut niiden saamine viittauksineen 50–100 prosenttisesti (2015–2018).

GS A1–A4 kattavuus, %

2015

2016

2017

2018

Business and economics

55

73

100

80

Computer Sciences

100

100

100

100

Social Sciences, General

78

66

65

40

Yhteensä

76

72

84

75

 

GS A1–A3 kattavuus, %

2015

2016

2017

2018

Business and economics

60

66

100

81

Computer Sciences

100

100

100

100

Social Sciences, General

77

66

50

37

Yhteensä

76

70

80

69

 

Yllä olevassa taulukossa on ryhmitelty Haaga-Helian tieteellisissä julkaisukanavissa julkaistut vertaisarvioidut julkaisut WoS:n käyttämiin tieteenalakategorioihin OKM:n tiedonkeruuseen ilmoitetun tieteenalan perusteella, ja kerrotaan kuinka kattavasti vuosikohtaisesti eri tieteenalojen julkaisut sisältyvät Google Scholariin.

 

Julkaisutiedonkeruussa käytettävät tieteenalaluokitukset taipuivat hyvin suurpiirteisesti WoS:n luokitteluihin, ja esimerkiksi Social Sciences, General -luokkaan joutui sisällyttämään niin kasvatustieteiden, hallintotieteiden ja liikunta-alankin julkaisuja.

 

GS kattaa Haaga-Helian julkaisut 70–80 prosenttisesti. Tietotekniikan alan julkaisut se kattaa 100 prosenttisesti, kun taas yhteiskuntatieteiden laajan luokan kattavuus on alimmillaan 37 prosenttia. Biblometrisia analyyseja tekevä Leidenissä sijaitseva CWTS (https://www.cwts.nl/) on maininnut joissain raporteissaan analyysien tekemisen ehtona vähintään 50 prosentin kattavuuden. Google Scholarin kanssa päästään pääsääntöisesti siis aivan siedettäviin kattavuuksiin, vaikka toki parantamisen varaakin olisi.

 

Google Scholarin etuja on, että se kattaa laajasti tieteenaloja, julkaisukanavia ja kieliä, ja GS:n dataa käyttävä Publish or Perish esimerkiksi laskee automaattisesti hakutulokselle esimerkiksi h-indeksin. Silti myös GS:n ja Publish or Perishin käytössä on ongelmia.

Google Scholar esimerkiksi indeksoi viittauksia julkaisuarkistoista, muun muassa kanditöiden ja gradujen viittauksia, sisältää tekijöiden viittaukset omiin töihinsä (eikä niitä voi automaattisesti rajat pois Publish or Perish -ohjelmassa), ja se saattaa indeksoida kahtena erillisenä viittauksena saman viittaavan abstraktin eri kieliversiot tai saman artikkelin julkaisuprosessin eri vaiheissa julkaistut versiot.

Toisin sanoen Google Scholarin viittausdata pitää käydä viite kerrallaan läpi ja karsia datasta käsipelillä pois epäolennaiset viittaukset, kuten opinnäytetyöt ja duplikaattiviittaukset sekä mahdollisesti viittaukset itseen.

 

Ja sitten niitä numeroita


GS:ää ja Publish or Perishiä käyttämällä sekä reippaalla käsityöllä saadaan Haaga-Helian WoS:n tieteenalakategorioihin sovitetuille julkaisuille seuraavia viittauslukuja, sekä kyetään laskemaan alakohtaisia H-indeksejä.

A1-A4 –julkaisut

(GS, 2015-2018)

Julkaisuja

Viittauksia

Viittauksia keskimäärin per artikkeli

4 vuoden H-indeksi

Business and economics

43

44

1,02

4

Computer Sciences

18

47

2,6

4

Social Sciences, General

40

120

3

6

Yht.

101

211

2,1

7

 

Vuosina 2015–2018 Haaga-Heliassa julkaistuista 150 A1–A4-julkaisuluokan julkaisuista Google Scholar löytää 101 julkaisua (67 prosenttia). Näille on kertynyt Google Scholarin indeksoimissa julkaisuissa kesään 2019 mennessä 211 viittausta, keskimäärin 2,1 viittausta artikkelia kohden.

Viittausten kokonaislukumäärä ja artikkelien keskimääräiset viittaukset eivät kuitenkaan kerro viittausten jakautumisesta artikkelien kesken. H-indeksi viittaa tähän jakaumaan.

H-indeksi (Hirschin indeksi) on kvantitatiivinen julkaisutehokkuutta ja julkaisujen merkittävyyttä arvioiva mittari. Esimerkiksi Business and economics -ryhmän neljän vuoden h-indeksin arvo 4 tarkoittaa sitä, että aikavälillä 2015–2018 liiketalouden alalla on neljä julkaisua, joihin on viitattu neljässä tai useammassa julkaisussa. Haaga-Helian kaikkien julkaisujen h-indeksi aikavälillä on 7, eli seitsemään julkaisuun on viitattu seitsemän tai enemmän kertaa, ja jäljelle jääviin 94 julkaisuun on viitattu kuusi tai vähemmän kertaa.

Nämä luvut eivät kuitenkaan kerro sitä, onko esimerkiksi Haaga-Helian liiketalouden alan julkaisujen keskimääräinen viittausluku 1,02 paljon vai vähän verrattuna muihin saman alan julkaisuihin. Ne eivät myöskään kerro sitä, onko liiketalouden 1,02 paljon vai vähän muiden yhteiskuntatieteiden 3 keskimääräiseen viittaukseen verrattuna. Nämä luvut eivät tällaisenaan ole keskenään verrattavissa.

 

Mitä oikeastaan vertaillaan


Eri julkaisujen saamia viittausmääriä vertailtaessa täytyy ottaa huomioon julkaisun julkaisuvuosi ja tieteenala.

Eri vuosina julkaistujen artikkelien saamat viittaukset eivät ole sellaisenaan vertailukelpoisia, sillä vanhemmilla julkaisuilla on yleensä ollut enemmän aikaa kerätä viittauksia. Toisaalta, joillakin tieteenaloilla viittaukset painottuvat tuoreisiin julkaisuihin, eivätkä vanhemmat julkaisut kerää viitteitä samalla tavalla kuin jollakin toisella tieteenalalla.

Esimerkiksi Clarivate Analytics WoS-palvelussaan pyrkii ratkaisemaan näitä ongelmia laskemalla ja julkaisemalla tieteenala- ja vuosikohtaisia eroja normalisoivia pohjakertoimia. Näiden avulla voidaan laskea julkaisulle vertailukelpoinen viittausindeksi.

Viittausindeksin arvo 1 on WoS:n mukaan tieteenalan ja julkaisuvuoden artikkelin saama keskimääräinen viittausten määrä tiettynä vuonna. Jos arvo on alle yksi, artikkeliin on viitattu keskimääräistä vähemmän. Jos arvo on yli 1, on artikkeliin viitattu keskimääräistä enemmän. Arvot tietysti perustuvat WoS:iin sisältyvään aineistoon.

Onko perusteltua laskea Haaga-Helian tieteellisille julkaisuille keskinäisesti vertailtavissa oleva, vuosittainen, alakohtainen ja keskimääräinen viittausindeksi soveltamalla WoS:n pohjakertoimia ja tieteenalaluokituksia ja käyttämällä Google Scholarin viittausdataa? Jos metodi pysyy jatkuvasti samana, onko muutos eri vuosien välillä uskottava ja luotettava?

OKM:n tieteenalaluokitukset tai Haaga-Helian yksiköt eivät yksiselitteisesti ole siirrettävissä WoS:n käyttämiin kategorioihin, ja GS indeksoi paljon sellaista aineistoa, jota WoS ei huomioi kertoimia laskiessaan. Laajemman aineiston indeksointi vaikuttaisi luonnollisesti myös pohjakertoimiin, ja tieteenalaluokitusten erot vaikuttavat siihen, millä kertoimilla indeksi julkaisulle lasketaan.

 

Tällä tavalla saadut arvot eivät siis taida olla sellaisenaan verrattavissa WoS:n tai Scopuksen datalla lasketuilla arvoilla. Jos pieni jossittelu sallitaan, on kuitenkin houkuttelevaa miettiä, antaisivatko ne kuitenkin jonkinlaista mittakaavaa vertailulle?

 

Laskin keskimääräiset viittausindeksit ilman konferenssijulkaisuja (A1­–A3) sekä konferenssijulkaisujen kanssa (A1–A4). Indeksiluvut laskettiin siten, että ensin määriteltiin julkaisulle WoS kategoria. Sen jälkeen haettiin Google Scholarin ja Publish or Perishin kautta julkaisun viittaustiedot esiin ja poistettiin niistä epäolennaiset tai virheelliset viittaukset. Tämä artikkelin viittausmäärä jaettiin WoS:n laskemalla ala- ja vuosikohtaisella pohjakertoimella. Artikkelille näin saatu luku ynnättiin yhteen muiden saman alan ja saman vuoden julkaisujen saamien lukujen kanssa, ja yhteenlaskun tulos jaettiin näiden julkaisujen lukumäärällä.

Tietojenkäsittely- ja informaatiotieteen julkaisut, joita on määrällisesti vähiten, vaikuttaisivat olevan Haaga-Helian julkaisuista suhteellisesti viitatuimpia, liiketalouden julkaisujen tullessa toisena yhteiskuntatieteiden (laajana kategoriana) pitäessä kolmatta sijaa.

 

Näiden lukujen perusteella Haaga-Helian liiketalouden alan A1–A3 julkaisuluokan julkaisuihin viitataan alan keskimääräistä enemmän ja tietojenkäsittelyn alan A1–A3 julkaisuihin jopa selkeästi enemmän erityisesti kolmen viime vuoden aikana. Myös muihin yhteiskuntatieteiden alan A1–A3 julkaisuihin viitataan säännönmukaisesti hiukan keskimääräistä enemmän. Kun mukaan otetaan konferenssijulkaisut, viittausindeksi putoaa, mutta Haaga-Helian tieteellisen julkaisutuotannon kokonaisuus 2015–2018 vaikuttaa keskimääräistä viitatummalta.

Tämä tulkinta on toki riippuvainen siitä, kuinka paljon sellaisia viittauksia GS:n dataan sisältyy, jotka eivät sisälly WoS:n dataan.

Kuten kaavioista kuitenkin huomaa, heittoa eri alojen ja vuosien välillä on paljonkin. Tämä selittyy osin pienehköllä tieteellisten julkaisujen volyymilla ja erityisesti yksittäisten menestyneiden julkaisujen suurella vaikutuksella viittausmääriin. Artikkelin keskimääräisen indeksin laskemisen heikkous on se, että hyvin menestyneet ja paljon viittauksia saaneet julkaisut nostavat kaikkien julkaisujen indeksejä riippumatta siitä, onko niihin viitattu ollenkaan.

 

Laadullista bibliometriikkaa?


Bibliometriikka on määritelmällisesti julkaisujen kvantitatiivista tutkimista. Se tuottaa helposti vertailtavissa olevia ja seurattavia lukuja, mutta tämä bibliometrinen harjoitus valaisi ainakin tekijälleen sitä, kuinka lukujen taakse kätkeytyy kysymyksiä viittaustietokantojen kattavuudesta ja indeksointiperiaatteista, pohjakertoimien muodostumisesta ja tieteenalakohtaisista julkaisu- ja viittauskäytännöistä. Lukuja luettaessa ja tuotettaessa tulisi olla kriittinen mieli ja pitää huoli yhdenmukaisesta metodologiasta vertailtavien lukujen takana.

Ammattikorkeakoulujen kohdalla viittauksiin pohjaavat menetelmät tavoittavat lisäksi vain kymmenyksen julkaisutoiminnasta – tai käytännössä kymmenyksen osia. Muiden kuin tieteellisten julkaisujen osalta laadun ja vaikuttavuuden mittareiden kehittäminen olisi hienoa, mutta mille pohjalle näitä mittareita voisi rakentaa?

”Laadullinen bibliometriikka”, käytännössä esimerkiksi yhteissana-analyysi tai erilaisten topic modeling -työkalujen ja automatisaation avulla tuotetut aineistot laajoista julkaisumassoista voisivat olla keino arvioida organisaatioiden laajempaa julkaisutoimintaa ainakin suhteessa organisaation omiin tavoitteisiin ja muiden organisaatioiden julkaisutuotantoon sisältöjen kautta. Vetovoimaisia ja näennäisen helposti vertailtavissa olevia indeksilukuja näillä metodeilla tuskin saisi aikaan. Toisaalta ne täydentäisivät viittauksiin perustuvia tietoja vastaamalla kysymyksiin tieteellisen julkaisutoiminnan sisällöistä, ja mahdollistaisivat tieteellisen julkaisutoiminnan suhteuttamisen esimerkiksi organisaation yleistajuiseen ja ammatilliseen julkaisemiseen pelkkiä indeksilukuja syvällisemmin.

 

Lähteitä:

Forsman, M. (2016). Julkaisut ja tieteen mittaaminen: Bibliometriikan käännekohtia. Tampere: Enostone.

https://vipunen.fi/fi-fi/kkyhteiset/Sivut/Bibliometriikka.aspx

https://vipunen.fi/fi-fi/kkyhteiset/Sivut/Bibliometriikka-(Scopus).aspx

https://harzing.com/resources/publish-or-perish

https://scholar.google.fi/

https://www.cwts.nl/

 

Tietoa kirjoittajasta:

Antti Nyqvist, tietopalvelusihteeri
Haaga-Helia

 

 

Kommentit

Jätä kommentti