Datan avaaminen FAIR-palveluissa – case AMK-kirjastojen käyttäjäkyselyn data

16.11.2020

Photo by Markus Spiske on Unsplash

AMKIT-konsortion käyttäjäkysely toteutettiin keväällä 2020. Käyttäjäkyselyssä syntyneen aineiston avulla harjoittelimme aineistonhallinnan suunnittelua sekä datan käsittelyä ja tallennusta Fairdata-palveluihin. Aineiston työstössä ja tallennuksessa huomasimme, että palveluiden käyttö oli helpompaa kuin olimme odottaneet.

Käyttäjäkyselyn toteutuksesta ja tuloksista olemme kertoneet Kreodin 3/2020 artikkelissa (Mikkonen, Klinga-Hyöty & Kinnari 2020). Fairdata-palvelut ovat CSC:n korkeakouluille tuottama datanhallinnan palvelukokonaisuus, jolla varmistetaan tutkimuksen todennettavuus ja toistettavuus sekä turvataan tutkimusaineistojen pitkäaikainen saatavuus (CSC 2020). Kokonaisuus muodostuu seuraavista palveluista: IDA, Qvain, Etsin ja Fairdata-PAS (pitkäaikaissäilytys), joiden käyttöönottoa kuvaamme tässä artikkelissa (pois lukien Fairdata-PAS).

Aineistonhallintasuunnitelma

Aineistonhallinnan suunnittelu on osa hyvää tieteellistä käytäntöä. Kyselyn toteuttamista pohtiessamme otimmekin jo huomioon datan käsittelyn eri vaiheet ja avaamiseen liittyvät näkökulmat. Datan keräämiseen käytettyä kyselylomaketta työstimme yhdessä pilvipalvelussa ja kyselyn suunnittelimme siten, että dataa ei tarvitsisi erikseen anonymisoida. Henkilötietoja keräsimme ainoastaan arvontaan osallistuvilta vastaajilta erillisellä lomakkeella. Näillä tiedoilla ei ollut yhteyttä varsinaiseen käyttäjäkyselyymme ja ne tuhottiin välittömästi sen jälkeen, kun arvonta oli suoritettu. Tietosuojaselosteessa oli kuvattu mm. rekisteröityjen oikeuksista.

Työkaluksi aineistonhallintasuunnitelman tekemiseen valitsimme DMPTuulin, joka oli meille jo ennestään tuttu Avoin tiede ja tutkimus (ATT) -hankkeen kautta. Aineistonhallintasuunnitelmassa kuvasimme mm. sen kuinka aineisto kerätään, missä sitä säilytetään tutkimuksen aikana ja minne valmis aineisto tallennetaan. Lisäksi pohdimme alustavasti aineiston lisensointia ja omistajuutta. Aineistonhallintasuunnitelman pohjaksi pystyi valitsemaan eri toimijoiden valmiita malleja. DMPTuulin avulla tutkimusaineiston hallinnointi oli vaivatonta ja eteni loogisesti prosessin eri vaiheissa.

Datan työstäminen

Kerätty kyselyaineisto otettiin talteen Webropol-palvelusta Excel-tiedostona, jota säilytettiin väliaikaisesti tutkijoiden henkilökohtaisilla levyasemilla. Ennen aineiston tallentamista Fairdata-palveluihin pysyvästi, datan eheys ja laatu tarkistettiin manuaalisesti. Data analysoitiin sekä Excel- että SPSS-ohjelmilla. Kullekin kyselyyn osallistuvalle kirjastolle toimitettiin organisaatiokohtainen data heidän toivomallaan tiedostomuodolla.

Vaikka kysely oli rakennettu siten, että vastaajia ei olisi pystynyt tunnistamaan, halusi osa kyselyyn osallistuneista kirjastoista yhdistää pieniä vastaajaryhmiä pysyvästi säilytettävässä, avattavassa datassa anonymiteetin varmistamiseksi. Lisäksi avattavasta datasta poistettiin tieto vastaajien arvioimasta kampuskirjastosta. Myös avoimet vastaukset poistettiin. Näin datasta ei voi tunnistaa yksittäistä vastaajaa.

Datan tie Idasta Etsimeen

Kun data oli valmis tallennettavaksi, sovimme, minkä organisaation IDA-säilytystilaan data tallennetaan. Organisaatioksi valikoitui HAMK, jolla oli jo ennestään kokemusta IDAn käytöstä.  Jotta IDAa voi käyttää, täytyy olla CSC-tunnus, jonka saa itselleen HAKA-tunnuksella. MyCSC-palvelussa perustettiin uusi projekti datalle, jolle haettiin säilytystilaa HAMKin IDA-yhteyshenkilöltä.

Varsinainen datan tallennus IDAan aloitettiin siirtämällä data IDAssa olevalle valmistelualueelle. IDAan siirrettiin sekä Excel-muodossa oleva kyselydata että Word-muodossa oleva kyselylomake. Varmistimme CSC:ltä, että IDAan voi siirtää myös varsinaista tutkimusdataa tukevaa aineistoa, esim. muuttujaluettelo ja kyselylomake. Jatkokäytön mahdollistamiseksi valitsimme kyselylomakkeen tiedostomuodoksi Word-tiedoston. Valmistelualueelta data siirrettiin jäädytetylle alueelle, jossa data säilyy muuttumattomassa tilassa. Tämän jälkeen tallennus oli valmis IDAn osalta.

Seuraavaksi ryhdyimme tekemään datan kuvailua Qvain Light -palvelussa, jota voi käyttää joko HAKA- tai CSC-tunnuksilla. Metadatan tallennus tapahtui sujuvasti. Pohdintaa herättivät ainoastaan datan omistajuus ja lisenssi, joita olimme tosin jo alustavasti pohtineetkin. Omistajiksi tulivat kaikki kolme ammattikorkeakoulua (Diak, Haaga-Helia, HAMK) ja lisenssiksi valitsimme CC BY -lisenssin, jotta data olisi mahdollisimman laajasti jatkokäytettävissä. Metatietojen syöttäminen tapahtuu välilehdillä, joita ovat esim. sisältö, tekijät, oikeudet. Tiedostot-välilehdellä näkyvät omat IDA-projektit, joista valitaan kyseiseen kuvailuun liittyvät tiedostot. Lopuksi julkaisimme kuvailun, minkä jälkeen data oli Etsimen kautta löydettävissä ja käytettävissä.

Lopuksi

Kaiken kaikkiaan tämä aineiston elinkaaren hallintaprosessi oli mielenkiintoinen ja osoittautui vaivattomaksi ja helpommaksi kuin olimme kuvitelleet. Jälkeenpäin huomasimme, että olisimme voineet käyttää IDAa jo aineiston aktiivisessa analysointivaiheessa. Organisaatioiden välinen datan jakaminen ja käsittely olisi ollut siellä mahdollista. Kaikkea oppimaamme voimme hyödyntää omissa organisaatioissamme, joissa näitä asioita edistämme.

Voit tutustua dataamme AMK-kirjastojen käyttäjäkysely 2020.

Lähteet

  • Mikkonen, A., Klinga-Hyöty, E. & Kinnari, S. (2020). AMK-kirjastojen käyttäjäkysely. Kreodi 3/2020. Löydettävissä: URN:NBN:fi-fe2020061443141
  • CSC (2020). Huolehdi tutkimusaineistoistasi. Luettavissa: https://www.fairdata.fi/. Luettu: 21.10.2020.