Tiedostoaarteet esiin: säännölliset lausekkeet ja Agent Ransack täsmähaun välineinä

10.03.2024

Tiedätkö, mitä aarteita kiintolevylläsi piileekään? Todennäköisesti et, sillä tiettyyn tarpeeseen nopeasti haetut, tallennetut ja saman tien käytetyt aineistot eivät välttämättä jää mieleen. Samoin voi käydä aikoja sitten laadituille omille tuotoksillesi. Tässä artikkelissa esitellään säännöllisten lausekkeiden käyttöä tiedostojen etsimiseen tietokoneelta ja verkkolevyasemilta.

Oman koneen kiintolevylle kertyy helposti satoja tiedostoja, joihin käyttäjällä on ollut jokin kosketus ja jotka eivät ole ohjelmistoja tai niiden teknisiä tiedostoja. Levylle tallennettujen tiedostojen löytämisen ja hallinnan tarpeeseen vastaavat kiintolevyhakujen työkalut, joista yhdelle tässä artikkelissa esitellään uudenlaista käyttöä eräänlaisen soveltavan viiteanalyysin paris­sa.

Kiintolevyapurit sijoittuvat isompaan seuraan, kun niitä vertaa vaikkapa Google Scholariin, jonka kautta arvioitiin jo kymmenen vuotta sitten löytyvän 160 miljoonaa järjestelmän kriteereillä tieteellistä dokumenttia (Orduña-Malea ym., 2014). Oma ulottuvuutensa on näihin välineisiin joko mainoslauseissa tai ihan käytännön toimissa sisältyvä "tekoäly", mitä se sitten onkaan ja käyttäjälle tarjoaakaan. Tavallisimpia ”tekoälytoimintoja” ovat suosittelujärjestelmät, jotka tuovat esiin toisten käyttäjien etsimiä aiheita ja aineistoja, jotka liittyvät parhaillaan haettuun ja löydettyyn sisältöön.

Mikäli sallitte minun viitata historiaan, tuo jaottelu pieni-iso-tekoälyavusteinen kuulostaa kumman tutulta. Hypertekstin ideaa ennen webin aikaa esitellyt Roy Rada (1991) jaotteli tuolloisen näkymänsä mikrotasoon, makrotasoon ja tekoälyä hyödyntäviin sovelluksiin. Mikrotasoa, dokumenttien sisäisiä linkityksiä, edustivat Applen Hypercardin tapaiset järjestelmät sekä eräät kokeellisemmat kokoonpanot. Makrotekstin eli dokumenttien välisten linkitysten ilmentäjinä saivat kunnian toimia – yllätys, yllätys – Dialogin kaltaiset tietokannat ja niiden taustalla vaikuttavat kirjastojen toiminnot ja tiedonjärjestämisen mallit. Tekoälypohjaista "eksperttitekstiä" (expertext) edusti Oxford System of Medicine vuodelta 1990; tekijä tosin viittasi jopa 1970-luvun asiantuntijajärjestelmäkokeiluihin niin ikään lääketieteen alalla.

Helmenkasvatus vie aiheen tuntemuksessa eteenpäin

Artiikelin johtoajatuksena on tiedonhaun helmenkasvatusmallin sukuinen näkymä, jossa tiedonhaun tulokset sekä hyödyttävät lopputuotosta että palvelevat tiedonhaun tarkentuvaa etenemistä. Vaikka tiedonhaun ja -käytön prosessit nykyisessä ympäristössä ja toimintakulttuurissa ovat nopeita ja improvisoidun oloisia, tämä ei poista syventävän prosessin mahdollisuutta

Artikkelin johtoajatuksena on tiedonhaun helmenkasvatusmallin sukuinen näkymä ja prosessi, jossa tiedonhaun tulokset sekä hyödyttävät lopputuotosta että palvelevat tiedonhaun tarkentuvaa etenemistä. Vaikka tiedonhaun ja -käytön prosessit nykyisessä ympäristössä ja toimintakulttuurissa ovat nopeita ja usein spontaaneja, tämä ei poista syventävän prosessin mahdollisuutta ja siitä koituvia etuja.

Helmenkasvatustrategialla (pearl growing strategy) tarkoitetaan esimerkiksi aluksi tehtävää laajaa hakua, josta poimitaan ne lupaavat helmet eli käsitteet, otsikot ja hakutermit, joita hyödynnetään seuraavien hakujen muotoilussa eli helmiä kasvatetaan (esim. Markey, 2019). Olennaista hakutavassa on prosessin jatkuminen lisääntyvien resurssien kera, siis eräänlainen vipuvaikutus tai lumipalloefekti. Löydettyä aineistoa tarkastellaan siis kahdesta näkökulmasta: varsinaisen tiedontarpeen ja välinearvon kannalta.

Agent Ransack

Agent Ransack on tiedostojen etsintätyökalu, jolla voit etsiä tiedostoja tietokoneelta tai verkkoasemilta. Agent Ransack on brittiläisen Mythic Softwaren tuote, joka tunnetaan myös nimellä FileLocator Pro. Agent Ransackin ensimmäinen versio julkaistiin vuonna 2000 ja FileLocator Pro -nimellä tuolloin tunnettu edistyneempi versio vuonna 2003. Nykyään nimet ovat käytössä rinnakkain ja ohjelmistot ovat nimeä lukuun ottamatta identtiset kahtena versiona, maksullisena Pro- ja ilmaisena Lite-versiona. Pro-versiossa on yrityksen sivujen mukaan muun muassa ohjelmoitavuutta sekä indeksointitoimintoja, jotka Litesta puuttuvat. (Mythicsoft Ltd, 2024; Stone, 2022.) Tässä tarkastelussa käytän ilmaisversio Agent Ransack Litea.

Käyttöliittymältään Agent Ransack on hyvässä mielessä kaksikasvoinen: se tarjoaa käyttäjän valittavaksi joko Boolen logiikan käyttömahdollisuuden tai säännöllisiin lausekkeisiin perustuvan tehomoodin.

Säännölliset lausekkeet

Säännölliset lausekkeet (regular expressions) on Boolen logiikan ohella Agent Ransackissa käytössä hakulogiikan muotoilutapana. Laajemmin niitä käytetään esimerkiksi ohjelmoinnissa keinona tarkistaa syötettyjen tietojen oikeellisuutta tai muokata tietoa muodosta toiseen. Säännölliset lausekkeet perustuvat mm. tietojenkäsittelytieteessä ja kielitieteessä hyödynnettyyn determinististen äärellisten automaattien teoriaan (Goyvaerts & Levithan, 2012, s. 2). Taustalla on Edward Forrest Mooren äärellisten tilakoneiden teoria vuodelta 1956. Käytännössä tämä formaali perusta mahdollistaa aineistoa tehokkaasti läpikäyvät ohjelmat, jotka eivät jää jumiin virheellisen datan takia.

Tiedonhaun kannalta säännölliset lausekkeet ovat ilmaisuja, jotka määrittelevät tekstistä haettavaa merkkijonoa kuvaavan suodattimen eli teknisen hakukriteerin. Agent Ransack käyttää säännöllisten lausekkeiden muotoa, joka on yhteensopiva Perl-ohjelmointikielessä käytetyn syntaksin kanssa. Tämä kannattaa ottaa huomioon esimerkiksi etsittäessä materiaalia aiheesta.

Säännöllisten lausekkeiden syntaksia esitellään seuraavassa tuttua kaunokirjallista esimerkkiä, Seitsemän veljeksen ja heidän lähipiirinsä nimiä käyttäen. Esimerkkejä voi kokeilla ja muunnella jollakin verkosta löytyvistä lukuisista Regular Expression -sivustoista. Aluksi esitellään tarvittavat merkinnät.

Lausekkeissa käytettäviä symboleita ja syntaksia

Seuraavat merkinnät ovat osa tarjolla olevista, ”perussymboleita”. Mukana ei ole eräitä mutkikkaampia toi­mintoja.

symboli selite
^ joukkomerkinnän yhteydessä ^ tarkoittaa negaatiota, esim. [^abc] tarkoittaa ”muut kuin a, b tai c”.
* edeltävä merkki toistuu nolla tai useampia kertoja (huom. ei siis ole jokeri- tai katkaisumerkki)
+ edeltävä merkki toistuu yhden tai useampia kertoja
? edeltävä merkki toistuu korkeintaan kerran (huom. ei siis ole jokeri- tai katkaisumerkki)
. mikä tahansa merkki, paitsi rivinvaihto (on yhden merkin jokeri)
(x) vastaa merkkiä x ja tulokseen voi viitata lausekkeessa myöhemmin parametrina (1, 2 jne.)
Toiminto siis ”pinoaa” tulokset myöhemmin viitattaviksi.
(?:x) vastaa merkkiä x. Tulokseen ei voi viitata lausekkeessa myöhemmin.
x(?=y) ehdollinen match: x otetaan huomioon, jos x:ää seuraa y.
x(?!y) ehdollinen negatiivinen match: x otetaan huomioon, jos x:ää ei seuraa y.
x|y x tai y
{n} edeltävä merkki n kertaa
{n,m} edeltävä merkki vähintään n ja enintään m kertaa
[abc] mikä tahansa suluissa mainittu merkki.
Hakasuluissa merkeillä . * + ei ole erikoismerkitystä, vaan ne tulkitaan kirjaimellisesti itsenään.
[A-Ö] kirjaimet A-Ö, vastaavasti a-ö tai muu rajattu väli
[0-9] numero nolla - yhdeksän
[^abc] ei mikään suluissa mainituista merkeistä
^ sovitus kohdistuu rivin alkuun
$ sovitus kohdistuu rivin loppuun
\ seuraavaa merkkiä ei tulkita kirjaimellisesti, vaan ”ohjausmerkkinä” (esim. w tarkoittaa kirjainta w,
mutta w tarkoittaa mitä tahansa alfanumeerista merkkiä, mukaan lukien alaviiva)
toinen merkitys, edellisen vastakohta: esim. . tarkoittaa pistettä merkkinä, kun pisteen tulkinta
normaalisti on ”mikä tahansa alfanumeerinen merkki, mutta ei rivinvaihto"

 

Aineisto

Esimerkkiaineisto on seuraava:

  • Ryhmä A: Juhani, Tuomas, Aapo, Simeoni, Timo, Lauri, Eero.
  • Ryhmä B: Venla, Juhannes, lukkari, Kyösti, Aapeli, Mikko, Kaisa, Pikku-Tallukka. Esimerkeissä kuvataan mahdollisuuksia löytää aineistoa näiden ryhmien rajojen yli ja toisaalta erottaa ryhmät toisistaan.
  1. Juhani ja hänen poikansa Juhannes:
    1. Juhan Selite: katkaisua vastaava yksinkertainen muotoilu. Katkaisua ei regular expression -järjestelmään erikseen sisälly.
  2. Aapo ja Eero:
    1. [AE][ae].o Selite: alkukirjaimen ja toisen kirjaimen vaihtoehdot, 1 merkki, o.
    2. Vaihtoehto: [AE][ae][pr]o. Selite: toiseksi viimeiselle merkille täsmälliset vaihtoehdot.
  3. Aapo, Timo ja Eero:
    1. [AET][aei].o Selite: alkukirjaimen ja toisen kirjaimen vaihtoehdot, 1 merkki, o.
  4. Aapo, Timo, Eero ja Mikko:
    1. [AETM][aei]..?o Selite: alkukirjaimen ja toisen kirjaimen vaihtoehdot, 1 tai 2 merkkiä, o.
  5. Lauri ja lukkari:
    1. [au]ri Selite: Haku kohdistuu sanan sisälle. Kahdelle peräkkäiselle merkille vaihtoehdot, joita seuraa kaksi kiinteää kirjainta.
    2. Vastaesimerkki: [Ll]. Selite: L ja l, valitsee oikein: Lauri, lukkari, mutta väärin: Aapeli, Pikku-Tallukka, Venla.
  6. Lauri:
    1. (uri) Selite: merkkijonon ainoa esiintymä aineistossa.
  7. Kaikki veljekset, mutta ei muita:
    1. (([AET][aei].o)|(Tuomas)|((Juh|Sim|Lau)(a|eo|r)?.)i) Lauseke toimii oikein, mutta ei ole tyylikäs tai optimoitu.

Kokeillaan suodatuksia tiedostoista

Seuraavassa edetään Agent Ransack -hakuihin pdf-tiedostoista omalta kiintolevyltä. Esimerkkinä on kasvatus­tieteellisissä teksteissä usein esiintyvä ja ilmiasultaan vaihteleva käsitekolmikko tiedot, taidot ja asen­teet ja näkökulmana tarve ymmärtää, miten käsitteitä käytetään suomenkielisessä tutkimuskirjallisuudessa. Aineistona on joukko ammattikorkeakoulua käsitteleviä digitaalisessa muodossa olevia väitöskirjoja, jotka on kerätty kirjoittajan tekemää bibliografiaa varten (Kämäräinen, 2022).

Yleiskuva helpolla haulla

Ennen regular expression -muotoilua käyttäviä hakuja luodaan yleissilmäys aineistoon käyttämällä Agent Ransackin Boolen logiikkaan perustuvaa toimintamoodia (Options / Filename: Wildcards, Contents: Boolean, Enhanced File Searching: Office/PDF Documents). Main-ikkunassa asetetaan tiedostonimien kriteeriksi *.pdf, valitaan haluttu hakemisto tai koko levy ja hakuavaimeksi: asent* (muotoilulla asen* saataisiin enemmän tuloksia, mutta mahdollisesti lisää hälyä). Haku käynnistyy painikkeesta Start.

Ohjelma tarjoaa tuloksiin kolme näkymää: yhteenvedon (Summary), esimerkkiosumia (Hits) ja yksityiskohtaisen raportin (Reports). Ikkunoiden sisällöt voi kopioida tarkastelua ja jatkotyöstämistä varten esimerkiksi Wordiin tai Exceliin. Omassa käytössäni on osoittautunut toimivaksi kopioida Reports-näkymä Wordiin sekä tehdä hakutermille ja ehkä muillekin relevanteiksi havaituille etsi-korvaa-toiminto siten, että osumiin vaihdetaan fontin väri (Wordissa Aloitus / Korvaa / Korvaava / Muotoile).

Mainitussa aineistossa yleiskuvassa näkyy sekä relevantteja osumia että hälyä, mikä puoltaa tarkastelun jatkoa säännöllisiä lausekkeita käyttäen. Tämä tarkoittaa sitä, että myös ajattelutapa muuttuu erilaiseksi, kun ohjelman toimintamoodia vaihdetaan.

Tositoimiin säännöllisillä lausekkeilla

Ohjelman asetukset vaihdetaan seuraaviksi: Options / Filename: Wildcards, Contents: Regular Expressions, Enhanced File Searching: Office/PDF Documents. Tiedostonimiä ei ole tällä kertaa tarpeen erotella säännöllisillä lausekkeilla, katkaisu riittää, joten vain Contents-asetus muuttuu.

Regular expressions -moodin käyttö johtaa siihen, että tiedontarpeet hahmottuvat kasvaneiden erottelumahdollisuuksien myötä uusilla tavoilla. Yleisemmin ajateltuna tämä osoittaa sen, etteivät välineet ole koskaan neutraaleja, vaan kokonaisuuteen vaikuttava osa toimintaympräristöämme, mistä kertoo vaikkapa älypuhelimista koulussa käytävä keskustelu.

Kokeilun lähtökohtana on hakulause: tiedot, taidot ja asenteet. Ilman ohjaussymboleita se tulkitaan säännöllisenä lausekkeena kirjaimellisesti. Haku tuottaa aineistossani yhdeksän osumaa seitsemässä tiedostossa.

Koska suomi on taipuva eli synteettinen kieli ja hakuja ollaan tekemässä tekstiin eikä kontrolloituihin kuvailutermeihin, on ensiksi syytä parantaa haun kattavuutta muotoilemalla lähtökohtafraasia tiedot, taidot ja asenteet paremmin toimivaan muotoon alkaen pilkusta. Muotoillaan:

  1. tiedot,? taidot ja asenteet  [? = edeltävä merkki 0/1 kertaa; pilkku voi nyt esiintyä tai olla esiintymättä]. Molemmat muodot tuottivat 9 osumaa 7:ssä eri tiedostossa eli muutoksella ei ollut tässä tapauksessa vaikutusta:
  2. tiedot,? taidot(” ja ”|,.?)asenteet [mahdollistetaan ja-sanan tilalle pilkku]. Versio tuotti 9 osumaa 7:ssä eri tiedostossa eli muutoksella ei ollut vaikutusta.
  3. tietojen, taitojen ja asenteiden [genetiivi- ja akkusatiivimuodot ilman lisämuotoiluja]. Versio tuotti 4 osumaa yhtä monessa tiedostossa.
  4. tiedoi..a, taidoi..a ja asentei..a Monikon paikallissijat voidaan tuottaa yksinkertaisesti ja riittävän tarkasti ”yhden merkin jokerilla” (mikä tahansa merkki paitsi rivinvaihto). Versio tuotti yhden osuman eli osoitti muodon olevan käytössä vaikka harvinaisena.
  5. tiedoi?..a, taidoi?..a ja asentei?..a muotoilu tuottaa yksikön ja monikon paikallissijat. Tuloksena on sama osuma kuin edellä eli yksikkömuodot (tiedolla, taidolla, asenteella) eivät ole käytössä.
  6. tietoj?a, taitoj?a ja asen[netta|teita] Yksikön ja monikon partitiivin tunnistava muotoilu on genetiiviä ja paikallissijoja produktiivisempi: 5 osumaa 3:ssa tiedostossa.
  7. Yhteenvetona edellisistä muotoiluista syntyy lauseke:  ((tiedot,? taidot (ja|,) asenteet)|(tietojen, taitojen ja asenteiden)|(tiedoi?..a, taidoi?..a ja asentei?..a)|tietoj?a, taitoj?a ja asen[netta|teita]), joka tuottaa 19 osumaa 11:ssä eri tiedostossa.

Käytettäessä säännöllisiä lausekkeita astevaihtelun ja taivutusten tunnistamiseen osumien määrä yli kaksinkertaistui ja löydettyjen tiedostojen määrä lisääntyi seitsemästä yhteentoista eli noin 57 %. Yksikkömuodot eivät todennäköisesti ole relevantteja, koska kokonaisuutta ”tieto, taito ja asenne” on vaikea pitää mielekkäänä.

Lähteitä etsimään

Voidaanko Agent Ransackilla paikallistaa lähteitä teksteistä? Kyllä voidaan, mikäli merkinnöissä on riittävästi lähteen yksilöiviä rakenteita, jotka ovat kohtuudella kuvattavissa säännöllisinä lausekkeina. Ongelmaksi muodostuvat lähdemerkintöjen koulukunnat ja standardit, jotka vaihtelevat tieteenaloittain ja instituutiosta toiseen. Kuvaavasti monella merkintätavalla on joko yliopistoon (Chicago, Harvard) tai tieteenalan järjestöön (APA) viittaava nimi.

Henkilönimet sopivat lähteiden nimiä lyhyempinä haettavaksi jälkimmäisiä näppärämmin, joskin tulokset voivat olla suurpiirteisempiä, etenkin jos nimet ovat Smithin, Virtasen ja Lahtisen tapaisia. Von Bertalanffyja ei vastaan todennäköisesti tule tusinakaupalla.

Helmenkasvatusta pikkuklassikoilla

Tieteen isot klassikot voivat vaikuttaa nykyisin niin etäisiltä, että niihin viittaamiseen tarvitaan hyvin perusteltu syy. Huomautus siitä, että Isaac Newton loi Newtonin lait ei vaikuta esimerkiksi opinnäytetyötekstissä kovinkaan motivoidulta; sen sijaan Newtonin värioppiin viittaamiselle voi yhä olla perusteita. Kiintolevyltäni löytyvissä väitöskirjoissa Newtoniin viitataan nimellä empiristinä siinä kuin John Lockeenkin. Itse heitä ei lähdetä tulkitsemaan, vaan välittäjinä voi toimia Stephen Toulmin tai Eduard Dijksterhuis. Joskus kirjaan haksahdetaan nimen takia. Hyvä esimerkki tästä on opinnäytetyössä kritiikittömästi viitattu Frederick Taylorin The Principles of Scientific Management. Ehkäpä viittaaja ei tiennyt alkuperäistä ilmestymisvuotta (1911) – tieteellinen mikä tieteellinen.

Tämän artikkelin kontekstissa yhdysvaltalainen sosiologian professori, laadullisen tutkimuksen metodologiasta tunnettu Norman K. Denzin (1941–2023) vaikuttaa antoisalta henkilönimeltä helmenkasvatuksen lähtökohtana seuraavaan tapaan:

  1. Haku on aluksi yksinkertaisesti Denzin Ilman ohjaussymboleita. Löydän kahdesta eri kokoelmastani yhteensä 55 väitöskirjaa, joissa viitataan nimeen joko kirjoittajana tai toimittajana. Rajaan laajempaan kokoelmaan, jossa viittavia teoksia on 33. Prosessin kuluessa ilmenee, onko tarpeen rajata pois sukunimikaimoja tai muita termin tulkintoja.
  2. Sijamuotoja vaihtelemalla voisi olettaa saatavan näkyviin erilaisia viittaustarkoituksia ja lähteen painotuksia. Genetiivimuoto Denzinin tuottaa kaksi osumaa, joista toinen on tyypillinen auktoriteettiviittaus "Denzinin mukaan”. Toisessa Denzin esiintyy innoittajana ja saa rinnalleen toisen henkilönimen. Etenkin jälkimmäisessä helmenkasvatusprosessi siis ilmenee.
  3. Partitiivimuotoja Denziniä/Denzinia on haettava muotoilulla Denzini., johon tarttuvat edelliset genetiivit, mutta muita osumia ei tule.
  4. Myös adessiivi- ja ablatiivisijoissa on varauduttava kahteen kirjoitusasuun, esim. Denzinillä / Denzinilla, jolloin regular expression on muotoa Denzinil... Nämä ulkopaikallissijat eivät tuota osumia: aineistossa kukaan ei nähtävästi kerro omaksuneensa menetelmää Denziniltä tai jäävänsä hänelle ideasta velkaa.
  5. Nämä haut yhdistyvät muotoiluksi Denzin.*. Tuloksena on 172 osumaa 36:ssa dokumentissa. Määrät perustelevat Excelin lajittelu- ja suodatusominaisuuksien käyttöä lähempään tarkasteluun.

Excel suodattaa ja lajittelee

Varsinaisesti Microsoft Excel on taulukkolaskentaohjelma, jolla yritysjohtaja tai sijoittaja hahmottelee uusia strategioita ja laskee projektien kannattavuutta. Mediassa kehotetaan itsekutakin tekemään exceleitä taloutensa kanssa. Tiedonjärjestely- ja valintaominaisuudet laajentavat ohjelman soveltuvuutta myös tekstiaineistoihin, joskin pitkien tekstien selailu taulukon soluissa on kömpelöä.

Edellä valittu aineisto, 172 viittausta Denziniin joko tekstissä tai lähdeluettelossa palvelee helmenkasvatusta esimerkiksi seuraavia vihjeitä hyödyntäen:

  1. Poimimalla kaarisulkuja sisältävät rivit saa todennäköisesti viittauksia tekstistä ja rajaamalla ne pois saa näkyviin lähdeluettelon merkintöjä. Tämä jako ei päde, jos lähteissä on runsaammin kausijulkaisujen artikkeleita tai jos viittaustapa on IEEE-standardin mukainen (tekstiviitteet muotoa [1]).
  2. Puolipiste on varsin harvinainen välimerkki tekstissä. Sen sijaan sitä käytetään tekstiviitteissä erottamaan lähteitä toisistaan. Puolipisteiden valinta suodatukseen tuo esiin lähteitä, joilla on sama käyttöyhteys; näkökulma on ehkä samantapainen kuin Denzinillä.
  3. Fraasit katso (ks.) ja vertaa (vrt.) voivat kertoa kannanotosta lähteeseen. Toisinaan sanotaan, että ”katso” edustaa samaa käsitystä ja ”vertaa” viittaa omasta poikkeavaan käsitykseen ja laajentaa siten näköalaa. Aineistossani ”ks.” toi hälynä mukaan kustantamon kotipaikan Thousand Oaks.
  4. On mahdollista, että Agent Ransack katkaisee rivin teknisesti siten, että osa kirjoittajista tai muusta tiedosta jää näkymättä ohjelman käyttöliittymässä. Tällöin kannattaa tutkia alkuperäistiedostoa, mikä tietysti on tarpeen muutenkin.
  5. Oppisanat ja tekniset termit yhdistettyinä henkilönimiin voivat suunnata hakua tehokkaasti. Esimerkiksi credibility (laadullisen tutkimuksen luotettavuuden tai vakuuttavuuden eräs aspekti) katkaistuna credib* (Excelin suodatin) poimi aiemmin kriteerillä Denzin.* (säännöllinen lauseke) rajatusta aineistosta neljä dokumenttia osumineen (yhteensä 7 osumaa).

Virheetkin voivat paljastua tehohaussa

Kuten edellä on havaittu, jos henkilön nimi on riittävän yksikäsitteinen ja sen oikeinkirjoitukseen voi luottaa, ohjelman avulla saa vaivatta selville, missä aineistossa nimi on mainittu. Valitettavasti lyhyissäkin henkilönimissä tehdään virheitä: kirjoittaja oli mukana selvittämässä viittauksia Yvonna Lincolnin ja Egon Guban (1985) paljon käytettyyn tieteenfilosofiseen Naturalistic Inquiry -teokseen. Jälkimmäisen kirjoittajan sukunimi esiintyi tutkimusaineistossamme lähes yhtä usein väärin kirjoitettuna muotoon Cuba kuin oikeassa muodossa Guba (Kämäräinen & Moore, 2023). Taustatyössä selvisi, että virheellistä kirjoitusasua löytyi oppikirjoista, joista se mahdollisesti kopioitui tutkittuihin opinnäytetöihin ja väitöskirjoihin. Nämä havainnot voivat kertoa siitä, että varsin vaikeaselkoista Naturalistic Inquirya käytellään ”kuulopuheelta”, eli siihen viitataan rituaalinomaisesti toisen lähteen perusteella tai kopioidaan viittaus sellaisenaan.

Jompikumpi po. kirjoitusasu eiintyy tämän artikkelin aineistossa 37:ssä tekstissä yhteensä 210 kertaa, Guba yhteensä 150 kertaa 28:ssa tekstissä, Cuba puolestaan 60 kertaa 17:ssä tekstissä. Naturalistic Inquiry mainitaan 12 kertaa yhtä monessa teoksessa. Loput osumat selittyvät tekijöiden muulla tuotannolla sekä sukunimen mahdollisilla eri kantajilla. Ainakin Cuba voi olla myös maantieteellinen nimi. Agent Ransackin Boolen logiikka -moodia käyttäen selviää, että vähintään yhdessä tekstissä esiintyy Naturalistic Inquiry, mutta ei Gubaa. Teos ja nimi Cuba löytyvät edellisen lisäksi kahdesta muustakin tekstistä.

Yhteenveto

Olen esitellyt säännöllisiin lausekkeisiin pohjautuvaa tiedonhakua ja -suodatusta lähtökohtanani, ettei ole tarpeen mennä merta edemmäs kalaan, kun omalta kiintolevyltä voi löytyä kelpo saalista. Vihje Agent Ransackistakin tuli näkökulmaan sopivasti sukulaiselta suullisesti eikä nettilöytönä.

Agent Ransack eli FileLocator Pro on toiminut artikkelissa esimerkkinä työkalusta, joka tarjoaa sekä perinteistä Boolen logiikkaan ja jokereihin nojaavaa tiedonhakua että selkeästi erottuvan vaihtoehdon, säännölliset lausekkeet. Niin ikään olen leikitellyt ajallisella perspektiivillä. Esittelin monelle pienyrittäjälle heidän ensimmäiset tietotekniset välineensä aikana, jolloin tavallinen kiintolevyn koko oli 20-40 megatavua, ensimmäinen hypertekstin erityiskonferenssi oli juuri pidetty ja webin tapaan kattavasta, mutta muuten kovin erilaisesta järjestelmästä uneksi lähinnä Ted Nelson.

Säännöllisiin lausekkeisiin tutustuin 1990-luvulla Oulun yliopiston kirjastotieteen ja informatiikan laitoksella, mutta sivussa varsinaisista opinnoista, paikallisen nörttikulttuurin osana. Sähköposteissa kiersi regular expression, jonka sanottiin tunnistavan Muammar Gaddafin nimen kaikki kirjoitusasut (länsimaisilla aakkosilla). Keskustelu oikeasta muotoilusta näyttää jatkuneen ainakin vuoteen 2011 ja siihen liittyy myös viittauksia Library of Congressiin, missä oli auktoriteettitiedostoja varten tunnistettu 54 nimen muunnosta (grumblebee, 2011). Eräs muotoilu vuodelta 2011 on seuraava:

^M(u|o|ou)'?a?(mm|m)ar ((Al|al|El|el)[- ]?)?(Q|G|K|Kh)a(d|dh|dd|dhdh|th|zz)a(f|ff)(i|y)$

Lauseketta voi kokeilla vaikkapa regular expressions 101 -sivuston testerillä, joka myös kommentoi esitystavan logiikkaa (Dib, 2023). Ehkä kannattaa kuitenkin aloittaa helpommista.

Lähteet

Dib, F. (2023). regular expressions 101. https://regex101.com

Goyvaerts, J., & Levithan, S. (2012). Regular expressions cookbook (2nd ed). O’Reilly.

grumblebee. (2011, syyskuuta 21). How do you spell Gaddafi? Regex to the rescue! Metafilter.com community weblog. https://www.metafilter.com/107665/How-do-you-spell-Gaddafi-Regex-to-the-rescue

Kivi, A. (1968). Aleksis Kiven mestariteokset III: Seitsemän veljestä. Otava.

Kämäräinen, J. (Toim.). (2022). Suomalaiseen ammattikorkeakouluun liittyvien väitöskirjojen bibliografia. J. Kämäräinen. https://fi.wikibooks.org/wiki/Suomalaiseen_ammattikorkeakouluun_liittyvien_v%C3%A4it%C3%B6skirjojen_bibliografia

Kämäräinen, J., & Moore, E. (2023). Naturalistic Inquiry -teos YAMK-opinnäytetöiden ja väitöskirjojen lähteenä. Teoksessa Kestävä elämänmuoto (ss. 60–82). Turun ammattikorkeakoulu. https://urn.fi/URN:ISBN:978-952-216-849-8

Lincoln, Y. S., & Guba, E. G. (1985). Naturalistic Inquiry. Sage.

Markey, K. (2019). Online searching: A guide to finding quality information efficiently and effectively. Rowman & Littlefield.

Mythicsoft Ltd. (2024). Mythicsoft. https://www.mythicsoft.com

Orduña-Malea, E., Ayllón, J. M., Martín-Martín, A., & López-Cózar, E. D. (2014). About the size of Google Scholar: playing the numbers. arXiv preprint arXiv:1407.6239. https://arxiv.org/pdf/1407.6239

Rada, R. (1991). Hypertext: from text to expertext. McGraw-Hill.

Stone, W. R. (2022). Making Thunderbird Work Again With Gmail and Google. IEEE Antennas and Propagation Magazine, 64(4), 180–181. https://doi.org/10.1109/MAP.2022.3178351

 

Kirjoittajat

Juha Kämäräinen

tietoasiantuntija, FT

Kirjoittajan muut artikkelit

Kommentit

Jätä kommentti