Kieliteknologiatyökalujen mahdollisuudet digitaaliselle lukukokemukselle: avoimen lähdekoodin työkalujen kokeiluja Ellibsissä

30.05.2023

Ellibs oli mukana EU-hankkeessa, jonka painopistealueena oli Euroopassa tuotetut avoimen lähdekoodin kieliteknologiatyökalut. Hankkeen puitteissa tutustuttiin esimerkiksi kirjoitetun ja puhutun tekstin kohdistamiseen sekä nimettyjen entiteettien tunnistamiseen e-kirjojen ja äänikirjojen näkökulmasta. Tämän tyyppisten työkalujen käyttöönotto voisi tuoda uusia ulottuvuuksia digitaaliseen lukukokemukseen.

E-kirjapalvelu Ellibs oli mukana yhtenä käyttötapauksena vastikään päättyneessä EU-rahoitteisessa Microservices at  your Service: Bridging the gap between NLP Research and Industry -hankkeessa. Hankkeen keskeisenä tavoitteena oli edistää kieliteknologiapalvelujen käyttöä tutkimusorganisaatioiden ulkopuolella. Projektissa koottiin eurooppalaisia kieliteknologiaratkaisuja European Language Grid (ELG) -nimisen alustan alle, ja hankkeeseen liittyvien käyttötapausten avulla kokeiltiin työkaluja käytännön yrityskonteksteissa.

Kuva 1. Microservices at your service.

Avoimen lähdekoodin työkalut vastavoimana teknologiajäteille

Lähtötilanne hankkeelle oli Euroopan alueella tehtävän kieliteknologisen kehitystyön pirstaleisuus. Monessa eurooppalaisessa maassa on vahvaa alan tutkimusta ja olemassa on lukuisia korkealaatuisia avoimen lähdekoodin työkaluja, joita voi käyttää ja muokata ilmaiseksi. Potentiaalisten käyttäjien on kuitenkin usein ollut vaikea löytää sopivat yksittäiset työkalut hajanaisesta tarjonnasta. Käytön esteeksi on saattanut muodostua myös dokumentaation ja käytön tuen puutteellisuus. ELG-alustan tavoitteena olikin työkalujen yhteen kokoamisen lisäksi myös tarjota suora mahdollisuus kokeilla palveluja. Alustalla on käytössä säiliöintitekniikka, mikä helpottaa aineistojen asentamista ja käyttöä myös organisaatioissa, jossa ei ole riittävää osaamista avoimen lähdekoodin työkalujen käyttöönottoon.

Eurooppalaisten työkalujen yhteen kerääminen on EU-tasolla nähty tärkeäksi myös siksi, että tarjolle saadaan vaihtoehtoja globaalien teknologiajättien, kuten Googlen ja Microsoftin, tuottamiin pilvipalveluihin muun muassa puheentunnistuksen, konekäännöksen ja puhesynteesin osalta. Monikielisen Euroopan näkökulmasta on tärkeää, että tämän tyyppisiä palveluja ja työkaluja kehitetään muillakin kielillä kuin englanniksi, kun taas globaalien toimijoiden kiinnostus tuottaa pienemmille kielille palveluja on usein rajallinen.

Kuva 2: Teknologinen valmiusaste eri EU-kielillä (04/2023). Valmiusasteen luku perustuu ELG-palveluun kirjattuihin kyseisiin kieliin liittyviin resursseihin. Lähde: https://live.european-language-grid.eu/catalogue/dashboard

ELG-alustalle on koottu monipuolisesti erilaisia palveluja. Joukkoon mahtuu esimerkiksi kirjastolaisille hyvin tuttuun Annifiin pohjautuva FintoAI. Ellibsin näkökulmasta valittiin muutama kiinnostava ELG-työkalu tarkempaan tarkasteluun. Näitä olivat tekstin kielen tunnistava Heli OTS, jota voi käyttää avuksi metadatan virheellisten kielikoodien korjaukseen, sekä Turku NER, joka etsii tekstistä nimettyjä entiteettejä (esimerkiksi paikan, organisaatioiden  ja ihmisten nimet). Puhuttuun kieleen liittyy Aalto Align, jonka avulla voi yhdistää tallennetun puheen ja sen kirjoitetun version - lopulta myös äänikirjoissa on toisiaan vastaava puheäänite ja teksti.

Tekstin ja puhutun version kohdistaminen e-kirjoissa ja äänikirjoissa

Ellibsin osalta Microservices-hankkeessa tutkittiin tarkemmin muutamaa eri ELG-alustalla julkaistua työkalua siltä kannalta, toisivatko ne mahdollisuuksia työprosessien kehittämiseen tai uudenlaisiin palveluihin. Projektin puitteissa keskityimme konseptien kehittämiseen ja testaamiseen. Kiinnostavan työkalun löytäminen itsessään harvoin riittää siihen, että palvelua voi soveltaa käytössä vaan tarvitaan vähintään rajapintayhteys ja usein myös käyttöliittymä. Käyttöliittymän rakentamisen rajasimme tämän projektin ulkopuolelle.

Saman teoksen äänikirjoja- ja e-kirjaversion tekstin kohdistaminen tekisi mahdolliseksi ensinnäkin teoksen eri formaattien välillä hyppimisen, mikä onkin joissain äänikirjapalveluissa jo mahdollista. Lisäksi kohdistaminen tukisi äänikirjojen nykyistä parempaa selattavuutta. Tällä hetkellä äänikirjat saa jaettua osiin tiedostorakenteen kautta niin, että kukin luku on omassa tiedostossaan, mikä mahdollistaa teoksen selaamisen lukutasolla, mutta muita selaamismahdollisuuksia (esimerkiksi aiheen mukaan) harvemmin on.

ELG:ssä mukana oleva Aalto Align -työkalu pystyy kohdistamaan tekstin ja sen puhutun version toisiinsa. Testeissämme huomasimme, että saman teoksen eri formaatit eivät kuitenkaan e-kirjojen ja äänikirjojen tapauksessa ole niin yksi yhteen kuin voisi kuvitella. Äänikirjoissa kerrotaan suullisesti esimerkiksi lukijasta ja teoksen päättymisestä, mikä ei ole oleellista tekstimuotoiselle kirjalle. E-kirjaversiossa taas saattaa olla erilaisia visualisointeja, taulukoita ja kuvatekstejä, jotka saattavat puuttua tai olla ilmaistu jollain vaihtoehtoisella tavalla äänikirjassa. Myös numerot ja erityismerkit voivat tuottaa haasteita. Käytännössä tällaisten eroavaisuuksien yli pääsee sisällön esikäsittelyllä ja opettamalla kohdistustyökalulle, miten mihinkin tilanteisiin tulee reagoida.

Nimettyjen entiteettien tunnistaminen osana digitaalista lukukokemusta

Kieliteknologisilla työkaluilla on mahdollista tunnistaa esimerkiksi tekstin genre tai tekstin rakenteeseen tai sisältöön liittyviä asioita. AMK-kirjastoille tuttua jo onkin Annif-työkalun käyttö AMK-opinnäytetöiden asiasanotustyön apuna Theseuksessa. Aiheiden lisäksi kiinnostavaa voisi olla erilaisten nimien automaattinen tunnistaminen ja tätä lähdimme Ellibsin käyttötapauksessa testaamaan Turku NER -työkalulla (NER=named entity recognition). Nimetyt entiteetit voivat olla erilaisia nimettyjä asioita kuten ihmisten, paikkojen tai asioiden nimiä tai ajanmääreitä.

Kuva 3. Esimerkki nimettyjen entiteettien tunnistuksesta kirjan tekstistä. Kun nimetyt entiteetit yhdistetään tekstiin ja vastaavan audion aikaleimoihin, haku on mahdollista sekä e-kirjassa että äänikirjassa.

Kun nimetyt entiteetit on tunnistettu, niiden avulla on mahdollista rakentaa hakemistoja, joiden kautta pääsee selaamaan teosta. Kun nimetyt entiteetit yhdistetään tekstiin ja sitä vastaavan audion aikaleimoihin, haku on mahdollista sekä e-kirjassa että äänikirjassa. Lopputuloksen kannalta keskeistä on lukijaa parhaiten palvelevan tason valitseminen, mikä ei aina ole suoraviivainen päätös. Tekstistä on mahdollista tunnistaa kaikki nimetyt entiteetit, mutta se voisi teoksen selaamisen kannalta johtaa sekavaan lopputulokseen. Esimerkiksi paikan nimien tasolla on mahdollista, että tekstissä esiintyy useita tasoja vaihdellen katujen ja kaupunginosien nimistä kaupunkien, alueiden, valtioiden tai maanosien nimiin.

Projektin käyttötapauksena toimiminen oli Ellibsille kiinnostavaa ja hyödyllistä erityisesti siltä kannalta, että se mahdollisti uudenlaisen kehitystyön käynnistämisen. Projekti auttoi kartoittamaan työkaluja ja tunnistamaan kehityskohteita. Ellibsissä jatkamme projektissa opitun pohjalta sopiviksi havaittujen työkalujen käyttöön soveltamista ja kehittämistä.

Kokeile itse työkaluja European Language Gridissä!
Luo käyttäjätunnus, etsi kiinnostava työkalu ja kokeile palvelua! Esimerkiksi HeliOTS-työkalulla voit tunnistaa tekstin kielen ja Turku NER-palveluun voit syöttää tekstin ja saat eteesi listan, jossa tekstiin sisältyvät nimetyt entiteetit on korostettu.


 

Kirjoittajat

Pirjo Kangas

Account Manager

Ellibs Oy

Kirjoittajan muut artikkelit

Kommentit

Jätä kommentti