//
informaatiotutkimus, kirjastopalvelut

Tiedonlouhinnasta

Lyhyt, muualle työstämäni esitykseni tiedonlouhinnasta myös tänne.

Datanlouhinta eli tiedonlouhinta on Wikipedian (data mining) mukaan tietojenkäsittelytieteen yksi haara. Tilastollinen tekniikka, jonka menetelmin kaivetaan isoista datajoukoista (data sets) esiin asioiden välisiä yhteyksiä, kuten käyttäytymis- ja toimintamalleja (Hätönen, Data mining for telecommunications network log analysis, 2009). Louhintamenetelminä hyödynnetään muun muassa tilastotieteen ja keinoälyn (artificial intelligence) menetelmiä.

Terminologian osalta Scott Nicholson on ehdottanut käytettäväksi kirjastokontekstissa termiä bibliomining, jolla viitataan kirjastodatalle tehtävään tiedonlouhintaan. Bibliomining on Wikipedian mukaan yhdistelmä tiedonlouhintaa, datavarantoteknologiaa ja bibliometriikkaa. Tavoitteena on arvioida kirjastopalveluja.

Perustelu kirjastoalan omalle bibliomining-termille on se, että siten saadaan lisää erottuvuutta Internetin hakutuloksissa kirjastoalalla tapahtuvaan tiedonlouhintaan. Esimerkiksi ”data mining” +libraries -hakulauseella hakukoneet löytävät pääasiassa viitteitä tiedon louhinnassa käytettyjä ohjelmakirjastoja käsitteleviin sivuihin. (Lassila, Kaivostoimintaa kirjastossa, 2005.)

Liikemaailmassa tiedonlouhinnalla haetaan Boormanin (Why Data Mining Is the Next Frontier for Social Media Marketing, 2011) mukaan

  • tietoa siitä, kuinka ihmiset käyttäytyvät, ja hyödyntää tätä tietoa markkinoinnin kohdentamisessa
  • tietoa ihmisten henkilökohtaisista mieltymyksistä, ja hyödyntää tätä tietoa entistä henkilökohtaisempien asiakassuhteiden luomiseen.

Kirjastoalalla käsitettä ei suuremmin viljellä. Käsite ei kuitenkaan ole kirjastoalallakaan ihan uusi, vaan tiedonlouhinnasta on puhuttu jo 1990-luvun lopulla (Nicholson, The Basis for Bibliomining 2006). Hyvä johdatus aiheeseen löytyy Matti Lassilalta (Kaivostoimintaa kirjastossa, 2005).

Tiedonlouhinta on ahkerammassa käytössä yritys- ja tiedemaailmassa sekä viestintävälineissä. Sovellusalueita ovat esimerkiksi peliteollisuus, liike-elämä, teollisuus, tiede ja tiedustelutoiminta.

Tiedemaailman puolella Burgelman, Osimo ja Bogdanowicz (Science 2.0 (change will happen…) 2011) ennustavat, että datamäärän kasvu ja datan käsittelyyn soveltuvien työvälineiden kehittäminen muovaavat osaltaan tutkimustapoja. Tiedonlouhinta-analytiikan kehittyminen näyttää kirjoittajien mukaan antavan tilaa tutkimusotteelle, joka perustuu entistä enemmän korrelaatioiden ja todennäköisyyksien selvittämiselle.

Tiedonlouhinnan hyötyjen nähdään riippuvan datalähteen koosta. Lavoie, Dempsey ja Connaway (Making Data Work Harder, 2006) nostavat artikkelissaan esimerkiksi WorldCat-luettelon. Mitä suuremmaksi luettelo kasvaa, sitä hyödyllisempiä ovat heidän mukaansa luettelon analysoinnista saatavat tulokset. Syynä tähän on se, että tietueiden sisältämää informaatiota voidaan käsitellä, analysoida ja suhteuttaa laajemmassa kontekstissa. Lavoie, Dempsey ja Connaway (2006) näkevät yhtälön yksinkertaisesti: mitä isommaksi WorldCat kasvaa, sitä arvokkaampi siitä tulee mukana toimiville kirjastoille. Hyödyt realisoituvat paitsi tehostuvana yhteistyönä ja resurssien jakamisena, mutta myös luettelosta louhittavan tiedon syvenemisenä ja paranemisena.

Tiedonvälityksessä tiedonlouhinta on synnyttänyt alalajin, datajournalismin, jossa tiettyyn kysymykseen vastausta haettaessa hyödynnetään tarvittaessa vaikkapa julkisen sektorin tarjoamaa avointa dataa. Datajournalismin myötä on syntynyt muun muassa vaikuttavia ja monimutkaisia asioita havainnollistavia visualisointeja, esimerkiksi Guardian visualisoi Wikileaks-aineistojen pohjalta Afganistanissa vuosina 2006 – 2009 tehtyjä pommiattentaatteja. Datajournalismin ja visualisoinnin osalta kannattaa seurata David McCandlessin Information is beautiful -blogia. Blogissa on runsaasti esimerkkejä erilaisista datalähteistä työstetyistä visualisoinneista.

Suomessa eräs datajournalismin pioneereista on Helsingin sanomat, joka järjesti yhdessä Aalto-yliopiston kanssa 14.3. HS Open -tilaisuuden. Tavoitteena oli ideoida uusia käyttötarkoituksia lehden julkaisemille avoimille datajoukoille (dataset). Päivän aikana syntyi parikymmentä prototyyppiä avoimen datan jatkokäytölle. (Mäkisen kirjoitukset aiheesta 1 ja 2.)

Toinen innovatiivinen kokeilija on YLEn Beta, jolta eräs tämänhenkinen tuotos interaktiivinen työttömyystilasto. Näitä tapauksia ja datajournalismia ylipäätään on käsitellyt Johanna Vehkoo (Datajournalismi saapui Suomeen ja Älä pelkää numeroita).

Liikemaailmassa tiedonlouhinta ei sinällään ole uusi asia. Dataa on analysoitu iät ajat, mutta uutta asiassa on se, että tiedonlouhintaa on voitu laajentaa sosiaalisten verkostojen analysointiin. Paul Krill käyttää käsitettä Big Data, jolla hän viittaa verkossa kasvavaan datamassaan (Big Data Mining: Who Owns Your Social Network Data?). Tätä datamassaa syntyy esimerkiksi käyttäjien Facebookiin ja Twitteriin syöttämissä statuspäivityksissä ja twiittauksissa tai käyttäjien laitteissa olevissa sensoreissa.

Yritykset uskovat tässä datamassassa piilevän mahidollisuuksia luoda uudenlaisia liiketoimintamalleja. Esimerkiksi Echo StreamServer ja Cloudera tarjoavat asiakkailleen välineitä hyödyntää asiakkaita koskevaa sosiaalisessa mediassa syntyvää dataa. Echo haravoi sosiaalisesta mediasta asiakasta, esimerkiksi Reuters, koskevia datavirtoja ja kanavoi näistä datavirroista yhden datakoosteen. Asiakas voi puolestaan hyödyntää tätä koostetta eri tavoin.

Kilpaillulla teleoperaattorialalla on suuri kiinnostus löytää käyttäjäyhteisössä toimivat trendsetterit eli yhteisön vaikuttajat. Näiden toimijoiden löytäminen helpottaa yrityksiä markkinoimaan täsmällisemmin ja pitämään asiakkainaan nämä yhteisön avainhenkilöt.  Taka-ajatuksenahan yrityksillä on se, että trendsetterit vetävät mukanaan muita käyttäjiä asiakkaiksi. Tässä jäljittämisessä operaattorit hyödyntävät puheludataan tehtyä datanlouhintaa ja verkostoanalyysia.

Teollisuudessa tiedonlouhintamenetelmiä hyödynnetään valmistusprosessien parantamisessa eri osa-alueilla, joita ovat muun muassa

Menetelmät

Haasteet vaihtelevat tarkoitusperistä riippuen. Yritysmaailmassa haasteena on noukkia esiin suuresta datamassasta signaalit kaiken hälyn keskeltä. Olennaiseksi nousevatkin tehokkaat menetelmät datan työstämisessä. Boormanin (Why Data Mining Is the Next Frontier for Social Media Marketing, 2011) mukaan eräs tapa kerätä tällaista käyttäjädataa on hyödyntää Facebookia: yritykset pääsevät Facebook-käyttäjien profiileihin, mikäli käyttäjä esimerkiksi klikkaa yrityksen Facebook-sivulla Tykkää-painiketta ja käyttäjän yksityisyysasetukset myös sallivat tietoihin pääsyn. Tietoa käyttäjistä saadaan myös erilaisten Facebook-pelien kautta, joita pelatessaan käyttäjä yleensä sitoutuu myöntämään pelisovellukselle pääsyn käyttäjän profiiliin. Järjestelmien keinoäly alkaa olemaan varsin taitava yhdistämään eri tietokannoissa olevaa dataa: järjestelmät esimerkiksi osaavat yhdistää riittävin taustatiedoin yrityksen asiakastietojärjestelmässä olevan “Matti Virtasen” Facebookissa olevaan “Matti Virtaseen”.

Datajournalismissa esimerkiksi hallinnollisen datan hyödyntämisessä ongelmana on julkisen sektorin käyttämä jargon, lyhenteet ja terminologia, jota pitäisi ymmärtää dataa analysoitaessa (Bradshaw, How to be a data journalist, 2011). Toinen haaste on datalähteen kontekstualisointi, kun sitä verrataan muihin lähteisiin. Esimerkiksi palkkatietoja analysoitaessa tärkeää tietoa voi irrota suhteuttamalla palkkakehitys inflaatioon, elinkustannuksiin tai palkkakehitykseen saman alan muissa organisaatioissa.

Tiedonlouhintamenetelmiä pyritään standardoimaan. Eräitä standardointihankkeita ovat Cross Industry Standard Process for Data Mining (CRISP-DM 1.0) ja Java Data Mining -standardi (JDM 1.0). Lisäksi analysointia varten on olemassa erilaisia avoimen lähdekoodin ohjelmistoja, kuten R Project, Weka, KNIME, RapidMiner ja jHepWork.

Yksi tapa tiedonlouhinnalle on käsitellä erikseen koottuja datavarantoja eikä vaikkapa suorittaa louhintaa suoraan kirjastojärjestelmien tietokantoihin. Kirjastojärjestelmät on luotu ennenkaikkea hoitamaan transaktioita (lainaus, palautus, hankinnat jne), ja näihin järjestelmiin tehdyt louhinnat voivat kuormittaa suotta tuotantokäytössä olevia järjestelmiä. Datavarannot sen sijaan ovat optimoituja datan analysointiin. (Cullen, Delving into Data, 2005.)

Tiedonlouhintaprosessi voidaan jakaa pääpiirteissään seitsemään vaiheeseen:

  • louhinnan painopisteen määrittely, esimerkiksi ongelma, johon halutaan vastauksia
  • louhintaan sopivien organisaation sisäisten ja ulkoisten datalähteiden valikointi
  • datan kokoaminen, puhdistaminen ja anonymisointi datavarantoon
  • sopivien analyysivälineiden valinta
  • datamassasta löytyvien säännönmukaisuuksien löytäminen louhimalla ja analyysityökaluilla raporttien luominen. Sopivia työkaluja löytyy sekä kaupallisia (esimerkiksi SPSS) että avoimen lähdekoodin tuotteita (esimerkiksi Weka)
  • analysointi ja tulosten soveltaminen käytäntöön (Nicholson, The Bibliomining Process : Data Warehousing and Data Mining for Library Decision Making).

Yksityisyys

Louhintaa valmistelevat työvaiheet voivat paljastaa datasta informaatiota tai muuttujien välisiä suhteita (patterns), jotka voivat vaarantaa tietojen luottamuksellisuuden tai henkilöiden yksityisyydensuojan. Tyypillisimmin tämä riski konkretisoituu datan kokoamisvaiheessa eri lähteistä.

Ihmisten verkkokäyttäytymisen analysoinnin ja henkilökohtaisten tietojen haravoinnin eri lähteistä voidaan nähdä muodostavan yksilölle vaarallisen yhdistelmän, jonka ainoana tavoitteena on tarkennettujen mainosten vyöryttäminen käyttäjille (Stein, Data Mining : How Companies Now Know Everything About You, 2011). Datavarannon kokoamisvaiheessa tulisi huomioida yksityisyydensuoja ja puhdistaa datasta tiedot, joiden avulla voidaan päästä yksittäisten asiakkaiden tasolle (Lassila, Kaivostoimintaa kirjastossa, 2005).

Tiedonlouhinta ja kirjastot

Tiedonlouhinnan näkökulmasta kirjastolalla etunamme on tuottamamme rakenteinen ja enempi vähempi yksityiskohtainen luettelointidata. Lisäksi taustajärjestelmissämme on arvokkaita datalähteitä, kuten aineiston kiertoluvut ja kaukolainapyynnöt. (Lavoie, Dempsey, Connaway, 2006.)

Tiedonlouhinnan avulla voitaisiin haravoida tiettyjen asiakasryhmien käyttötottumuksia, esimerkiksi 23-vuotiaiden kirjastonkäyttäjien suosituimpia/lainatuimpia/varatuimpia teoksia. Tiedonlouhinnassa tavoitteena on siis yhdistää keskitettyyn datavarantoon kaikki järjestelmiimme kertyvä data, kuten lainaustiedot, kävijätilastot ja kirjaston asiakasrekisteri. Tästä datavarannosta voitaisiin erilaisin analyysimenetelmin etsiä eri muuttujien välisiä yhtäläisyyksiä. Tiedonlouhinta kirjastodatasta voi paljastaa informaatiota, jonka avulla voimme kehittää palvelujamme. Analyysin lopputuloksia hyödyntäen voidaan kehittää edelleen kirjaston toimintaa esimerkiksi asiakaskäyttöliittymien osalta. (Chiang, Data mining, data fusion, and libraries, 2010; Lassila, Kaivostoimintaa kirjastossa, 2005.)

Datavarannon luomista ja erilaisia välineitä varannon analysointiin ja visualisointiin on esitellyt Scott Nicholson (2006b) artikkelissaan The Basis for Bibliomining.

Vaikka periaatteessa arkityömme myötä syntyy potentiaalisesti arvokasta informaatiota, on oma kysymyksensä se, tarjoaako järjestelmämme mahdollisuudet tämän informaation hyödyntämiseen. Siis pääsemmekö käsiksi tähän dataan ja millaisin välinein? Cullenin (2005) mukaan osa järjestelmätoimittajista rakentaa tiedonlouhintatoiminnallisuuksia järjestelmiinsä, esimerkiksi kehittyneitä raportointityökaluja.

Cullen (2005) toteaa, että jotta tiedonlouhinta kirjastodatasta olisi tehokasta, informaation tulisi olla

  • saavutettavissa myös ulkoisista järjestelmistä tai
  • tuotavissa ulos taustajärjestelmästä automatisoidusti ja kunnolla rakenteistettuna.

Nicholson (Approaching Librarianship from the Data : Using Bibliomining for Evidence-Based Librarianship, 2006) kehottaa kirjastoja panostamaan myös analysoitavien datavarantojen standardointiin, jotta järjestelmäriippumattomasti voitaisiin vertailla tuloksia (Paul, The use of web analytics on an academic library website, 2009). Useiden eri kirjastojen tiedonlouhintaa varten luodut datavarannot voivat olla Nicholsonin mukaan arvokkaita, kun haetaan vastauksia vaikkapa “mitä jos” -kysymyksiin.

Vuonna 2005 järjestelmänvalmistajilla oli erilaisia hankkeita tiedonlouhinnan suhteen. SirsiDynix kehitteli Web Reporter -sovellusta, joka oli sekä Horizon- että Corinthian-järjestelmää käyttävien kirjastojen hyödynnettävissä. SirsiDynixillä oli tuolloin myös kehitteillä Director’s Station -tuote, jota yritys työsti yhdessä SwiftKnowledgen kanssa. Tuolloin tämän sovelluksen ominaisuuksiin kuului se, että dataa sai haalittua ulos taustajärjestelmästä ja että tähän dataan sai sisällytettyä informaatiota muista ulkoisista järjestelmistä. (Cullen 2005.)

Eräs kirjastoalan tiedonlouhintaa sivuava hanke oli Normative Data Project, NDP. Tavoitteena oli kehittää tapa yhdistää dataa erilaisista pohjoisamerikkalaisista kirjastoista yhteen normalisoituun tietokantaan. (Cullen 2005.) Projektilla oli omat sivustonsa (www.librarynormativedata.info), joita ei tosin enää ole.

ALA:n sivuilta löytyy Richard W. Bossin katsaus tilastointisovelluksiin vuodelta 2010 (Report Writers).

Lavoie, Dempsey ja Connaway (2006) listaavat erilaisia mahdollisuuksia tiedosta, jota voisi louhia esimerkiksi WorldCatista. Tiedonlouhinta kirjastojen kokoelmista voi osoittaa päällekkäisiä aineistoja ja antaa osviittaa poistoille ja hankittaville aineistoille.

Kokoelmien analysointi voi auttaa kirjastolaisia visualisoimaan kokoelmia eri tavoin, jotka puolestaan voivat helpottaa kirjastonkäyttäjiä löytämään haluamaansa aineistoa. Yksi tämäntapainen esimerkki on Matti Lassilan (Kartta kirjastosta, Runolliset tietueet) tekemät mainiot visualisoinnit HelMet-tietokantadumpista.

Lavoie, Dempsey ja Connaway (2006) arvioivat datalähteistä saatavan asiakkaiden kokoelmakäyttötapojen analysoinnin voivan auttaa kehittää esimerkiksi asiakaskäyttöliittymiä ja trendien havaitsemisessa varhaisessa vaiheessa. Tällaisia datalähteitä voivat olla tutkimukset, aineiston kiertodata, kaukolainadata, verkon kautta tapahtuvan asiakaspalveludata.

Mainokset

Keskustelu

4 thoughts on “Tiedonlouhinnasta

  1. Kiitokset, Peteri – hyödynnän tätä ensi viikolla alkavalla Asiakkuuksien johtaminen -kurssillani Turun amkissa, kun puhutaan asiakastiedosta, sen hankinnasta ja hyödyntämisestä!

    Posted by loykkionkirjastossatapahtuu | 04.09.2011, 12:35 pm
  2. Hieno juttu. Kiitos!

    Posted by Petri | 06.09.2011, 5:13 am
  3. Suurkiitos Petri, tästä löytyi paljon tarpeellista tietoa. Hyödynnän linkkiä Kannattava asiakkuuksien hallinta -opintojaksolla Jyväskylän ammattikorkeakoulussa jo tällä viikolla. Eikä taida jäädä ainoaksi opintojaksoksi, jossa tiedonlouhinta on tärkeä osa-alue.

    Posted by Teija | 22.11.2012, 7:33 pm
  4. Mukava kuulla. Kiitos! Aihe on kyllä tärkeä ja mielenkiintoinen. InformationWeekin raporttia big datasta vinkkaan myös: julkaisun nimi on hiukka ärhäkästi 6 Big Data Lies (http://reports.informationweek.com/abstract/81/9081/Business-Intelligence-and-Information-Management/research-big-data-smart-data.html?cid=nl_analyt__iwkrnwsl20121030). Jutussa on monia hyviä pointteja, joista varmaan tärkein se, että analyysin laatu eli tiedonlouhintataidot on kriittinen juttu.

    Posted by Petri | 23.11.2012, 5:21 am

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out / Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out / Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out / Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out / Muuta )

Muodostetaan yhteyttä palveluun %s

%d bloggers like this: