
Jason A. Samfield, Framing of Antiquity, https://secure.flickr.com/photos/jason-samfield/5426012573/
Isossa-Britanniassa on tehty monenlaista määritystyötä datan tehokkaammaksi hyödyntämiseksi. Yksi näistä on Joint Information Systems Committeen (JISC) organisoima Resource Discovery Taskforce (RDTF) -työryhmä, joka on määritellyt suuntaviivoja, miten Ison-Britannian kirjastojen, arkistojen ja museoiden (KAMujen) infrastruktuuria tulisi kehittää. Työryhmän visiossa perusideana on se, että muistiorganisaatiot tulee tarjota helppo, joustava ja jatkuva pääsy sisältöihin ja palveluihin. Tärkeää on, että data on paitsi ihmisten myös koneymmärrettävässä muodossa.
Konferenssissa esiteltiin pari käytännön projektia, joissa tavoiteltiin RDTF:n visiota.
Andy Powell kertoi esityksessään projektista, jossa oli tehty pohjatyötä sikäläisten KAMujen semantoinniksi. Projektin ohessa kehitettiin myös
- metadataohjeistusta KAMuille
- toiminnallisuusmäärityksiä, joilla helpotetaan KAMujen metadatan julkaisuprosessia.
Teknologisissa ratkaisuissa edetään Tim Berners-Leen esittelemien linkitetyn datan periaatteiden mukaan. Tehtyä työtä arvioidaan W3C:n määrittelemän Linked open data star -skeeman mukaan. Periaatteet ja tähdityksen logiikka löytyy Berners-Leen (2006) artikkelista Linked Data. Skeemassa on määritelty 5 tasoa, jotka määrittelevät, kuinka pitkälle organisaatio on noudattanut linkitetyn avoimen datan julkaisuun annettuja suosituksia.
Powellin projektissa oli kolme lähestymistapaa
- yhteisölliset formaatit
- RDF-datamalli
- linkitetty data.
Powell totesi, että projektissa haluttaisiin olla linkitetyn avoimen datan julkaisemisen osalta W3C:n skeeman 5. tasolla. Yksi hyvä syy tähän tavoitteiseen on semanttisuuden hyödyntäminen, johon sisältyy lupaus hakujärjestelmästä, joka tarjoaa aineistoja entistä helpommin tiedonhakijalle. Tavoitteen ongelmallisuutta Powell kuvasi sanonnalla
the best is sometimes the enemy of the good.
Powellin lopputulemana oli se, että W3C:n 5. tason mukainen linkitetty data on hyvä tähtäin KAMuille ja datan linkitettävyyden parantaminen on lyhyen ajan suunnitelmana hyvä. Powell toivoi verkkoon saatavan yhä enemmän URItettua dataa.
Joy Palmerin esitys oli sieltä teräväsanaisimmasta päästä. Palmer halusi, että avoimen datan ekologia-ajattelussa päästäisiin entistä enemmän käytäntöön. Esityksessään Palmer esitteli JISC:n rahoittamaa Discovery-ohjelmaa, joka koostuu Ison-Britannian kirjastojen, museoiden ja arkistojen kahdeksasta projektista.
Ohjelmassa on ollut mukana muun muassa isoja tutkimusyliopistoja ja kansallisarkisto. Yhteistyökumppanit olivat yhtä mieltä RDTF:n visiosta, mutta eivät niinkään tavasta, jolla tavoitteeseen päästäisiin. Vaihtoehtoina oli muun muassa yhden infrastruktuurin ratkaisu, joka sitoo kokonaisuuden ja eri datasiilot kasaan. Eli eräänlainen KDK. Toisena vaihtoehtona oli jaetut palvelut ja pilvipohjaiset alustat. Oma haasteensa syntyy siitä, miten web ja webin käyttäjät käyttäytyvät.
Ohjelman alla toteutetuissa projekteissa pyrittiin viemään käytäntöön data cycles -ideaa, jota esittelee Rufus Pollock Open Knowledge Foundationin blogissa (Building the (Open) Data Ecosystem). Ajattelun kulku on jotakuinkin tämä: avoimen datan ekosysteemissä syntyy datan kiertokulku, jossa dataa tuottava organisaatio luovuttaa dataansa muun maailman käyttöön. Tätä avointa dataa hyödyntävä käyttäjäyhteisö puolestaan antaa palautetta datan tuottajalle datassa olevista virheistä tai muista ongelmista. Datan tuottaja korjaa alkuperäistä datalähdettään palautteen pohjalta ja tarjoaa päivitettyä versiota puolestaan muulle yhteisölle.

Mimi_K, Framed, https://secure.flickr.com/photos/mimk/4280939338/
Discovery-projektiperheeseen kuuluu muun muassa kirjastopuolelta Cambridgen yliopistokirjaston Cambridge Open METadata (COMET) -projekti.
Projekti kesti helmikuusta heinäkuuhun 2011 ja tavoitteena oli
- avata Cambridgen yliopiston kirjaston bibliografista metadataa ja
- muuntaa se linkitetyn datan muotoon.
Projektin muita lopputuloksia olivat muun muassa
- työkalu, jolla voi konvertoida MARC 21 -tietueita RDF-triploiksi. Sovellus on julkaistu avoimen lähdekoodin GPL-lisenssillä
- avoin data -palvelu, joka sisältää RDF-muotoisia bibliografisia tietueita, jotka on lisensoitu PDDL-lisenssillä ja SPARQL-liittymä, jolla pääsee käsiksi tähän dataan.
Projektin johtopäätöksinä todettiin muun muassa, että on tarve
- luoda käyttökelpoisia palveluja, jotka realisoivat datan julkaisemisen semanttisessa webissä hyödyt. Uhkana se, että arvostusta tulee vain ATK-kompetenteilta henkilöiltä, siis nörteiltä
- mallintaa aineiston saatavuustieto RDF-muodossa
- päivittää julkaistua avoin data -dumppia säännöllisesti
- kehittää SPARQL:ää helpompia tapoja päästä käsiksi RDF-muotoiseen dataan
- pilvipohjaisille alustoille ja palveluille bibliografisen datan julkaisemiseksi. Parempia jakomenetelmiä tarvitaan.
Joy Palmer korosti myös lisensoinnin merkitystä. Datan avoimuus riippuu ennen kaikkea siitä, miten data on lisensoitu. Ohjelmassa kehitettiin Discovery Open Metadata Principles -periaatteet. Lisensoinnin yhdenmukaisuus on Palmerin mukaan tärkeää: kaikkien metadatatuottajien olisi järkevää käyttää samaa lisensointijärjestelmää.
Projektien myötä syntynyt Discovery-ekosysteemi on heterogeeninen, hajautettu ja rakentuu metadatan aggregoinnin varaan. Isoimmat haasteet avoimessa datassa Palmerin mukaan ovat ylläpidon pitkäjänteisyys: dataa ja datavarannon rajapintoja pitää päivittää ja ylläpitää.
Keskustelu
Trackbacks/Pingbacks
Päivitysilmoitus: Online Information 2011 « Sorvipenkki - 07.01.2012