MENINGER:
 LESERBREV:
  Brynjulf Owren: Tidskrifter og papirforbruk
  Ivar A. Bjørgen: Retten til arbeid. Tanker omkring Brevik-saken
  Rigmor Austgulen: Morsmelk – over og ut?
  Soilikki Vettenranta: JULEGAVE MED BISMAK
  Odd W. Andersen: Smelting i Antarktis
  Berit Kjeldstad og Mads Nygård: ”Mens vi venter på NTNU”
  Allan Krill: For mappa mi
  Greta Aune Jotun: Jøder og arabere, hvem okkuperer hva?
  Bjørn K Alsberg: Å koke suppe på en spiker
  Bjørnar T Kvernevik: Svar: Læresteder i klemme
 

  NYHETSKLIPP
  Stempling: Tromsø innfører ikke
  Sett denne ørnen før?
  Fant jernalderens “missing link”
  130 universitetsansatte kan miste jobben
  Nytt forskningssenter for stamceller
  Skriver Svalbardbok
  Ny mastergrad i bærekraftig arkitektur
  To nye erstatningssaker
  Jerusalem Post: Boikottforslag vekker internasjonal fordømmelse
 

  BILDESERIER
  Immatrikuleringen 2009
  Festmøtet 2009
  Kreator 09
  Bildesymfoni
  Finanskrisen i pepperdeig
  Rocke-Pelle, Rocke-Olsen, swingskjørt og kvinnelige forelesere
  Badekarpadling 2008
  Karrieredagen 2008: Mett på twist
  Immatrikulering 2008
  Shell Eco-Marathon
  Se alle bildeseriene

 REDAKSJONEN:
Tips oss på:
tips@universitetsavisa.no

Ansvarlig redaktør:
Tore Oksholen

Kildehenvisning må benyttes ved kopiering av alt innhold fra dette nettstedet.
Avisas retningslinjer og redaksjon

 

Data for evigheita (25.3.08, 08:51)

Vi har klart å ta vare på egyptarane sine hieroglyfar, men står i fare for å miste det som er produsert etter 1990. Norske forskarar er på jakt etter eit lagringssystem som kan ta vare på vår digitale tid.

I løpet av dei kommande tre åra kan vi anta at menneskeheita skapar like mykje ny informasjon som ho har prestert fram til dags dato. Korleis kan vi sikre at elektronisk informasjon ikkje forsvinn for oss – og at folk i framtida kan forstå han?

Mykje vil sikkert vere av ein art som verda kan klare seg godt forutan. Men om vi skiljar ut det uvesentlege, vil vi likevel stå att med ei ufatteleg informasjonsmengd.

Ho skal takast hand om, vi vil at ho skal vare – om ikkje evig, så minst 100 år fram i tid.

Korleis bevare ho, og korleis oppretthalde tilgjengelegheita? Kor annleis må vi tenke i dag, for å finne løysingar som skal verke om fem år, 15 år eller 50?

PARADOKS: Vi har klart å ta vare på egyptarane sine hieroglyfar, men står i fare for å miste det som er produsert etter 1990.
Illustrasjon: Mads Nordtvedt/NTNU
Kappløp med tida
Dette er hovudutfordringa for Mads Nygård og Kjetil Nørvåg, professorar ved Institutt for datateknikk og informasjonsvitskap ved NTNU.

Saman med forskarar over hele verda deltek dei i kappløpet om å stanse den digitale tidsbomba. Prosjektet dei leier, LongRec, skal finne løysingar for langtidslagring av elektronisk informasjon.

For mens vi har klart å ta vare på skriftleg materiale som er fleire tusen år gamalt, står vi i fare for å miste det som er produsert etter 1990. Det vil seie alt som er lagt inn på data, anten det er tekst, lyd eller bilde.

LongRec er på jakt etter eit lagringssystem som må tilfredsstille mange ulike behov og brukast uavhengig av format og maskinvare. I dag vert elektronisk informasjon lagra i mange ulike format, som er tilpassa mange ulike maskiner. Det einaste forskarane kan være heilt sikre på, er at format og maskiner som blir brukt i dag, vil bli erstatta av noko heilt nytt.

Kortvarig glede
Nesten frå den eine dagen til den andre risikerer du å oppleve at maskinvare du treng for å køyre eit bestemt dataprogram, ikkje lenger er å oppdrive. Eller at datagrunnlaget berre er tilgjengeleg via program som ikkje finst. For ikkje å snakke om at du har lagra bilde, lyd og tekst på eit format du korkje kan lese eller konvertere.

Tapet er sårt nok om dette skulle ramme di private musikksamling og familiealbum. Verre å tenkje på er at dokument som skal gjelde som rettslige bevis kan bli borte; at helseinformasjon forsvinn; at sikkerheitssystem kan bli sett ut av drift.

For ikkje å snakke om at kulturarven risikerer å gå tapt. Bare tenk på kor fattige vi ville ha vore i dag, om vi ikkje hadde bevart oldtidas leirtavler eller kyrkjebøkene frå dei siste hundreåra.

Prosedyrar
LongRec-prosjektet er delt opp i ulike tema, som det teknologiske og organisatoriske rundt langtidslagring; søk i historisk informasjon; og sikkerheit.

Å flytte filer frå gamal til ny teknologi, for eksempel frå tape til harddisk, eller frå gamle til nye harddiskar, er forholdsvis enkelt. Det kan dei fleste som brukar PC, klare.

– Vår utfordring er å etablere prosedyrar for korleis dette skal utførast. Samstundes må vi sørgje for at ikkje filene forsvinn, om til dømes eit firma eller ein organisasjon blir lagt ned eller reorganisert, forklarer Nygård.

– Éi utfordring er å sikre at innhaldet på denne CD-en blir ført over til eit nytt medium, til dømes ein ny CD, før det oppstår feil på CD-en eller før lesarane for dagens CD-ar går ut av produksjon.

Ei anna utfordring er å vite kor denne CD-en er lagra, samt kva som finst på den, den dagen ein har bruk for innhaldet.

– Endå ei utfordring er å handtere endringar av filformat. Éi løysing er å konvertere gamal standard til det nye formatet. Alternativet kan vere å utvikle utstyr eller program som kan gjere det gamle formatet tilgjengeleg, utdjupar Nørvåg og Nygård.

Mange lag informasjon
Den første løysinga er tilsynelatande den enklaste, men har ein openbar svakheit. Ved konvertering frå eitt format til eit anna, vil ein risikere å miste moment som ein ikkje var merksam på då konverteringa vart utført. Forskarane trekker fram handskrivne bøker frå mellomalderen som eksempel:

– Konvertering til nytt format kan bety å berre trekke ut teksten og lagre han i ei tekstfil. På den måten får vi med informasjonen i teksten, men kanskje miste aspekt rundt handskrifta, som både kan vere kunstnarisk og kan gje informasjon om kven som skreiv teksten.

Alternativet kan være å avfotografere sidene i boka, og bruke eit program for å sjå bileta. På den måten blir all informasjon bevart for framtida.

Søking på tid
Ei stor ulempe med dagens søkemotorteknologi er at han ikkje tek omsyn til tidsaspektet. Dette er et formidabelt problem for dokumentsamlingar som er skrivne gjennom fleire hundre år, for eksempel hos Nasjonalbiblioteket.

La oss seie at du vil finne eit dokument som inneheld ordet «Fosnavåg» og som vart skrive før år 1970. Slik teknologien fungerar i dag, må du gå gjennom ei stor mengd søketreff for å finne ut kva som ble skreve før 1970.

Nokre dokument inneheld eksplisitt informasjon om når dei vart skrivne, som tilfellet er med daterte brev. Andre dokument har ikkje den minste pekepinn om når dei vart til.

– I vår forsking vil vi mellom anna sjå på korleis vi kan gjere effektive søk på «inneheld Fosnavåg og er skrive før 1970».

Stor mengder
For dokument som er daterte, blir utfordringa å utføre søket effektivt på store datamengder, med vidareutvikling av indekseringsteknikkar. For udaterte dokument må ein i tillegg forsøke å tidsbestemme dokumentet, kanskje basert på statistiske språkmodellar.

– Til dømes kan vi sjå på kva for ord som vert brukt. Er ordet «tsunami» med, er det relativt sannsynleg at dokumentet er skrive etter 2004. Er i tillegg «Bin Laden» med, blir vi styrka i trua på at det er skrive etter 2004, meiner LongRec-forskarane.

Eit tilleggsproblem når ein søker i dokument frå ulike tidsepokar, er at språket endrar seg over tid. Dette bør søkeverktøyet kunne fange opp, slik at når ein søker etter «Trondheim», også kan finne dokument som inneheld «Trondhjem» eller «Nidaros».

Dette gjeld sjølvsagt ikkje berre stadnamn, men alle slags ord og uttrykk.

Sikkerheit
Å hindre uvedkommande tilgang til datafiler er ei generell problemstilling innanfor datasikkerheit. NTNU-forskarane vil studere fleire sikkerheitsaspekt: Korleis skal vi kunne fastslå at eit dokument er skrive av ein bestemt person, eller kjem frå ei bestemt bedrift?

Når eit format skal endrast, korleis skal vi vite at ikkje informasjon blir lagt til eller fjerna i prosessen? At ikkje historia vert forfalska? Og når eit firma vert kjøpt opp eller splitta, kven står da som eigar av dokumenta?

Håper å sjå lyset
På lang sikt håper Nygård og Nørvåg å bygge ut LongRec til eit EU-program. I første omgang konsentrerer prosjektet seg om å søke løysingar for nasjonale behov.

Blant samarbeidspartnarane er Det Norske Veritas (DNV), som er initiativtakar til forskingsprosjektet. DNV har blant anna behov for gode løysingar for distribusjon og sikker lagring av digitale skipsteikningar.

Andre partnarar er Nasjonalbiblioteket, Bankanes Betalingssentral, Riksarkivet, Brønnøysundregistra, StatoilHydro, Norsk Reknesentral og Utanriksdepartementet. For ikkje å gløyme CSAM, Rikshospitalets portal for helseinformatikk, og søkemotoren Fast.

Nokre av løysingane deltakarane spør etter, har dei felles bruk for. Andre løysingar er meir spesifikke. Uansett har ikkje forskarane kome stort lenger enn til kartleggingsfasen.

Men databasegruppa ved Institutt for datateknikk og informasjonsvitskap har 15 års erfaring med tidsrelaterte data og minst det dobbelte med handsaming av store datamengder.

– No samlar vi inn alle lure tankar som er tenkte frå før, for å bygge vidare på dei beste, seier Nygård og Nørvåg.

– Prosjektet må byggast bit for bit. Vi har kanskje sett nokre små lys, ein dag venter forhåpentlegvis full flombelysning.

Av Synnøve Ressem