Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Langtidslagring av elektroniske dokumenter

Liknende presentasjoner


Presentasjon om: "Langtidslagring av elektroniske dokumenter"— Utskrift av presentasjonen:

1 Langtidslagring av elektroniske dokumenter
For Høgskolen i Oslo, avdeling JBI Martin Bould Rådgiver, avdeling for elektronisk arkiv

2 Forskjellen mellom arkivmateriale og biblioteksmateriale
Arkiv består unike eksemplarer av dokumenter som blir til som ledd i utøvelsen av en virksomhet. Et arkiv kan bestå av trykte eksemplarer av dokumentet Dokumentet er pr definisjon ikke mangfoldiggjort eller publisert. Det håndskrevne bokmanuset – versus den trykte boken Stortingsmeldingen – forarbeidene rånotater og underlagsmateriale

3 Lagringsmedier Elektronisk arkivmateriale som avleveres eller overføres til Riksarkivet skal normalt overføres på CD-R plater. Reglene sier i dag at det skal være 2 kopier og at platene skal være standard 74 minutter 650 MB (dette kan endres) CD-R plater kopieres hvert femte år. Vi kan etter avtale også godta båndformater så lenge det er lesbart med utstyret vårt. Lagringsmedier er ikke viktig – alternative strategier vil være lagringsnettverk…..

4 Hva er et elektronisk arkiv?
Et arkiv er en samling informasjon som er mottatt eller skapt av et organ eller en person/familie som ledd i utøvelsen av en aktivitet/virksomhet. Informasjonen må bestå av tilstrekkelig innhold, form, struktur og kontekst til at den kan dokumentere at aktiviteten har funnet sted. Informasjonen kan være på et hvilket som helst format og lagret på et hvilket som helst medium (papir, tegning, foto, film, harddisk, magnetbånd osv.) Informasjonen i et elektronisk arkiv er produsert ved hjelp av IT-verktøyer og lagret i et binært format på elektroniske medier.

5 Eksempler på elektroniske arkiver
De aller fleste administrative IT-systemer hos en arkivskaper er i følge definisjonen elektroniske arkiver. Dette kan for eksempel være: Internadministrative systemer: Journal- og arkivsystemer, dvs. systemer som styrer arkivering og gjenfinning av saksdokumenter. Andre: Regnskapssystemer, Lønns- og personalsystemer. Fagsystemer, dvs. systemer som ivaretar det spesielle fagområdet til den enkelte virksomhet: Svært mange fagsystemer i offentlig forvaltning er saksbehandlings- eller klientsystemer. Grunnlagsregistre, dvs. registre som inneholder nøkkel-informasjon til bruk i saksbehandligen. Mange av disse er felles for en hel etat eller for hele forvaltningen.

6 Strategier for bevaring av elektronisk informasjon
Teknologibevaringsstrategien: Vi bevarer både maskiner, programmer og data i orginalformat. Urealistisk, depotene ville ende opp som tekniske museer. Emuleringsstrategien: Vi bevarer programmer og data i originalformat. Egne programmer som emulerer (etterligner) operativsystemet på den opprinnelige maskinvaren må da utvikles (jf. Jeff Rothenburg). Slike programmer finnes ikke i dag. Migrasjonsstrategien: Vi bevarer bare data som er konvertert til et standardisert format. Dette format kan leses av programmer og maskinvare også i framtiden. Vi må stadig konvertere (migrere) til nye formater etter hvert som teknologien utvikler seg. Teknologibevaring totalt uaktuelt, teknisk museum. Maskiner går i stykker, umulig å reparere, ingen har lenger kompetanse. Emulering vil si at man bygger et skall rundt programmene slik at de blir i stand til å kjøre også på fremtidens maskiner. Dette ville forenkle problemet adskillig for oss. Men pr. i dag finnes det ingen slike løsninger. Det vil koste milliarder å utvikle noe slikt, og antagelig urealistisk at alle programmer kunne kjøres. Man kan ikke se bort fra at dette vil være aktuelt i framtiden. Det at programmer og data blandes er en trend i dag: internett - java scripts. Objektorienterte programmering, og objektorienterte databaser. Vi står da tilbake med kun å bevare data. Men data kan ikke bevares slik de ligger i systemet, de må migreres eller konverteres.

7 Hva skal bevares – funksjonalitet eller transaksjoner?
Er det viktig å bevare funksjonaliteten i det opprinnelige systemet? Ved langtidslagring skal vi ikke lenger registrere eller oppdatere informasjon i systemet. Det viktigste er at vi fortsatt kan søke i informasjonen. David Bearman hevder at vi ikke bevarer arkiver med bevisverdi dersom målet med langtidslagring er å opprettholde (muligheten) for opprinnelig funksjonalitet. Det er transaksjonene som er det egentlige arkivet. Men hva er transaksjoner? I et personalsystem kan dette være f.eks. når du ble ansatt, forfremmet, pensjonert, de enkelte lønssutbetalingene osv.).

8 Logiske og fysiske enheter
Logiske enheter inneholder informasjon som naturlig eller arkivmessig hører sammen. F.eks. saksdokumenter - saker - emner - serier - arkiver. Fysiske enheter kan man se og ta på. F.eks. papirark - omslag - mapper - arkivbokser. Ved papirbaserte arkiver er det ofte sammenfall mellom de logiske og fysiske enhetene. F.eks. kan en sak bestå av papirark lagt inn i et omslag. Ett emne (etter arkivkoden) består av omslag lagt inn i en mappe. Ved elektroniske arkiver finnes det ingen slik tilknytning til fysiske enheter. Elektroniske arkiver er kun logiske (”virtuelle”). Ved tradisjonell arkivbeskrivelse er det to dimensjoner som beskrives, logiske og fysiske. Ofte blandes disse sammen uten at en tenker på det. Et av problemene med tradisjonell norsk beskrivelse er nettopp denne sammenblandingen.

9 Hva er et (elektronisk) dokument?
Et dokument er den minste enheten i et arkiv. Engelsk arkivterminologi skiller mellom record og document. Norsk oversettelse: Arkivdokument, saksdokument. I elektroniske systemer kan dokumenter lagres som enkeltfiler (f.eks. i Word- eller PDF-format). Men dokumenter kan også lagres i databaseformat. Fremstår som et dokument på skjermen, men er lagret som mange forskjellige felter i en database. Hvordan skal vi langtidslagre dokumenter som er lagret i en databaseform? Består egentlig ”rene” databasesystemer av dokumenter i det hele tatt?

10 Dokumenter og metadata
Arkiver (engelsk: records) består av følgende integrerterte komponenter: Innhold (selve ”teksten”) Form (layout, fonter, skriftstørrelse, innrykk osv.) Struktur (den indre orden) Kontekst (forholdet til omgivelsene) Innholdet og formen er først og fremst knyttet til selve dokumentene. Struktur og kontekst kalles ofte metadata. I et elektronisk arkiv- og dokumenthåndteringssystem (som f.eks. er basert på Noark-4) er metadata ofte den informasjonen som er lagret i selve databasen (”journalen”).

11 Langtidslagring av elektronisk informasjon
IT-systemer kan ikke langtidslagres. Dagens programvare ikke vil være kjørbar på framtidens datamaskiner. Vi kan bare langtidslagre et uttrekk av dataene. Dette uttrekket kan utgjøre all informasjon (innhold) som er lagret i systemet i form av tabeller eller dokumentfiler. Men vanligvis vil det dreie seg om et utvalg data (f.eks. hoved-tabellene eller eldre, uaktuell data som skal saneres). Informasjon som er bundet til selve programvaren kan ikke langtidslagres. Måten form, struktur og kontekst presenteres for brukerne på, er for en stor del avhengig av programvaren, og vil dermed ikke kunne bli bevart.

12 Forskjellige typer uttrekk
Tabelluttrekk: én tabell eksporteres til én fil. Dette er den vanlige formen for avlevering. Dersom databasen har en komplisert oppbygning med mange tabeller blir tilgjengeliggjøring svært problematisk. Dokumenter: ett dokument eksporteres til én fil. Disse er enkle å håndtere hver for seg. Men antallet filer vil ofte bli svært stort. Dokumenter må alltid avleveres sammen med tilhørende databaseuttrekk (som da utgjør metadata). Forenklede databaseuttrekk: informasjon fra flere tabeller blir eksportert til én eller noen få filer. Kan gjøres i form av joins av tabeller eller være spesialdefinert. Slike uttrekk blir langt enklere å tilgjengeliggjøre. Rapporter: én rapport skrives ut til én fil. Filene tas ut i ”utskriftsformat” og er dermed umiddelbart tilgjengelig. Digresjon: Rapporter kan også tas ut på papir eller mikrofilm. Dette må også vurderes som et alternativ. Elektronisk informasjon er sårbar. Er det realistisk at vi klarer å overkopiere all elektronisk informasjon til nye medier hvert femte år. Så langt jeg kan tolke de finske avleveringsreglene, så krever de utskrift på papir eller mikrofilm av elektronisk informasjon (les artikkel i siste Nordisk Arkivnyt).

13 Rutiner for å håndtere avleveringer
Allerede når et system designes og programmeres bør det legges opp til rutiner for produksjon av avleveringsuttrekk. Et system som stadig oppdateres og overskrives, kan f.eks. produsere et avleveringsuttrekk hvert år. Viser status på et gitt tidspunkt (”årgangsnitt”). Overskrevet informasjon kan overføres til egne historiske logger, som det gjøres uttrekk av. Dersom eldre poster etter hvert blir uaktuelle, kan det med jevne mellomrom oppstå behov for å sanere databasen. Avleveringsuttrekket består da av disse sanerte dataene.

14 Dokumentasjon (tekniske metadata)
Informasjon om form, struktur og kontekst i det opprinnelige systemet kan delvis opprettholdes ved at det avleveres dokumentasjon eller tekniske metadata i tillegg til selve datauttrekket. Den viktigste dokumentasjonen er innholds- og strukturbeskrivelsen av uttrekket. Dette må dokumenteres detaljert og helt nøyaktig. I tillegg må også selve IT-systemet dokumenteres, f.eks. i form av en datamodell. Den administrative sammenhengen, hovedrutinene i systemet, utveksling av data med andre systemer osv. bør også beskrives. Denne dokumentasjonen kan f.eks. finnes i system- og driftshåndbøker, samt i brukerhåndbøkene. Krav til dokumentasjon vil bli nærmere gjennomgått under avleveringsreglene. Er det i det hele tatt mulig å langtidslagre elektronisk informasjon? Jeg personlig er pessimistisk, og overbevist om at store deler av offentlige arkiver fortløpende vil gå tapt. Dette er noe som offentligheten ennå ikke har innsett. Men noen har forstått problemet, noe som et dikt publisert i Dagens Nyheter viser. Les dikt. Dette bør stå først på dagsorden for alle arkivarer, overskygge alt annet. Om ikke annet så informer allmennheten om det

15 Arkivformater for uttrekk fra databaser
Datauttrekk fra databaser og registre kan langtids-lagres som tekstfiler (ASCII-kode) hvor poster og felter er strukturert på følgende måte: Fast format Fast felt og postlengde. Vanligvis ikke noe postskilletegn. ”Kommaseparert” format Feltene skilles med et spesialtegn (f.eks. semikolon). Postskilletegn er oftest linjeskift. ”Tagget” format (SGML eller XML) Skal foreløpig bare brukes ved avleveringer fra Noark-4. En tekstfil inneholder kun lesbare tegn (f.eks. lest i Notisblokk), dvs. ingen binærtegn. Formatet tillater ikke lagring av bilder, lyd og video. Heller ikke formaterte dokumenter. Fra relasjonsdatabaser skal en tabell eksporteres til en fil. Flere tabeller kan slås sammen før eksport, men man får da duplisering av data. Fra eldre databaser (nettverksdatabaser og hierarkiske databaser) godtas det at flere posttyper ligger i samme fil. Fast format har inntil nå vært et krav. Alle forekomster av felter fylles opp med blanke tegn. En stor ulempe med dette formatet er at filene blir veldig store, og noen ganger er opptil % av plassen ”padde”-tegn. Felter som er tomme opptar like stor plass som de som har innhold. Kommaseparert langt mer kompakte. Tomme felter representeres med to feltskilletegn (semikolon) etter hverandre. Dette er et vanlig eksportformat fra databaser i dag. Taggede filer kan bli store fordi her gjentas hele feltnavnet for hver forekomst.

16 Arkivformater for dokumenter
Ren tekst - ISO : 1998, Latin-1, eventuelt ISO : 1998, Latin-4 for samiske tegn TIFF – Tag Image File Format, versjon 6 (Aldus/Adobe, 1992) PNG – Portable Network Graphics XML – Extensible Markup Language og subset-formatet XHTML PDF – Portable Document Format. (PDF-A fra 2005) For lyd- og video-sekvenser aksepteres følgende formater: For digital lyd: MP3 (ISO ) For digital video: MPEG2 (ISO )

17 Avlevering fra Noark-systemer
Informasjon fra journal-databasen (tabellene): Avleveres som tekstfiler i XML-format, strukturen i databasens tabeller opprettholdes med ”tagger”. Hver tabell skal eksporteres til en egen fil. En egen fil (NOARK.IH) inneholder overordnede opplysninger om tabellene som er avlevert. De elektroniske dokumentene: Avleveres i ett av de fire arkivformatene. Hvert dokument skal avleveres som en egen fil. Fra tabellene skal de være en referanse (link) til dokumentene vha. dokumentenes filnavn (ISO 9660). Elektroniske rapporter (utskrifter): Avleveres også i XML-format. Saks- og dokumentoversikt. Kronologisk journal.


Laste ned ppt "Langtidslagring av elektroniske dokumenter"

Liknende presentasjoner


Annonser fra Google