Langtidslagring av elektroniske dokumenter

Slides:



Advertisements
Liknende presentasjoner
Kontaktkonferansen 2011 Tor Eivind Johansen 26. mai 2011 Kristiansund.
Advertisements

Digitalt arkivmateriale – arkivpakker - arkivdepot
Trykk på mus eller tastatur for neste bilde…
v/Tormod Engebu, IKAVA KDRS 13. november 2013
Torbjørn Nystadnes Helsedirektoratet, standardiseringsseksjonen
Fra uttrekk til formidling
Digital langtidslagring og formidling
Astrid Øksenvåg Rådgiver eKoR AS
Lars-Eivind Bjørtvedt, rådgiver Kjetil Reithaug, arkivsjef
Dokumenter og arkivering
Lag film. Lag video •Videoteknologien har utviklet seg raskt de siste årene. Digital video er i ferd med å avløse analoge systemer. Med digital video.
Programmering i ActionScript - hva er det, og hvordan undervise?
1 Tilgjengeliggjøring av elektroniske registre – idéer og problemstillinger Seminar om tilgængeliggørelse af elektroniske arkivalier, Skógar, Island,
Biblioteket som det elektroniske forlag: Digitale Utgivelser ved UiO Arne Jakobsson Universitetsbiblioteket i Oslo Bibliotek for medisin og helsefag.
Periodisering og deponering
eFakturaportal Brukerveiledning Logg på eFaktura B2B Tilgang til eFaktura-løsningen finner du på
Bevaringsvurderinger
Overgang til fullelektronisk arkiv Prosedyre for avslutning av Koark-system.
Hvordan kan arkivplan bli et nyttig verktøy i arkivarbeidet?
Fagsystemer – oppgradering og nyanskaffelser
Sammensatte tekster: Photo Story
Anbefalt modell for administrasjonsenheten i nye Harstad kommune
Prosjektet 12k i Vestfold
IS-102 Klassedefinisjoner
Mads Lomholt (usit/sas/lipk) Nytt i Windows 7 Åpne dokumentformat.
Grunnleggende begreper i personopplysningsloven (legaldefinisjoner)
Bruk og bevaring i kommunal saksbehandling
IKA Opplandene Journalføring og arkivering av e-post, sms, e-skjema og noen utfordringer knytta til bruk av sosiale media sett fra arkivets side.
Arkivering av nettsider
In 102 – Innføring i informasjonsbehandling Tekstbehandling forelesning V2005 Ola Bø.
Gruppe 32E presenterer. Windows 2003 Server Novell Netware 6.5.
Sats på nettet Av Lars Egeland. Hvorfor satse på nettet ? zRask informasjon og kommunikasjon zMiljøvennlig zStor uavhengighet av tid og sted zFramtidas.
En beskrivelse av IKT i skolen Sett fra en lærers ståsted
Elektroniske filformater til brukerne. Bruksområder Info-hefter Skjemaer Tabeller …
HØGSKOLEN I AGDER Agder University College © Bjørn Olav Hogstad, HiA, 2002 HØGSKOLEN I AGDER Agder University College Word - maler 1 DAT100 TEMA: Maler.
Digitalisering av byggesaksarkiver i Bergen kommune
Oppfølgingen av riksrevisjonen sin rapport. 8. September 2010 klokka
Effektivisering av ansettelsesprosessen
Steinar Jensen, IbisIKT as
Bevaringsplanlegging
Kartlegging og dokumentasjon
eSøknad - Et webbasert system for elektronisk innlevering av søknader om forskningsmidler. Kort presentasjon av endinger i forbindelse med søknad.
ESøknad - Et webbasert system for elektronisk innlevering av søknader om forskningsmidler Kort presentasjon av systemet beregnet på prosjektledere/forskere.
Interkommunalt arkiv i Vest-Agder IKS (IKAVA)
10 regler for å skrive for web
Studentliv - Kurs i PR og markedsføring - Modul 10 1 Arbeid på PC Fortrolighet i arbeidet med PC Skikk og bruk IT-kontrakten Spørsmål?
Samordning, arkitektur, PKI Hva skjer? Endre Grøtnes, Statskonsult
Bevaring og tilgjengeliggjøring- Hvor ligger forbedringspotensialet?
Avlevering i praksis KDRS-samling
Litt om virtuelle skrivere. De 2 virtuelle skriverne som beskrives her har det til felles at det ikke kommer fysisk utskrift på papir. Skriverne er definert.
Arkivlederseminar, IKA Kongsberg
Kommunesammenslåing og arkivspørsmål
Gamle systemer In 140 Forelesning Nr 19 Sommerville kap 26.
Grunnleggende begreper i personopplysningsloven (legaldefinisjoner)
2003 Ontopia AS1 Tanker om standarder for e-læring Emnekart og published subjects Lars Marius Garshol, utviklingsleder Ontopia,
HUMIT1731 Hypermedier Introduksjon til XSL Transformation (XSLT)
EArkiv i offentlig forvaltning Kunnskapsfrokost med Software Innovation 15. april 2015 Hans Fredrik Berg, Riksarkivet.
Se side 8-9. Kapittel 1: HTML5 og CSS Hyper Text Markup Language 1990-årene: Tim Berners-Lee ville strukturere tekster og lage klikkbare henvisninger på.
Avlevering til eDepot Fagdag: elektronisk arkiv Mo i Rana
Foto: Geir Hageskal Bevare eller kaste? – Dokumenthåndtering i Trondheim kommune Bevaring- og kassasjonskartlegging IKA Finnmark, , Eirik Andersen.
Uttrekksmetode og verktøy Demonstrasjon av DEX Kontaktkonferansen 2008, Bodø.
ESøknad - Et webbasert system for elektronisk innlevering av søknader om forskningsmidler Kort presentasjon av systemet beregnet på prosjektledere/forskere.
Semantiske arkiv: Framtiden eller fortiden?
ESøknad - Et webbasert system for elektronisk innlevering av søknader om forskningsmidler Kort presentasjon av systemet beregnet på prosjektledere/forskere.
Håndtering av digitale arkiv
Hva skal vi med NOARK? Katarina de Brisis 19.November 2018.
EVALUERING AV Norsk arkivstandard
Utskrift av presentasjonen:

Langtidslagring av elektroniske dokumenter For Høgskolen i Oslo, avdeling JBI Martin Bould Rådgiver, avdeling for elektronisk arkiv

Forskjellen mellom arkivmateriale og biblioteksmateriale Arkiv består unike eksemplarer av dokumenter som blir til som ledd i utøvelsen av en virksomhet. Et arkiv kan bestå av trykte eksemplarer av dokumentet Dokumentet er pr definisjon ikke mangfoldiggjort eller publisert. Det håndskrevne bokmanuset – versus den trykte boken Stortingsmeldingen – forarbeidene rånotater og underlagsmateriale

Lagringsmedier Elektronisk arkivmateriale som avleveres eller overføres til Riksarkivet skal normalt overføres på CD-R plater. Reglene sier i dag at det skal være 2 kopier og at platene skal være standard 74 minutter 650 MB (dette kan endres) CD-R plater kopieres hvert femte år. Vi kan etter avtale også godta båndformater så lenge det er lesbart med utstyret vårt. Lagringsmedier er ikke viktig – alternative strategier vil være lagringsnettverk…..

Hva er et elektronisk arkiv? Et arkiv er en samling informasjon som er mottatt eller skapt av et organ eller en person/familie som ledd i utøvelsen av en aktivitet/virksomhet. Informasjonen må bestå av tilstrekkelig innhold, form, struktur og kontekst til at den kan dokumentere at aktiviteten har funnet sted. Informasjonen kan være på et hvilket som helst format og lagret på et hvilket som helst medium (papir, tegning, foto, film, harddisk, magnetbånd osv.) Informasjonen i et elektronisk arkiv er produsert ved hjelp av IT-verktøyer og lagret i et binært format på elektroniske medier.

Eksempler på elektroniske arkiver De aller fleste administrative IT-systemer hos en arkivskaper er i følge definisjonen elektroniske arkiver. Dette kan for eksempel være: Internadministrative systemer: Journal- og arkivsystemer, dvs. systemer som styrer arkivering og gjenfinning av saksdokumenter. Andre: Regnskapssystemer, Lønns- og personalsystemer. Fagsystemer, dvs. systemer som ivaretar det spesielle fagområdet til den enkelte virksomhet: Svært mange fagsystemer i offentlig forvaltning er saksbehandlings- eller klientsystemer. Grunnlagsregistre, dvs. registre som inneholder nøkkel-informasjon til bruk i saksbehandligen. Mange av disse er felles for en hel etat eller for hele forvaltningen.

Strategier for bevaring av elektronisk informasjon Teknologibevaringsstrategien: Vi bevarer både maskiner, programmer og data i orginalformat. Urealistisk, depotene ville ende opp som tekniske museer. Emuleringsstrategien: Vi bevarer programmer og data i originalformat. Egne programmer som emulerer (etterligner) operativsystemet på den opprinnelige maskinvaren må da utvikles (jf. Jeff Rothenburg). Slike programmer finnes ikke i dag. Migrasjonsstrategien: Vi bevarer bare data som er konvertert til et standardisert format. Dette format kan leses av programmer og maskinvare også i framtiden. Vi må stadig konvertere (migrere) til nye formater etter hvert som teknologien utvikler seg. Teknologibevaring totalt uaktuelt, teknisk museum. Maskiner går i stykker, umulig å reparere, ingen har lenger kompetanse. Emulering vil si at man bygger et skall rundt programmene slik at de blir i stand til å kjøre også på fremtidens maskiner. Dette ville forenkle problemet adskillig for oss. Men pr. i dag finnes det ingen slike løsninger. Det vil koste milliarder å utvikle noe slikt, og antagelig urealistisk at alle programmer kunne kjøres. Man kan ikke se bort fra at dette vil være aktuelt i framtiden. Det at programmer og data blandes er en trend i dag: internett - java scripts. Objektorienterte programmering, og objektorienterte databaser. Vi står da tilbake med kun å bevare data. Men data kan ikke bevares slik de ligger i systemet, de må migreres eller konverteres.

Hva skal bevares – funksjonalitet eller transaksjoner? Er det viktig å bevare funksjonaliteten i det opprinnelige systemet? Ved langtidslagring skal vi ikke lenger registrere eller oppdatere informasjon i systemet. Det viktigste er at vi fortsatt kan søke i informasjonen. David Bearman hevder at vi ikke bevarer arkiver med bevisverdi dersom målet med langtidslagring er å opprettholde (muligheten) for opprinnelig funksjonalitet. Det er transaksjonene som er det egentlige arkivet. Men hva er transaksjoner? I et personalsystem kan dette være f.eks. når du ble ansatt, forfremmet, pensjonert, de enkelte lønssutbetalingene osv.).

Logiske og fysiske enheter Logiske enheter inneholder informasjon som naturlig eller arkivmessig hører sammen. F.eks. saksdokumenter - saker - emner - serier - arkiver. Fysiske enheter kan man se og ta på. F.eks. papirark - omslag - mapper - arkivbokser. Ved papirbaserte arkiver er det ofte sammenfall mellom de logiske og fysiske enhetene. F.eks. kan en sak bestå av papirark lagt inn i et omslag. Ett emne (etter arkivkoden) består av omslag lagt inn i en mappe. Ved elektroniske arkiver finnes det ingen slik tilknytning til fysiske enheter. Elektroniske arkiver er kun logiske (”virtuelle”). Ved tradisjonell arkivbeskrivelse er det to dimensjoner som beskrives, logiske og fysiske. Ofte blandes disse sammen uten at en tenker på det. Et av problemene med tradisjonell norsk beskrivelse er nettopp denne sammenblandingen.

Hva er et (elektronisk) dokument? Et dokument er den minste enheten i et arkiv. Engelsk arkivterminologi skiller mellom record og document. Norsk oversettelse: Arkivdokument, saksdokument. I elektroniske systemer kan dokumenter lagres som enkeltfiler (f.eks. i Word- eller PDF-format). Men dokumenter kan også lagres i databaseformat. Fremstår som et dokument på skjermen, men er lagret som mange forskjellige felter i en database. Hvordan skal vi langtidslagre dokumenter som er lagret i en databaseform? Består egentlig ”rene” databasesystemer av dokumenter i det hele tatt?

Dokumenter og metadata Arkiver (engelsk: records) består av følgende integrerterte komponenter: Innhold (selve ”teksten”) Form (layout, fonter, skriftstørrelse, innrykk osv.) Struktur (den indre orden) Kontekst (forholdet til omgivelsene) Innholdet og formen er først og fremst knyttet til selve dokumentene. Struktur og kontekst kalles ofte metadata. I et elektronisk arkiv- og dokumenthåndteringssystem (som f.eks. er basert på Noark-4) er metadata ofte den informasjonen som er lagret i selve databasen (”journalen”).

Langtidslagring av elektronisk informasjon IT-systemer kan ikke langtidslagres. Dagens programvare ikke vil være kjørbar på framtidens datamaskiner. Vi kan bare langtidslagre et uttrekk av dataene. Dette uttrekket kan utgjøre all informasjon (innhold) som er lagret i systemet i form av tabeller eller dokumentfiler. Men vanligvis vil det dreie seg om et utvalg data (f.eks. hoved-tabellene eller eldre, uaktuell data som skal saneres). Informasjon som er bundet til selve programvaren kan ikke langtidslagres. Måten form, struktur og kontekst presenteres for brukerne på, er for en stor del avhengig av programvaren, og vil dermed ikke kunne bli bevart.

Forskjellige typer uttrekk Tabelluttrekk: én tabell eksporteres til én fil. Dette er den vanlige formen for avlevering. Dersom databasen har en komplisert oppbygning med mange tabeller blir tilgjengeliggjøring svært problematisk. Dokumenter: ett dokument eksporteres til én fil. Disse er enkle å håndtere hver for seg. Men antallet filer vil ofte bli svært stort. Dokumenter må alltid avleveres sammen med tilhørende databaseuttrekk (som da utgjør metadata). Forenklede databaseuttrekk: informasjon fra flere tabeller blir eksportert til én eller noen få filer. Kan gjøres i form av joins av tabeller eller være spesialdefinert. Slike uttrekk blir langt enklere å tilgjengeliggjøre. Rapporter: én rapport skrives ut til én fil. Filene tas ut i ”utskriftsformat” og er dermed umiddelbart tilgjengelig. Digresjon: Rapporter kan også tas ut på papir eller mikrofilm. Dette må også vurderes som et alternativ. Elektronisk informasjon er sårbar. Er det realistisk at vi klarer å overkopiere all elektronisk informasjon til nye medier hvert femte år. Så langt jeg kan tolke de finske avleveringsreglene, så krever de utskrift på papir eller mikrofilm av elektronisk informasjon (les artikkel i siste Nordisk Arkivnyt).

Rutiner for å håndtere avleveringer Allerede når et system designes og programmeres bør det legges opp til rutiner for produksjon av avleveringsuttrekk. Et system som stadig oppdateres og overskrives, kan f.eks. produsere et avleveringsuttrekk hvert år. Viser status på et gitt tidspunkt (”årgangsnitt”). Overskrevet informasjon kan overføres til egne historiske logger, som det gjøres uttrekk av. Dersom eldre poster etter hvert blir uaktuelle, kan det med jevne mellomrom oppstå behov for å sanere databasen. Avleveringsuttrekket består da av disse sanerte dataene.

Dokumentasjon (tekniske metadata) Informasjon om form, struktur og kontekst i det opprinnelige systemet kan delvis opprettholdes ved at det avleveres dokumentasjon eller tekniske metadata i tillegg til selve datauttrekket. Den viktigste dokumentasjonen er innholds- og strukturbeskrivelsen av uttrekket. Dette må dokumenteres detaljert og helt nøyaktig. I tillegg må også selve IT-systemet dokumenteres, f.eks. i form av en datamodell. Den administrative sammenhengen, hovedrutinene i systemet, utveksling av data med andre systemer osv. bør også beskrives. Denne dokumentasjonen kan f.eks. finnes i system- og driftshåndbøker, samt i brukerhåndbøkene. Krav til dokumentasjon vil bli nærmere gjennomgått under avleveringsreglene. Er det i det hele tatt mulig å langtidslagre elektronisk informasjon? Jeg personlig er pessimistisk, og overbevist om at store deler av offentlige arkiver fortløpende vil gå tapt. Dette er noe som offentligheten ennå ikke har innsett. Men noen har forstått problemet, noe som et dikt publisert i Dagens Nyheter viser. Les dikt. Dette bør stå først på dagsorden for alle arkivarer, overskygge alt annet. Om ikke annet så informer allmennheten om det

Arkivformater for uttrekk fra databaser Datauttrekk fra databaser og registre kan langtids-lagres som tekstfiler (ASCII-kode) hvor poster og felter er strukturert på følgende måte: Fast format Fast felt og postlengde. Vanligvis ikke noe postskilletegn. ”Kommaseparert” format Feltene skilles med et spesialtegn (f.eks. semikolon). Postskilletegn er oftest linjeskift. ”Tagget” format (SGML eller XML) Skal foreløpig bare brukes ved avleveringer fra Noark-4. En tekstfil inneholder kun lesbare tegn (f.eks. lest i Notisblokk), dvs. ingen binærtegn. Formatet tillater ikke lagring av bilder, lyd og video. Heller ikke formaterte dokumenter. Fra relasjonsdatabaser skal en tabell eksporteres til en fil. Flere tabeller kan slås sammen før eksport, men man får da duplisering av data. Fra eldre databaser (nettverksdatabaser og hierarkiske databaser) godtas det at flere posttyper ligger i samme fil. Fast format har inntil nå vært et krav. Alle forekomster av felter fylles opp med blanke tegn. En stor ulempe med dette formatet er at filene blir veldig store, og noen ganger er opptil 80-90 % av plassen ”padde”-tegn. Felter som er tomme opptar like stor plass som de som har innhold. Kommaseparert langt mer kompakte. Tomme felter representeres med to feltskilletegn (semikolon) etter hverandre. Dette er et vanlig eksportformat fra databaser i dag. Taggede filer kan bli store fordi her gjentas hele feltnavnet for hver forekomst.

Arkivformater for dokumenter Ren tekst - ISO 8859-1: 1998, Latin-1, eventuelt ISO 8859-4: 1998, Latin-4 for samiske tegn TIFF – Tag Image File Format, versjon 6 (Aldus/Adobe, 1992) PNG – Portable Network Graphics XML – Extensible Markup Language og subset-formatet XHTML PDF – Portable Document Format. (PDF-A fra 2005) For lyd- og video-sekvenser aksepteres følgende formater: For digital lyd: MP3 (ISO 11172-3) For digital video: MPEG2 (ISO 13818-2)

Avlevering fra Noark-systemer Informasjon fra journal-databasen (tabellene): Avleveres som tekstfiler i XML-format, strukturen i databasens tabeller opprettholdes med ”tagger”. Hver tabell skal eksporteres til en egen fil. En egen fil (NOARK.IH) inneholder overordnede opplysninger om tabellene som er avlevert. De elektroniske dokumentene: Avleveres i ett av de fire arkivformatene. Hvert dokument skal avleveres som en egen fil. Fra tabellene skal de være en referanse (link) til dokumentene vha. dokumentenes filnavn (ISO 9660). Elektroniske rapporter (utskrifter): Avleveres også i XML-format. Saks- og dokumentoversikt. Kronologisk journal.