Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Arkivering av norske nettsider

Liknende presentasjoner


Presentasjon om: "Arkivering av norske nettsider"— Utskrift av presentasjonen:

1 Arkivering av norske nettsider
Om Nasjonalbibliotekets høsting fra Internett Gretel Westman Rådgiver, Nasjonalbiblioteket Gretel Westman, rådgiver på Pliktavlevering Periodika og teamleder for Norsk Nettarkiv.

2 Nasjonalbiblioteket Nasjonalbiblioteket har ca 500 ansatte fordelt mellom to lokasjoner, Oslo og Mo i Rana. I Oslo har vi publikumstjenesten, utstillinger og driver med mye forskning. I Mo i Rana kan man si at mye av produksjonen skjer.

3 I tillegg til å arbeide med og behandle historisk materiale er det i Mo i Rana vi mottar alle pliktavleverte medietyper: avis, bøker, tidsskrift, plakater, musikk, kringkasting og så videre. Hver medietype har jo sin produksjonsløype, men som eksempel kan jeg ta min seksjon: Pliktavlevering periodika, der arbeider vi med tidsskrifter og aviser (altså trykte medier som utkommer regelmessig). Vi mottar materialet, registrerer det og distribuerer det til NB i Oslo, Universitet- og høgskolebiblioteker, til depotbiblioteket og til sikringsmagasinet i fjellet rett bak oss. I tillegg blir dette gjerne digitalisert eller også mottatt digitalt ved siden av.

4 Det er altså i Mo i Rana vi oppbevarer sikringseksemplaret, det som skal bevares i et 1000-årsperspektiv, i et sikringsmagasin i fjellet. Det står i programmet at jeg skal gi status for samarbeidet mellom Nasjonalbiblioteket og Arkivverket, og det skal jeg prøve å gjøre, men det er en fare for at det blir litt tynt da detaljer rundt byggingen av Arkivmagasinet ikke er mange. tegning I 2012 fikk Statsbygg oppdrag om å gjennomføre et forprosjekt for bygging av nytt Sikringsmagasin for NB. Forprosjektet er nå gjennomført og det nye Sikringsmagasinet er planlagt å stå klart i I 2016 fikk de oppdrag om å utarbeide en opsjon for bygging av et arkivmagasin til Arkivverket. Dette prosjektet ble vedtatt av Stortingen samme år. Det nye byggeprosjektet omfatter altså utbygging av sikringsmagasin 2 i en allerede utpsrengt fjellhall og å sprenge fjellhall 3 som skal romme arkivmagasinet til Arkivverket. Arkivmagasinet skal ha kapasitet til mottak og bevaring av minimum hyllemeter med papirarkivet fra statsforvaltningen og privatarkiver hyllemeter skal brukes til Norsk Helsearkiv. I forhold til hvordan innsiden av arkivmagasinet skal se ut vet jeg ikke så mange detaljer. Som i vårt sikringsmagasin vil det ligge på en jevn temperatur på ca 8 grader, det vil være et fryserom for nedfrysning av materiale før det kjøres inn for å sikre at levende organismer som kan skade materialet ikke blir med inn, og det skal være enkel gjenfinnbarhet og god logistikk. Kostnadsrammen på bare Arkivmagasinet er på rundt 260 millioner kroner, så det MÅ jo bli bra. Hvis noen er nysgjerrige på mer informasjon er jeg sikker på at Arkivverket eller teknisk avdeling på NB vil være behjelpelig

5 Aftenposten.no Jeg skal nå snakke litt om det jeg selv arbeider med, nemlig Norsk Nettarkiv. Å arkivere Internettets innhold er et debattert tema, og spørsmål rundt loven om personvern blir tatt opp. I oktober 2015 varslet Telenor om at de skulle fase ut tjenesten Min Hjemmeside i slutten av oktober. Det var en tjeneste som ble bygd opp på 90- tallet og Telenor mente at det var en utdatert tjeneste. Men, brukerne reagerte på beskjeden. På sidene var det brukere som hadde innhold om slektsforskning, fluebinding, reisedagbøker og enda mer. Informasjon og Norsk kultur og historie som bare ville forsvinne. Vi tok kontakt med Telenor og ba om at de måtte utsette stengingen og ba dem sende en liste over URLene til hjemmesidene slik at vi kunne høste mest mulig komplett. Telenor stilte spørsmål ved hjemmelsgrunnlaget for at vi kunne be om dette. Ville ikke gi oss liste over url med henvisning til taushetsplikten. Åpnet en ekstra uke av hensyn til kundene. NB kjørte diverse skript og klarte å finne nærmere brukernavn. Med disse brukernavnene som grunnlag startet vi innhøsting og Telenor sa at vi bare kunne kjøre på og ikke være redd for overbelastning. NB tok av håndbrekket og klarte å høste alle hjemmesidene på den ene uka. Det ble 5,8 mill dokumenter totalt. – Hvem vet hva dette vil bety i fremtiden, ikke bare for forskere men også for etterkommere som kanskje driver med egen slektsforskning?

6 Innsamling av norske nettsider - litt historikk
: Selektiv innhøsting av enkeltdokumenter fra nettet Domeneinnhøsting hele den norske delen av Internett, supplert med selektiv innhøsting 2009 – Selektiv innhøsting, etter informasjon i hver enkelt tilfelle NB har hatt ulike strategier opp gjennom årene. Starter med det, så kan jeg fortelle hva vi gjør i dag og til slutt hva vi arbeider med å oppnå i dag. 1: Den første innhøstingen skjedde i anledning valget i Selektiv innhøsting av nettsider, statlige sider, nettaviser og begivenheter, fram til 2004 og senere fra 2009 2: Fulldomeneinnhøsting 1-2 ganger i året siden 2005 3: I 2009 ble konsesjonskravene fra Datatilsynet innskjerpet og domeneinnhøsting stanset. Selektiv innhøsting oppskaleres og fortsetter 4: 22. juli 2011 erfarer vi at verktøyene vi bruker ikke er skalerbar til daglige innhøstinger av flere hundre nettsteder, innen rettsaken starter i april 2012 tar vi i bruk et nytt verktøy, det vi bruker i dag: Heritrix. 5: Vi kjører kun selektiv innhøsting og begivenhetsinnhøsting og tar vare på rundt 2500 domener…. Jeg sjekket i dag og det er norske domenenavn registrert i Norid, register for norske domenenavn.

7 Seleksjonskriterier for innhøsting av utvalgte nettsider
Nettsider som dokumenterer begivenheter av nasjonal betydning Stortingsvalg, kommune- og fylkestingsvalg VM i skiskyting Oslo 2016 Terrorangrepene 22. juli 2011 Rettssaken etter terrorangrepene Norsk kultur og samfunnsliv Norske nettaviser Offentlige institusjoners nettsider Bedrifter Såelv om vi har loven på vår side nå er ikke teknologien helt på plass hos Nasjonalbiblioteket. Så med dagens løsning går prosessen for innhøsting av nye domener slik: 1. Nasjonalbiblioteket selekterer et nettsted ut fra visse kriterier (Se slide) 2. Informasjonsbrev sendes (Vil se trafikk fra våre høstere, vi ignorerer robots.txt hvis de ikke er spesifisert for oss osv. 3. Innhøsting starter ELLER: Eier av nettsted ber oss høste siden deres Vi får 1-2 henvendelser i uka om arkivering nettsteder som enten skal legges ned, endres eller bli slått sammen. Det er alt fra offentlige etater, høgskoler, kommuner, til forskere og historielag. Eksempel: Numedal mållags nettside om numedalsdialekten. Mitt inntrykk er at det er et stort behov og ønske om å få bevart nettsider. – neste side!!

8 Nettsider som høstes jevnlig - eksempler
Nettaviser Kommuner, fylkeskommuner og Fylkesmannen Regjeringen.no og stortinget.no Politiske partier Utvalgte blogger Teater og scenekunst Film og musikk Universitet- og høgskoler Museer Næringsliv Nettsidene blir registrert og følger en standardprofil for innhøsting, førstesiden hver time og tre nivåer ned hver 6. time og dette kan vi forandre på etter ønske. Det er også lagt opp til at en person med ikke-teknisk bakgrunn skal kunne håndtere dette – Bra for meg

9 Pliktavleveringsloven
Revidert pliktavleveringslov fra Omfatter alle typer dokumenter uavhengig av medium Hovedkriteriet for avleveringsplikten er at et dokument, eller innholdet i et dokument, er gjort tilgjengelig for allmenheten Så var det den nye loven som kom 1. januar 2016. Pliktavleveringsloven gir på mange måter grunnlaget for å bygge opp NBs samlinger, og fordi den er medieuavhengig gir den grunnlaget for at NB blir et multimedialt bibliotek. Men som dere skjønner er dagens løsning for innhøsting av nettsider er tungvindt og det er mye som ikke blir inkludert. Og en av hovedgrunnene til revidert lov var å sikre innsamling av dokumenter på internett! Norge har hatt pliktavleveringslov helt siden Og i 1990 fikk vi en helt ny lov som trådte i kraft. Den var også mediueuavhengig og hjemlet avlevering på Internett. Men ulike instanser eksempelvis Datatilsynet har ikke vært enig i at den gamle loven hjemlet dette. Det sto ting om EDB-dokumenter som jeg ikke helt vet hva er engang…

10 De viktigste endringene er
Digitalt grunnlagsdokument skal avleveres i tillegg til selve utgivelsen UH-bibliotek og folkebibliotek får digital tilgang til pliktavlevert materiale Nasjonalbiblioteket får hjemmel til å gjøre automatisk innhøsting av norsk materiale på Internett Jeg vil si litt om den reviderte loven, fordi den gir en klar lovhjemmel for høsting av norske nettsider. Men det er også andre viktige endringer jeg vil nevne: Digitalt grunnlagsdokument skal avleveres i tillegg til selve utgivelsen – Den nye loven innebærer på mange måter et skifte fra analog avlevering og tilgang til digital avlevering og tilgang. (BOK/PDF hos utgiver) UH-bibliotek og folkebibliotek får digital tilgang til pliktavlevert materiale – Gir nye muligheter for tilgang til den norske kulturarven Og så dette med at NB får hjemmel til å gjøre automatisk innhøsting av norsk materiale på Internett. Her er det viktig å nevne at NB skal alltid som hovedregel ha de trykte/analoge dokumentene, men tilgangen for brukerne vil i mye større grad være digital.

11 Norske nettdokumenter – hva er avleveringspliktig ?
Alle dokumenter, dvs. hjemmesider og filer, som ligger på den norske delen av Internett (.no) Alle dokumenter på norsk eller dokumenter som er publisert av norsk utgiver på domener utenfor .no (.com, .org, .as etc.) Hva er avleveringspliktig etter loven og vi høster inn? Så hva er egentlig avleveringspliktig og vi høster inn? Alt som ligger på den norske delen av Internett (.no) Dokumenter på norsk eller publisert av norsk utgiver på andre domener (.com, .org osv)

12 § 4 a Innsamling av digitale dokument
Norsk materiale som vert gjort allment tilgjengeleg gjennom elektronisk kommunikasjonsnett, kan samlast inn. Digitale dokument som er verna med passord, skal ikkje samlast inn eller avleverast. Unnataket er dei tilfella der det passordverna dokumentet ville ha vore omfatta av avleveringsplikt om det vart utgjeve i eit anna format. […] Eksempler på IKKE avleveringspliktig: En bedrifts Intranet, lukkede medlemsprofiler på for eksempel datingsider, lukkede fora, inkludert lukkede grupper på facebook. Passordbeskyttede sider: Eksempler som er avleveringspliktige: medlemsblad som man må være logget inn for å se, nettaviser som er betalingsbasert, nettbaserte læreverk, åpne grupper på Facebook. Nettaviser har jo ofte +saker og disse er etter loven avleveringspliktig selv om det er passordbeskyttet: Det er fordi tjenesten kan kjøpes av hvem som helst og at saker ofte er publisert i et trykt medium også.

13 Tredelt innsamling Tverrsnittinnsamling: Hele .no og norsk materiale fra andre domener blir høstet med jevne mellomrom Selektiv innsamling: utvalgte nettsider blir høstet med kortere intervall, som eksempelvis nettaviser Begivenhetsinnsamling: utvalgte sider blir høstet med kortere intervall i sammenheng med større nasjonale hendelser Dette legger proposisjonen opp til, og departementet mener det vil sikre et godt utvalg av nettdokumenter. Det er altså de samme strategiene som tidligere, men i en større skala og hyppighet. Jeg vil her nevne at NB har tatt opp en gammel tråd og har god dialog med Riksarkivet angående dette. Vi er begge enige i at det ikke har noen hensikt med dobbeltarkivering i staten, og vi kan heller utfylle hverandre.

14 Lagring, klausulering og sletting
Klausulering eller sletting aktuelt for bl.a. private sider i sosiale medier der innholdet bare skulle gjøres kjent innenfor en lukket krets og for sider uten redaktør Krav om klausulering eller sletting av informasjon som ikke er allment kjent skal alltid tas til følge når det gjelder barn under 18 år Mulighet for å legge inn tilsvar, motinnlegg eller merknad Som hovedregel skal informasjon som er lagret i nettarkivet ikke slettes. MEN det kan knyttes tilsvar, motinnlegg eller merknader til personopplysninger. Hvis informasjon er lagt ut ved en feil kan det kreves klausulert eller slettet. – Problemstillinger som umyndige med aktiviteter på internett eller hvis kritisk informasjon er nevnt om en tredjepart. Det søkes til NB om klausulering eller sletting, og hvis det blir avslag kan det klages til en nemd.

15 Tilgang – fire nivåer Tilgang Materiale Kategori 1
Nettarkiv åpent for alle Nettsider fra offentlige institusjoner og andre sider der NB har gjort avtale om tilgjengeliggjøring Kategori 2 Nettarkiv åpent i NBs lokaler og hos universitets- og høgskolebibliotekene Sider fra nettsteder med ansvarlig redaktør for innholdet og sider som ikke inneholder personopplysninger som ikke er allment kjente Kategori 3 Nettarkiv åpent for forskere etter søknad på særskilt terminal hos NB Digitale dokument som ikke er underlagt redaktøransvar og som inneholder personopplysninger som ikke er allment kjent Kategori 4 Nettarkiv ikke tilgjengelig Klausulert nettinnhold Det ligger til grunn at nettarkivet skal kunne brukes til forskning og dokumentasjon. Departementet beskriver i lovproposisjonen fire tilgangsnivåer. Gå gjennom alle kategoriene Kategorisering av nettsider I forhold til hvilke nettsider som skal i de ulike kategoriene har Nasjonalbiblioteket har begynt å utforske muligheten av å bruke sektorkodingen som ligger i Brønnøysundregistrene for å automatisk kunne plassere nettsteder i de ulike kategoriene – da først og fremst kategori 1 – 3. Mange nettsted som ligger på .no-domenet er koblet til virksomheter i Norge. Disse kan vi eksempelvis automatisk plassere offentlige institusjoners nettsider i kategori 1. Dette jobber vi med.

16 Det foregår mye teknisk arbeid i Nettarkivet for tiden, men også noen administrative spørsmål arbeides med. Ett av temaene som er aktuelt for dagens seminar er at vi undersøker og vurderer om Norsk Nettarkiv kan ligge ute i skyen. Med tanke på datamengde vil det kanskje lønne seg å være i skyen da det vil være bedre muligheter for skalerbarhet. Fra et økonomisk ståsted koster det å bygge en datapark som skal driftes og vedlikeholdes på Nasjonalbiblioteket og det krever stor fysisk plass å romme det. Her må jeg presisere at det gjelder selve innhøsteren og prosesseringen av data. Sikringseksemplaret vil være bevart på våre servere inne i sikringsmagasinet. Det er også flere juridiske spørsmål som må besvares. Det er argumentert at dataens sikkerhet vil være sikrere i skyen, men vil det være juridisk lovlig? Og er det alternativ å ha tjenesten i utlandet eller må vi holde det innen norske grenser? – Slike spørsmål må besvares først.

17 Planer framover Tredelt innhøsting:
Fortsette selektiv innhøsting av utvalgte nettsider Fortsette innhøsting ved begivenheter av nasjonal interesse Domeneinnhøsting fra 2017 Språkrådet – pilotprosjekt rundt mållovsdata Tilgjengeliggjøring fra nettarkivet Fra 2018? Vår plan framover er å utvikle et skalerbart verktøy som kan håndtere over domener og fortsette selektiv innhøsting av utvalgte nettsider og begivenheter. Vi har et oppdrag om å gjennomføre et pilotprosjekt i samarbeid med Språkrådet for å se om nettinnhøsting kan bidra til å automatisere telling og analyse av mållovsdata på statlige nettsider. Til sist er det spørsmålet om tilgjengeliggjøring. Vi får i blant spørsmål fra nettstedseiere om de kan få tilgang til de høstede nettsidene NB har. Per i dag har vi ikke en slik tjeneste. Innholdet er bevart, men vi har ingen tjeneste for å hente det ut og fremvise – rett og slett en grushaug. Vi skal finne en løsning som gjør materialet håndterbart for oss som arbeider med det, men også for forskere og senere kanskje tilgjengelig for alle?

18 Wayback Machine web.archive.org
Det leder meg til min avslutning. I framtiden – forhåpentligvis i nær framtid – ser vi for oss å tilby en tjeneste som kalles Wayback Machine. Dette er en tjeneste som finnes hos Internet Archives som er lokalisert i San Francisco i USA. Det er ikke alle som har hørt om denne siden, så jeg synes det er så morsomt å få være den som forteller om den: Det er en uavhengig organisasjon som ikke følger så mange lover og regler og dermed høster nettsider fra hele verden – Også mange fra Norge. Jeg kan ikke si at jeg vet hvilken strategi som ligger bak høstingene, men det kan ofte gi et innblikk i hvordan norske nettsider så ut før.

19 Arkivrådets nettside er høstet 125 ganger fra mai 1998 til november 2016.
Det ligger en oversiktlig kalender her som viser når siden er innsamlet og på tidslinjen ser du også når det er høstet i et lengre perspektiv.

20 1. mai 2003 Ja.. Webdesign var kanskje ikke høyest prioritert i 2003, men her er altså Arkivrådets nettside 1. mai 2003.

21 17. mai 2013 Ti år senere, 13. mai 2003 kan vi se at dagens profil er tatt i bruk. Morsomt å se! Så gå gjerne å prøv her inne, og gled dere til den dagen Nasjonalbiblioteket får samme tjeneste for Norsk Nettarkiv.

22 Å samle scenekunst - tirsdag 9. februar
Med det sier jeg tusen takk for meg! Og still gjerne spørsmål.. Takk for meg! Å samle scenekunst - tirsdag 9. februar


Laste ned ppt "Arkivering av norske nettsider"

Liknende presentasjoner


Annonser fra Google