Utfordringer med forskningsdata i nasjonal forskningsinfrastruktur Utfordringer i klimaforskning Øystein Godøy met.no
Bakgrunn Hva er formålet med forskningsdata? Grunnlag for forskning Delresultat av forskning Hva slags data trenger klimaforskning? Operasjonelle data Forskningsprosjektdata Forskningsinfrastruktur fokuserer på data generert i forskningsprosjekter
Klimaforskning er avhengig av tilgang til både forskningsdata og operasjonelle data
Klimaforskning er avhengig av at grunnlagsdata deles og er tilgjengelig
Det krever at dataleverandører krediteres og siteres på skikkelig vis
Hva er skikkelig vis?
Forskningsdata varierer i natur In situ observasjoner punkt, profil, trajektorie, ... Fjernmålte data gitterorienterte Simuleringsresultater Analyser
Utfordringer med lagring varierer Datasettene er av ulik størrelse Datasettene har ulik detaljeringsgrad Dette medfører ulike utfordringer knyttet til lagring og arkivering store homogene datasett små heterogene datasett
Ytre rammebetingelser Krav til arkivering av datasett mtp etterprøving av resultater Krav til samarbeid på tvers av klimaforskningsmiljøer f.eks. IPCC Krav til samarbeid på tvers av fagdisipliner f.eks. IPY, EU, ...
Konsekvenser for forskere Må dele data innenfor miljøer, disipliner og på tvers av miljøer og disipliner Må langtidslagre data i tidsrammer fra 10 år og oppover Begge deler krever at forskere dokumenterer data prosedyrer og metodikk programvare
Dokumentasjon Metadata Verktøy Utfordringer For gjenfinning For bruk av datasettene Verktøy Hva er brukt for å lage datasettene? Utfordringer Forståelse av nytteverdi Standardisering
Tilgang til data Utveksling av metadata mellom katalogsystemer sikrer kunnskap om hvilke data som er tilgjengelig hvor de er og hva som kan gjøres med dem Metadata bør peke på data som er tilgjengelig Standardisering av formater/grensesnitt sikrer effektiv utnyttelse av dataene Tilgang til data fra tungregneressurser
Utfordringer knyttet til kreditering Incitamenter til å dele data mangler Tellekantsystemet mangler incitament til å dele data før eventuell publikasjon Datasett som åndsverk? Hvem bestemmer hva som skal måles, hvor og hvorfor? Hvilket arbeid og hvilke vurderinger ligger bak? Spesielt viktig i forbindelse med vitenskaplige datasett
Deling og arkivering av data Hva er lagring og hva er arkivering? En del datasett er veldig store og medfører store kostnader Lagring av data over lang tid Store datamengder skal lagres i mer enn 10 år Hvordan vedlikeholdes data og programvare som sikrer nytteverdi av lagrede data over tid? Hvilke datalager har en tidsramme på mer enn 10 år?
Forvaltning av data Kreditere dataleverandører Forvalte data i tråd med bruks- og distribusjonsvilkår knyttet til hvert datasett Lagre flere versjoner av et datasett Unike og vedvarende referanser til datasett Inkludert versjon av datasettet Lagre informasjon om måten data er laget på Lagre informasjon om verktøy som er benyttet
Oppsummering Utfordringer er knyttet til teknologi og rammeverk tilgjengelig infrastruktur kultur i forskermiljøet