Del og bruk forskningsdata! Konferanse 26. april 2016, Forskningsrådet
Vårt ansvar er å lære fra data for å drive vitenskapen fremover og skape verdier Professor Arnoldo Frigessi, UiO
Value from sharing data Arnoldo Frigessi Del og bruk forskningsdata! NFR April 2016
Forskningsdata? Data produced by research by others and used by research (re-use)
Forskningsdata Using Telenor’s mobile phone data to study the dynamics of infectious diseases in Bangladesh Discover structure in DNB’s network of financial transactions to detect white-washing of money Predict the efficacy of a cancer therapy based on the genomics of a patient.
Forskningsdata Using Telenor’s mobile phone data to study the dynamics of infectious diseases in Bangladesh Discover structure in DNB’s network of financial transactions to detect white-washing of money Predict the efficacy of a cancer therapy based on the genomics of a patient. Sharing data Telenor, Folkehelsa & UiO DNB, UiO & NR OUS, “world” & UiO
Forskningsdata Using Telenor’s mobile phone data to study the dynamics of infectious diseases in Bangladesh Discover structure in DNB’s network of financial transactions to detect white-washing of money Predict the efficacy of a cancer therapy based on the genomics of a patient. Value €Money €Lives saved €Time saved €Progress €…
Quantity vs. Quality Crowdsourcing Data & models Nowcasting Data integration Public data: where is the value then? WHAT IS GOING ON ?
Quantity vs. Quality WHAT IS GOING ON ?
IBM Proceedings of the Canadian parliament: 3 millions sentences carefully translated into French and English Candide learns how English and French are related, using some grammar and linguistics. A revolution: an algorithm that learns how to translate!
Worked well Patent … but never became popular. It could not be improved further!
100 billion words are translated a day
Takes every translation it can find on the web. 100 billions English sentences Very unevenly translated! Does not apply any grammatical rule, no models, only statistical analysis. It works way better than anything else. Quality less important (but speed, convenience, prize matter) Not because of better quality of the data. Just because of size. It accepts bad, messy data, not made for this purpose. Trading quantity with quality
It improves all the time. Volunteers! Crowdsourcing
Quantity vs. Quality Using us to create value
Not just data. Models are needed.
MODEL-BASED STATISTICS
Unemployment rate The main source of data is quarterly sample surveys.
TRACKING UNEMPLOYMENT USING MOBILE PHONE DATA Toole, J. L., Lin, Y. R., Muehlegger, E., Shoag, D., González, M. C., & Lazer, D. Journal of The Royal Society Interface, 2015 Real time estimate of changes in unemployment, at arbitrarily fine spatial scale
Factory closes down
Existing data Learn to recognise patterns (biomarker) which are linked to event of interest (disease)
Prediction Based on mobile phones Official rates
Forecast time NOW Nowcast! Hindcast a statistical calculation determining probable present conditions future past
INFO DATA Distance of data from information STATISTICAL MODELS NEEDED
Data integration
PAN CANCER STUDIES The Cancer Genome Atlas (TCGA) started in 2006: profiling 10,000 tumour samples from 20 tumour types. Multiple genomic measures Many labs, different technologies Public data, for you, for free! Understanding molecular alterations in cancer.
Ciriello et al Nature Gen cancer diseases Some tissue dependent Some general. Value: Drugs can be used across cancers
Quantity vs. Quality Crowdsourcing Just data vs. Data & models Nowcasting Data integration Public data: where is the value then?
MODEL-BASED STATISTICS Free data Analytic engine makes the difference
Radical transparency Open data Free data for progress social welfare a better world
Radical transparency Open data Free data for progress social welfare a better world Data driven intensive business Private data Expensive data for profit corporations a better market, a better world
Data intensive business, like Google and Facebook... make money better than everybody else know how to spend it in the interest of humanity Offer fundamental services for free, to get more proprietary data Advertising as main source of profit
All this appears to be very fragile. Much data is underutilised: Who carries the responsibility? We must invent a new type of data intensive business, compatible with free data. A piece of our welfare?
The sharing economy We have started to do our homework!
Registerdatas betydning for å skape bedre folkehelse Direktør Camilla Stoltenberg, Folkehelseinstituttet
Forskningsrådets konferanse Registerdatas betydning for å skape bedre folkehelse 26. april 2016 Camilla Stoltenberg Direktør, Folkehelseinstituttet Professor II, UiB
Mål for folkehelsearbeidet i Norge Flere leveår Norge skal være blant de tre landene i verden som har høyest levealder Bedre leveår Befolkningen skal oppleve flere leveår med god helse og trivsel Jevnere kår Vi skal skape et samfunn som fremmer helse i hele befolkningen og reduserer sosiale helseforskjeller
Hva slags kunnskap trenger vi? Forekomst av risikofaktorer og sykdom Årsaker og konsekvenser Effekten av tiltak
Registre Hva slags data har vi? Infrastruktur for kunnskap Kliniske data Helse- undersøkelser Biobank
DELTAGERE
Helse- og kvalitetsregistre og andre datasamlinger 16 nasjonale helseregistre (tidligere sentrale helseregistre) Mer enn 50 nasjonale medisinske kvalitetsregistre Fagsystemet KUHR (Kontroll og utbetaling av helserefusjoner, HELFO) Forløpsdatabasen trygd (FD-trygd) Sosioøkonomiske og økonomiske individdata i SSB (inntekt, utdanning, sysselsetting, fødeland m.m.) Folkeregisteret
Registre under utredning LOVFORSLAG TIL STORTINGET Kommunalt pasient og brukerregister (KPR) – Basert på KUHR og IPLOS Nasjonalt legemiddelregister – Utvidet reseptregister Register for psykiske lidelser og rus Kvalitetsregistre
Helseregistre – 10 sterke sider 1.Beste metode: når eksperimenter ikke nytter 2.Skånsomme: Observere – ikke intervenere 3.Omfatter alle: Unngå skjevheter - Størst mulig antall 4.Personvernvennlige 5.Langsiktige og livsløpsorienterte 6.Raske svar 7.Industriuavhengige 8.Virkelighetsnære: ’Post-marketing’ studier 9.Betjener mange formål 10. Kostnadseffektive
Helseregistre – 10 svakheter 1.Innbyggerne har for lite nytte av registrene 2.De som har meldt inn data får for lite tilbake 3.De teknologiske løsningene er umoderne og registrene er ikke tilstrekkelig integrert i systemene i helsetjenestene 4.Lovverket er komplisert og utilstrekkelig 5.Saksbehandlingen er omfattende, langsom, kostbar og uforutsigbar 6.Organiseringen er fragmentert 7.Styringen er bedre, men ikke god nok 8.Legitimiteten er ikke sterk nok 9.Registre oppfattes som en trussel mot personvernet 10. Det er for lite analyse, publisering og formidling
Resultater fødsler fra før under og etter pandemien Ca gravide kvinner vaksinert Gravide som var vaksinert hadde IKKE økt risiko for dødfødsel – adjusted hazard ratio, 0.88; 95% CI, Gravide som fikk influensa (KUHR) under pandemien hadde nesten doblet risiko for dødfødsel – adjusted hazard ratio, 1.91; 95% CI, Gravide som ble vaksinert hadde lavere risiko for influensa (KUHR) – adjusted hazard ratio, 0.30; 95% confidence interval,
DSF - Folkeregisteret Studiepopulasjon Sivilstatus Meldesystemet for smittsomme sykdommer (MSIS) Positive H1N1 tester Dato for symptomdebut Vaksinasjonsregister et (SYSVAK) Vaksinasjonsstatus Dato for vaksinasjon Reseptregisteret (NorPD) Antivirale medisiner Andre medisiner Statistisk Sentralbyrå (SSB) Inntekt Utdannelse HELFO-data (KUHR ) Fastlege/legevakt Influensa Andre diagnoser 52 Norsk Pasientregister (NPR) Diagnoser m/dato Fødselsregisteret (MFR) Fødselsutfall Kronisk sykdom og tilstander hos mor Perinatale diagnoser
MAY 7: DSF: Data application sent MAY REK application sent JUNE 26 REK approval received JULY 7 REK notification sent JUNE 10 DT application sent JULY 8 DSF datafile received SEPT 29 REK notification approval received JULY 8 SSB data application sent DEC 1 SSB datafile prepared for linkage with NorPD JUNE 22 SYSVAK datafile received JULY 13 NPR datafile received OCT 5 MSIS data received JUNE 14 NPR Data application sent JULY 2-9 NPR meeting & correspondance about linkage procedure JUNE 11- MSIS Letter to HOD sent SEPT 21 MSIS DT approval withdrawn SEPT 21 MSIS HOD approves H1N1 as group A disease OCT 20 Preliminary DATA File linked MFR,DSF,MSIS, SYSVAK,NPR Del 1 Svangerskap: Tidslinje for tillatelser og tilgang til de ulike registrene JULY 23 - MSIS Justice Dept sends letter to HOD DT application sent NOV 5 DT final approval received Feb 11. NorPD and SSB linked OCT DT meeting & Correspondance about linkage AUG - SEPT REK correspondance Jan 2011 Updated Preliminary DATA file linked MFR,DSF,MSIS, SYSVAK,NPR Jan Updated MFR data received JUNE MFR data received DEC 8 SYSVAK update received 2010 MayJuneJulyAugustSeptOctDec mars 2011
Fem forslag E-helse: Én innbygger – én journal Ett helsedatasystem - mange formål Lovverk: Enklere regulering – data i sann tid Datatilsynet: Innebygget personvern – tilsyn og innsyn Forskning: Fra datainnsamling til analyse Høyere kvalitet og større nytte for alle!
Bedre tilgang til helsedata «Lovverket er ikke tilpasset dagens behov, og mulighetene for trygg gjenbruk av data til forskning og annen analyse er begrensede»
20. april 2016
Erfaring med datadeling Helseregisterloven 2002 MoBa – den norske mor og barnundersøkelsen Autismestudien
VI MÅ DELE! Deling må reguleres godt Det må investeres i deling Deling fremmer åpenhet, kvalitet, produksjon, relevans, tidsmessighet, beredskap, innovasjon…
?? ?
Takk Camilla Stoltenberg Direktør, Folkehelseinstituttet
Hvordan gjenbruk av forskningsdata kan bidra til klimatilpasninger Inger Hanssen-Bauer, Meteorologisk institutt
Norsk klimaservicesenter er et samarbeidsprosjekt mellom: Hvordan gjenbruk av forskningsdata kan bidra til klimatilpasninger Inger Hanssen-Bauer, Meteorologisk institutt/Norsk klimaservicesenter Presentasjon i NFR, Norsk klimaservicesenter
Oversikt: METs erfaringer med frie data KSS’ nytte av deling av forskningsdata KSS’ bidrag til deling av forskningsdata Hovedbudskap Norsk klimaservicesenter Norsk klimaservicesenter
Erfaringer fra. Frie data: Styrevedtak i 2005 –Historiske data (E-klima) fra 2006 –Værvarsling (yr.no), forskningsdata (ADC) fra 2007 Begrunnelse: –Skattebetalerne har betalt –Data «brukes ikke opp» Motforestillinger: –Bidrar til feilinformasjon –Undergraver vi vår egen virksomhet –Ødelegger muligheter i det private næringsliv Frie data - erfaringerNytte for KSSNytte for KSS-brukereHovedbudskap Norsk klimaservicesenter
Bidrar vi til feilinformasjon? Det vil alltid være feil i målinger, observasjoner og modeller Fri dataflyt gir raskere tilbakemeldinger om feil –Tusenvis av «frivillige» datakontrollører –Grunnlag for korrigering av modellfeil Frie data - erfaringerNytte for KSSNytte for KSS-brukereHovedbudskap Norsk klimaservicesenter
Undergraver vi vår egen virksomhet? Tilbakemeldinger har gitt godt grunnlag for forbedringer av data og modeller Vi blir bedre Mindre jobb med å administrere, behandle og fakturere forespørsler Åpenhet gir tillit Mer attraktive samarbeidspartnere Frie data - erfaringerNytte for KSSNytte for KSS-brukereHovedbudskap Norsk klimaservicesenter
Ødelegger vi for det private næringsliv? Det blir vanskeligere å selge de produktene vi tilbyr gratis Men våre produkter er gratis input også til kommersielle virksomheter Noen muligheter forsvinner – andre skapes… Frie data - erfaringerNytte for KSSNytte for KSS-brukereHovedbudskap Norsk klimaservicesenter
Ødelegger vi for det private næringsliv? La kreativiteten blomstre! Frie data - erfaringerNytte for KSSNytte for KSS-brukereHovedbudskap Norsk klimaservicesenter Kunnskap Data
KSS’ behov for forskningsdata Visjon: «Norsk klimaservicesenter skal gi beslutnings-grunnlag for klimatilpasning i Norge» Gi et felles referansegrunnlag for ulike fagfelt og for vurdering av nye forskningsresultater Gi informasjon om dagens klima og sann- synlige klimaendringer, inkl. usikkerhet Frie data - erfaringerNytte for KSSNytte for KSS-brukereHovedbudskap Norsk klimaservicesenter
Viktige input-data for KSS Historiske data om klimasystemet – Målinger fra MET, NVE, Statens kartverk, HI Modelldata fra globale klimamodeller – Tilgjengelige fra IPCC («CMIP5») Modelldata fra regionale klimamodeller – Tilgjengelige fra EuroCORDEX Frie data - erfaringerNytte for KSSNytte for KSS-brukereHovedbudskap Norsk klimaservicesenter
Gir grunnlag for Vurdering av modell vs. virkelig klima Vurdering av usikkerhet Frie data - erfaringerNytte for KSSNytte for KSS-brukereHovedbudskap Norsk klimaservicesenter
KSS’ leveranser av forskningsdata Alle KSS-produkter er fritt tilgjengelige Basert på EuroCORDEX produserer vi mer finskala meteorologiske og hydrologiske framskrivninger Nedlastningsløsning for ulike brukere Dette vil gi et godt grunnlag for forskning på virkninger av klimaendringer Frie data - erfaringerNytte for KSSNytte for KSS-brukereHovedbudskap Norsk klimaservicesenter
KSS’ leveranser av forskningsdata Utfordring: Finne gode løsninger for forskjellige brukere Det kan bli mye data… Frie data - erfaringerNytte for KSSNytte for KSS-brukereHovedbudskap Norsk klimaservicesenter Kommunikasjon med brukere er viktig
Fra KSS-ståsted: KSS ville ha liten verdi uten fri deling av forskningsdata Våre klimatjenester ville reduseres betydelig – både tjenester til offentlige og private aktører Erfaringer tilsier at deling av forskningsdata gir «vinn-vinn» Frie data - erfaringerNytte for KSSNytte for KSS-brukereHovedbudskap Norsk klimaservicesenter
Norsk klimaservicesenter klimaservicesenter.no Takk for oppmerksomheten!