Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

OpenRefine. Hvorfor vaske og rydde?  All metadata er uryddig Konverteringer Duplikater Inkonsistent bruk av navn Datoformateringer Flere verdier i samme.

Liknende presentasjoner


Presentasjon om: "OpenRefine. Hvorfor vaske og rydde?  All metadata er uryddig Konverteringer Duplikater Inkonsistent bruk av navn Datoformateringer Flere verdier i samme."— Utskrift av presentasjonen:

1 OpenRefine

2 Hvorfor vaske og rydde?  All metadata er uryddig Konverteringer Duplikater Inkonsistent bruk av navn Datoformateringer Flere verdier i samme felt Felt med «NULL»-verdier …  Må ta utgangspunkt i at våre data skal gjenbrukes av andre Gjør det enkelt for andre å ta i bruk dine data Troverdighet  Publisere dårlige data er mindre verdifullt

3 Hva er OpenRefine  Interactive data transformation tool (IDT) Visualisering og manipulering av data  Gratis og open-source Opprinnelig Freebase Gridworks Kjøpt av Google og ble GoogleRefine Frigjort av Google i 2012 og heter nå OpenRefine

4 Hva kan openRefine  Dataprofilering Analyse Oppdagelse  Vaske data  Avstemming Koble egne data mot andres  Lage RDF

5 Når brukes OpenRefine

6 Hvorfor bruke OpenRefine  Visuelt  Enkel inngang til datavask og produksjon av RDF Domeneeksperter Fagpersoner uten it-kunnskaper  Slippe å lage egne script Eller bedre: slippe at noen andre må lage et script for deg

7 Fra

8 Til

9 DEMO

10 Dataprofilering Finne duplikater

11 Dataprofilering Avdekke innholdet ved fasettering

12 Datavask Gjøre endringer i en delmengde av datasettet ved hjelp av fasettering Eksempel: slette verdier med liten mening fra kolonnen

13 Datavask Normalisering av data ved hjelp av «clustering» Clustering finner likelydende data i en kolonne for eksempel tilnærmet like navn. Semi-automatisk konsolidering

14 Datavask Splitte felt med flere verdier

15 Angi hvilket tegn som er brukt for å separere verdiene

16 Datavask Splitte felt med flere verdier Resultat Verdiene (emneord) er splittet og fordelt på flere rader som logisk tilhører posten.

17 Datavask Splitte felt med flere verdier til kolonner Feltene inneholder både start og sluttdato og kan splittes til to kolonner.

18 Datavask Splitte felt med flere verdier til kolonner Angi hvilket tegn som er brukt for å separere verdiene.

19 Datavask Splitte felt med flere verdier til kolonner resultat

20 Datavask Endre datoformat Har format «start= » men skal transformeres til « ».

21 Datavask Endre datoformat Fjerne «Start=» ved hjelp av uttrykk. Det er mulig å bruke språket «GREL» som minner om RegEX. Det er enkelt å lære noen standard uttrykk som kan gjenbrukes.

22 Datavask Endre datoformat Endrer datoformat ved hjelp av uttrykk. Det er mulig å bruke språket «GREL» som minner om RegEX. Det er enkelt å lære noen standard uttrykk som kan gjenbrukes.

23 Datavask Endre datoformat resultat Endrer datoformat ved hjelp av uttrykk. Det er mulig å bruke språket «GREL» som minner om RegEX. Det er enkelt å lære noen standard uttrykk som kan gjenbrukes.

24 Berike data (reconsile) Spørringer Sparql-endpoints må legges inn

25 Berike data (reconsile) Spørringer Sparql-endpoints må legges inn. Eksempel DPBEDIA

26 Berike data (reconsile) Spørringer Start reconsile

27 Berike data (reconsile) Spørringer Velg sparq-endpoint og type entitet som samsvarer med dine data. På forhånd har openRefine utført testspørringer med en liten mengde data og kommer med forslag til aktuelle entiteter.

28 Berike data (reconsile) Spørringer resultat Alle stedsnavn har fått en URI fra DBPEDIA.

29 Berike data (reconsile) Spørringer resultat Alle stedsnavn har fått en URI fra DBPEDIA.

30 Konvertering til RDF RDF skjelett Edit RDF Skeleton.

31 Konvertering til RDF RDF-skjelett Velg base URI. Den delen av URI som kommer før unik identifikator.

32 Konvertering til RDF RDF-skjelett Legg inn ønsket vokabular ved å skrive inn prefikset (dc for dublin core). OpenRefine finner selv URI for valgt vokabular.

33 Konvertering til RDF RDF-skjelett Finn ønskede predikater (egenskaper).

34 Konvertering til RDF RDF-skjelett resultat Utvalg

35 Konvertering til RDF RDF-skjelett resultat Forhåndsvisning formatert som turtle

36 Konvertering til RDF RDF-skjelett resultat Eksport til «RDF/XML» eller «RDF as Turtle»

37 Konvertering til RDF RDF-skjelett resultat Resultat i «RDF/XML»

38 Open Refine Lenker til OpenRefine og RDF-utvidelse  


Laste ned ppt "OpenRefine. Hvorfor vaske og rydde?  All metadata er uryddig Konverteringer Duplikater Inkonsistent bruk av navn Datoformateringer Flere verdier i samme."

Liknende presentasjoner


Annonser fra Google