Laste ned presentasjonen
Presentasjon lastes. Vennligst vent
PublisertHallgeir Markussen Endret for 7 år siden
1
OpenRefine
2
Hvorfor vaske og rydde? All metadata er uryddig Konverteringer Duplikater Inkonsistent bruk av navn Datoformateringer Flere verdier i samme felt Felt med «NULL»-verdier … Må ta utgangspunkt i at våre data skal gjenbrukes av andre Gjør det enkelt for andre å ta i bruk dine data Troverdighet Publisere dårlige data er mindre verdifullt
3
Hva er OpenRefine Interactive data transformation tool (IDT) Visualisering og manipulering av data Gratis og open-source Opprinnelig Freebase Gridworks Kjøpt av Google og ble GoogleRefine Frigjort av Google i 2012 og heter nå OpenRefine
4
Hva kan openRefine Dataprofilering Analyse Oppdagelse Vaske data Avstemming Koble egne data mot andres Lage RDF
5
Når brukes OpenRefine
6
Hvorfor bruke OpenRefine Visuelt Enkel inngang til datavask og produksjon av RDF Domeneeksperter Fagpersoner uten it-kunnskaper Slippe å lage egne script Eller bedre: slippe at noen andre må lage et script for deg
7
Fra
8
Til
9
DEMO
10
Dataprofilering Finne duplikater
11
Dataprofilering Avdekke innholdet ved fasettering
12
Datavask Gjøre endringer i en delmengde av datasettet ved hjelp av fasettering Eksempel: slette verdier med liten mening fra kolonnen
13
Datavask Normalisering av data ved hjelp av «clustering» Clustering finner likelydende data i en kolonne for eksempel tilnærmet like navn. Semi-automatisk konsolidering
14
Datavask Splitte felt med flere verdier
15
Angi hvilket tegn som er brukt for å separere verdiene
16
Datavask Splitte felt med flere verdier Resultat Verdiene (emneord) er splittet og fordelt på flere rader som logisk tilhører posten.
17
Datavask Splitte felt med flere verdier til kolonner Feltene inneholder både start og sluttdato og kan splittes til to kolonner.
18
Datavask Splitte felt med flere verdier til kolonner Angi hvilket tegn som er brukt for å separere verdiene.
19
Datavask Splitte felt med flere verdier til kolonner resultat
20
Datavask Endre datoformat Har format «start=1899-12-31» men skal transformeres til «31.12.1899».
21
Datavask Endre datoformat Fjerne «Start=» ved hjelp av uttrykk. Det er mulig å bruke språket «GREL» som minner om RegEX. Det er enkelt å lære noen standard uttrykk som kan gjenbrukes.
22
Datavask Endre datoformat Endrer datoformat ved hjelp av uttrykk. Det er mulig å bruke språket «GREL» som minner om RegEX. Det er enkelt å lære noen standard uttrykk som kan gjenbrukes.
23
Datavask Endre datoformat resultat Endrer datoformat ved hjelp av uttrykk. Det er mulig å bruke språket «GREL» som minner om RegEX. Det er enkelt å lære noen standard uttrykk som kan gjenbrukes.
24
Berike data (reconsile) Spørringer Sparql-endpoints må legges inn
25
Berike data (reconsile) Spørringer Sparql-endpoints må legges inn. Eksempel DPBEDIA
26
Berike data (reconsile) Spørringer Start reconsile
27
Berike data (reconsile) Spørringer Velg sparq-endpoint og type entitet som samsvarer med dine data. På forhånd har openRefine utført testspørringer med en liten mengde data og kommer med forslag til aktuelle entiteter.
28
Berike data (reconsile) Spørringer resultat Alle stedsnavn har fått en URI fra DBPEDIA.
29
Berike data (reconsile) Spørringer resultat Alle stedsnavn har fått en URI fra DBPEDIA.
30
Konvertering til RDF RDF skjelett Edit RDF Skeleton.
31
Konvertering til RDF RDF-skjelett Velg base URI. Den delen av URI som kommer før unik identifikator.
32
Konvertering til RDF RDF-skjelett Legg inn ønsket vokabular ved å skrive inn prefikset (dc for dublin core). OpenRefine finner selv URI for valgt vokabular.
33
Konvertering til RDF RDF-skjelett Finn ønskede predikater (egenskaper).
34
Konvertering til RDF RDF-skjelett resultat Utvalg
35
Konvertering til RDF RDF-skjelett resultat Forhåndsvisning formatert som turtle
36
Konvertering til RDF RDF-skjelett resultat Eksport til «RDF/XML» eller «RDF as Turtle»
37
Konvertering til RDF RDF-skjelett resultat Resultat i «RDF/XML»
38
Open Refine Lenker til OpenRefine og RDF-utvidelse http://openrefine.org/ http://refine.deri.ie/
Liknende presentasjoner
© 2024 SlidePlayer.no Inc.
All rights reserved.