Presentasjon lastes. Vennligst vent

Presentasjon lastes. Vennligst vent

Fagdag Kulturrådet, 18.06.2014 Håvard Lundberg, Student UiO/Vrije Universiteit Amsterdam KONVERTERING OG BRUK AV 1910 FOLKETELLINGEN.

Liknende presentasjoner


Presentasjon om: "Fagdag Kulturrådet, 18.06.2014 Håvard Lundberg, Student UiO/Vrije Universiteit Amsterdam KONVERTERING OG BRUK AV 1910 FOLKETELLINGEN."— Utskrift av presentasjonen:

1 Fagdag Kulturrådet, Håvard Lundberg, Student UiO/Vrije Universiteit Amsterdam KONVERTERING OG BRUK AV 1910 FOLKETELLINGEN

2 AGENDA Konvertering av 1910 folketellingen til RDF Demonstrasjon av enkel prototype

3

4 MODELL FOR FT1910 Building Apartment Person Address, Building type, Number of floors, Municipality, Geo Lat/Lng … Floor, Number of rooms, Number of kitchen, Rent … Name, Gender, Birth date, Birth place, Marital status, Occupation …

5 DATAOMFANG – 3 FYLKER FOLKETELLING 1910 Entity typeNumber of entities Triples Average triples Apartment11,403153,45313 Building46,416808,18717 Person289,0454,607,95016 Generated URIs of attributes-371,462- Census ontology-392- Total346,8645,941,05217

6 BRUK AV EKSISTERENDE VOKABULARER FOAF: BIO: ResumeRDF: Building and Room: GEO: SKOS: Nye som burde brukes (fremfor ny ontologi): Europeana / Norvegiana Dublin Core

7 FÅ VERDIER FOREKOMMER HYPPIG

8 URI GENERATION EntityTypeGeneration strategy Building owl:ClassUnique ID in dataset used Apartment owl:ClassUnique ID in dataset used Person foaf:PersonUnique ID in dataset used Municipality skos:ConceptMapping with external dataset Occupation skos:ConceptMapping with external dataset Building type skos:ConceptNormalization and URL encoding Family role skos:ConceptNormalization and URL encoding Marital status skos:ConceptNormalization and URL encoding Religion skos:ConceptNormalization and URL encoding Birth place skos:ConceptNormalization and URL encoding Gender foaf:GenderNormalization and URL encoding

9 KOBLING TIL ANDRE DATASETT * White bubbles indicate "offline" datasets, not available in the LOD-cloud.

10 LESSONS LEARNED Scarce data to link to Concept drift Simple normalization methods suffice Additional datasets can increase data quality Existing vocabularies not sufficient Conversion to LOD can increase data quality Case-specific conversion scripts is time consuming, generic tools needed Techniques needed to propose and validate links

11 FT 1910: KJENTE NAVN Å KOBLE TIL

12 MEN HVA MED OLA NORMANN? Vanskelig å finne eksterne kilder Men, noen aktuelle kilder: Panteregister Pantebok Kirkebok Matrikkel

13 ENKEL PROTOTYPE

14 KILDER BRUKT Folketellinger: Folketelling 1801 Folketelling 1865 Folketelling 1900 Folketelling 1910 Tinglysningsdokumenter: Pantebøker Panteregister Matrikkel 1886 Kirkebok (dåp, konfirmasjon, vielse) Digitalt Museum / Kulturminnesøk (JSON) GeoNames (JSON)

15

16

17

18

19 VIDERE ARBEID Konvertere hele FT1910 til RDF Utvikle ontologier for vanlige attributter: familiestilling, religion, yrke (HISCO/NAPP), bygningstype etc Utvikle ny modell som kan brukes til å koble ulike (historiske) datasett sammen (hvem, hva, hvor, når)? Crowdsourcing verktøy for å opprette koblinger mellom autoriteter?

20 TAKK FOR OPPMERKSOMHETEN! Håvard Lundberg twitter.com/havard


Laste ned ppt "Fagdag Kulturrådet, 18.06.2014 Håvard Lundberg, Student UiO/Vrije Universiteit Amsterdam KONVERTERING OG BRUK AV 1910 FOLKETELLINGEN."

Liknende presentasjoner


Annonser fra Google