Laste ned presentasjonen
Presentasjon lastes. Vennligst vent
PublisertMari Magnussen Endret for 7 år siden
1
Digital eksamen Et pedagogisk prosjekt Per Grøttum Seksjon for medisinsk informatikk
2
Disposisjon Validitet og Reliabilitet Spørmålstyper og skrivekunst Digital eksamen fra ide til gjennomføring
3
Validitet Måler testen det den er ment å måle?
4
Faglig bredde Validitet
5
Faglig bredde Kognitiv dybde Validitet
6
Faglig bredde Kognitiv dybde Huske Forstå Anvende Analysere Evaluere Skape Validitet
7
Faglig bredde Kognitiv dybde Validitet Læringsmål Huske Forstå Anvende Analysere Evaluere Skape
8
Kognitiv dybde Validitet Læringsmål Dårlig løsning: tradisjonell essay-eksamen Faglig bredde Huske Forstå Anvende Analysere Evaluere Skape
9
Faglig bredde Kognitiv dybde Validitet Læringsmål Dårlig løsning: faglig ensidig Huske Forstå Anvende Analysere Evaluere Skape
10
Faglig bredde Kognitiv dybde Validitet Læringsmål Dårlig løsning: kognitivt ensidig Huske Forstå Anvende Analysere Evaluere Skape
11
Faglig bredde Kognitiv dybde Validitet Læringsmål Dårlig løsning: utenfor læringsmål Huske Forstå Anvende Analysere Evaluere Skape
12
Validitet Faglig bredde Kognitiv dybde Læringsmål Frittstående spørsmål Huske Forstå Anvende Analysere Evaluere Skape
13
Validitet Faglig bredde Kognitiv dybde Læringsmål Pasienten er en 73 år gammel kvinne som kommer til kontroll fordi hun har fått langtids oksygenbehandling de siste årene.... Hva tror du kan være de viktigste forklaringene på de reduserte spirometriverdiene? Du føler at du ikke kommer til bunns i diagnostikken av denne pasienten. Derfor undersøker du... Hvilke andre tilstander kan være forklaringen på respirasjonssvikten? Stier/sekvenser
14
Validitet Faglig bredde Omfang Kognitiv dybde Omfang – en tredje dimensjon (“blue-printing”)
15
Validitet Klinisk kompetanse – multidimensjonal validitet Millers pyramide
16
Reliabilitet Er resultatet (fortolkingen) stabilt og konsistent?
17
Spørsmål q Kandidat fortolker k Forfatter fortolker f Sensurveiledning Svar Sensor fortolker s Karakter Feilkilder - essay
18
Reliabilitet - sensur Eksternsensor - LærerA = 13.3% Eksternsensor - LærerB = 3.3% Eksternsensor - LærerC = -1.7% Inter-rater bias: Denne differansen i sensur fordrer rekalibrering av sensor A’s nivåkrav. Spørsmål q Kandidat fortolker k Forfatter fortolker f Sensurveiledning Svar 2 sensorer fortolker s Karakter
19
Spørsmål q Kandidat fortolker k Forfatter fortolker f Svaralternativ SvarKarakter Feilkilder - avkryssingsspørsmål
20
Delspørsmål 2: Er denne pasientens CHA 2 DS 2 score 5 (2 for hjerneslag, 1 for alder, 1 for kvinne, 1 for karsykdom)? Ja/Nei Reliabilitet - avkryssingsspørsmål Item analysis: Spørsmål q Kandidat fortolker k Forfatter fortolker f Svaralternativ SvarKarakter
21
Spørsmålstyper og skrivekunst
22
Spørsmålstyper Essay (fritekst) Multiple choice (ett svar) Multiple response (flere svar) Pull down (system av multiple choice)
23
Spørsmålstyper Personlig oppfatning – usubstansiert: Det meste kan spørres om med alle spørsmålstyper. Unntaket er de mer samfunnsvitenskapelige fagene som ofte trenger essay. Eksempel: atferdsfag – “når det er sagt eller skrevet, er det åpenbart.” Utrenete forfattere finner det lettest å bruke essay til spørsmål på høyere kognitive nivå. Multiple choice er logistisk mest fordelaktig når det gjelder gjenbruk og retting.
24
Skrivekunst Svaralternativene ved multiple choice rangeringsspørsmål (single best answer) – “Hvilken diagnose er mest sannsynlig?” – må ligge på samme kontinuum Hvilken av de følgende påstander er sann om pseudogikt? A.Det forekommer hyppig hos kvinner. B.Det er sjelden assosiert med akutte leddsmerter C.Det kan knyttes til kondrokalsinose D.Det er klart arvelig i de fleste tilfelle E.Det responderer godt på behandling med allopurinol Kjønn A Beh E Arv D Sammenheng Sant Galt
25
Skrivekunst Svaralternativene ved multiple choice rangeringsspørsmål (single best answer) – “Hvilken diagnose er mest sannsynlig?” – må ha rimelig distanse mellom det riktige alternativet og de andre (distraktorene): B A C D F Minst sannsynlig Mest sannsynlig
26
Skrivekunst Svaralternativene ved multiple choice rangeringsspørsmål (single best answer) – “Hvilken diagnose er mest sannsynlig?” – må ha rimelig distanse mellom det riktige alternativet og de andre (distraktorene): B A C D F Minst sannsynlig Mest sannsynlig Åpenbart feil svar: Hva er viktigst for god prognose....? Under Sydenturen postoperativt må han nyte spesielt gode rødviner
27
Unngå Spørsmål av typen Hvilke av de følgende utsagn er IKKE riktig. Alternativene er sjelden langs samme dimensjon. Sant/galt spørsmål. Vurderingsspørsmål – som ligger høyt på den taxonomiske skala og som vi ønsker mye av - har sjelden så klare utfall. Sant/galt spørsmål degenerer ofte til rene faktaspørsmål for at de skal bli entydige. Skrivekunst
28
Forståelse av relative begrep Skrivekunst
29
Hva er de viktigste mulige diagnoser hos denne pasienten? ABCDEABCDE Relative begrep i Multiple response spørsmål må kvantifiseres: B A C D E Minst viktig Mest viktig Skrivekunst
30
Hva er de 2 viktigste mulige diagnoser hos denne pasienten? ABCDEABCDE Relative begrep i Multiple response spørsmål må kvantifiseres: B A C D E Minst viktig Mest viktig Skrivekunst
31
Svaret på ett spørsmål ligger implisitt i teksten til påfølgende spørsmål: Spørsmål 4 Hva slags behandling vil du foreslå? Spørsmål 5 Hva består den operative behandlingen i? Skrivekunst
32
Digital eksamen på med.fak. Fra ide til gjennomføring
33
Hva var galt med den gamle eksamenen? Ekstern evaluering av medisinstudiet ved Det medisinske fakultet, Universitetet i Oslo. Knut Aspegren Kjartan Koi Torstein Vik København, Oslo, Trondheim. 12.05. 2008
34
5. semester skriftlig eksamen Vår 2007 Høst 2007
35
5. semester skriftlig eksamen Vår 2007 Høst 2007 =3% =0%
36
5. semester skriftlig eksamen Vår 2007 Høst 2007 =50% =25%
37
5. semester skriftlig eksamen Vår 2007 Høst 2007 =50% =35%
38
Funn og anbefalinger Lav reliabilitet på sensur (stor variasjon mellom sensorer) Mer presise spørsmål og sensurveiledning Evalueringsskjema med poengskala (”rating scale”) for muntlige prøver Lav content (face) validity (mangelfull dekning av læringsmål) Større antall spørsmål Lav sampling validity (ujevn tematisk fordeling) “Blueprinting” (mal) av temafordeling Overvekt av faktaspørsmål Forskyve spørsmålene mot høyere nivå i Blooms taksonomi
39
Fakultetets reaksjon – stor revisjon av eksamen OSCE (Objective Structured Clinical Examination) Samlebånd med strukturerte, praktiske oppgaver MiniCEX – varierte kliniske eksamener Digital skriftlig eksamen
40
Hybrid: Kasuistikker er bærebjelken i oppgavene. Frittstående spørsmål fyller ut målområdet. Faglig bredde Kognitiv dybde Læringsmål Modell for digitale oppgaver
41
Hybrid: Kasuistikker er bærebjelken i oppgavene. Frittstående spørsmål fyller ut målområdet. Faglig bredde Kognitiv dybde Læringsmål
42
Klinisk beslutningstaking = beslutningstre = sekvensielle oppgaver Opplysninger Spørsmål Opplysninger Spørsmål Opplysninger Spørsmål Opplysninger Spørsmål == Følgefeil!
43
Opplysninger Spørsmål Opplysninger Spørsmål Fasit Digitalisering – vår pedagogiske nøtteknekker
44
I praksis ser det slik ut: 1 nivå i treet = 1 deloppgave = 1 innlevering akkumulert sykehistorie fasit og nye opplysninger miniessay spørsmål multiple response spørsmål multiple choice spørsmål
45
Typisk eksamenssett 4 - 12 oppgaver hver oppgave har 2 – 8 deler hver del har 1 – 15 spørsmål i alt ca 100 spørsmål på 4 timer
46
Praktisk gjennomføring av digital eksamen Første digitale eksamen ved UiO i juni 2011 Web-basert eksamen 200 dedikerte bærbare maskiner med minimert Windows OS Dedikert trådløst eksamensnett i 6 lesesaler Nå: Ca 1000 studenter / 100 000 eksamenssvar hvert semester Skreddersydd informasjon til studenteneinformasjon
47
Kvalitetssikring I
48
Kvalitetssikring - medisinsk Kollegaer Eksamenskommisjon Forfatterteam Seniorstudenter...
49
Kvalitetssikring - pedagogisk Kongruens med læringsmål. Blueprinting (innhold/fag, taxonomisk nivå, basal/avansert kunnskap). Spørsmålsteknisk konstruksjon. Manual fra National Board of Medical Examiners. http://www.nbme.org/PDF/ItemWriting_2003/2003IWG whole.pdf http://www.nbme.org/PDF/ItemWriting_2003/2003IWG whole.pdf
50
Leder koordinering, teknisk kvalitetskontroll, setter opp alle eksamener, supervisjon, fagutvikling, rådgiving Spesialiserte studiekonsulenter arbeider fortløpende med eksamenskommisjonene bygger spørsmåls- og oppgavebanker Kvalitetssikring – teknisk/administrativ Studieadministrasjonen: etablert egen gruppe for digital eksamen IT senioringeniør ansvarlig for utstyr teknisk gjennomføring av eksamen brukerstøtte under eksamen
51
Digital sensur
52
Etter eksamen Under eksamen - simultan sensurering ved OSCE-eksamen Til dels svært komplisert karakterberegning og fordeling av sensur-arbeidet.
53
Sensur – den ultimate utfordring? Basalfag Paraklinisk fag Klinisk fag ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Spørsmålsbanker ? ? ? ? ? ? ? ? Sensor A basalfag- spørsmålene fra alle stud. OppgaverBesvarelser Sensurering ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Sensor B parakliniske og kliniske spørsmålene fra alle stud. ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Sensor C alt! ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
54
Digital sensur På web Flervalgssvar rettes automatisk Essaysvar rettes manuelt
55
Sensur – online, real-time Simultan digital sensur på avsluttende eksamen i medisin Kontinuerlig monitorering av resultatene under eksamen
56
Teknologi Windows Oracle Web-basert eksamen 200 13.3” HP laptop 802.11a Minimal Win7 IE Web-basert administrasjon Questionmark Perception IIS Oracle Ruby on Rails sensursystem Apache Passenger Web-basert sensur Linux Ruby Oracle FS
57
Kvalitetssikring II
58
Psykometrisk analyse Inter-rater analyse (sensorer) Item analyse (spørsmål) Klassisk test teori IRT Rasch
59
Denne differansen i sensur fordrer rekalibrering av sensor A’s nivåkrav. Eksternsensor - LærerA = 13.3% Eksternsensor - LærerB = 3.3% Eksternsensor - LærerC = -1.7% Inter-rater bias:
60
Spørsmål med item facility < 0.15: 0.13: Hvilket område i medulla oblongata gir opphav til aktivitet i perifere sympatiske nerver? Så lav item facility (gjennomsnittskarakter) er fakultetets problem, ikke studentenes: enten er spørsmålet utenfor læringsmålene, eller så er det undervist for dårlig, eller så er det et feil/for avansert læringsmål.
61
Spørsmål med item facility >= 0.95: 0.99: Hvilken funksjon har purkinjefibre i hjertet? Høy item facility (gjennomsnittskarakter) er OK hvis spørsmålet er kjernepensum som studentene da viser at de faktisk kan meget godt. Hvis det ikke er kjernepensum, er spørsmålet for lett.
62
Høy kvalitet ’ gjenbruk ’ innsynsbegrensning Oppgaver som skal gjenbrukes, kan unntas offentliggjøring Retten til innsyn i besvarelser må opprettholdes, men innsyn kan skje i kontrollerte former Offentliggjøring begrenset fra høsten 2015 Ca 20% av eksamensoppgavene offentliggjøres = treningsoppgaver Ca 80% går inn i gjenbruksbank etter revisjon Kommentert utdrag av de psykometriske analysene offentliggjøres Eget datasystem for kontrollert innsyn er utviklet
63
Forskning & Utvikling
64
Forskning Medfak Helsevitenskapelig Utdanningssenter 2 Postdoc: Stefan Schauber, Muirne Paap -psykometriske metoder -content validity – et feedbacksystem -karaktersetting (A-F) -kobling formativ og summativ testing -adaptiv læring
65
Digital strukturert scoring på OSCE-eksamener Utvikling I Samlebånd: 12 stasjoner à 7 minutter
66
Digital strukturert scoring på OSCE-eksamener iPad Utvikling I
67
Automatisert håndtering av oppgaveoversettelser xliff UiOTranslatør Utvikling II
68
Utvikling III Kobling formativ - summativ digital testing Samme system Samme spørsmål og oppgaver? I elæringsprogrammene våre:elæringsprogrammene Virtuelle pasienter (klinisk beslutningstaking) Quizzer
69
Det er mest et spørsmål om entusiasme og pedagogisk nytenking Tiden er inne!
Liknende presentasjoner
© 2024 SlidePlayer.no Inc.
All rights reserved.