Digital eksamen Et pedagogisk prosjekt Per Grøttum Seksjon for medisinsk informatikk
Disposisjon Validitet og Reliabilitet Spørmålstyper og skrivekunst Digital eksamen fra ide til gjennomføring
Validitet Måler testen det den er ment å måle?
Faglig bredde Validitet
Faglig bredde Kognitiv dybde Validitet
Faglig bredde Kognitiv dybde Huske Forstå Anvende Analysere Evaluere Skape Validitet
Faglig bredde Kognitiv dybde Validitet Læringsmål Huske Forstå Anvende Analysere Evaluere Skape
Kognitiv dybde Validitet Læringsmål Dårlig løsning: tradisjonell essay-eksamen Faglig bredde Huske Forstå Anvende Analysere Evaluere Skape
Faglig bredde Kognitiv dybde Validitet Læringsmål Dårlig løsning: faglig ensidig Huske Forstå Anvende Analysere Evaluere Skape
Faglig bredde Kognitiv dybde Validitet Læringsmål Dårlig løsning: kognitivt ensidig Huske Forstå Anvende Analysere Evaluere Skape
Faglig bredde Kognitiv dybde Validitet Læringsmål Dårlig løsning: utenfor læringsmål Huske Forstå Anvende Analysere Evaluere Skape
Validitet Faglig bredde Kognitiv dybde Læringsmål Frittstående spørsmål Huske Forstå Anvende Analysere Evaluere Skape
Validitet Faglig bredde Kognitiv dybde Læringsmål Pasienten er en 73 år gammel kvinne som kommer til kontroll fordi hun har fått langtids oksygenbehandling de siste årene.... Hva tror du kan være de viktigste forklaringene på de reduserte spirometriverdiene? Du føler at du ikke kommer til bunns i diagnostikken av denne pasienten. Derfor undersøker du... Hvilke andre tilstander kan være forklaringen på respirasjonssvikten? Stier/sekvenser
Validitet Faglig bredde Omfang Kognitiv dybde Omfang – en tredje dimensjon (“blue-printing”)
Validitet Klinisk kompetanse – multidimensjonal validitet Millers pyramide
Reliabilitet Er resultatet (fortolkingen) stabilt og konsistent?
Spørsmål q Kandidat fortolker k Forfatter fortolker f Sensurveiledning Svar Sensor fortolker s Karakter Feilkilder - essay
Reliabilitet - sensur Eksternsensor - LærerA = 13.3% Eksternsensor - LærerB = 3.3% Eksternsensor - LærerC = -1.7% Inter-rater bias: Denne differansen i sensur fordrer rekalibrering av sensor A’s nivåkrav. Spørsmål q Kandidat fortolker k Forfatter fortolker f Sensurveiledning Svar 2 sensorer fortolker s Karakter
Spørsmål q Kandidat fortolker k Forfatter fortolker f Svaralternativ SvarKarakter Feilkilder - avkryssingsspørsmål
Delspørsmål 2: Er denne pasientens CHA 2 DS 2 score 5 (2 for hjerneslag, 1 for alder, 1 for kvinne, 1 for karsykdom)? Ja/Nei Reliabilitet - avkryssingsspørsmål Item analysis: Spørsmål q Kandidat fortolker k Forfatter fortolker f Svaralternativ SvarKarakter
Spørsmålstyper og skrivekunst
Spørsmålstyper Essay (fritekst) Multiple choice (ett svar) Multiple response (flere svar) Pull down (system av multiple choice)
Spørsmålstyper Personlig oppfatning – usubstansiert: Det meste kan spørres om med alle spørsmålstyper. Unntaket er de mer samfunnsvitenskapelige fagene som ofte trenger essay. Eksempel: atferdsfag – “når det er sagt eller skrevet, er det åpenbart.” Utrenete forfattere finner det lettest å bruke essay til spørsmål på høyere kognitive nivå. Multiple choice er logistisk mest fordelaktig når det gjelder gjenbruk og retting.
Skrivekunst Svaralternativene ved multiple choice rangeringsspørsmål (single best answer) – “Hvilken diagnose er mest sannsynlig?” – må ligge på samme kontinuum Hvilken av de følgende påstander er sann om pseudogikt? A.Det forekommer hyppig hos kvinner. B.Det er sjelden assosiert med akutte leddsmerter C.Det kan knyttes til kondrokalsinose D.Det er klart arvelig i de fleste tilfelle E.Det responderer godt på behandling med allopurinol Kjønn A Beh E Arv D Sammenheng Sant Galt
Skrivekunst Svaralternativene ved multiple choice rangeringsspørsmål (single best answer) – “Hvilken diagnose er mest sannsynlig?” – må ha rimelig distanse mellom det riktige alternativet og de andre (distraktorene): B A C D F Minst sannsynlig Mest sannsynlig
Skrivekunst Svaralternativene ved multiple choice rangeringsspørsmål (single best answer) – “Hvilken diagnose er mest sannsynlig?” – må ha rimelig distanse mellom det riktige alternativet og de andre (distraktorene): B A C D F Minst sannsynlig Mest sannsynlig Åpenbart feil svar: Hva er viktigst for god prognose....? Under Sydenturen postoperativt må han nyte spesielt gode rødviner
Unngå Spørsmål av typen Hvilke av de følgende utsagn er IKKE riktig. Alternativene er sjelden langs samme dimensjon. Sant/galt spørsmål. Vurderingsspørsmål – som ligger høyt på den taxonomiske skala og som vi ønsker mye av - har sjelden så klare utfall. Sant/galt spørsmål degenerer ofte til rene faktaspørsmål for at de skal bli entydige. Skrivekunst
Forståelse av relative begrep Skrivekunst
Hva er de viktigste mulige diagnoser hos denne pasienten? ABCDEABCDE Relative begrep i Multiple response spørsmål må kvantifiseres: B A C D E Minst viktig Mest viktig Skrivekunst
Hva er de 2 viktigste mulige diagnoser hos denne pasienten? ABCDEABCDE Relative begrep i Multiple response spørsmål må kvantifiseres: B A C D E Minst viktig Mest viktig Skrivekunst
Svaret på ett spørsmål ligger implisitt i teksten til påfølgende spørsmål: Spørsmål 4 Hva slags behandling vil du foreslå? Spørsmål 5 Hva består den operative behandlingen i? Skrivekunst
Digital eksamen på med.fak. Fra ide til gjennomføring
Hva var galt med den gamle eksamenen? Ekstern evaluering av medisinstudiet ved Det medisinske fakultet, Universitetet i Oslo. Knut Aspegren Kjartan Koi Torstein Vik København, Oslo, Trondheim
5. semester skriftlig eksamen Vår 2007 Høst 2007
5. semester skriftlig eksamen Vår 2007 Høst 2007 =3% =0%
5. semester skriftlig eksamen Vår 2007 Høst 2007 =50% =25%
5. semester skriftlig eksamen Vår 2007 Høst 2007 =50% =35%
Funn og anbefalinger Lav reliabilitet på sensur (stor variasjon mellom sensorer) Mer presise spørsmål og sensurveiledning Evalueringsskjema med poengskala (”rating scale”) for muntlige prøver Lav content (face) validity (mangelfull dekning av læringsmål) Større antall spørsmål Lav sampling validity (ujevn tematisk fordeling) “Blueprinting” (mal) av temafordeling Overvekt av faktaspørsmål Forskyve spørsmålene mot høyere nivå i Blooms taksonomi
Fakultetets reaksjon – stor revisjon av eksamen OSCE (Objective Structured Clinical Examination) Samlebånd med strukturerte, praktiske oppgaver MiniCEX – varierte kliniske eksamener Digital skriftlig eksamen
Hybrid: Kasuistikker er bærebjelken i oppgavene. Frittstående spørsmål fyller ut målområdet. Faglig bredde Kognitiv dybde Læringsmål Modell for digitale oppgaver
Hybrid: Kasuistikker er bærebjelken i oppgavene. Frittstående spørsmål fyller ut målområdet. Faglig bredde Kognitiv dybde Læringsmål
Klinisk beslutningstaking = beslutningstre = sekvensielle oppgaver Opplysninger Spørsmål Opplysninger Spørsmål Opplysninger Spørsmål Opplysninger Spørsmål == Følgefeil!
Opplysninger Spørsmål Opplysninger Spørsmål Fasit Digitalisering – vår pedagogiske nøtteknekker
I praksis ser det slik ut: 1 nivå i treet = 1 deloppgave = 1 innlevering akkumulert sykehistorie fasit og nye opplysninger miniessay spørsmål multiple response spørsmål multiple choice spørsmål
Typisk eksamenssett oppgaver hver oppgave har 2 – 8 deler hver del har 1 – 15 spørsmål i alt ca 100 spørsmål på 4 timer
Praktisk gjennomføring av digital eksamen Første digitale eksamen ved UiO i juni 2011 Web-basert eksamen 200 dedikerte bærbare maskiner med minimert Windows OS Dedikert trådløst eksamensnett i 6 lesesaler Nå: Ca 1000 studenter / eksamenssvar hvert semester Skreddersydd informasjon til studenteneinformasjon
Kvalitetssikring I
Kvalitetssikring - medisinsk Kollegaer Eksamenskommisjon Forfatterteam Seniorstudenter...
Kvalitetssikring - pedagogisk Kongruens med læringsmål. Blueprinting (innhold/fag, taxonomisk nivå, basal/avansert kunnskap). Spørsmålsteknisk konstruksjon. Manual fra National Board of Medical Examiners. whole.pdf whole.pdf
Leder koordinering, teknisk kvalitetskontroll, setter opp alle eksamener, supervisjon, fagutvikling, rådgiving Spesialiserte studiekonsulenter arbeider fortløpende med eksamenskommisjonene bygger spørsmåls- og oppgavebanker Kvalitetssikring – teknisk/administrativ Studieadministrasjonen: etablert egen gruppe for digital eksamen IT senioringeniør ansvarlig for utstyr teknisk gjennomføring av eksamen brukerstøtte under eksamen
Digital sensur
Etter eksamen Under eksamen - simultan sensurering ved OSCE-eksamen Til dels svært komplisert karakterberegning og fordeling av sensur-arbeidet.
Sensur – den ultimate utfordring? Basalfag Paraklinisk fag Klinisk fag ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Spørsmålsbanker ? ? ? ? ? ? ? ? Sensor A basalfag- spørsmålene fra alle stud. OppgaverBesvarelser Sensurering ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Sensor B parakliniske og kliniske spørsmålene fra alle stud. ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Sensor C alt! ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
Digital sensur På web Flervalgssvar rettes automatisk Essaysvar rettes manuelt
Sensur – online, real-time Simultan digital sensur på avsluttende eksamen i medisin Kontinuerlig monitorering av resultatene under eksamen
Teknologi Windows Oracle Web-basert eksamen ” HP laptop a Minimal Win7 IE Web-basert administrasjon Questionmark Perception IIS Oracle Ruby on Rails sensursystem Apache Passenger Web-basert sensur Linux Ruby Oracle FS
Kvalitetssikring II
Psykometrisk analyse Inter-rater analyse (sensorer) Item analyse (spørsmål) Klassisk test teori IRT Rasch
Denne differansen i sensur fordrer rekalibrering av sensor A’s nivåkrav. Eksternsensor - LærerA = 13.3% Eksternsensor - LærerB = 3.3% Eksternsensor - LærerC = -1.7% Inter-rater bias:
Spørsmål med item facility < 0.15: 0.13: Hvilket område i medulla oblongata gir opphav til aktivitet i perifere sympatiske nerver? Så lav item facility (gjennomsnittskarakter) er fakultetets problem, ikke studentenes: enten er spørsmålet utenfor læringsmålene, eller så er det undervist for dårlig, eller så er det et feil/for avansert læringsmål.
Spørsmål med item facility >= 0.95: 0.99: Hvilken funksjon har purkinjefibre i hjertet? Høy item facility (gjennomsnittskarakter) er OK hvis spørsmålet er kjernepensum som studentene da viser at de faktisk kan meget godt. Hvis det ikke er kjernepensum, er spørsmålet for lett.
Høy kvalitet ’ gjenbruk ’ innsynsbegrensning Oppgaver som skal gjenbrukes, kan unntas offentliggjøring Retten til innsyn i besvarelser må opprettholdes, men innsyn kan skje i kontrollerte former Offentliggjøring begrenset fra høsten 2015 Ca 20% av eksamensoppgavene offentliggjøres = treningsoppgaver Ca 80% går inn i gjenbruksbank etter revisjon Kommentert utdrag av de psykometriske analysene offentliggjøres Eget datasystem for kontrollert innsyn er utviklet
Forskning & Utvikling
Forskning Medfak Helsevitenskapelig Utdanningssenter 2 Postdoc: Stefan Schauber, Muirne Paap -psykometriske metoder -content validity – et feedbacksystem -karaktersetting (A-F) -kobling formativ og summativ testing -adaptiv læring
Digital strukturert scoring på OSCE-eksamener Utvikling I Samlebånd: 12 stasjoner à 7 minutter
Digital strukturert scoring på OSCE-eksamener iPad Utvikling I
Automatisert håndtering av oppgaveoversettelser xliff UiOTranslatør Utvikling II
Utvikling III Kobling formativ - summativ digital testing Samme system Samme spørsmål og oppgaver? I elæringsprogrammene våre:elæringsprogrammene Virtuelle pasienter (klinisk beslutningstaking) Quizzer
Det er mest et spørsmål om entusiasme og pedagogisk nytenking Tiden er inne!