18-19 april Noen problemer i dataanalyse EVISOFT forskersamling, Kongsvoll, april 2007 Tor Stålhane NTNU / IDI
18-19 april Innhold Bakgrunn Hva er en god indikator Hva er det rimelig å spørre folk om Effekt og signifikans
18-19 april Bakgrunn Bakgrunnen for denne presentasjonen er: En del observasjoner med uventede resultater fra eksperimenter utført delvis av PhD-studenter og delvis av G. Sindre og meg selv. Resultater fra et seminar med A. Kolstad fra Inst. for sosialpsykologi, NTNU om analyse av resultater fra eksperimenter som involverer mennesker.
18-19 april Hva er en god indikator Gode indikatorer er indikatorer som er: Positivt relatert til det vi vil studere Positivt korrelerte til hverandre Vi har to utfordringer: Årsak vs. virkning Positive vs. negative spørsmål
18-19 april Hvorfor er gode indikatorer viktig Estimering av intern konsistens mellom indikatorer er viktig fordi den angår: Faktoranalyse – indikatorer som samvarierer, for eksempel Jung og Kims kritikk av ISO Korrelasjonsanalyse som et verktøy for å velge indekser, for eksempel pålitelighets- analyse i spørreundersøkelser – også kalt intern konsistens.
18-19 april Årsak vs. virkning Notasjon: Y: en vanskelig observerbar effekt vi vil studere X i : en observerbar indikator for Y i : et feilledd. i er N(0, j 2 ) Cov( i, j ) = Cov(Y, i ) = Cov(X i, i ) = 0 a i : koeffisient. Vi velger skala slik at a i > 0
18-19 april Idealtilfellet I idealtilfellet har vi: X i = a i Y + i, i = 1, 2 Cov(X 1, X 2 ) = a 1 a 2 Var(Y) > 0 Corr(X 1, X 2 ) = a 1 a 2 Var(Y) / Var(X 1 )Var(X 2 ) > 0 Y X1X1 X2X2
18-19 april Andre muligheter - 1 Her har vi at Y = a 1 X 1 + a 2 X 2 + X 1, X 2 er uavhengige av Y. Cov(X 1,X2) kan være hva som helst. Y X1X1 X2X2
18-19 april Andre muligheter - 2 Her har vi at X 2 = a 2 Y + 2 og Y = a 1 X 1 + 1 Cov(X 1, X 2 ) = a 1 a 2 Var(X 1 ) > 0 Corr(X 1, X 2 ) = a 1 a 2 / Var(X 2 ) > 0 Y X1X1 X2X2
18-19 april Andre muligheter - 3 Y = a 1 X 1 + a 2 X 2 + X 3 = a 3 Y + 2 X 4 = a 4 Y + 3 Cov(X 1, X 3 ) = a 3 [a 1 Var(X 1 ) + a 2 Cov(X 1, X 2 )] Y X1X1 X2X2 X3X3 X4X4
18-19 april Oppsummering - 1 Dersom vi blander årsak og virkning, kan vi få korrelasjoner som er lik null, større enn null eller mindre enn null. Derfor: uten en vurdering av hva som er årsak og hva som er virkning, er det for eksempel umulig å avgjøre hvor pålitelig en spørreundersøkelse er.
18-19 april Korrelasjon vs Årsak – virkning - 1 Det er publisert mange artikler der argumentet, noe forenkla, går som følger: Corr(A, B) > 0 og A kommer foran B i tid A forårsaker B. A B
18-19 april Korrelasjon vs Årsak – virkning - 2 En observert korrelasjon kan imidlertid forklares på flere måter: A => B X => A, B. Se understående figur Tilfeldigheter – se neste foil A B X
18-19 april Korrelasjon vs Årsak – virkning - 3 Fødselsrate, BTetthet av stork, A Urbaniseringsgrad, X ?
18-19 april Korrelasjon vs Årsak – virkning - 3 Eksempel: Genererte 20 sett av variable U(1, 100) Utførte korrelasjonsanalyse – i alt 190 korrelasjoner. Resultater –Moderat korrelasjon, > 0.30: 30 tilfeller, 21% –Stor korrelasjon, > 0.50: 3 tilfeller, 1.5% –Svært stor korrelasjon, > 0.7: 1 tilfelle, 0.5%
18-19 april Korrelasjon vs Årsak – virkning - 4 Eksempel: Genererte 4 sett av variable U(1, 100) Utførte korrelasjonsanalyse – i alt 6 korrelasjoner. Resultater –Moderat korrelasjon, > 0.30: 2 tilfeller, 33% –Stor korrelasjon, > 0.50: 1 tilfelle, 17% –Svært stor korrelasjon, > 0.7: 0 tilfeller, 0%
18-19 april Positive og negative formuleringer - 1 En vanlig måte å sjekke påliteligheten i en spørreundersøkelse er å stille samme spørsmålet to ganger – en gang med en positiv og en gang med en negativ formulering. Eksempel: Systemet er lett å forstå Systemet er vanskelig å forstå
18-19 april Positive og negative formuleringer - 2 Det er tre kjente problemer med å bruke denne typen tester: Motvilje mot å være negativ, som gir usymmetrisk respons Komplekse formuleringer Tendensen til å gi ”riktig” svar
18-19 april Motvilje mot å være negativ Mange mennesker vil helst ikke være negative. Dette er delvis, men ikke bare, kulturelt betinget. Slike mennesker vil være: Enige i positivt formulerte spørsmål Nøytrale eller bare svakt uenige i negativt formulerte spørsmål Positivt formulert spørsmål Negativt formulert spørsmål XXX
18-19 april Komplekse formuleringer Det er lett å lage komplekse formuleringer – for eksempel doble nektinger – når vi lager negative formuleringer av spørsmål. Forsøk har vist at respondentene i mange tilfeller ikke har forstått spørsmålene, og derfor har svart på noe annet enn det vi spurte om i spørreskjemaet. Dette gjelder særlig spørsmål som direkte eller indirekte inneholder doble nektinger.
18-19 april Riktig svar Selv om vi er anonyme, tenderer folk mot å gi det de oppfatter som ”riktige” svar – svar som er i overensstemmelse med: Det rådende paradigme Det som er politisk korrekt Den ”virkelige meningen” kommer først til uttrykk, når vi skal gjøre noe konkret.
18-19 april Oppsummering - 2 Resultatene i de foregående foilene er spesialtilfeller av en generell regel: Statistiske analyser kan si noe om hva – for eksempel om korrelasjon – men den kan ikke si noe om hvorfor. Denne informasjonen må hentes andre steder.
18-19 april Hva er det rimelig å spørre om - 1 Generelt sett er folk dårlige til å svare på ting de ikke har trening i å svare på. Dette gjelder særlig spørsmål knyttet til: Sannsynligheter Komplekse sammenhenger Et av problemene er at det er vanskelig å se konsekvensene av svarene – hva betyr svarene.
18-19 april Hva er det rimelig å spørre om - 2 Generelt er det enklere å svare, jo enklere vi spør. Dette betyr for eksempel at vi får bedre svar, når vi spør om sannsynligheter, konsekvenser etc. viss vi betinger dem. Viss vi definerer et scenario S, vil vi få bedre svar på ”Hva vil det koste å utvikle P | S ?” enn på spørsmålet ”Hva vil det koste å utvikle P?”
18-19 april Gigerenzer vs. Tversky - 1 Gigerenzer og Tversky presenterer to skoler når det gjelder å tolke resultatene av spørreundersøkelser og ekspertvurderinger. Uenigheten kan illustreres med to forenkla utsagn: Tversky: Folk er lette å lure. Gigerenzer: Folk oppfører seg ikke alltid slik vi tror på forhånd.
18-19 april Gigerenzer vs Tversky - 2 Problemstillingen kan illustreres med et eksempel: Anne gikk på BI og var aktivt med i SU og Natur og Ungdom i studietiden. Etter studiet begynte hun å arbeide. Hva er mest sannsynlig: –Hun arbeider i en bank og er med i Attac –Hun arbeider i en bank
18-19 april Gigerenzer vs. Tversky - 3 Viss vi spør deltakerne i dette og liknende eksperimenter om hvorfor de svarer som de gjør, sier de at: ”Vi må jo bruke alle informasjonen i spørsmålet. Derfor er det mest rimelig at Anne jobber i Attac” Legg merke til overgangen fra spørsmålets ”sannsynlig” til svarets ”rimelig”. Hva betyr egentlig ordet ”sannsynlig” for folk flest.
18-19 april Signifikans og effekt - 1 Litt notasjon: U : -kvartilen i normalfordelinga SD: standardavviket i utvalget : mean(X) – mean(Y) N: antall elementer i utvalget (n X + n Y ) ES: effektstørrelse ( / SD)
18-19 april Signifikans og effekt - 2 Viss vi lar betegne sannsynligheten for type I feil og sannsynligheten for type II feil og n X = n Y, har vi at: Legg merke til at vi må bestemme både risiko og effektstørrelse, før vi kan finne utvalgsstørrelse N.
18-19 april Effektstørrelse (ES) - Hopkins TrivialSmallModerateLargeVery large Nearly perfect Perfect Correlation Effect size Infinite Frequency Difference Relative risk Infinite Odds ratio Infinite
18-19 april Effektstørrelse - 1 Vi kan bruke formelen for utvalgsstørrelse på flere måter: Velg risiko ( og effektstørrelsen (ES) vi er på jakt etter. Finn N. Vi har en N-verdi. Hvilken risiko må vi ta, viss vi vil påstå en gitt effektstørrelse? Vi har en N-verdi og vi har valgt risiko. Hvor store effekter kan vi oppdage?
18-19 april Effektstørrelse - 2 Det er forskjell på en signifikant effekt – for eksempel p 1.0. Når vi sammenlikner to behandlinger, metoder etc. er ofte ES mye viktigere enn p. Det spiller liten rolle om p < 0.01 viss ES = 0.1.
18-19 april Signifikans og effekt Spørsmålet ”Har vi nok observasjoner?” kan altså bare bevares når vi har valgt: Risiko – sannsynlighet for både type I ( og type II feil ( ). Hvor store effekter (ES) vi er på jakt etter
18-19 april Eksempler - 1 = 0.05, = 0.20 => N*ES 2 = 31.4 Eksempel: Stor effekt ES = 1.2, N = 22 Liten effekt ES = 0.2, N = 7850 Eksempel: N = 40 Kan observere ES = 0.89 => moderat til stor effekt
18-19 april Eksempler - 2 Eksempel: Stor effekt ES = 1.2, N = 20. u - u = 2.68 Velger = 0.10 => = 0.15 Liten effekt ES = 0.2, N = 20 u - u = 0.20 Velger = 0.10 => meningsløs verdi siden u
18-19 april TAM - eksempel - 1 Vi har gjennomført et eksperiment for å sammenlikne misuse case og FMEA. For å vurdere brukervennlighet har vi brukt TAM-modellen. Ifølge denne modellen skal følgende vurderinger korrelere: Lett å lære Lett å forstå Lett å bruke
18-19 april TAM - eksempel - 2 Det TAM påsto, stemte ikke for data fra vårt eksperiment. Vi valgte ut fire tilfeldige eksperimentdeltakere og spurte hva de la i de tre utsagnene Metode X er lett å lære Metode X er lett å forstå Metode X er lett å lære bruke
18-19 april TAM - eksempel - 3 Resultatene av denne seansen var: Lett å lære – hvordan fungerer teknikken? Avhenger særlig av presentasjonsmaterialet og den som presenterer det. Lett å forstå – forstå hvorfor det er lurt og hvorfor det virker. Avhenger av hvor gode eksemplene var. For deltakerne var dette noe helt annet enn å lære. Lett å bruke – gjøre det selv. Lett i forhold til hva?
18-19 april TAM – eksempel - 4 Ta i bruk Lett å lære Lett å bruke Lett å forstå Lett å lære Lett å bruke Lett å forstå Hvor god er forklaringen? Hvor gode er eksemplene? Hvor vanskelig er oppgaven? TAM-modellen Hva deltakerne mente