18-19 april 20071 Noen problemer i dataanalyse EVISOFT forskersamling, Kongsvoll, 18-19 april 2007 Tor Stålhane NTNU / IDI.

18-19 april 20071 Noen problemer i dataanalyse EVISOFT forskersamling, Kongsvoll, 18-19 april 2007 Tor Stålhane NTNU / IDI

18-19 april 20072 Innhold Bakgrunn Hva er en god indikator Hva er det rimelig å spørre folk om Effekt og signifikans

18-19 april 20073 Bakgrunn Bakgrunnen for denne presentasjonen er: En del observasjoner med uventede resultater fra eksperimenter utført delvis av PhD-studenter og delvis av G. Sindre og meg selv. Resultater fra et seminar med A. Kolstad fra Inst. for sosialpsykologi, NTNU om analyse av resultater fra eksperimenter som involverer mennesker.

18-19 april 20074 Hva er en god indikator Gode indikatorer er indikatorer som er: Positivt relatert til det vi vil studere Positivt korrelerte til hverandre Vi har to utfordringer: Årsak vs. virkning Positive vs. negative spørsmål

18-19 april 20075 Hvorfor er gode indikatorer viktig Estimering av intern konsistens mellom indikatorer er viktig fordi den angår: Faktoranalyse – indikatorer som samvarierer, for eksempel Jung og Kims kritikk av ISO 9126. Korrelasjonsanalyse som et verktøy for å velge indekser, for eksempel pålitelighets- analyse i spørreundersøkelser – også kalt intern konsistens.

18-19 april 20076 Årsak vs. virkning Notasjon: Y: en vanskelig observerbar effekt vi vil studere X i : en observerbar indikator for Y  i : et feilledd.  i er N(0,  j 2 ) Cov(  i,  j ) = Cov(Y,  i ) = Cov(X i,  i ) = 0 a i : koeffisient. Vi velger skala slik at a i > 0

18-19 april 20077 Idealtilfellet I idealtilfellet har vi: X i = a i Y +  i, i = 1, 2 Cov(X 1, X 2 ) = a 1 a 2 Var(Y) > 0 Corr(X 1, X 2 ) = a 1 a 2 Var(Y) / Var(X 1 )Var(X 2 ) > 0 Y X1X1 X2X2

18-19 april 20078 Andre muligheter - 1 Her har vi at Y = a 1 X 1 + a 2 X 2 +  X 1, X 2 er uavhengige av Y. Cov(X 1,X2) kan være hva som helst. Y X1X1 X2X2

18-19 april 20079 Andre muligheter - 2 Her har vi at X 2 = a 2 Y +  2 og Y = a 1 X 1 +  1 Cov(X 1, X 2 ) = a 1 a 2 Var(X 1 ) > 0 Corr(X 1, X 2 ) = a 1 a 2 / Var(X 2 ) > 0 Y X1X1 X2X2

18-19 april 200710 Andre muligheter - 3 Y = a 1 X 1 + a 2 X 2 +   X 3 = a 3 Y +  2 X 4 = a 4 Y +  3 Cov(X 1, X 3 ) = a 3 [a 1 Var(X 1 ) + a 2 Cov(X 1, X 2 )] Y X1X1 X2X2 X3X3 X4X4

18-19 april 200711 Oppsummering - 1 Dersom vi blander årsak og virkning, kan vi få korrelasjoner som er lik null, større enn null eller mindre enn null. Derfor: uten en vurdering av hva som er årsak og hva som er virkning, er det for eksempel umulig å avgjøre hvor pålitelig en spørreundersøkelse er.

18-19 april 200712 Korrelasjon vs Årsak – virkning - 1 Det er publisert mange artikler der argumentet, noe forenkla, går som følger: Corr(A, B) > 0 og A kommer foran B i tid  A forårsaker B. A B

18-19 april 200713 Korrelasjon vs Årsak – virkning - 2 En observert korrelasjon kan imidlertid forklares på flere måter: A => B X => A, B. Se understående figur Tilfeldigheter – se neste foil A B X

18-19 april 200714 Korrelasjon vs Årsak – virkning - 3 Fødselsrate, BTetthet av stork, A Urbaniseringsgrad, X ?

18-19 april 200715 Korrelasjon vs Årsak – virkning - 3 Eksempel: Genererte 20 sett av variable U(1, 100) Utførte korrelasjonsanalyse – i alt 190 korrelasjoner. Resultater –Moderat korrelasjon,  > 0.30: 30 tilfeller, 21% –Stor korrelasjon,  > 0.50: 3 tilfeller, 1.5% –Svært stor korrelasjon,  > 0.7: 1 tilfelle, 0.5%

18-19 april 200716 Korrelasjon vs Årsak – virkning - 4 Eksempel: Genererte 4 sett av variable U(1, 100) Utførte korrelasjonsanalyse – i alt 6 korrelasjoner. Resultater –Moderat korrelasjon,  > 0.30: 2 tilfeller, 33% –Stor korrelasjon,  > 0.50: 1 tilfelle, 17% –Svært stor korrelasjon,  > 0.7: 0 tilfeller, 0%

18-19 april 200717 Positive og negative formuleringer - 1 En vanlig måte å sjekke påliteligheten i en spørreundersøkelse er å stille samme spørsmålet to ganger – en gang med en positiv og en gang med en negativ formulering. Eksempel: Systemet er lett å forstå Systemet er vanskelig å forstå

18-19 april 200718 Positive og negative formuleringer - 2 Det er tre kjente problemer med å bruke denne typen tester: Motvilje mot å være negativ, som gir usymmetrisk respons Komplekse formuleringer Tendensen til å gi ”riktig” svar

18-19 april 200719 Motvilje mot å være negativ Mange mennesker vil helst ikke være negative. Dette er delvis, men ikke bare, kulturelt betinget. Slike mennesker vil være: Enige i positivt formulerte spørsmål Nøytrale eller bare svakt uenige i negativt formulerte spørsmål Positivt formulert spørsmål Negativt formulert spørsmål XXX

18-19 april 200720 Komplekse formuleringer Det er lett å lage komplekse formuleringer – for eksempel doble nektinger – når vi lager negative formuleringer av spørsmål. Forsøk har vist at respondentene i mange tilfeller ikke har forstått spørsmålene, og derfor har svart på noe annet enn det vi spurte om i spørreskjemaet. Dette gjelder særlig spørsmål som direkte eller indirekte inneholder doble nektinger.

18-19 april 200721 Riktig svar Selv om vi er anonyme, tenderer folk mot å gi det de oppfatter som ”riktige” svar – svar som er i overensstemmelse med: Det rådende paradigme Det som er politisk korrekt Den ”virkelige meningen” kommer først til uttrykk, når vi skal gjøre noe konkret.

18-19 april 200722 Oppsummering - 2 Resultatene i de foregående foilene er spesialtilfeller av en generell regel: Statistiske analyser kan si noe om hva – for eksempel om korrelasjon – men den kan ikke si noe om hvorfor. Denne informasjonen må hentes andre steder.

18-19 april 200723 Hva er det rimelig å spørre om - 1 Generelt sett er folk dårlige til å svare på ting de ikke har trening i å svare på. Dette gjelder særlig spørsmål knyttet til: Sannsynligheter Komplekse sammenhenger Et av problemene er at det er vanskelig å se konsekvensene av svarene – hva betyr svarene.

18-19 april 200724 Hva er det rimelig å spørre om - 2 Generelt er det enklere å svare, jo enklere vi spør. Dette betyr for eksempel at vi får bedre svar, når vi spør om sannsynligheter, konsekvenser etc. viss vi betinger dem. Viss vi definerer et scenario S, vil vi få bedre svar på ”Hva vil det koste å utvikle P | S ?” enn på spørsmålet ”Hva vil det koste å utvikle P?”

18-19 april 200725 Gigerenzer vs. Tversky - 1 Gigerenzer og Tversky presenterer to skoler når det gjelder å tolke resultatene av spørreundersøkelser og ekspertvurderinger. Uenigheten kan illustreres med to forenkla utsagn: Tversky: Folk er lette å lure. Gigerenzer: Folk oppfører seg ikke alltid slik vi tror på forhånd.

18-19 april 200726 Gigerenzer vs Tversky - 2 Problemstillingen kan illustreres med et eksempel: Anne gikk på BI og var aktivt med i SU og Natur og Ungdom i studietiden. Etter studiet begynte hun å arbeide. Hva er mest sannsynlig: –Hun arbeider i en bank og er med i Attac –Hun arbeider i en bank

18-19 april 200727 Gigerenzer vs. Tversky - 3 Viss vi spør deltakerne i dette og liknende eksperimenter om hvorfor de svarer som de gjør, sier de at: ”Vi må jo bruke alle informasjonen i spørsmålet. Derfor er det mest rimelig at Anne jobber i Attac” Legg merke til overgangen fra spørsmålets ”sannsynlig” til svarets ”rimelig”. Hva betyr egentlig ordet ”sannsynlig” for folk flest.

18-19 april 200728 Signifikans og effekt - 1 Litt notasjon: U  :  -kvartilen i normalfordelinga SD: standardavviket i utvalget  : mean(X) – mean(Y) N: antall elementer i utvalget (n X + n Y ) ES: effektstørrelse (  / SD)

18-19 april 200729 Signifikans og effekt - 2 Viss vi lar  betegne sannsynligheten for type I feil og  sannsynligheten for type II feil og n X = n Y, har vi at: Legg merke til at vi må bestemme både risiko og effektstørrelse, før vi kan finne utvalgsstørrelse N.

18-19 april 200730 Effektstørrelse (ES) - Hopkins TrivialSmallModerateLargeVery large Nearly perfect Perfect Correlation 0.00.10.30.50.70.91.0 Effect size 0.00.20.61.22.04.0Infinite Frequency Difference 01030507090100 Relative risk 1.01.21.93.05.719.0Infinite Odds ratio 1.01.53.59.032.0360.0Infinite

18-19 april 200731 Effektstørrelse - 1 Vi kan bruke formelen for utvalgsstørrelse på flere måter: Velg risiko (  og effektstørrelsen (ES) vi er på jakt etter. Finn N. Vi har en N-verdi. Hvilken risiko må vi ta, viss vi vil påstå en gitt effektstørrelse? Vi har en N-verdi og vi har valgt risiko. Hvor store effekter kan vi oppdage?

18-19 april 200732 Effektstørrelse - 2 Det er forskjell på en signifikant effekt – for eksempel p 1.0. Når vi sammenlikner to behandlinger, metoder etc. er ofte ES mye viktigere enn p. Det spiller liten rolle om p < 0.01 viss ES = 0.1.

18-19 april 200733 Signifikans og effekt Spørsmålet ”Har vi nok observasjoner?” kan altså bare bevares når vi har valgt: Risiko – sannsynlighet for både type I (  og type II feil (  ). Hvor store effekter (ES) vi er på jakt etter

18-19 april 200734 Eksempler - 1  = 0.05,  = 0.20 => N*ES 2 = 31.4 Eksempel: Stor effekt ES = 1.2, N = 22 Liten effekt ES = 0.2, N = 7850 Eksempel: N = 40 Kan observere ES = 0.89 => moderat til stor effekt

18-19 april 200735 Eksempler - 2 Eksempel: Stor effekt ES = 1.2, N = 20. u  - u  = 2.68 Velger  = 0.10 =>  = 0.15 Liten effekt ES = 0.2, N = 20 u  - u  = 0.20 Velger  = 0.10 => meningsløs  verdi siden u  

18-19 april 200736 TAM - eksempel - 1 Vi har gjennomført et eksperiment for å sammenlikne misuse case og FMEA. For å vurdere brukervennlighet har vi brukt TAM-modellen. Ifølge denne modellen skal følgende vurderinger korrelere: Lett å lære Lett å forstå Lett å bruke

18-19 april 200737 TAM - eksempel - 2 Det TAM påsto, stemte ikke for data fra vårt eksperiment. Vi valgte ut fire tilfeldige eksperimentdeltakere og spurte hva de la i de tre utsagnene Metode X er lett å lære Metode X er lett å forstå Metode X er lett å lære bruke

18-19 april 200738 TAM - eksempel - 3 Resultatene av denne seansen var: Lett å lære – hvordan fungerer teknikken? Avhenger særlig av presentasjonsmaterialet og den som presenterer det. Lett å forstå – forstå hvorfor det er lurt og hvorfor det virker. Avhenger av hvor gode eksemplene var. For deltakerne var dette noe helt annet enn å lære. Lett å bruke – gjøre det selv. Lett i forhold til hva?

18-19 april 200739 TAM – eksempel - 4 Ta i bruk Lett å lære Lett å bruke Lett å forstå Lett å lære Lett å bruke Lett å forstå Hvor god er forklaringen? Hvor gode er eksemplene? Hvor vanskelig er oppgaven? TAM-modellen Hva deltakerne mente

18-19 april 20071 Noen problemer i dataanalyse EVISOFT forskersamling, Kongsvoll, 18-19 april 2007 Tor Stålhane NTNU / IDI.

Liknende presentasjoner

Presentasjon om: "18-19 april 20071 Noen problemer i dataanalyse EVISOFT forskersamling, Kongsvoll, 18-19 april 2007 Tor Stålhane NTNU / IDI."— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding

Logg inn

Logg deg på via sosiale nettverk:

18-19 april 20071 Noen problemer i dataanalyse EVISOFT forskersamling, Kongsvoll, 18-19 april 2007 Tor Stålhane NTNU / IDI.

Liknende presentasjoner

Presentasjon om: "18-19 april 20071 Noen problemer i dataanalyse EVISOFT forskersamling, Kongsvoll, 18-19 april 2007 Tor Stålhane NTNU / IDI."— Utskrift av presentasjonen:

Liknende presentasjoner

Om prosjektet

Tilbakemelding