Sammenheng mellom flere variabler – Bivariat Analyse

Slides:



Advertisements
Liknende presentasjoner
12.Studienreise nach Finnland,
Advertisements

Å forklare sosiale fenomener
Litt mer om PRIMTALL.
Forholdet mellom variabler: Kausalitet og korrelasjon
Statistikk på 50 5 minutter
 Bodil og Fin Ask Bearbeiding av innsamlet informasjon Bodil Ask Delvis basert på Patel & Davidson: Forskningsmetodikkens grunnlag.
1 Arbeidssted, bruk av fasiliteter og - mengde 5.
Kap 12 Korrelasjon / Regresjon
Møre og Romsdal. 2 Ligger det et bedehus eller et kristelig forsamlingshus (ikke kirke) i nærheten av der du bor? (n=502) i prosent.
Kap 10 Estimering.
Enhalet og tohalet hypotesetest
ART: Dokumentasjon av behandlingseffekt
STATISTISK GENERALISERING
Test av skjermer på fergene Horten - Moss
NRKs Profilundersøkelse NRK Analyse. Om undersøkelsen • NRK Analyse har siden 1995 gjennomført en undersøkelse av profilen eller omdømmet til NRK.
Meta-analyse Frode Svartdal UiTø April 2014 © Frode Svartdal.
Kap 05 Betinget sannsynlighet
Tolkning av resultatene fra logistisk regresjon
Fra forelesningene om involveringspedagogikk Et utviklingsarbeid Philip Dammen Manuset er under arbeid.
Kapittel 14 Simulering.
BI 3010H05 Populasjonsgenetikk Halliburton Kap 1-3
Transformasjoner Men hva hvis relasjonen er kurvelinjær?
Om semesteroppgaven Krav til den avhengige variabelen
HVA ER REGRESJONSANALYSE?
1: Korrelasjon, kovarians (at variablene ’spiller sammen’)
Velg Slide-Show fra PowerPoint-menyen og klikk med venstre museknapp!
Analyse og tolkning av datamaterialet
Kap 13 Sammenligning av to grupper
Kap 06 Diskrete stokastiske variable
SAMMENHENGER MELLOM VARIABLER
Fasit 1) a)P(T>1)=P(T≠1)=1-P(T=1) = 1-1/6 = 5/6 ≈ 83.3%. Evt. P(T>1)=p(T=2)+P(T=3)+P(T=4)+P(T=5)+ P(T=6)=5/6. P(T=2 | T≠1) = P(T=2 og T≠1)/P(T≠1) = (1/6)/(5/6)
Oppgaver 1)Vi anser hvert av de seks utfallene på en terning for å være like sannsynlig og at to ulike terningkast er uavhengige. a)Hva er sannsynligheten.
© Synovate Gjennomført av Synovate 21.august 2008 Catibus uke 33 Norsk Fysioterapeutforbund.
Oppland Arbeiderblad Kjønn i kildebruk - Utviklingstrekk over en to års periode.
Statistikk på 20 2 timer PSY-1002
Korrelasjon Frode Svartdal UiTø 2014.
1 BM-dagen 29.okt BM1 Fysisk miljøplanlegging Studieprogram for Bygg- og miljøteknikk Meny Prosjektoppgaven Arealbruk og befolkning Transport og.
Anvendt statistisk dataanalyse i samfunnsvitenskap
Bærekraftig utvikling - forskerspiren
Eiendomsmeglerbransjens boligprisstatistikk Februar 2011 Norges Eiendomsmeglerforbund og Eiendomsmeglerforetakenes Forening ECON Poyry og FINN.
Å forklare sosiale fenomener
PROSJEKT: UADRESSERT REKLAME Omnibus: 23. august – 30 august 2006
Diskrete stokastiske variable
Eksperimentell metode - I
Eksperimentelle design Ikke-eksperimentelle design
Hovedideen Anta at en hypotese er riktig (H 0 ) Det er bare to muligheter, enten er H 0 riktig, ellers er den ”omvendte” hypotesen (H 1 ) riktig Gå ut.
Sammenhenger, problemstilling og forklaringer Forelesning 6/
1 Trivsel Utvalg Trives svært godt Trives godt Trives litt Trives ikke noe særlig Trives ikke i det hele tatt Snitt Trivsel Brannfjell skole (Høst 2014)
Forelesning 7 HSTAT1101 Ola Haug Norsk Regnesentral
Presentasjon av data: deskriptiv statistikk
Korrelasjonelle metoder
Hypotesetesting, og kontinuerlige stokastiske variable
Mål for sentraltendens:
Siste forelesning er i morgen!
Regresjon Petter Mostad
Forelesning 5 HSTAT1101 Ola Haug Norsk Regnesentral
Forelesning 6 HSTAT1101 Ola Haug Norsk Regnesentral
Kræsjkurs Del Ii Hypotesetesting
Statistikk 2 M1 årskurs HVE 31. august 2009.
Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.
MAT0100V Sannsynlighetsregning og kombinatorikk
Forskningsdesign: eksperiment
MAT0100V Sannsynlighetsregning og kombinatorikk
Korrelasjonelle metoder
Måling, målefeil Forskningsmetoder Frode Svartdal UiTø H-2006
MET 2211 Statistikk og dataanalyse
Repetisjon, del I Metode
SIV : Repetisjon Kapittel /12/2018 Fred Wenstøp.
Oppsummering fra forrige gang
I dag Konfidensintervall og hypotesetesting – ukjent standardavvik (kap. 7.1) t-fordelingen.
Utskrift av presentasjonen:

Sammenheng mellom flere variabler – Bivariat Analyse Kap 13 Metode - Rolf Gjestad www.gjestad.biz

Type variabler – type analyser Kategoriske variabler: Krysstabell 1 kat. og 1 kont. variabel: Gj.snittsverdi / median Kontinuerlige variabler: Korrelasjonsanalyse Metode - Rolf Gjestad www.gjestad.biz

Krysstabell Eks fra boka (s. 250): Sammenheng mellom medarbeidersamtale og størrelsen på bedriften? Størrelsen på bedriften kategoriseres – TEIT ! Mister informasjon / nyanser Hvor sette grensene mellom kategoriene? IKKE gjør det hvis du ikke må ! Metode - Rolf Gjestad www.gjestad.biz

Krysstabell 2 frekvensfordelinger som sees i sammenheng Marginalfordelinger frekvensfordeling på hver variabel Prosentfordelinger i hver celle, i begge retninger. Avhengig av hva frekvensen sammenlignes mot Se side 252 – tabell 13.4 Metode - Rolf Gjestad www.gjestad.biz

Krysstabell Eget eks: 2 x 2 tabell: Alkohol og dødsfall over en 15-25 års periode Død I live N / % Kvinner med alkohol-problemer 117 27.9 32.8 303 72.1 14.4 420 100 17.1 Matchede Population kontroller 240 11.8 67.2 1797 88.2 85.6 2037 82.9 N / % 357 14.5 2100 85.5 2457 Metode - Rolf Gjestad www.gjestad.biz

Avhengig og uavhengig variabel Årsak – virkning Logisk begrunnelse for retning: X Y Eks: Resultat til eksamen – Hvor mye lese til eksamen Verdien i den avhengige variabelen er avhengig av verdien i den uavhengige variabelen. Metode - Rolf Gjestad www.gjestad.biz

Avhengig og uavhengig variabel Eks: Fattigdom – Psykisk Helse Oppsett: Avhengig variabel – rekke Uavhengig variabel – kolonne Mye diskusjon på hva som skal stå hvor og det å begrunne dette i presentasjonen av data – TULL ! Slå sammen kategorier (celler) hvis få individer Bruk av % vs. antall (N) Metode - Rolf Gjestad www.gjestad.biz

Avhengig og uavhengig variabel Bruk av desimaler ? Usikkerhet tilsier at vi ikke bruker desimaler. Men gjøres. Usikkerhet ivaretas av test-statistikk. Metode - Rolf Gjestad www.gjestad.biz

Tabell-tolkning Vanskelig beskrevet Jo større antall i cellene, jo mindre trenger forskjellen å være 10 % forskjell Av 1000 Av 30 Hva er en stor forskjell? – Ja, si det ! Teori og kunnskap påvirker ALLE tolkning av resultater Metode - Rolf Gjestad www.gjestad.biz

Sammenlikning av Statistiske mål Kontinuerlige variabler vs. kategoriske variabler Kategorisering? Beholde helst målenivået. Beregne: Sentraltendens: Aritmetisk gjennomsnitt / Median Spredning (varians / standardavvik) Tabell 13.6 Viser at X middel = 36.89 og at de som har personansvar har lenger arbeidsuke enn de som ikke har personansvar – Men hva med standardavviket? Metode - Rolf Gjestad www.gjestad.biz

Mål for samvariasjon – Korrelasjon Bytte ut det ene leddet i variansformelen: Varians: individuell variasjon på en variabel Kovarians: Hvordan individers skårer på en variabel er relatert til skårer på en annen variabel Kovariansmatrise Inneholder både varianser og kovarianser Metode - Rolf Gjestad www.gjestad.biz

Mål for samvariasjon - Korrelasjon Korrealsjon (r) Pearson Produkt Moment Korrelasjons Koeffisient. Syx = Kovarians (av utvalget) Sy, Sx = Standardavvik (av utvalget) r = standardisert kovarians. Metode - Rolf Gjestad www.gjestad.biz

Andre formler for korrelasjon: Vis scatterplot. Metode - Rolf Gjestad www.gjestad.biz

Mål for samvariasjon - Korrelasjon Enhetene til måleinstrumentene påvirker ikke korrelasjonens styrke, men likevel problematisk å bruke måle-enhetene gitt en bestemt korrelasjon r uavhengig av enhetene til måleinstrumentene. Verdiområde for r -1: perfekt negativ relasjon 0: ingen lineær relasjon +1: perfekt positiv relasjon Metode - Rolf Gjestad www.gjestad.biz

Mål for samvariasjon – Korrelasjon Positiv korrelasjon: Økning i skåre på en variabel forbundet med økning i skåre på den andre variabelen Negativ korrelasjon: Økning i skåre på en variabel forbundet med reduksjon i skåre på den andre variabelen X-tra: r2 – forklart varians Y X r2 Metode - Rolf Gjestad www.gjestad.biz

Mål for samvariasjon - Korrelasjon Side 257 fig 13.2 Obs. 2 ? Obs. 1 også ? Metode - Rolf Gjestad www.gjestad.biz

Mål for samvariasjon - Korrelasjon Side 258 Metode - Rolf Gjestad www.gjestad.biz

Mål for samvariasjon - Korrelasjon Side 258 Metode - Rolf Gjestad www.gjestad.biz

Mål for samvariasjon – Korrelasjon Hva er en høy korrelasjon? Ikke et fasitsvar: avhengig av hva som studeres og forventninger Så presenteres lav, middels og høy: 0 - .20, .30 - .40 og over .50 !!! Bivariat analyse og målenivå Tabell - Side 259 Metode - Rolf Gjestad www.gjestad.biz

Er sammenhenger kausale ? Nei, som regel ikke. Lovmessighet? Nei, sjelden. Regel: Sammenheng mellom X og Y X må komme før Y (eller i det minste samtidig) Kontroll for andre teoretisk relevante variabler Metode - Rolf Gjestad www.gjestad.biz

Kausale sammenhenger? Underliggende variabler - 3.variabler Spuriøse sammenhenger? Condfoundere Medierende effekt? y x z Metode - Rolf Gjestad www.gjestad.biz

Kausale sammenhenger? Sammenheng? X før Y Bare en forutsetning, men sier ikke noe om kausalitet. X før Y Et designproblem: Eksperimentelle studier / flere tidspunkt / panel-studier Et teoriproblem: Logisk rekkefølge. Eks.: SES hos foreldre – Barns utdanningsvalg. Hva med underliggende forklaringer her? Metode - Rolf Gjestad www.gjestad.biz

Kausale sammenhenger? Kontroll for andre relevante variabler? Vanskelig / umulig å oppfylle Bare exp. studier som kan? Mekanisme: som kan belyses/diskuteres. TEORI Konklusjon: Vanskelig å påvise kausalitet. Vil aldri kunne kontrollere for alle relevante variabler Derfor: vær MODERAT når trekke slutninger. TEORETISK FORTOLKNING. Eksp. Studier: indre og ytre validitet Metode - Rolf Gjestad www.gjestad.biz

Kontroll for tredje variabel – Trivariat Analyse Kap 14 Metode - Rolf Gjestad www.gjestad.biz

To Bivariate Sammenhenger Kontroll for tredje variabler Trivariate (3) – et særtilfelle av multivariate Eks.: prediksjon av inntekt Prediktorer: Utdanning (H L), Yrkesstatus (H L), Kjønn, Ansinitet. Prosentfordeling og Prosentdifferanse (=forskjell på 2 prosenttall) Separate analyser Metode - Rolf Gjestad www.gjestad.biz

Trivariat analyse 2 separate sammenhenger kan bli seende annerledes ut når disse studeres samtidig. Y Y X2 X1 X2 X1 Metode - Rolf Gjestad www.gjestad.biz

Trivariat analyse Hva forklarer at barn blir flinkere til å lese? Føtter eller alder? Størrelse på føtter Lese- ferdigheter ? y x z ? Alder Metode - Rolf Gjestad www.gjestad.biz

Trivariat analyse Finne ut ved å holde en variabel konstant Se på et og et nivå av en variabel om gangen. Eks.: se på en aldergruppe om gangen, eks. 10 år. Se om leseferdighet varierer med forskjellig skostørrelse Så holde skostørrelse konstant Se om leseferdighet varierer med forskjellig alder Sammenheng mellom skostørrelse og leseferdighet er falsk /spuriøs Metode - Rolf Gjestad www.gjestad.biz

Trivariat analyse Sammenhengen skyldes at vi IKKE har tatt hensyn til aldersvariabelen – eller andre variabler Nytt eksempel: Yrkesstatus Utdanning Yrkesstatus en spuriøs sammenheng, dvs. den viktige variabelen er utdanning. Er det slik? Fiktive data Inntekt Metode - Rolf Gjestad www.gjestad.biz

Trivariat analyse – Alternative modeller Yrkesstatus Inntekt Utdanning Yrkesstatus Inntekt ? Utdanning Metode - Rolf Gjestad www.gjestad.biz

Trivariat analyse Hvis vi ikke kontrollerer for relevante variabler, vil det kunne se ut som om det er en sterkere sammenheng mellom 2 variabler enn det som det egentlig er. MEN: Vi kan også få sterkere sammenhenger når kontrollerer for andre variabler. Side 268-271: Holde nivåer konstante av en variabel når studere sammenhenger mellom 2 andre variabler Metode - Rolf Gjestad www.gjestad.biz

Trivariat analyse – Samspill Sammenheng mellom 2 variabler er forskjellig på ulike nivåer av en tredje variabel. Dette er definisjonen på en interaksjon Eks fra 272: Utdanning har størst betydning på lønnsnivå for dem som har lav yrkesstatus. Muligheter for multivariate analyser med flere hovedeffekter og interaksjonseffekter. Metode - Rolf Gjestad www.gjestad.biz

Del IV: Slutningsstatistikk – Å generalisere fra utvalg til populasjon Metode - Rolf Gjestad www.gjestad.biz

Fra utvalg til populasjon Populasjon: alle tenkelige observasjoner Et teoretisk begrep Resultater fra utvalg (statistikk) som representative for populasjon? Generaliserbare? Trukket representativt? Usikkerhet knyttet til generalisering av resultater Slutninger om sentraltendens og fordeling Fordeling i utvalg vs fordeling i populasjon Metode - Rolf Gjestad www.gjestad.biz

Beregning av sikkerhetsmargin for gjennomsnitt – estimering Kap 15 Metode - Rolf Gjestad www.gjestad.biz

Estimering Utgangspunkt: Normalfordeling Fordeling i populasjon er ukjent ! For å vite snitt og spredning - kartlegg ALLE ! Estimere fordelingen (parameter-verdier) i populasjonen basert på utvalg Fra NOEN (estimat-verdi) til ALLE (parameter-verdi) Tilfeldig utvalg: Sannsynlig at estimat av snittet ligger i nærheten av pop.snittet (boka: i området til???) Trekke nye utvalg (re-sampling), få nye estimater Metode - Rolf Gjestad www.gjestad.biz

Estimering Tabell 15.1: To valgdagsmålinger og valgresultatet. Over/Under-representasjon? Feilmargin – bruke normalfordelingskurven Metode - Rolf Gjestad www.gjestad.biz

Normalfordelingskurven Høyde blant gutter Fordeling av frekvenser Flest i midten, så stadig færre jo lenger ut (avvik fra snittet) Eks: Mange er rundt snittet, få er svært lave/høye …estimere hva som er området for gj.sn.høyden i populasjonen gutter i vernepliktig alder. (Området?) Skjevfordeling (skewness) pos skjev (høyre hale)/neg skjev (venstre hale) Fordelingens bredde (kurtosis) Smal og høy vs. Vid og lav Normalfordeling: snittet separerer 50% over og under. Metode - Rolf Gjestad www.gjestad.biz

Normalfordelingskurven Fordelingsform og standardavvik: jo bredere fordeling, jo større st.avvik 1 st.avvik: 34% * 2 = 68% innen +/- 1 st.avvik 1.96 st.avvik: 95% (13.5% ekstra * 2) Standardskåre: z = x – x(middel) / s Hvor mange standardavvik et individ avviker fra snittet. Snittet = 0, 1 st.avvik = 1 Metode - Rolf Gjestad www.gjestad.biz

Å Estimere et gj.snitt i populasjonen ved utvalgets gj.snitt Uendelig mange utvalg fra populasjonen Gir fordeling av estimat-verdien: flere verdier, mange nær pop.verdien, noen mer avvikende. Utvalgs/Samplingsfordeling av verdier fra mange utvalg (sannsynlighetsfordeling) Gjennomsnitt og Standardavvik Hvis uendelig mange utvalg: samplingssnittet = pop.snittet Sentralgrenseteoremet (Central limit theorem): Normalfordeling av utvalgsverdier, uavhengig av hvordan verdiene i populasjonen fordeler seg. Metode - Rolf Gjestad www.gjestad.biz

Egenskaper ved tilfeldige utvalg Hvis trekke for eksempel 40 utvalg fra en populasjon med gitte parametere: Utvalgsgj.snitt et estimat av populasjons-gj.snitt Snittet av utvalg-gj.snittene  Populasjon-gj.snitt Gjennomsnittsverdiene vil variere Standard-feil = Standardavviket av utvalgenes gjennomsnittsverdier. Utvalgsfordeling (Sample distribution). Det gjennomsnittlige avviket av utvalgsgjennomsnittene Estimert standardavvik: N-1 (df). Et estimat av populasjonsverdien Metode - Rolf Gjestad www.gjestad.biz

Å Estimere et gj.snitt i populasjonen ved utvalgets gj.snitt Mest sannsynlig med verdier nær samplingsgjennomsnittet Minst sannsynlig at utvalgsgjennomsnitt ligger langt fra samplingsgjennomsnittet 3 typer fordelinger: Populasjonsfordeling Samplingsfordeling Utvalgsfordeling Metode - Rolf Gjestad www.gjestad.biz

Fra små til større utvalg: Mindre spredning i utvalgsgjennomsnitt og utvlagets gjennomsnitt mer likt populasjonens gjennomsnitt. Fordelingskurven blir smalere Konklusjon: Større utvalg produserer bedre estimater på gjennomsnittsverdien i populasjonen enn små utvalg. Metode - Rolf Gjestad www.gjestad.biz

Bruk av hele populasjonen Hvis alle skårer ble målt: En ren observasjon hvorvidt det var forskjell på en gitt variabel. Slipper problemet m/ utvalgsfeil (sampling-error) Andre mulige typer av feil som kan være årsaken til en gitt forskjell: måling, rekoding Metode - Rolf Gjestad www.gjestad.biz

Å Estimere et gj.snitt i populasjonen ved utvalgets gj.snitt Sannsynlig at beregnet snitt estimerer snittet i populasjonen. Det samme / i nærheten av 2 forhold påvirker: Utvalgsstørrelse – Jo større, jo bedre Spredningen i utvalget – Jo større, jo mindre presist (større konfidensintervall) Forutsetning: Samplingssnittet settes lik utvalgsgj.snittet Metode - Rolf Gjestad www.gjestad.biz

Å Estimere et gj.snitt i populasjonen ved utvalgets gj.snitt Spredning / standardavviket til samplingsgjennomsnittene = standardfeil = Observert st.avvik / roten av antall enheter Estimat på usikkerhet om hva som kan være populasjonens gjennomsnitt Metode - Rolf Gjestad www.gjestad.biz

Å Estimere et gj.snitt i populasjonen ved utvalgets gj.snitt Hvis vi trakk en uendelig mengde utvalg fra samme populasjon, ville 95% av disse utvalgsgjennomsnittene befinne seg innenfor +/- 1.96 standardfeil. Konklusjon: 95% sannsynlig at vi har rett når vi sier at pop.snittet befinner seg i området innenfor +/- 1.96 st.feil (0.98 cm hver retning). 5% sannsynlig at vi tar feil – når sier at pop.snittet ligger innen dette området. Metode - Rolf Gjestad www.gjestad.biz

Å Estimere et gj.snitt i populasjonen ved utvalgets gj.snitt Området til standardfeilen = Konfidensintervall: Området som populasjonssnittet ved en gitt sannsynlighet befinner seg innenfor Vanligvis 95% - men og 99% (+/- 2.58 st.feil) Estimering dreier seg om sannsynlighet for å gjøre et riktig estimat 5% sannsynlighet for at vi sier at pop.snittet er innenfor konfidensintervallet. Men det kan være over (2.5% sannsynlig) og under (2.5% sanns.) Metode - Rolf Gjestad www.gjestad.biz

Beregning av forskjeller mellom grupper – hypotesetesting Kap 16 Metode - Rolf Gjestad www.gjestad.biz

Hypotesetesting Statistisk signifikanstesting: å undersøke om eventuelle forskjeller mellom utvalg kan generaliseres til også å gjelde mellom populasjonene disse utvalgene er trukket fra. Påvirket av: Størrelsen på forskjellen. Størrelsen på utvalget Metode - Rolf Gjestad www.gjestad.biz

Hypotesetesting Hypotesetest: statistisk sannsynlighet for hvilken konklusjon som er riktig: H0 = ingen forskjell – Denne som testes og eventuelt forkastes ! H1 = forskjell Metode - Rolf Gjestad www.gjestad.biz

Hypotesetesting Gitt at ingen forskjell mellom populasjonene: Trekke uendelig mengde par utvalg (høyskolestudenter og univ.studenter) Samplingsfordeling: Svært mange vil få null i differanseskåre. Noen differanser vil avvike fra null. Lite sannsynlig med stort avvik. Metode - Rolf Gjestad www.gjestad.biz

Testing av differanser mellom gjennomsnitt: t-test Tabell 16.1 side 293: arbeidstid vs. ant. ansatte. Hvis standardfeilen til differansen blir større enn 1.96 st.feil, da må Ho avvises Formel: side 294 Finne standardfeil multiplisere denne med 1.96 for å få kritisk verdi Er oppnådd verdi mindre / større enn kritisk verdi? Hvis større, forkaste Ho-hypotesen. Metode - Rolf Gjestad www.gjestad.biz

Testing av differanser mellom gjennomsnitt: t-test Når få individer: t-fordeling i stedet for Normalfordeling - tar hensyn til ant. Individer Ensidig og Tosidig signifikanstesting: Plasserer forkastningsområdet på den ene eller begge sidene av fordelingen. Forventning til retning på resultatet? Eks.: pos eller neg. Differanse? Metode - Rolf Gjestad www.gjestad.biz

Rapportering av resultater fra signifikanstesting Bestemme signifikansnivå først Med hvor stor sannsynlighet aksepterer vi å begå feil i forhold til det å forkaste Ho? Vanlig med 5% (p < .05 / *) men også 1% (p < .01 / **) og (p < .001 / ***). p-verdier beregnes fra t-skåren (eller F, χ2…) Lenger ut på t-fordelingen, større t-verdi og lavere p-verdi Praksis: Hvis oppnådd p-verdi < kritisk p-verdi, da forkaste Ho – dvs. forskjell mellom / relasjon i populasjonen(e). Metode - Rolf Gjestad www.gjestad.biz

Rapportering av resultater fra signifikanstesting IKKE BEVIS, men sannsynliggjøring. Mulig å generalisere fra utvalget Men jo lavere p-verdi, jo mer sikre på at forskjell. p < .05: svært lite sannsynlig at en korrekt Ho blir forkastet. MEN: IKKE det samme som at forskjellen / relasjonen er betydelig / stor Metode - Rolf Gjestad www.gjestad.biz

Feiltolkning av P-verdier Ikke styrken til resultatet p<.05, (bra?), p<.01 (bedre?), p<.001 (best?) Statistisk signifikans og Substansiell viktighet r-kvadrert Klinisk signifikant - Opplevelse Metode - Rolf Gjestad www.gjestad.biz

Beslutningsbasert Strategi Effekt-størrelse: Forskjellen mellom gjennom-snittene (2.3 vs. 2.7 på en skala 1-10), korrelasjonens størrelse. Kan være sterk, men likevel ikke substansiell viktig. Utvalg-størrelse: Jo flere personer, jo lettere statistisk signifikant resultat. Metode - Rolf Gjestad www.gjestad.biz

Signifikans-Testing: p-verdier Null-hypotese = Ho Ingen sammenheng, forskjell i populasjonen Forskningshypotese = H1 Hvis usannsynlig at utvalget kommer fra populasjonen definert av Ho, da forkaste Ho. Sannsynligheten for Ho som følge av utvalgsfeil. Hvis mindre enn 5% sannsynlig, da forkaste Ho. Hvis forkaste Ho, da godta H1? H2, H3, H4….? Metode - Rolf Gjestad www.gjestad.biz

Tolkning av P-verdier P-verdi: Sannsynligheten for at resultatet oppstår som følge av utvalgsfeil. Hvis p er liten, da forkaste null-hypotesen. Signifikanstesting = bevisføring mot Ho. Eks.: r = .66, p<.01: antatt at korrelasjonen mellom variablene er null i populasjonen (null-hypotesen), så er sannsynligheten for å oppnå en korrelasjon på .66 i utvalget mindre enn 1 av 100. Grense for p-verdi? Ingen absolutt grense. Metode - Rolf Gjestad www.gjestad.biz

Type 1 og 2 feil (- Kap. 17) Type 1-feil: Type 2-feil: Feilaktig forkaste Ho når Ho er sann for populasjonen som utvalget ble trukket fra. FALSK POSITIV KONKLUSJON. (Jfr. forkaste tvilen om at tiltalte var skyldig, når det faktisk var rimelig grunn til tvil om skyld – ”Justismord”) Type 2-feil: Ikke forkaste Ho når den burde vært forkastet, dvs. H1 i populasjonen. FALSK NEGATIV. Metode - Rolf Gjestad www.gjestad.biz

Testing av sammenhenger i krysstabeller – Khi-kvadrat (χ2) Ikke gjennomsnitt, st.avvik, st.feil Forventet frekvenser under null-hypotesen – at det ikke er noen sammenheng Ser da på snittet over gruppene – fordelingen for JA og NEI når kjønns-kategoriene er slått sammen. se tab 16.3 side 298 Lages nye N i cellene ut fra at det ikke er noen sammenheng, slik at prosentfordelingen blir lik Metode - Rolf Gjestad www.gjestad.biz

Testing av sammenhenger i krysstabeller – Khi-kvadrat (χ2) Beregne differansen mellom faktisk og forventet fordeling Hvis denne er liten, lite sannsynlig at det er forskjell i populasjonene (dvs. sannsynlighet for at Ho er riktig) Utregning – side 300 Store avvik – stort tall Frihetsgrader (df): Produktet (ant kategorier minus 1 for alle variablene) Metode - Rolf Gjestad www.gjestad.biz

Testing av sammenhenger i krysstabeller – Khi-kvadrat (χ2) χ2 - verdier ved antall frihetsgrader (df) χ2 har egen fordeling m/ kritiske verdier (s. 301) SPSS-utskrift – side 302 Metode - Rolf Gjestad www.gjestad.biz

Sammenhenger mellom variabler – signifikanstest av korrelasjon Korrelasjon i utvalg – korrelasjon i populasjon Ho: ingen korrelasjon i populasjonen Ikke to grupper, men sammenheng mellom variabler som testes Igjen: ved lav korrelasjon, sannsynlig å beholde Ho. Men hvor er kritisk verdi? SPSS-resultat – side 303 Metode - Rolf Gjestad www.gjestad.biz

Korrelasjonskoeffisienten Gitt at: r = 0 i populasjon r-verdiene i utvalgene vil variere rundt 0. Noen r vil avvike signifikant mye. 95% av korrelasjonene er sannsynlige under Ho gitt at r=0 i populasjonen. 5% av korrelasjonene er så usannsynlige at muligheten for at r=0 i populasjonen da blir forkastet. Resultatet blir statistisk signifikant. Dvs.: at vårt utvalg faller i den ekstreme enden av fordelingen av utvalg, gitt at nullhypotesen er korrekt. Metode - Rolf Gjestad www.gjestad.biz

Korrelasjonskoeffisienten Egenskaper ved utvalget blir brukt for å avgjøre hvorvidt korrelasjonen i utvalget kommer fra en populasjon hvor korrelasjonen er null ! Metode - Rolf Gjestad www.gjestad.biz

Sammenhenger mellom variabler – signifikanstest av korrelasjon Standardfeil til korrelasjon: Finne kritisk verdi Statistisk signifikans? Formelen er påvirket av r og n. Dette er viktig å huske. Metode - Rolf Gjestad www.gjestad.biz

T-test av korrelasjonskoeffisienten F=t2 T-test er et særtilfelle av F-test Metode - Rolf Gjestad www.gjestad.biz

Hvordan vurdere slutningsstatistikk? Kap 17 Metode - Rolf Gjestad www.gjestad.biz

Hvordan vurdere slutningsstatistikk? Metode - Rolf Gjestad www.gjestad.biz

Feilslutninger Konkludere med Ho, men H1 er riktig Konkludere med at Ho er feil, når Ho er riktig NB: Hvor viktige er eventuelle statistiske signifikante forskjeller? ALLTID Ho-HYPOTESEN SOM TESTES ! Hypotesetesting: beregne hvor stor sannsynlighet for å få det observerte resultatet dersom nullhypotesen er sann (p-verdien angir denne sannsynligheten) Metode - Rolf Gjestad www.gjestad.biz

Feilslutninger Hvis p er stor (eks.: p = .40), er det 40% sannsynlig å få dette resultatet dersom Ho er sann Frekventistisk statistikk: Får dette resultatet i 40% av alle utvalg som kan trekkes (samples) fra populasjonen. = det er 40% sannsynlighet for å forkaste en riktig Ho. Metode - Rolf Gjestad www.gjestad.biz

Feilslutninger Konvensjon: Akseptere 5% sannsynlighet for å forkaste en Ho som er korrekt. p < .05 (i boka: p≤ .05): forkaste Ho. Men fortsatt en liten sannsynlighet for at Ho er riktig (Type I–feil) Redusere faren for type I-feil ved å bruke 1% i stedet for 5% p ≥ .05: godta Ho-hypotesen. Også mulig å godta Ho når denne ikke er sann (Type II-feil). Metode - Rolf Gjestad www.gjestad.biz

Feilslutninger Kan velge andre signifikansnivå, f.eks. 10%. Reduserer type II-feil Innledende faser i forskning Metode - Rolf Gjestad www.gjestad.biz

Statistisk og Innholdsmessig signifikans Signifikanstesting: for å kunne generalisere fra utvalg til populasjon Hva skal generaliseres? Alternativ hypotese (H1) Hvis forskjell - Hvor stor forskjell? Hvis nullhypotesen får støtte (= korrekt) er dette også interessant. Store utvalg: selv små forskjeller kan bli stat.sign. Substansielt (innholdsmessig) interessant? Metode - Rolf Gjestad www.gjestad.biz

Slutningsstatistikk og ytre validitet Fra utvalg til populasjon handler også om representativitet i data. Tilfeldig frafall? (Missing at random) Generaliserbarhet: Geografisk / kulturell / subkultur Land Historisk – tid Eks.: er relasjonen mellom arbeidsledighet og sosial tilhørighet lik over ulike land i Europa? Metode - Rolf Gjestad www.gjestad.biz