Anvendt statistisk dataanalyse i samfunnsvitenskap

Slides:



Advertisements
Liknende presentasjoner
12.Studienreise nach Finnland,
Advertisements

Kvinner og politikk Kvinnelig valgmobilisering i Nord-Norge: Glasstak eller etterslep? Marcus Buck.
Når matematikk blir magisk
Litt mer om PRIMTALL.
Kapittel 4 - Regresjonsanslyse
Ti måter å ødelegge en CT-undersøkelse av halsen på
Hjemmeoppgave 1: Å høre etter NAVN: ……………………………….. DATO: ……………………….
Grafisk design Visuell kommunikasjon
Teknologi for et bedre samfunn 1 Asbjørn Følstad, SINTEF Det Digitale Trøndelag (DDT) Brukervennlig digitalisering av offentlig sektor.
Gjenfinningssystemer og verktøy II
Egenskaper til stoff og tidsbegrep: En modell for aspekt i russisk Laura A. Janda UNC-Chapel Hill/University of Tromsø
1 Arbeidssted, bruk av fasiliteter og - mengde 5.
Kap 12 Korrelasjon / Regresjon
Møre og Romsdal. 2 Ligger det et bedehus eller et kristelig forsamlingshus (ikke kirke) i nærheten av der du bor? (n=502) i prosent.
Enhalet og tohalet hypotesetest
Kap 5 - Prediksjonsmodeller
NRKs Profilundersøkelse NRK Analyse. Om undersøkelsen • NRK Analyse har siden 1995 gjennomført en undersøkelse av profilen eller omdømmet til NRK.
2. Planter. Del 1 (1–4). Nivå 2. Side 19–24
Grunnleggende matematikk
Kap 05 Betinget sannsynlighet
Tolkning av resultatene fra logistisk regresjon
Fra forelesningene om involveringspedagogikk Et utviklingsarbeid Philip Dammen Manuset er under arbeid.
Kapittel 14 Simulering.
Forelesningsnotater SIF8039/ Grafisk databehandling
Transformasjoner Men hva hvis relasjonen er kurvelinjær?
1 JFRYE2005 1: Vanlige 2: Kurvelinjære 3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler.
Regresjonskritikk I Den beste modellen – men hvor god er denne modellen? God nok? Regresjonsanalysens forutsetninger – oversikt over mulige problemer 1:
3: Samspill (ikke-addivitet) 4: Dikotomier 5: Dummy-variabler
Mer grunnleggende matte: Forberedelse til logistisk regresjon
Om semesteroppgaven Krav til den avhengige variabelen
HVA ER REGRESJONSANALYSE?
Anvendt statistisk dataanalyse i samfunnsvitenskap
Anvendt statistisk dataanalyse i samfunnsvitenskap
Anvendt statistisk dataanalyse i samfunnsvitenskap
Uni-, bi- og multivariate analyser
P-MP modeller. LOG530 Distribusjonsplanlegging 2 2 Det skal opprettes p fasiliteter (lager) for å betjene en gitt mengde kunder. Kundenodene er også potensielle.
P-CP modeller. LOG530 Distribusjonsplanlegging 2 2 Det skal opprettes p fasiliteter for å betjene en gitt mengde kunder. Kundenodene er også potensielle.
Highlights fra markedsundersøkelse Utarbeidet av Inger Marie Brun,
Analyse og tolkning av datamaterialet
Kap 13 Sammenligning av to grupper
Kap 06 Diskrete stokastiske variable
SAMMENHENGER MELLOM VARIABLER
Norsk Finansbarometer 2012 Norsk Finansbarometer 2012 Norsk Finansbarometer 2012 TNS Gallup Oslo, 2012 Det norske skadeforsikrings- markedet og dets bevegelser.
Statistikk på 20 2 timer PSY-1002
SINTEF Teknologi og samfunn PUS-prosjektet Jan Alexander Langlo og Linda C. Hald 1 Foreløpig oppsummering – underlag for diskusjon på PUS-forum
1 BM-dagen 29.okt BM1 Fysisk miljøplanlegging Studieprogram for Bygg- og miljøteknikk Meny Prosjektoppgaven Arealbruk og befolkning Transport og.
Anvendt statistisk dataanalyse i samfunnsvitenskap
Eiendomsmeglerbransjens boligprisstatistikk Oktober 2010
Eiendomsmeglerbransjens boligprisstatistikk Juni 2010 Norges Eiendomsmeglerforbund og Eiendomsmeglerforetakenes Forening ECON Poyry og FINN.
Eiendomsmeglerbransjens boligprisstatistikk Februar 2011 Norges Eiendomsmeglerforbund og Eiendomsmeglerforetakenes Forening ECON Poyry og FINN.
PROSJEKT: UADRESSERT REKLAME Omnibus: 23. august – 30 august 2006
Virksomhetsrapport Oktober Innhold 1. Oppsummering 2. Hovedmål 3. Pasient 5. Aktivitet 4. Bemanning 6. Økonomi 7. Klinikker 2.
Diskrete stokastiske variable
Anvendt statistisk dataanalyse i samfunnsvitenskap
En oversikt over personopplysningsloven Dag Wiese Schartum, AFIN.
Elevundersøkelsen ( ) UtvalgGjennomføringInviterteBesvarteSvarprosentPrikketData oppdatert 7. trinnVår , Symbolet (-) betyr.
Regresjonsanalyse Del 2
1 Trivsel Utvalg Trives svært godt Trives godt Trives litt Trives ikke noe særlig Trives ikke i det hele tatt Snitt Trivsel Brannfjell skole (Høst 2014)
Veivalgsanalyse etter Sørlandsmesterskapet i lang (klassisk) distanse 2004.
Presentasjon av data: deskriptiv statistikk
Kapittel 1, oppgave i) Sett inn preposisjoner eller adverb som passer.
Dagligbankundersøkelsen Fakta Dagligbankundersøkelsen intervju Befolkning 15 år + TNS Gallup Forfatter Bente Pettersen Roar Thorvaldsen.
Befolkning og arbejdsmarked 7. Mikroøkonomi Teori og beskrivelse © Limedesign
Mål for sentraltendens:
Siste forelesning er i morgen!
Regresjon Petter Mostad
 Vi ønsker å tilpasse en rett linje gjennom dataskyen  Denne linjen skal ha den beste tilpasningen (minst feil) til data.
Operasjonsanalytiske emner Prognosemodeller basert på Tidsserieanalyse Rasmus RasmussenBØK710 OPERASJONSANALYTISKE EMNER1 Del 23Forecasting 1 - Mønster.
Stian Grønning Master i samfunnsøkonomi Daglig leder i Recogni.
Utskrift av presentasjonen:

Anvendt statistisk dataanalyse i samfunnsvitenskap SOS3003: Anvendt statistisk dataanalyse i samfunnsvitenskap (3. forelesning) ► Mer bivariat regresjonsanalyse ► OLS vs. logistisk regresjon ► Matte (inkl. oppgaver) ► Semesteroppgaven - variabelvalg SOS3003/JFRYE

Bivariat regresjon I Gjennomgang av den grunnleggende, bivariate regresjonsmodellen Feilleddene (residualene) - hva er feilleddene? - kravene til feilleddene - Hva er OLS-regresjon: Om å finne den beste modellen Hvor god er den beste modellen? SOS3003/JFRYE

Bivariat regresjon II Standardiserte regresjonskoeffisienter Hypotesetester (t-testen, F-testen) Konfidensintervall Kjapt om noen problemer med bivariat regresjonsanalyse (det vil si problemer som også er relevant for multivariate regresjonsanalyser, og som vi derfor kommer grundig tilbake til mange ganger senere) SOS3003/JFRYE

Hva er bivariat regresjon? Analytisk verktøy for å si noe om relasjonen mellom to variabler (sosiale fenomener): X Y Hvordan endrer Y seg når X endrer seg? (Tilsvarende mål, men med annen anvendelse enn regresjon: Gamma, Phi, Cramer’s V, Kendall’s tau korrelasjonskoeffisienten, etc...) SOS3003/JFRYE

Vanlig regresjon forutsetter at Y (men ikke X’ene) har intervall- eller forholdstallsnivå. Hvorfor ikke nominalnivå? Gir ikke mening å snakke om ’økning’ på dette målenivået. (Kvinner er ikke mer enn menn) Hvorfor ikke ordinalnivå? Fordi regresjonsanalysen gir et svar på hvor mye Y endrer seg i gjennomsnitt for hver endring i X Derfor må avstanden fra 1 til 2 være den samme som fra 5 til 6, fra 17 til 18, også videre. (jfr. det som ble sagt om semesteroppgaven på forrige forelesning) SOS3003/JFRYE

Y Y Hvis y øker med 1 for hver enhets økning i x: 0 1 2 3 4 5 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Y 0 1 2 3 4 5 6 SOS3003/JFRYE

NB: ’Merk konstantleddet’ - dvs. verdien til y når x = 0 Den bivariate regresjonen kan fremstilles i en graf, som viser hvordan y endres når x endres y x NB: ’Merk konstantleddet’ - dvs. verdien til y når x = 0 SOS3003/JFRYE

Kan også formuleres matematisk I utvalget: y = b0 + b1 x1 I populasjonen: У = β0 + β1x1 F.eks.: Lønnsinntekt (y) er lik 100.000 kroner pluss (20.000 * antall års utdanning) I utvalget: y = 100.000 + 20.000x I populasjonen: У = 100.000 + 20.000x SOS3003/JFRYE

EKSEMPEL PÅ SPSS ESS-datamaterialet Y = Tillit til politiet X = How happy are you? SOS3003/JFRYE

Hva betyr dette? 1: Konstantleddet (b0)) = 5,547 Det betyr at hvis x = 0, så er predikert tillit 5,547 2: Stigningstallet (b1) = 0,194 Det betyr at for hver økning i x så stiger y med 0,194 enheter Altså: For hvert trinn på happy-skalaen man stiger, så stiger man 0,194 trinn på tillit til politiet-skalaen 3: Inntil videre - glem resten SOS3003/JFRYE

Hva betyr dette? Tillit til politiet Happy with life SOS3003/JFRYE

NB: En modell, som stemmer mer eller mindre med virkeligheten Målet er å angi/spesifisere en modell som er mest mulig realistisk (men samtidig uten at den blir for komplisert) Uansett vil det være flere faktorer som påvirker y enn dem som vi greier å fange inn i regresjonsanalysen. Ikke minst vil det alltid være et element av tilfeldighet inn i bildet: • To mer eller mindre identiske personer (samme utdanning etc.) vil ha forskjellige faktiske lønnsnivå. • På samme måte har ikke alle som er happy tilsvarende 6 på skalaen fra 1 til 10 en tillit til politiet tilsvarende 5,547 + (6*0,194) skalapoeng! Enhetene vil derfor ikke falle helt på regresjonslinja, men spre seg rundt denne linja. Eller sagt på en annen måte: Regresjonslinja representerer ’gjennomsnittet’ av alle punktene. SOS3003/JFRYE

Regresjonslinja følger ’snittet’ av punktene (som hver representerer en enhets verdier på x- og y-aksene) y x SOS3003/JFRYE

Av samme grunn innfører vi også et feilledd i regresjonsligninga I utvalget: y = b0 + b1 x1 + e I populasjonen: У = β0 + β1x1 + ε F.eks.: Lønnsinntekt (y) er lik 100.000 kroner pluss (20.000 * antall års utdanning) pluss et tilfeldig tillegg/fratrekk I utvalget: y = 100.000 + 20.000x + e I populasjonen: У = 100.000 + 20.000x + ε SOS3003/JFRYE

Forventningen: E[y] = β0 + β1x1 = predikert verdi ’Expected value’ Verdien som er mest sannsynlig, den verdien som vi predikerer. Feilleddet er ikke relevant i denne sammenhengen Hvorfor? - Feilleddet er tilfeldig, per def. ikke estimert til en bestemt størrelse - Feilleddet er dessuten forutsatt å være 0 i gjennomsnitt SOS3003/JFRYE

y = β0 + β1x1 + ε y = E[y] + ε ε = y - E[y] Feilleddene er per definisjon avstanden mellom den predikerte verdien og den faktiske verdien: y = β0 + β1x1 + ε y = E[y] + ε ε = y - E[y] SOS3003/JFRYE

y x SOS3003/JFRYE

y x SOS3003/JFRYE

y x SOS3003/JFRYE

y x SOS3003/JFRYE

Feilleddet er en verdi som tilskrives hver enkel enhet i datamatrisen. NB: Feilleddet er en verdi som tilskrives hver enkel enhet i datamatrisen. Feilleddet blir derfor en egen variabel, som kan analyseres i detalj. Jfr. Tillit til politiet… SOS3003/JFRYE

Ordinary Least Squares (OLS) No.: ’Ordinære minste kvadrater’ Vi ønsker en regresjonsligning som minimerer feilleddene, eller mer eksakt, minimerer de kvadrerte feilleddene (e2) I praksis: En linje som faller nærmest mulig flest mulig av punktene SOS3003/JFRYE

y x SOS3003/JFRYE

y x SOS3003/JFRYE

y x SOS3003/JFRYE

y x SOS3003/JFRYE

Matematisk løsning - se Hamilton SOS3003/JFRYE

To spørsmål: Hva er den beste modellen? OLS sikrer i utgangspunktet at vi får den beste modellen Hvor god er den beste modellen? Hvor stor andel av variasjonen rundt gjennomsnittet av y blir ’forklart’ ved hjelp av regresjonsligningen? Vi trenger tre begreper: TSS RSS ESS SOS3003/JFRYE

TSS: ’Total sum of squares’ (NB: Merk at det fortsatt er powerpoint-problemer med strekene over y’ene som angir gjennomsnittsverdiene) Husker dere variansen fra forrige forelesning? s2 = S(Y - Y)2/(n – 1) TSS er variansen som ikke er delt på (n-1) TSS = S(Y - Y)2 Sagt på en annen måte: TSS er summen av den kvadrerte avstanden fra observert Y til gjennomsnittet av Y SOS3003/JFRYE

y x SOS3003/JFRYE

y x SOS3003/JFRYE

RSS: ’Residual sum of squares’ Residual sum of squares er den kvadrerte avstanden fra regresjonsligninga og den observerte verdien RSS = S(e2) SOS3003/JFRYE

y x SOS3003/JFRYE

y x SOS3003/JFRYE

ESS: ’Explained sum of squares’ Explained sum of squares er den kvadrerte avstanden fra gjennomsnittet til regresjonsligninga Dvs. den delen av variansen som regresjonsligninga greier å forklare bedre enn gjennomsnittslinja. ESS = S(y - y)2 SOS3003/JFRYE

y x SOS3003/JFRYE

Altså: Hvor god er modellen? NB1: RSS + ESS = TSS R2 = ESS / TSS Varierer fra 0 til 1 Kort sagt: Hvor mye av variasjonen rundt Y klarer vi å forklare ved hjelp av modellen? Eller: Hvor mye bedre er regresjonslinja enn gjennomsnittet? (dvs. at b1 = 0)? NB2: I bivariat regresjon: R2 = r2 SOS3003/JFRYE

Tolkning av regresjonskoeffisientene Regresjonskoeffisientene (b1) kan tolkes på to måter: Absolutte & relativte verdier 1. Tolkning av de absolutte verdiene (ustandardiserte regr.koeffisienter: B) Angir økning i Y for hver enhets økning i X - enkelt og greit (så lenge man kjenner operasjonaliseringen av variablene) 2: Tolkning av relative verdiene (standardiserte regr.koeffisienter: Beta (b*)) Angir endringer i Y med Y’s standardavvik som måleenhet for hvert standardavviks endring i X. b* = b1 * (sx / sy) NB: I bivariat regresjon er b*1 = r (hvorfor?) SOS3003/JFRYE

SOS3003/JFRYE

Hamilton skriver på side 41... ’Standardized statistics like R2, r and b*1 are easily read, which makes them popular and often overemphasized by novice analysts... ’Sometimes these statistics get confused with substantive research goals, so models are evaluated solely by R2, or relationship strength jugded entirely by b*1. ’Natural-unit statistics like se and b1 provide a better foundation for substantive understanding SOS3003/JFRYE

Hypotesetester: t-testen Hvis modellen angir at b1 = 0,194 - hvor sikre kan vi være på at dette ikke skyldes tilfeldigheter, men at β1 faktisk er signifikant - det vil si: at β1 er større enn 0 - med andre ord: at relasjonen også er gyldig for populasjonen? Testindikator: t = b / SEb SOS3003/JFRYE

SOS3003/JFRYE

Hypotesetester: F-testen T-testen brukes for å teste hver enkelt b Hvis vi vil teste om hele modellen er signifikant, så må vi bruke en F-test Grovt sett er logikken som følger: Er den forklarte variansen (ESS) større enn feilleddene (RSS). NB: Desto større utvalg, desto større kan RSS være SOS3003/JFRYE

Formelen for F-testen F = (ESS / (K-1)) / (RSS /(n-K)) F-distribusjon (se bak i Hamilton) df1: K-1 df2: n-k Oppgis også i SPSS-utskriftene SOS3003/JFRYE

Konfidensintervall b +/- t(SEb) Samme logikk som ’vanlig’ SOS3003/JFRYE

Ny runde med trøbbel 1: Utelatte variabler 2: Ikke-linjære relasjoner 3: Ikke-konstant variasjon i feilleddene 4: Autokorrelasjon 5: Ikke-normalfordelte feilledd 6: Innflytelsesrike enheter (Basert på Hamilton s. 51) SOS3003/JFRYE

Utelatte variabler SOS3003/JFRYE

Ikke-linære relasjoner SOS3003/JFRYE

y x SOS3003/JFRYE

Ikke-konstant variasjon i feilleddene Fagtermen: Homoskedastisitet SOS3003/JFRYE

e x SOS3003/JFRYE

Autokorrelasjon Feilleddene korrelerer med seg selv Mest aktuelt i tidsserieanalyser Ellers: Geografiske data Kommer tilbake til dette, men... NB: Man må ha en hypotese om rekkefølgen på enhetene for at det skal gi mening å teste for autokorrelasjon! SOS3003/JFRYE

Ikke-normalfordelte feilledd SOS3003/JFRYE

Innflytelsesrike enheter SOS3003/JFRYE

y x SOS3003/JFRYE

y x SOS3003/JFRYE

Til neste gang (1) Gå inn på hjemmesidene til kurset. Finn frem til: Semesteroppgave 1. Les denne oppgaven. Forberede deg til neste forelesning med å notere ned minst tre stikkord på følgende punkter: Tre positive ting ved oppgaven Tre svake ting ved oppgaven Tre ting som du skjønner at du lurer på etter å ha lest oppgaven I tillegg skal du foreslå en karakter, som om du skulle vært sensor på denne oppgaven. I andre halvdelen av neste forelesning skal vi gå gjennom oppgaven sammen på tavla. Hensikten med dette opplegget er to-delt: Gi dere en første antydning av hva en semesteroppgave egentlig er på dette kurset Begynne å trene opp den kritiske sansen i forhold til andres bruk av regresjonsanalyser Dere mangler selvsagt de faglige forutsetningene for å gjøre dette ’skikkelig’, ettersom dere ikke kan regresjonsanalyse foreløpig. Ikke la det hindre dere! NB: På samme sted på nettet finner du også kandidatens ’egenvurdering’ – les også denne! SOS3003/JFRYE

Til neste gang (2) Skriv mellom en halv og en hel side om følgende: ►Hva vil du skrive semesteroppgave om? ► Beskriv datasettet som du skal bruke ►Beskriv den avhengige variablen. ►OLS eller logistisk (gi en begrunnelse)? ►Hvilke uavhengige variabler Du kan gjennomføre denne oppgaven selv du ikke har bestemt deg for avhengige variabel – ta utgangspunkt i en av alternativene du har vurdert. Ta med en utskrift av det som du skriver i fire – 4 – eksemplarer SOS3003/JFRYE