Kwantitatieve beleidsmethoden
DEEL I: Enkelvoudige en meervoudige regressie
Hoofdstuk 1: Inleiding
Van theorie naar model
o Theorie: inzicht in relatie tussen variabelen
• Vb. consumptieniveau (c) wordt beïnvloed door beschikbaar inkomen (x)
o "Theoretische" relatie uitdrukken met wiskundige functie
• Model: c = f(x)
o q = f (p,ps ,pc ,x)
o Algemeen: y = f(x1,x2,...,xk)
• y: respons of afhankelijke variabele (hangt af van x)
• x1,x2,...,xk: verklarende of onafhankelijke variabelen
o Verband tussen y en x1,x2,... positief, negatief of geen verband
Correlatie
o Eén afhankelijke of responsvariabele Y
o Eén onafhankelijke of verklarende variabele x
o Correlatiecoëfficiënt = is er verband tussen 2 lineaire variabelen en is dit positief of negatief
• Werd grafisch gedaan met rechte bij een puntenwolk (stijgend of dalend)
• Ligt tussen -1 en +1 (0 is geen verband)
o Correlatie:
• Meet in welke mate 2 metrische variabelen Y en x een lineair verband vertonen
• En wat de richting van dat verband is (positief of negatief)
• Hoe sterk sluiten de punten op een scatterplot aan bij een denkbeeldige rechte
o Voorbeelden:
• Correlatie tussen consumptieniveau en beschikbaar inkomen (verwacht positief)
• Correlatie tussen frisdrank verkoop kust en temperatuur
• Correlatie tussen aantal jaren onderwijs en welvaart
• Correlatie tussen prijs personenwagen en vraag ernaar (verwacht negatief)
• Correlatie tussen lengte en gewicht persoon
o Correlatiecoëfficiënt r dicht bij +1: sterk positief verband tussen de twee variabelen
• Correlatie = 0,864 in voorbeeld (+1 is bijna niet bereikbaar, perfect positief verband)
o Voorbeeld: hoe groter de persoon, hoe zwaarder (stijgende rechte puntenwolk)
• Maar ook: hoe kleiner de persoon, hoe lichter
o Stel perfecte positieve correlatie in voorbeeld: in hele steekproef geen enkele uitzondering
op regel dat een grote lengte gepaard gaat met een hoog gewicht = niet realistisch
1
,Hoofdstuk 2: Het lineair regressiemodel
2.1 Het lineair model
Enkelvoudig lineaire regressie
o Correlatiecoëfficiënt geeft geen informatie over gevoeligheid van de respons variabele Y
t.o.v. de verklarende variabele x -> hoe verandert x in functie van y
• Kijkt niet naar vlakte rechte, wel belangrijk want zegt hoe hard y beïnvloed wordt
o Wel het geval bij regressieanalyse
• Niet enkel kijken of punten aansluiten bij stijgende of dalende rechte
• Maar ook rechte kwantificeren (hellingcoëfficiënt kennen)
o Eén kwantitatieve afhankelijke of responsvariabele Y (kwantitatief is voorwaarde)
o Eén (voorlopig) kwantitatieve onafhankelijke of verklarende variabele x (x moet niet kwan.)
o Gestelde vragen:
• Is er een sterke lineaire relatie tussen beide variabelen?
• Is deze lineaire relatie significant?
• Hoe gevoelig is Y voor veranderingen in x?
• Welke waarde voor Y voorspelt men gegeven een waarde van x?
Voorbeelden:
o Op welke manier wordt het schadebedrag dat na een brand wordt aangegeven bij de
brandverzekering (Y) beïnvloed door de afstand tot de brandweerkazerne (x)?
o Welk schadebedrag verwacht men gegeven dat de brandweerkazerne zich op 2 km bevond?
o Is er een verband tussen de lengte van een persoon en zijn/haar gewicht? In welke mate
wordt het gewicht beïnvloed door de lengte?
o …
o Om rechte doorheen puntenwolk te kwantificeren, "theorie" vertalen naar lineair model
• Moeten er staan als een constante of vermenigvuldigd met lineaire functie
o Bij een lineair model verschijnen de parameters β0 ,β1 ,β2 ,... op een lineaire wijze in f
o Voorbeelden:
• Y = β0 + β1x1 + β2x2 +...+ βkxk + U
• Y = β0 + β1x + U
• Y = β0 + β1lnx + U -> ook lineair, β staat lineair in model
o Voorbeeld niet-lineair model:
• Y = β0 + β1xβ21U -> β2 niet lineair want staat in de macht, geen vermenigvuldiging
Voorbeeld:
o "Theorie": er is een verband tussen de lengte (x) en het gewicht van een persoon (Y)
o Bijhorend lineair model:
• Y = β0 + β1x + U
• β0: intercept met y-as
• β1: helling van de rechte, effect van x (lengte) op Y (gewicht)
• U: afwijking
o U afwijking:
• "Afwijking van de theorie"
• Relatie tussen lengte en gewicht is niet perfect
• Veroorzaakt door andere invloeden op het gewicht die we niet kennen
- Vb. levensstijl, genetische invloed, ...
2
,Schatten van model
o Populatie niveau
o Theoretisch verband (rechte): E(Y|x) = β0 +β1x
o Werkelijkheid: Y = β0 +β1x +U
o Hoe β0 en β1 bepalen? Zijn populatieparameters dus moeten geschat worden
o Steekproef nemen (puntenwolk)
o Best mogelijke rechte doorheen puntenwolk (modelschatting)
• y = b0 +b1x
o Werkelijkheid in de steekproef
• y = b0 +b1x + u
o Figuur:
• ui: berekende afwijking, mate waarin punt
verwijderd ligt van rechte
• Best mogelijke rechte: alle afwijkingen zo klein
mogelijk (rode lijn)
• Boven rechte ui positief
• Onder rechte ui negatief
o Afwijkingen gewoon optellen (zonder kwadrateren): positieve en negatieve afwijkingen
heffen elkaar op
o Afwijkingen worden gekwadrateerd: negatieve afwijkingen krijgen ook een positieve waarde
o Best mogelijke rechte: rechte die de som van de gekwadrateerde afwijkingen minimaliseert
(methode van de kleinste kwadraten)
2.3 Methode van de kleinste kwadraten (theorievraag, uitgewerkt notities)
o Bepalen coëfficiënten van optimale rechte (modelschatting grafiek hierboven)
o ui = yi - yi = yi – (b0 + b1xi)
o Minimaliseer S(b0, b1) =
o Partiële afgeleiden
• Kettingregel
•
• ,
o Normaalvergelijkingen: sommatie uitwerken en sommatie yi naar rechterlid
•
hb
• K
o Oplossing: uit eerste normaalvergelijking uitdrukking voor b0 halen en invullen in tweede
•
• K want sommatie van yi / n = y
o Ook kunnen met model y = 0 + 1exi + U
o Kleinste kwadratenschatting (steekproefniveau)
3
, o Voorbeeld verder uitgewerkt
• Modelschatting relatie lengte gewicht
- b0 = -58,23
- b1 = 0,716 (als lengte stijgt met 1 verwachten dat gewicht met 0,716 stijgt)
- Modelschatting: gewicht = -58,23 + 0,716*lengte
• Rekenvoorbeeld cursus:
- b0 = 0,7
- b1 = -0,1
• Vóór het experiment/verzamelen steekproefgegevens
- De respons een kansvariabele: Yi
- Afwijking een kansvariabele: Ui
- Kleinste kwadratenschatters
▪ h
▪ D
- Voor elke steekproef nieuwe waarden voor b0 en b1
2.4 Eigenschappen kleinste kwadratenschatters
o Kwadraatsommen (sums of squares) om variatie te meten
•
•
• Covariatie tussen x- en y-waarden
o Kleinste kwadratenschatters (uitgewerkt notities)
•
•
o Lineaire schatter: β0 en β1 (b0 en b1) zijn lineaire combinaties van Yi (yi)
o Praktijk vaak slechts één steekproef
o Belangrijk dat b0 en b1 betrouwbare info geven
o Hiertoe moeten de kleinste kwadratenschatters voldoen aan twee eigenschappen
• De schatters moeten overtekend zijn
- Zuivere schatter
- Onzuivere schatter is een onderschatting van de werkelijkheid
- k
- d
• De schatters moeten de kleinste variantie hebben van alle onvertekende schatters
- Efficiënte schatter
- Niet efficiënt als de schattingen veel verspreid zijn
4