Samenvatting Kwantitatieve Beleidsmethoden 2023-2024
Deel 1: Enkelvoudige en meervoudige regressie
Hoofdstuk 1: Inleiding
1.1) Van theorie naar model
Een theorie bezorgd ons een inzicht omtrent de relatie tussen variabelen
Bv. consumptieniveau (c) wordt beïnvloed door beschikbaar inkomen (x)
Deze "theoretische" relatie wordt uitgedrukt met een wiskundige functie: Een model
Bv. c=f ( x ) ; q=f ( p , p s , pc , x )
Algemeen model:
y=f (x 1 , x 2 , x 3 , … , x n )
d
Met y = Respons of afhankelijke variabel
x 1 , x 2 , x 3 ,… , x n = Verklarende of onafhankelijke variabelen
Het verband tussen y en x 1 , x 2 , x 3 , … , x n kan positief of negatief zijn
Regressiemethoden zoeken een antwoord op de vraag hoe groot het effect van een wijziging in een
onafhankelijke variabele is op een afhankelijke variabele
Het kan dat er andere variabelen zijn die de respons beïnvloeden, maar die niet in het economisch
model zijn opgenomen. Deze worden uitgedrukt als:
E ( Y |x 1 , x 2 , x 3 , … , x n ) =f ( x 1 , x 2 , x 3 , … , x n )
De foutenterm, een willekeurige component die de individuele respons beïnvloedt, wordt als volgt
weergegeven:
Y =f ( x 1 , x 2 , x 3 ,… , x n ) +U
Meer expliciet kan het model geschreven worden als:
Y =f ( x 1 , x 2 , x 3 ,… , x n ; β 1 , β 2 , β3 , … , β k )+ U
Met β 1 , β 2 , β 3 , … , β k = onbekende parameters die weergeven in welke mate de verklarende
variabelen de respons beïnvloeden.
1.2) Soorten gegevens
De steekproefgegevens kunnen op twee manieren verzameld worden:
- Experiment uitvoeren: De onderzoeker moet hier wel controle hebben over de waarde van de
verklarende variabelen (vaak onmogelijk)
d
- Observationele gegevens
Er kan bij deze gegevens een onderscheid gemaakt worden tussen
Tijdreeksgegevens: De waarden van één object worden op verschillende tijdsstippen gemeten
Cross-sectie gegevens: De waarden van verschillende objecten worden op één tijdsstip gemeten
Panelgegevens: De cross-sectiegegevens worden op verschillende tijdsstippen verzameld
1
,1.3) Causaliteit
Om aan te tonen dat er sprake is van een causaal verband moeten er, bovenop een sterk empirisch
verband ook nog theoretische argumenten gebruikt worden.
1.4) Correlatie
Een correlatie meet
- In welke mate 2 metrische variabelen Y en x een lineair verband vertonen en
- Wat de richting van dat verband is (positief of negatief)
- Hoe sterk sluiten de punten op een scatterplot (puntenwolk) aan bij een denkbeeldige rechte
Voorbeelden:
- Correlatie tussen consumptieniveau en beschikbaar inkomen
- Correlatie tussen prijs personenwagen en vraag ernaar
- Correlatie tussen lengte en gewicht persoon
Correlatiecoëfficiënt dicht bij +1: Sterk positief verband tussen de twee variabelen
Voorbeeld: Hoe groter de persoon, hoe zwaarder. Maar ook, hoe kleiner de persoon, hoe lichter.
Stel dat we een perfecte positieve correlatie zouden hebben. Dit wilt zeggen dat er in de hele
steekproef geen enkele uitzondering is op de regel (dat een grote lengte gepaard gaat met een
hoog gewicht)
Dit is niet realistisch
De correlatie gaat nooit perfect +1 zijn
2
,Hoofdstuk 2: Het lineair regressiemodel
Zoals gezien in hoofdstuk 1 bepaalt de correlatie wat de invloed is van een onafhankelijke variabele
op de afhankelijke variabele. Echter, de correlatiecoëfficiënt geeft geen informatie over de
gevoeligheid van de respons variabele Y t.o.v. de verklarende variabele x (de hellingsgraad van de
rechte)
Dit is wel het geval bij regressieanalyse: Er wordt niet enkel gekeken of punten aansluiten bij een
stijgende of dalende rechte, maar het gaat ook de rechte kwantificeren (hellingscoëfficiënt
kennen)
2.1) Het lineair model
Voor het schatten van een regressiemodel is het noodzakelijk dat de vorm van de functie f in het
model gespecifieerd wordt. De “theorie” moet vertaald worden naar een lineair model om de rechte
te kunnen kwantificeren. Bij een lineair model is E ( Y |x 1 , x 2 , x 3 , … , x n ) een lineaire combinatie van
de onbekende parameters β i
Voorbeelden enkelvoudig lineair model: Y = β0 + β 1 x+U ; Y = β0 + β 1 ln x+U
Voorbeelden meervoudig lineair model: Y = β0 + β 1 x1 + β 2 x 2 +…+ β k x k + U ;
Y = β0 + β 1 x1 + β 2 x 2 + β 3 x 21 + β 4 x22 + β 5 x 1 x2 +U
Bij meervoudige hebben we meerdere verklarende variabelen (x’en). Het laatste voorbeeld is een
model van tweede orde (door het kwadraat).
2.2) Het enkelvoudige lineair regressiemodel
Een enkelvoudige lineair regressiemodel bestudeerd het verband tussen
- één kwantitatieve afhankelijke of responsvariabele Y
- één (voorlopig) kwantitatieve onafhankelijke of verklarende variabele x
Indien je één van volgende soort vragen stelt kies je voor een enkelvoudige lineaire regressie:
- Is er een sterke lineaire relatie tussen beide variabelen?
- Is deze lineaire relatie significant?
- Hoe gevoelig is Y voor veranderingen in x?
- Welke waarde voor Y voorspelt men gegeven een waarde van x?
Voorbeelden van een enkelvoudige lineaire regressie:
- Op welke manier wordt het schadebedrag dat na een brand wordt aangegeven bij de
brandverzekering (Y) beïnvloed door de afstand tot de brandweerkazerne (x)?
- Welk schadebedrag verwacht men gegeven dat de brandweerkazerne zich op 2 km bevond?
- Is er een verband tussen de lengte van een persoon en zijn/haar gewicht? In welke mate wordt het
gewicht beïnvloeddoor de lengte?
We geven een voorbeeld om de terminologie uit te leggen:
"Theorie": Er is een verband tussen de lengte (x) en het gewicht van een persoon (Y )
3
, Bijhorend lineair model: Y = β0 + β 1 x+U
β 0: Intercept
β 1: Helling van de rechte, effect van x (lengte) op Y (gewicht)
U: Afwijking
U: De "afwijking van de theorie”
De relatie tussen lengte en gewicht is nooit perfect. Deze wordt veroorzaakt door andere
invloeden op het gewicht die we niet kennen (vb. levensstijl, genetische invloed, ...)
In dit hoofdstuk zoeken we een methode om aan de hand van steekproefgegevens β 0 en β 1 te
schatten. De schatters hiervoor noemen we ^β 0 en ^β 1
Hoe gaan we deze β 0 en β 1 bepalen? We nemen een steekproef (puntenwolk) en bepalen de best
mogelijke rechte doorheen de puntenwolk (modelschatting):
^y =b0 +b1 x
De waarden van de schatters (berekend op basis van de steekproef) noteren we als b 0 en b 1
^y is een voorspelling van Y op basis van het geschatte model
2.3) De methode van de kleinste kwadraten
Om de onbekende parameters te schatten kunnen we gebruik
maken van een puntenwolk. Het doel is om de best mogelijke
rechte te kiezen, die zo goed mogelijk het model beschrijft. Zoals
het voorbeeld hieronder duidelijk aantoont kunnen we nooit een
rechte nemen waar alle punten op liggen. We moeten dus een
benadering kiezen die het beste hier op lijkt.
Hoe doen we dit? De ‘beste’ rechte is de rechte waar de som van
alle ui ' s zo klein mogelijk is
u = De berekende afwijking, de mate waarin het punt
i
verwijderd ligt van de rechte
De afwijkingen zijn dan zo klein mogelijk
Indien we de afwijkingen gewoon zouden optellen, dan zouden alle
positieve en negatieve verschillen elkaar altijd opheffen.
Oplossing voor dit probleem: Het kwadraat nemen van alle
afwijkingen. Hierdoor krijgen de negatieve afwijkingen ook een
positieve waarde.
Deze verschillen gaan we optellen
Deze methode noemen we de methode van de kleinste
kwadraten
De grootte van de afwijking tussen een waarneming en de
geschatte rechte wordt gegeven door:
ui= y i−^y i
Het doel is dus om de coëfficiënten te gaan minimaliseren. Deze worden uitgedrukt door:
4