Les 1: econometrie
OLS wordt wel toegelicht, maar er zijn ook andere methoden om data te analyseren
Type regressie is afhankelijk van de afhankelijke variabele zo weet je welke methode je moet
gebruiken
2 ENIGE EXAMENVRAGEN
Stata output verklaren deftig kunnen uitleggen
Betrouwbaarheidsinterval
Methode
Betekenis coëfficiënten
Onderzoeksvraag kunnen gieten in onderzoeksmodel kunnen gieten
Zo doen, benadering beschrijven die functioneert
Als het niet werkt geen of slechte punten
Deze methode
Deze data
Ik doe dit zo omdat die data antwoord kunnen geven op de onderzoeksvraag
Iets uitwerken dat ook effectief in de realiteit werkt
Output kunnen verklaren (zie OZM 3) !!!
Reg price mpg i.rep… lineaire regressie
Eerste woord is altijd de soort regressie die er gebruikt wordt in het model
Eerste na commando (tweede woord) is altijd de afhankelijke variabele
Dit is continu en daarom gebruiken we regressie, omdat het in lijn is met dat type variabele
Daarna zijn verklarende variabele (onafhankelijke variabele)
i. voor variabele dan is het een categorische
Deze vraag heeft dan 5 antwoordmogelijkheden
Er moet er steeds 1 wegvallen, omdat de categorie altijd in relatie wordt gezien van de
basiscategorie. Dus de 2de categorie wordt in relatie gezien tot de 1ste categorie
R²: kijken hoe goed het model op zich is
t en P: om te kijken of de variabele significant verschilt van de 1 ste categorie
Grens is 5% (0,05)
Belangrijk deze waarde weer te geven, omdat wanneer er 2 middelen zijn op de markt om af te
vallen met het ene valt u 2 kg af met een betrouwbaarheid van 5%, het tweede middel valt u 15kg
van af met een betrouwbaarheid van 12%.
Welk middel zou u kiezen? Meeste mensen gaan 2 de kiezen
Alles is afhankelijk van de betrouwbaarheid die we hebben in de waarde en de waarde van de
bèta, maar het is wel een indicatie naar de conclusie toe
One tail vs. two tail testing
t-test is two-tail testing: testen of coëfficiënt in betrouwbaarheidsinterval valt
0,05
One tail testing: vooraf een hypothese in 1 richting geschreven
0,06
1
,Goed model?
Nee, want R² is aan de lage kant.
Hoge R² is vaker een slecht teken dan een goed teken
Vb. ik ga het aantal werknemers proberen verklaren door de turnover
Beide zijn maatstaffen om te grote van een onderneming te meten
R² gaat heel hoog zijn, maar daarom niet bepaald een goed model
!! Niet elk model heeft een R²
Omitted variable bias: groot probleem, de nodige variabele/ verklarende variabelen zijn niet
opgenomen en je hebt dus verklarende variabelen laten vallen
De f-test geeft aan of uw model op zich iets verklaard het model verklaard iets, maar het is niet
super
Test of je het model kan gebruiken of niet
Stappen om te beginnen aan de onderzoeksvraag:
Introduction
Importing and cleaning data
Browsing data
Creating variables
Research questions
Matching data
Regressions
Do file
Mogelijke valkuilen:
Puur ‘mechanisch’ na-apen, zonder te snappen waar je mee bezig bent
Geen rekening houden met type data (cross-sectie, tijdreeks, panel, ordered, count, …)
Geen rekening houden met meetniveau van afhankelijke en onafhankelijke variabelen
Correlatie (of significant effect) impliceert geen causaliteit: spurious correlation, random
walk
Omitted variable bias
Extreme observaties
Importing data
Gebruik termen die gebruikt worden in de literatuur (vb. home and host country)
Hoe kan je van een rode variabele een zwarte maken?
Destring: variabelen om te zetten naar bruikbare data
Non-numerieke data omzetten naar numerieke: dummies maken voor industriën string
omzetten naar numerical
Encode: we gaan van een stringvariabele naar een code
!! Laat altijd alles staan in uw dataset, het kan dat je deze later misschien wel nodig hebt
Als er bij het commando ‘sum’ in de output 0 staat, zijn er wel evenveel observaties als de andere
variabele, je kan er gewoon niet met rekenen en moet ze dus encoden
Sum, detail
Dan kan je van die variabele alles meer in detail zien
2
, Exogene
Dummificeren indien nodig
Dummy variable trap
Slope dummy vs. shift dummy
Dummy voor extreme observaties
Seizoensdummies, dummies voor trendbreuken
Endogene
(multinomial) logit
(multinomial) probit
4 broad categories : ratio scale, interval scale, ordinal scale and nominal scale
RQ: Wat zijn de determinanten van jobcreatie bij greenfield investeringen?
R²: model verklaard maar 10% van de waarden
F: > 57%, dus dat zit goed
Zonder kennis van zaken goede regressie
H0: Bij nieuw investeringen worden er meer jobs gecreëerd
Nieuwe variabele maken waarbij om te controleren of deze H0 klopt
2de manier is zeker niet beter dan de 1ste manier
Stata onthoud altijd de laatste gerunde regressie en op basis daarvan worden de testen
gedaan
Door normalisatie van de 2 belangrijkste variabelen zijn zowel R² als de F-waarde gestegen
probleem is veel minder groot
Rreg= robuust regression sluit bepaalde outliers uit en houdt dus rekening met bepaalde waarde
van die variabelen
Creëert sample gebaseerd op regressie die net is uitgevoerd
Specifieke outlier dummy gemaakt voor een bepaalde variabele outlier_1 toegevoegd
OF observatie eruit i.p.v. dummy te maken
Maak hypothese van deze regressie: ‘reg JobsCreated CapitalInvestment isic4_2digit quarter year
Type_new’
Coëfficiënt is negatief, dus hoe hoger het getal bij isic4_2digit en hoe lager het aantal jobs
tab isic4_2digit= 1, komt 14 keer voor wat is de volgorde?
Het is nu een soort continue variabele, hoe hoger dit cijfer hoe minder jobs er zijn
3