Module 1: Een eerste kennismaking met R
1. Introductie
Is het vlak linksboven verdwenen?: File -> New File -> R script
Zijn alle 4 de panelen verdwenen?: View -> Panes -> Show all panes
Run een code: selecteer de code of zet je cursor erbij -> klik op ‘Run’ of gebruik ctrl + ENTER
Commentaar toevoegen: hashtag (#) + commentaar
!! Alles wat achter een # geschreven staat, zal niet door R gelezen worden.
Environment: hier vind je een lijst met objecten die je hebt ingevoerd
Hulp nodig?: ?functienaam of help(functienaam)
floor( ): De functie floor(a) geeft je het grootste geheel getal dat kleiner dan of gelijk is aan a.
Voorbeeld: floor(2.222) Antwoord: 2.
Een komma noteer je in R als een punt!!
Voorbeeld: het getal 2,777 noteer je in R als 2.777
2. Fundamenten van de R programmeertaal
2.1. Het gebruik van objecten
De naam van een variabele mag men zelf kiezen, maar in R moeten de volgende regels
gerespecteerd worden:
• De naam mag enkel bestaan uit een combinatie van letters, cijfers, een punt (.) en
underscore (_).
• De naam moet starten met een letter of een punt. Indien het start met een punt,
mag het tweede symbool geen cijfer zijn.
• Speciale namen (keywords) die nodig zijn voor het functioneren van de R
programmeertaal mogen niet gebruikt worden (cf. een handvol termen zoals if, else,
NA, TRUE, FALSE, etc.)
Fout Juist
uren@campus Geboortejaar
2dejaarsstudenten bachelor2
TRUE examenScore
_bachelors .mag.met.een.punt.starten
NA dit_is_ook_aanvaardbaar
1
,R is hoofdlettergevoelig!!
Voorbeeld: de namen “examenscore”, “examenScore” en “Examenscore” verwijzen
naar 3 verschillende objecten
Een variabele/object inhoud geven/definiëren (iets toewijzen): gebruik ‘<-‘ of ‘=’
2.2. Verschillende data types
Verschillende data types of klassen
Numeric
• Numeric is het standaardformaat in R voor getallen. Je gebruikt steeds een punt (.)
en geen komma (,) om getallen met decimalen te noteren.
• Voorbeelden: Pi = 3.1415 | Kans = 0.9999 | X = 2 | -273.15 | 0
• Als getallen uit datasets geen kommagetal zijn, kan het zijn dat ze ook als datatype
integer opgeslagen worden. Dat is ook een kwantitatief datatype.
Character
• Character is het standaard formaat voor een reeks symbolen (letters, woorden,
zinnen). Je gebruikt steeds aanhalingstekens (“ ”) om een reeks symbolen te noteren.
• Voorbeelden: X = “a” | “b” | Y = “@” | Land = “België” | “Frankrijk” | Favo.vak =
“statistiek” | Opinie.stat = “statistiek is leuk”
Logical
• Logical is het standaard formaat voor boleaanse waarden (waar, onwaar).
• Voorbeelden: 3 > 2 = TRUE | 3 < 2 = FALSE | TRUE | FALSE
De datasoort van kwantitatieve variabelen is meestal numeric.
De datasoort van kwalitatieve variabelen (nominaal/ordinaal) is meestal character.
Datatype van een variabele opvragen: class( ) of typeof( )
Voorbeeld: class(5.111) Antwoord: “numeric”
Datatype navragen: is.character( ) / is.numeric( ) / is.logical( )
Voorbeeld: is.character(“abc”) Antwoord: TRUE
Datatype veranderen: as.character( ) / as.numeric( ) / as.logical( )
Voorbeeld: x <- as.character(4)
2.3. Het gebruik van wiskundige en logische operators
Een sterretje (*) = vermenigvuldigen
Voorbeeld: (2 + 3) * 5 Antwoord: 25
Een hoedje (^) of 2 sterretjes (**) = een macht
Voorbeeld (x = 3): x^2 + 1 Antwoord: 10
2
,Een schuine streep (/) = delen door
Voorbeeld: 50/25
!! delen door ¹ dubbelpunt (:) !!
Logische operatoren
Operator Betekenis
== Gelijk aan
!= Niet gelijk aan
> Groter dan
< Kleiner dan
>= Groter dan of gelijk aan
& En
|
Of
(shift + option + L)
2.4. Functies
Een reeks genereren: seq(…,…) of seq(from = …, to = …) of … : … (= een rij van … tot …)
Meerdere functieargumenten worden gescheiden door een komma.
Men kan ook optionele argumenten meegeven aan functies.
Voorbeeld: seq(32, 44, by = 2) Met optioneel argument ‘by = 2’
, by = … : de grootte van de stappen die genomen moeten worden in de getallenreeks
Voorbeeld: seq(32, 44, by = 2) Antwoord: 32 34 36 38 40 42 44
!! komma ervoor want het is een optioneel argument !!
Een vierkantswortel: sqrt( )
Grenzen inbegrepen = groter/kleiner of gelijk aan (>= of <=)
3. Datastructuren in R
3.1. Vector
Een vector: c( )
= een datastructuur die data van hetzelfde type organiseert in de vorm van een rij
= een object dat uit meerdere waarden van hetzelfde data type bestaat
Voorbeelden
- vector1 <- c(2, 3, 0, 3, 1, 0, 0, 1) constructie van vector1 bestaande uit een reeks
getallen
- vector1[1] de waarde op plaats 1 van vector1 opvragen
- vector[1:3] de waarden op plaats 1 t.e.m. 3 van vector1 opvragen
3
, - vector2 <- c(“België”, “Nederland”, “Frankrijk”, “Andere”) constructie van
vector2 bestaande uit een reeks character elementen
- vector2[2] de waarde op plaats 2 van vector 2 opvragen
Vierkante haakjes: option + shift + c
Is het object een vector?: is.vector( )
Voorbeeld: is.vector(vector2) Antwoord: TRUE
3.2. Factor
Factors kunnen ordered (‘ordinale variabele’) of unordered (‘nominale variabele’) zijn:
• Een unordered factor: factor(c (…))
o Voorbeeld: inkomen <- factor(c ("laag", "hoog", "gemiddeld", "hoog", "laag",
"gemiddeld", "hoog"))
• Een ordered factor: factor(c (…), levels = c(…), ordered = TRUE)
o Voorbeeld: inkomen <- factor(c ("laag", "hoog", "gemiddeld", "hoog", "laag",
"gemiddeld", "hoog"), levels = c ("laag", "gemiddeld", "hoog"), ordered =
TRUE)
o Hiermee kan je een datatype ordinaal maken!!
!! factor(c (…) …) of factor(dataset$variabele, …) !!
Uitkomstenverzameling opvragen: levels( )
Voorbeeld: levels(inkomen) Antwoord: “laag” “gemiddeld” “hoog”
3.3. Dataframes
Kolommen: variabelen (vb. geslacht, leeftijd)
Rijen: onderzoekseenheden/observaties
Een dataframe: data.frame( )
Voorbeeld: data_frame_politici <- data.frame(ranking, naam.politicus,
populariteitsscore)
!! je moet eerst de variabelen voor in je dataframe (hier: ranking,
naam.politicus, populariteitsscore) aanmaken) !!
Een variabele uit het dataframe opvragen: data_frame_naam$variabele
Voorbeeld: data_frame_politici$naam.politicus
Individuele elementen in een dataframe selecteren
Voorbeelden: data_frame_politici[1, 2] rij 1, kolom 2 (= naam.politicus)
Data_frame_politici[1, “naam.politicus”]
!! naam van de kolom in “ ” !!
Meerdere rijen en kolommen in een dataframe selecteren
4