R LES 1: introduction to R
In pc: ‘R les 1 MyScript’
formule uitleg
MySum <- 3+2 Variabele MySum aanmaken
MyVector <- c (1,2,3,4) Variabele met meerdere waarden aanmaken
!! c niet vergeten dan pas wordt hele lijst
nummers opgenomen
MyVector <- c (1:6) Variabele aanmaken met waarden 1-6
!! c niet vergeten dan pas wordt hele lijst
nummers opgenomen
MyVector <- c (“Hello”, “world”) Variabele aanmaken met tekst elementen
!! c niet vergeten dan pas wordt hele lijst
nummers opgenomen
SUBSETTING
MyVector [1] Subsetting: geeft de eerste waarde van de
vector
!! [ ] betekent dat je specifieke waarde eruit wilt
halen
MyVector [2-5] Subsetting: geeft de 2e en de 5e waarde uit de
vector
!! 2 en 5 indiceren de positie van het nummer
dat je wilt, niet het nummer zelf
MyVector [-1] Subsetting: selecteert alle nummers behalve het
eerste
MyVector [ c ( 1, 3)] Subsetting: geeft de eerste en de derde waarde
!! c toont dat je zowel 1e als 3e wil
FUNCTIES
Sum (2,3) Som van 2 en 3 = 5
Length (MyVector) Toont hoeveel waarden de vector heeft
Str (MyVector) Toont structuur van de waarde:
Toont aantal waarden
Toont de reeks waarden
Toont soort variabele
o Numeric (1,2)
o Integer (1)
o Character (Hello world)
o Logical (true/false)
Class (MyVector) Toont alleen het soort variabele (numeric,
character…)
Summary (MyVector) Geeft statistische samenvatting:
Minimum
Maximum
1e, 2e en 3e kwartiel
Mediaan
Gemiddelde
!! alleen voor ‘numerics’
Summary (MyVector) [4] Subsetting: alleen het vierde element van de
, summary opvragen: dit geeft alleen de mediaan
Mean (MyVector) Geeft het gemiddelde van de vectorreeks
Mean (3,2,5) Gemiddelde van de waarden 3, 2 en 5
Rnorm (n=1000, mean=5, sd=3) Iets een normaal verdeling maken:
N = aantal observaties dat je wilt
Mean= gemiddelde dat je wilt
Sd = standaardafwijking die je wilt
Dan kan je deze normaalverdeling opslaan als
een object: MyNorm <- rnorm (n=1000, mean =
5, sd = 3)
Head (MyNorm) Geeft de 5 eerste cases van je normaalverdeling
Head (MyNorm,10) Geeft de 10 eerste cases van je
normaalverdeling
Tail (MyNorm) Geeft de 5 laatste cases van je
normaalverdeling
Tail (MyNorm, 10) Geeft de 10 laatste cases van je
normaalverdeling
Plot (MyNorm) Maakt scatterplot van de 1000 waarden
(allemaal bolletjes)
Abline (h=5, col= “blue”) Tekent lijn door het scatterplot
H = horizontale lijn op waarde 5
Col= lijn heeft kleur blauw
!! werkt alleen in scatterplots dus eerst functie
plot () gebruiken
Hist (MyNorm) Geeft histogram van je verdeling checken of
ze wel echt normaal verdeeld is
!! toevoegen, breaks = 10
Bv 10 om meer detail in histo te krijgen
Hist (MyNorm, breaks =10)
DATAFRAMES/DATASETS
Data.frame (id, height, gender) Maakt een dataset/tabel van de variabelen id,
height en length
!! eerst dus variabelen id enz aanmaken: id <-
c(1,2,3). Height <- c(185,186,190). Gender <-
c(“M”, “V”, “X”)
Dan kan je je dataframe opslaan als een object,
vb MyDataframe
MyDataframe [1,3] Subsetting: uit de volledige dataframe krijg je rij
1 en kolom 3 waarde die hiermee
overeenkomt
!! eerst rijnummer, dan kolomnummer
, Logical operators:
In pc: ‘R les 1 MyProject’
DATA INLEZEN EN OPSLAAN
Read.csv (“exacte naam van excel bestand”) Dit leest je excel bestand in R in
Read.csv2 (“exacte naam”) Als je een tweede bestand wil inlezen
Telco <- read.csv (“x”) Dit geeft je excel bestand een naam om beter
mee te werken
Save (telco, file= “Telco.Rda”) Dataset in R opslaan als R dataset
Eerst: naam van dataset
Tweede: .Rda erna als manier om het
op te slaan
Load ( “Telco.Rda”) Dit laadt de dataset opnieuw op in de
environment
FUNCTIES
Rm () Datasets uit environment verwijderen. Tussen
haakjes de datasets namen zetten die je weg wil
Telco$gender Geeft alle waarden uit de kolom gender
Eerst: naam van dataset waaruit
specifieke rij/kolom gehaald moet
worden
Naam van rij/kolom die je wilt
!! rij en dataset moeten exact worden
overgetypt: hoofdletters, leestekens….
Subset (telco, gender == “Female”) Hier wordt gesubset: alle females hun info
wordt uit de dataset gehaald
Eerst: dataset waaruit het gehaald
wordt
Dan: condition
o Hier: gender moet female zijn
want willen de vrouwen
Je kan deze subset van vrouwen opslaan als
object: Telco_female <- subset (telco, gender ==
“Female”)