Samenvatting van het derdejaarsvak Data Science voor de richting Applied Computer Science van ITF. Het document omvat de 5 hoofdstukken die werden toegelicht tijdens de lessen.
1 SETTING THE SCENE
Wat is data?
Structured data
Senses data: bevat gegevens over de bevolking over de jaren heen.
Rectangular/tabular data: mooi gestructureerde data die er een beetje uitzien als een
rechthoek. Deze soort data bevat rijen die naar observaties of data points verwijzen en
kolommen die naar variabelen verwijzen.
• Data die kan worden gezet in kolommen en rijen
• Een rij kan meerdere datatypes bevatten
• Elke kolom heeft wel dezelfde datatypes
• 20% volgens Gartner
België is een voorbeeld van een observatie, 2003 is een variabele.
Unstructered data:
• Audio (voice recording, audio van muziek, …)
• Afbeeldingen: een foto van een kat bv heeft veel data (RGB de hoeveelheid aan
kleuren, de onderliggende info = deze afbeelding is een kat)
• Tekst: (tweet bv) dit is ook unstructured data omdat je dit moeilijk in een tabel kan
zetten. informatie = de combinatie van de woorden kan hidden informatie bevatten
• 80% volgens Gartner
Wat is Data Science?
“Het gebruik van wetenschappelijke methodes om informatie te
ontdekken die verstopt zit in data. “
Wat maakt mij een goede Data Scientist?
• Hacking skills = kunnen programmeren om data te
analyseren
• Math & statistics = de juiste methoden/technieken
kunnen toepassen en weten wanneer je een methode
JDK 2021 1
, moet gebruiken want je komt in de gevarenzone als je een techniek gebruikt die daar
eigenlijk niet geschikt voor is, dan ga je er verkeerde conclusies uit trekken.
• Substantive expertise = weten waarover de data gaat zodat je verschillende vragen
eraan kan stellen om de juiste conclusies eruit te halen.
Ultieme doel van Data Science: van een dataset naar juiste conclusies gaan zodat ze
verstaanbaar zijn voor de mensen die de dataset nog nooit hebben gezien.
AI = algemene term, zijn technieken om menselijke intelligentie na te doen
ML = subset van AI waarbij machines leren om iets beter te doen aan de hand van ervaring
of data
DL = subset van ML waarbij er artificiële neural networks worden gebruikt
Je hebt data nodig om al deze dingen te doen en daarvoor moet je de data eerst begrijpen
en daarvoor is data science dus nuttig.
De afbeelding hierboven is een voorbeeld van Data Science. We gaan van tabular data naar
een mooie visualisatie waaruit we conclusies kunnen trekken (des te rijker je bent, des te
langer je leeft). Visualisaties zijn perfect voor de mens omdat wij zo gebouwd zijn.
De afbeelding hierboven is een voorbeeld van Machine Learning. Je gaat op basis van een
audio input, voorspellen of er al dan niet een machine error ergens zit. Het model doet dat op
basis van meerdere audiobestanden die hij al had gekregen om op te trainen.
Dit zou data science zijn wanneer we gaan analyseren welke hidden informatie hierin zit.
Voorbeeld met de tweets van Trump = Data science: we krijgen een data set, we gaan die
analyseren en proberen er interessante dingen uit te halen bv waarom het komt dat Trump
vaak woorden in hoofdletters zet.
JDK 2021 2
,Data Science Process
1. Importeer de data
Deze data kan zitten in een CSV, Excel-file, SQL waarmee je een link moet leggen …
2. Tidy (cleaning the data)
De data properder maken zodat je kan gaan transformeren, bv rijen verwijderen die je niet
nodig hebt.
Stappen 1 en 2 zijn erg belangrijk want dat zal je veel tijd besparen en gemakkelijker zijn om
de volgende stappen uit te voeren.
3. Transform
4. Visualise (plotten maken, visualiseren)
5. Model data (beschrijven hoe je data zich gedraagt)
Stappen 3 tot 5 is een iteratief proces omdat je misschien bij een visualisatie iets ontdekt dat
nog niet juist staat waardoor je terug moet gaan transformeren of dat een bepaalde variabele
wel interessant kan zijn om te visualiseren/modelleren. Door dit proces meerdere keren te
herhalen, kan je gerichtere vragen gaan stellen.
Wat is het verschil tussen Business Intelligence en Data Science?
Bij BI ga je een vraag hebben bv hoeveel winst gaan we maken als we iets nieuw lanceren?
De vraag die gesteld wordt, is al heel gericht of specifiek. Je kent de achtergrond ook al.
Bij DS is het een iteratief proces, je krijgt veel data, je weet nog niet welke stukken interessant
kunnen zijn. Door dat proces ga je langzaamaan meer inzicht krijgen in de data.
R
Statistical programming language, de taal voor data science omdat je met enkele lijnen code,
inzichten kan krijgen in je data en visualisaties.
• Is goed om te experimenteren, begrijpen en visualiseren
Python is beter voor machine learning omdat je daar modellen mee gaat bouwen en
deployen.
JDK 2021 3
, GGPLOT2 = pakket om visualisaties te maken
Install.packages(“ggplot2) package installeren
Library(ggplot2) package en functies laden
Mpg
We weten niet goed wat “displ” zou kunnen betekenen, hiervoor moeten we dus ?mpg als
commando ingeven zodat we wat meer info krijgen over onze dataset.
We zien een negatieve correlatie: grotere motoren zuipen meer.
JDK 2021 4
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur GraduateITF. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €10,49. Vous n'êtes lié à rien après votre achat.