Garantie de satisfaction à 100% Disponible immédiatement après paiement En ligne et en PDF Tu n'es attaché à rien
logo-home
Samenvatting theorie datawetenschappen €6,36   Ajouter au panier

Resume

Samenvatting theorie datawetenschappen

 6 vues  0 fois vendu

document om de theorie van datawetenschappen te studeren, gebasseerd op enkel de theorie die te kennen is

Aperçu 4 sur 61  pages

  • 12 septembre 2024
  • 61
  • 2024/2025
  • Resume
Tous les documents sur ce sujet (4)
avatar-seller
annadecrem
Datawetenschap theorie
1 Inleiding tot datawetenschap
1.1 Data voor datawetenschap
Vormen die data kunnen aannemen:
1.1.1 Tabulaire data
= data die op een natuurlijke manier voorgesteld kunnen worden in een tabel
Data is tabulair als aan volgende voorwaarden voldaan is:
- Data kunnen op een natuurlijke manier gestructureerd worden in rijen en kolommen
- Elke rij bevat informatie over één object
- Elke kolom bevat informatie over dezelfde eigenschappen van een object, deze eigenschappen
noemt men de variabelen
o Nominale variabelen: variabelen met tekst om observaties in groepen op te delen vb.
klassen van bloemen
o Numerieke variabelen: vb. lengte en breedte van kelk- en kroonbladeren

1.1.2 Spatio-temporele data
= data waarin ruimtelijke kenmerken (positie) en temporele kenmerken (tijd) aanwezig zijn

1.1.3 Tekstdata
= Vorm van ongestructureerde tekst
Toepassing: bouwen van een spam-filter, berichten analyseren en vb. nagaan of bepaalde woorden meer
frequent voorkomen in spam dan in gewone sms-berichten

1.1.4 Beelddata
Voorbeeld: foto’s van bladeren aangetast door een bladziekte
Toepassing: automatisch herkennen van plantenziekte op basis van foto

Gestructureerd of ongestructureerd
Gestructureerde data: data die men kan organiseren in een of meerdere datatabellen
- Geautomatiseerd doorzoeken en opslag en analyse van deze data zijn eenvoudig
- Voorbeeld: iris dataset, telemetrie wolven
Ongestructureerde data: data die men niet eenvoudig kan organiseren in datatabellen
- Voor analyse vaak omzetten in een gestructureerde vorm (feature engineering)
- Voorbeeld: tekstdata, beelddata
1.2 Het data-analyseproces
= proces dat men moet doorlopen om een antwoord te kunnen geven op een wetenschappelijke vraag en dit
antwoord te communiceren naar de buitenwereld
Fasen:
Specifiëren van de onderzoeksvraag
Startpunt: formuleren van een vraag die men wenst te beantwoorden
6 types vragen
- Descriptieve vragen: enkel samenvatten van gegevens zonder verdere interpretatie
- Exploratieve vragen: waarbij men op zoek gaat naar patronen in een dataset, trends of relaties

, - Met interferentie: op basis van observaties van een representatief deel van een populatie, uitspraken
wil doen over de eigenschappen van de volledige populatie (ook belangrijk kan je een uitspraak doen
over de betrouwbaarheid van het resultaat)
- Met predictie: voornamelijk geïnteresseerd is in het voorspellen van een bepaalde eigenschap van
objecten die niet werden geobserveerd bij de dataverzameling.
- Causaliteit: oorzakelijke verbanden (oorzaak-gevolg relaties)
- Mechanisch: over mechanismen die onderliggend zijn aan een bepaald fenomeen
Dataverzameling
Proces waarbij men:
- Inventariseert welke en hoeveel gegevens men denkt nodig te hebben om op de onderzoeksvraag
een antwoord te kunnen bieden
- Bestaande data samenbrengt
- (indien nodig) nieuwe bijkomende metingen uitvoert
Resultaat zijn 1 of meerdere ruwe datasets: data zonder enige vorm van verwerking voor verder gebruik
= FAIR data (Findable, Accessible, Interoperable, Reusable)
Data preparation
= proces waarbij ruwe data worden omgezet in een vorm die verdere analyses toelaat, omvat de volgende
stappen:
- Data loading: bestaat uit het inladen van data in de software die zal gebruikt worden voor de verdere
verwerking
- Data fusion: proces waarbij data afkomstig uit verschillende databronnen worden geïntegreerd om
tot een meer consistent en accuraat geheel te komen
- Feature engineering: proces waarbij de informatie die aanwezig is in ongestructureerde data wordt
omgezet in een meer gestructureerde vorm (vaak een datatabel), kan geautomatiseerd of manueel
verlopen (vb. extraheren van de lengte en breedte van de kelkblaadjes uit fotomateriaal en het
samenbrengen van deze metingen in een datatabel)
- Data cleaning: proces waarbij men foute of onnauwkeurige waarnemingen corrigeert of verwijdert
uit een dataset
- Data validation: proces waarin men nagaat of de kwaliteit van de data voldoet aan vooraf
gedefinieerde kwaliteitseisen
- Data aggregation: proces waarbij data van een gegeven formaat wordt omgezet in een formaat dat
beter aansluit bij de gestelde vraag vb. door bewerkingen toe te passen die meerdere observaties of
variabelen samenvatten
Exploratieve data-analyse
Doel: inzicht krijgen in de beschikbare data, men onderzoekt vaak de gemiddelden en de spreiding van
variabelen of het verband tussen variabalen op een grafische manier door middel van geschikte plots
(Datagedreven) modelbouw
Proces waarbij men data gebruikt, vaak in combinatie met kennis van het systeem, om een wiskundig model
te bouwen
Communicatie van de bevindingen naar het doelpubliek, eindpunt
- Met aandacht voor transparantie en reproduceerbaarheid
Deel I. Opbouw en exploratieve analyse van datatabellen

,2 Datatabellen
2.1 Case studies
2.2 Observaties, variabelen en studies
2.2.1 Variabelen, observaties en datatabellen
Variabele: eigenschap van een object die gemeten wordt volgens een vastgelegd protocol, een variabele
heeft:
- Naam: informatieve naam of symbool die verwijst naar de eigenschap die wordt gemeten
- Domein: verzameling van waarden die de variabele kan aannemen (vb. dom(kwikconcentratie) = R+¿ ¿
, dom(gender) = {male, female})
Observatie: rij van waarnemingen (of metingen) van elke variabele voor een gegeven object
- Worden vaak gestructureerd in een datatabel: elke rij stelt een observatie voor en elke kolom een
variabele

2.2.2 Afhankelijke versus onafhankelijke variabelen
Onderscheid is gebaseerd op de rol die de variabelen hebben in de studie
Doel van een onderzoek: nagaan of en hoe een afhankelijke variabele beïnvloedt wordt door- of afhangt van-
de onafhankelijke variabele

2.2.3 Experimentele versus observationele studies
Observationele studie: onafhankelijke variabelen zijn niet onder controle van de onderzoeker, observeert ze
enkel en tracht op basis van de verzamelde observaties uitspraken te doen over bepaalde variabelen of het
verband tussen deze variabelen
Experimentele studie: de onafhankelijke variabelen zijn wel onder controle van de onderzoeker, men grijpt
actief in
Studies gaan vaak over het onderzoeken van verbanden tussen variabelen
- Causale verbanden: drukken een oorzaak-gevolgrelatie uit tussen 2 variabelen, verbanden waar een
fysische of (bio)chemische wetmatigheid schuilt
- Statistische verbanden: verbanden die men kan observeren zonder dat er een oorzaak-gevolgrelatie
is
Confounder: variabele die zowel de onafhankelijke als de afhankelijke variabele beïnvloedt

2.3 Meetschalen
2.3.1 Meetschalen volgens de Stevens’ typologie
Types schalen volgens Stevens’ typologie:
Nominale schaal
: laat toe om objecten (op basis van een eigenschap of kenmerk) te benoemen en te classificeren, deze
schaal kan gebruikt worden om objecten onder te verdelen in categorieën, andere bewerkingen met deze
schaal zijn semantisch betekenisloos
Voorbeeld:
- Beschouw een variabele X met als domein {Archaea, Bacteria, Eukarya}
- Hercodering uitvoeren naar getallen: {Archaea → 1, Bacteria → 2, Eukarya →3}
- Uitvoeren van wiskundige bewerkingen op deze getallen is weinig betekenisvol

Ordinale schaal
: nominale schaal waarvan de categorieën op een (natuurlijke) manier gerangschikt kunnen worden, de
afstand tussen 2 waarden op deze schaal is echter niet gespecifieerd

, Voorbeeld:
- 4-puntenschaal (ook wel Likert-schaal genoemd) die vaak gebruikt wordt bij opiniepeilingen:
{oneens < neutraal < mee eens < volkomen mee eens}
- Men kan geen uitspraken doen over de grootte van het verschil tussen 2 categorieën (vb. “het
verschil tussen oneens en neutraal is even groot als het verschil tussen neutraal en mee eens” is
betekenisloos)
- Berekenen van gemiddelden etc. is betekenisloos

Intervalschaal
: numerieke schaal die een natuurlijke orde bevat en daarnaast betekenis geeft aan de grootte van het
verschil tussen 2 waarden. Het nulpunt van deze schaal is echter arbitrair waardoor bewerkingen zoals het
product betekenisloos zijn
Voorbeeld:
- Temperatuur, uitgedrukt in °C, maakt gebruik van een intervalschaal
- Het verschil tussen de temperaturen 10 °C en 25 °C is 15 °C wat betekenisvol is
- De uitspraak dat 10 °C dubbel zo warm is als 5 °C is betekenisloos (aangezien het nulpunt, 0°C,
arbitrair gekozen is)

Ratioschaal
: numerieke schaal die, naast orde en verschillen, ook betekenis geeft aan verhoudingen (ratio’s). deze
schalen hebben een (fysisch) betekenisvol nulpunt
Voorbeeld:
- Volume (uitgedrukt in m3) van een voorwerp
- Bewering dat de inhoud van een voorwerp met een volume van 6 m 3 drie keer zo groot is als de
inhoud van een voorwerp met een volume van 2 m 3 is betekenisvol
- Nulpunt van deze schaal is niet arbitrair

2.3.2 Toelaatbare transformaties
- Nominale schaal: is invariant voor elke injectieve transformatie
- Ordinale schaal: is invariant voor elke transformatie met een lineaire functie
- Intervalschaal: is invariant voor elke transformatie met een lineaire functie
- Ratioschaal: is invariant voor elke herschaling met een constante factor

Beschouw een rij observaties: x1, x2, …, xn
Gebruik invarianties voor beoordelen betekenis van:
- Modus: meest voorkomende element
n
1
- Rekenkundig gemiddelde: ∑x
n i=1 i

√∏
n
n
- Geometrisch gemiddelde: xi
i=1



2.4 Datacollectieprincipes en -terminologie
2.4.1 Populaties en steekproeven
Populatie: een ten aanzien van bepaalde aspecten homogene verzameling van objecten waarop een
onderzoek zich richt
- Populatieparameter: waarde die een volledige populatie karakteriseert (vb. populatiegemiddelde)

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur annadecrem. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €6,36. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

80364 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 14 ans

Commencez à vendre!
€6,36
  • (0)
  Ajouter