Deze samenvatting is in het Nederlands geschreven wat het makkelijker maakt om te leren aangezien het handboek in het Engels is. De samenvatting is gebaseerd op het handboek + de geziene slides in de lessen BI ().
De samenvatting is aangevuld met een overzichtelijke inhoudstabel waarin je duide...
HET SELECTEREN VAN INFORMATIEVE ATTRIBUTEN.........................................................................23
SUPERVISED SEGMENTATIE MET BOOMSTRUCTUURMODELLEN......................................................26
ANDERE VOORSTELLINGEN................................................................................................................29
PROBABILITY ESTIMATION OF WAARSCHIJNLIJKHEIDSSCHATTING....................................................30
2.2 FITTING A MODEL TO DATA..............................................................................................................................32
LINEAR DISCRIMINANT FUNCTIONS...................................................................................................32
SUPPORT VECTOR MACHINES (SVM).................................................................................................35
REGRESSION VIA MATHEMATICAL FUNCTIONS.................................................................................36
CLASSIFICATION: SCORING AND RANKING.........................................................................................36
WHAT IF THE DATA IS NON-LINEAR?.................................................................................................40
1
,3.1 OVERFITTING AND ITSAVOIDANCE....................................................................................................................41
DE FUNDAMENTELE CONCEPTEN VAN DATAWETENSCHAP............................................................116
MINING MOBILE DEVICE DATA........................................................................................................116
WAT DATA NIET KAN DOEN.............................................................................................................117
PRIVACY EN ETHIEK..........................................................................................................................117
3
,C. 0,43 ik had dit ( 3/7) ik ook, ik ook ik ook ik ook => FOUT..........................................................................................118
D. Allemaal aanspreken (had ik ook, 375*5,14 - 0,1*1125 = 1815 cost-benefit matrix........................................................118
0 0 het is A! Zie voorbeeldexamen Wrm zou het nog eens A zijn als het vb examen?? Ik heb alle mogelijke antwoorden apart
opgelost en bij deze oefening was D de juiste normaal Als Je de werkmethode van het vb examen had toegepast tenminste. . .118
B. als instellingen in weka niet aangepast worden, zelfde accuracy deze? Ik ook, ik ook dit is fout -> neen dit is juist, heb het net
getest in weka, weka neemt altijd dezelfde seed tenzij je dit manueel aanpast................................................................119
D. Minder werkers gebruiken (had ik ook, idem) ( ik ook) (ik ook) ik ook, ook..................................................................119
A. K-mean iteratie centroïde cluster (ik had deze) (ik ook) (ik ook) ik ook.........................................................................119
D. JUISTE ANTWOORD IS META (ik ook)..................................................................................................................120
A. Model 1: C, model 2: A, model 3: B.....................................................................................................................120
D. Slechts 1 van alle waardes van het attribuut wordt gebruikt in de dataset (waarde altijd hetzelfde) logisch want als de waarde
van het attr overal hetzelfde is, is het totaal nutteloos xd.............................................................................................121
A. om rekening te houden met lengte van documenten.............................................................................................121
A. 0,75.............................................................................................................................................................121
B. 2, 4, 5, 7, 8, 10 zijn bad......................................................................................................................................122
A. Taak 1: description unsupervised + Taak 2: prediction supervised (is toch deze?) je hebt een target value bij taak 2 dus
supervised........................................................................................................................................................122
D. 5/6 ik heb deze 5 van de 6 positieven juist door die treshold dus ⅚. ik ook! ik ook! nono, ik ook, TP-Rate = TP/(TP+FN) -> 5/6. 122
B. 4,22.............................................................................................................................................................122
1.0 INTRODUCTIE BUSINESSINTELLIGENCE
WAAROM IS DATA SCIENCE BELANGRIJK VOOR BEDRIJVEN?
Wet van de massale digitale opslag
De hoeveelheid gegevens verdubbelt op jaarbasis. Het aantal data dat we in 2020 gaan opslaan is
gelijk aan al de data die we zijn beginnen opslaan sinds 1960 tot 2019. De kosten voor het opslaan
van gegevens zijn elk jaar exponentieel goedkoper.
Big data
Big data is een brede verzameling van gegevens uit verschillende bronnen. Je hebt veel heterogene
bronnen die data uitzenden. Bedrijven moeten die data verzamelen en er iets mee doen.
Voorbeelden zijn machines met hun eigen ERP-systeem, telefoongesprekken van klanten, internet
ofthings…
Maslows hiërarchie van big data
Gegevens, informatie en kennis worden beschouwd als het gebied van wetenschap en
bewijsvoering. Wijsheid wordt beschouwd als het gebied van de beslissingen. Maslow zegt dus dat
data de basis is en dat die data aangewend kan worden om er zo informatie uit te halen. Die
informatie is omzetbaar in kennis en die kennis zal leiden tot wijsheid.
4
, Data warehouses en data marts
Een bedrijf bestaat uit interne en externe data. Al die data wordt in een warehouse gestructureerd
en opgeslagen. Als er dan een bepaald probleem opgelost moet worden, dan kunnen ze uit de data
ware- house informatie halen. Die data is zelden in die vorm beschikbaar om direct een
bedrijfsprobleem op te lossen. Je zal de data moeten manipuleren.
5
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur martijnkirilov. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €6,99. Vous n'êtes lié à rien après votre achat.