1.1 DATA ANALYTICAL THINKING & DATA SCIENCE
WHY?
1. Allerlei opportuniteiten door data
o Beschikken over gigantische hoeveelheid data.
o Grote variëteit van data, uit heel veel verschillende bronnen.
o Technologische vooruitgangen die ervoor zorgen dat computers krachtiger worden, netwerken die
grote connectiviteit geven, steeds betere algoritmes die ons in staat stellen om data correct te
analyseren.
2. Belangrijk voor bedrijven om te kunnen aantonen dat ze aan bepaalde regelgeving voldoen
o Basel II
▪ Banken moeten kunnen bewijzen dat ze aan deze richtlijnen voldoen. Ze moeten risicomodellen
uitbouwen voor krediet, marktaandeel als voor operationele manier waarop ze werken.
▪ Om risicomodellen op te stellen kunnen ze gebruiken maken van analyses van data die door hen
beschikbaar staat.
o Solvency II
▪ Verzekeringsmaatschappijen moeten kunnen duiden dat ze in staat zijn om de polissen die ze
dekken, effectief te kunnen uitbetalen.
▪ Ze kunnen aan hand van data analyse bewijzen dat ze hier aan voldoen.
3. Allerlei applicaties zijn mogelijk die inzetbaar zijn in het bedrijf
o Marketing
▪ Targeted marketing: op voorhand bepalen welke doelgroep je wil bereiken.
▪ Online advertising: je kan zeer gericht bepaalde groepen aanspreken met je advertenties.
▪ Recommendations for cross selling: “vaak samen gekocht”, “mensen die dit product kochten,
waren ook geinteresseerd in …” Door dit weer te geven kan je ervoor zorgen dat klanten die
andere producten ook gaan bekijken en zelfs kopen.
o CRM: ervoor zorgen dat relatie met klant beter wordt door data te analyseren.
▪ Gedrag van klanten analyseren (= analysing customer behaviour)
▪ Manage churn/attrition: klanten die naar de concurrentie gaan als hun contract afgesloten is,
inplaats van het te verlengen. Aan de hand van data science & analitical thinking kan je klanten
identificeren die mogelijk naar de concurrent zouden gaan en zo kun je hun proberen binden met
gerichte campagne.
▪ Waarde die klant opbrengt voor bedrijf zo optimaal mogelijk benutten.
o Finance: toekennen van krediet aan klanten zou je kunnen analyseren of data analytical thinking
gebruiken om beursspeculatie op te speuren.
o Operationele management
▪ Fraude detecteren
▪ Work force managen door juiste analyses te doen
Pas mogelijk als o Coorporate performance management: manier waarop bedrijf in de markt gepositioneerd is of mate
je beschikt over waarin ze in staat zijn hun doelen te bereiken.
nog meer data
o Marktanalyses
uit nog meer
verschillende ▪ Om globalisering te vereenvoudigen
bronnen. ▪ Om fusies te ondersteunen en testuren
1
,BIG DATA 1.0 <-> BIG DATA 2.0
Nu zitten we in big data 1.0 en we zijn aan het evolueren naar big data 2.0. Dit is te vergelijken met web 1.0 en
web 2.0.
Web 1.0
4. Basis technologie die nodig is om internet uit te bouwen
5. Bedrijven gingen websites maken om hun producten kenbaar te maken
6. E-commerce: producten verkopen via internet
Is te vergelijken met big data 1.0: we zijn in staat om grote hoeveelheden date te verwerken, en met die
data de efficiëntie te verhogen.
Web 2.0
7. ‘End user content’: eindgebruikers kunnen content toevoegen. Voorbeeld is sociale media
Vergelijken met big data 2.0: nadenken in weke mate data kan bijdragen op welke manier
bedrijfsvoering gedaan wordt. Wat kan die data nu doen voor bedrijfsvoering?
VOORBEELDEN
Hurricane Frances – Walmart
Hurricane Frances was een orkaan die op punt stond om aan land te gaan in de VS. Walmart beschikte over heel
veel data over hun klanten en hun aankoopgedrag via getrouwheidskaarten.
Ze gingen op zoek gaan welke producten populair zijn tijdens het aan land gaan van een orkaan. Sommige
producten waren voor de hand liggend, maar via data science konden ze niet voor de hand liggende
producten ontdekken.
Pregnancy prediction- Target
Probeert te voorspellen of een koppel zwanger is.
Wanneer een koppel kinderen krijgt, verandert het aankoopgedrag. In plaats van aankopen te doen voor 1
à 2 dagen, kopen ze producten aan voor een hele week, want ze hebben minder tijd door kinderen.
Proberen voorspellen wanneer koppels zwanger zijn, nog voor ze de eerste pampers aankopen.
Aankoopgedrag 9 maanden voor de aankoop van pampers vergelijken met aankoopgedrag van de periode
daarvoor.
Churn prediction – Megatelco
Markt is min of meer verzadigd, iedereen heeft ergens een abonnement. Enige manier voor nieuwe klanten, is
klanten afnemen van concurrenten. Churn = klant die naar een concurrent gaat op einde van zijn contract,
inplaats van zijn contract te verlengen.
Probeerde te voorspellen welke klanten gingen overstappen naar de concurrenten en die dan gericht te
benaderen door bvb op te bellen en aanbieden doen.
Klanten die zouden overstappen naar concurrenten proberen binden door ze bvb op te bellen en aanbieding
te doen.
2
,DATA ANALYTICAL THINKING
Data analytical thinking probeert antwoord te geven op:
Kan data helpen bij het oplossen van bedrijfsproblemen?
Zo ja, kunnen we dit systematisch herhalen?
Kan gebruikt worden om mensen te investeren in data of modellen die gemaakt zijn door data analytical thinking.
- Big data = big business
- Data science capability as strategic opportunity: bedrijven moeten zich bewust worden dat de
toepassingen van data science aanzien worden als strategisch onderdeel van bedrijfsvoering (zie
voorbeelden).
VOORBEELDEN
Signet bank vs capital one
Signet bank was een kleine regionale bank ik Amerika. Capital one is wereldwijd de grootste verstrekker van
kredietkaarten.
Bij toekennen van credits is er maar een beperkte groep waar winst op gemaakt wordt. Als je deze groep
betere kredietvoorwaarden zou geven, zou je die volledige groep kunnen aantrekken en dus meer winst
kunnen maken.
Enige manier waarop men aan data kon geraken om dit te analyseren, was random kredieten
toekennen. Enkel Signet bank was bereid om dit te doen. Ze gingen random kredietvoorwaarden geven
aan klanten om zo een dataset op te bouwen (kostte hun heel veel geld, maar hierdoor zijn ze wel de
grootste bank geworden).
Amazon
Recomondations system wordt door klanten als heel goed ervaren. Ze lieten klanten ook toe om een review te
schrijven, die reviews werden dan ook weer geanalyseerd. Hierdoor konden klanten gerelateerde producten en
reviews over die producten vinden (beide data driven).
Harrah casinos
Was een hele kleine speler, maar hebben snel beseft dat als ze data verzamelden van gokkers, ze deze data
misschien zouden kunnen analyseren. Hierdoor zouden ze een voordeel hebben op de concurrentie. Ze zijn
hierdoor heel groot geworden, nu zelfs in bezit van grootste casino en Las Vegas.
Facebook & twitter
Erin geslaagd om via profilering en gerichte marketing inkomsten te genereren van meer dan een miljard.
3
, DATA SCIENCE
Doel: nemen van beslissingen optimaliseren & directe impact hebben op bedrijfsvoering.
Fundamentele principes:
1. CRSP-DM (zie verder)
2. Als je heel veel verschillende data punten hebt, moet je in staat zijn om na te denken welke stukken
ervan informatief zijn.
o Naar wat kijk je?
o Welke stukken van data zijn relevant?
o Hoe business probleem omzetten naar dataprobleem?
3. Over fitting: als je te hard je best doet om een model te vinden in een dataset, kan het ‘gevonden’ model
niets van waarde hebben. Je gaat dan generaliseren voorbij het punt van nieuwe waarde.
4. Als je aan de hand van data mining bepaalde zaken gaat oplossen, moet je ook gaan nadenken over de
manier waarop je die zaken effectief wil gaan toepassing. Omgeving van de toepassing is bepalend over
de data die je ter beschikking hebt.
o Is de kennis bruikbaar?
o Welke kennis is inzetbaar?
Om dit alles tot stand te brengen hebben we een data scientist nodig. Ze zijn een heel belangrijk onderdeel van
de bedrijfsvoering.
Als je bedrijfsvoering en besluitvorming willen verbeteren aan de hand van data science, moet je gebruik maken
van data driven decision making (je hebt hiervoor data science nodig en daarvoor heb je data engineering en
processing nodig.) Je moet dus big data verzamelen en kunnen verwerken.
4