Samenvatting Business Intelligence
2021-2022
H1: Data-analytical thinking
1. Why?
1.1. Data opportunities
- Amounts of data
- Variety of data
- Technological advances
o Computer strength
o Networks to connect databases
o Good algorithms
- Big data 1.0 => Bid Data 2.0
o Web 1.0.
▪ Basic internet technologies
▪ Create online presence
▪ Build electronic commerce capability
o Bid data 1.0
▪ Processing large data
▪ Improving efficiency
o Web 2.0
▪ Integration of social-networking components
o Bid data 2.0
▪ We can process big data now, what can this data do for us?
1.2. Compliance to regulations
- Basel II
o Voor banken, risicomodellen bouwen
▪ Kredieten, markt, operationeel
- Solvency II
o Voor verzekeringsondernemingen
1.3. Possible applications
- Marketing:
o Targeted marketing, online advertising, aanbevelingen voor cross selling
- Customer relationship management:
o Consumentengedrag analyseren, manage attrition/churn, verwachte
consumentenwaarde maximaliseren
o Churn = klant die op einde contract beslist om naar andere telecomoperator te
gaan, als je ontdekt welke klanten dit zouden kunnen doen kan je hen extra
incentives geven om het te voorkomen
- Finance:
o Credit scoring & trading
- Operationeel management:
o Fraude detectie & workforce management
- Corporate performantiemanagement
- Markt: fusies, globalisatie => meer data van heterogene bronnen die steeds sneller
geanalyseerd kan worden
2. Examples
Is géén hypothese testen!
1
, 2.1. Hurricane Frances – WallMart
Walmart kon voorspellen welke producten het meest verkocht zouden worden op
moment dat die orkaan aan land kwam, doel bestond eruit: als ze weten welke producten
dan het meest verkocht worden, kunnen ze dat product in promo steken en dan gaan ze
ervan uit dat mensen ook andere producten dan bij hen komen
- Niet zo complex: al een aantal keer orkaan gehad dus je kan kijken welke producten
meest verkocht worden, maar de populairste producten zijn niet perce met het
voorkomen van een orkaan gerelateerd, dus die moet je eruit filteren
2.2. Target – Pregnancy prediction
Voorspelde welke koppels een baby zouden krijgen
2.3. Churn prediction – MegaTelco
Voorspellen of een klant zijn contract zal opzeggen of niet
3. Wat is data-analytical thinking
Je moet stakeholders in bedrijf kunnen overtuigen
Ga er niet vanuit dat alle data beschikbaar is: hoe geraak je aan die data? => overtuig
mensen om te investeren in die data, kan een grote gok zijn
Examenvraag: bedrijfsprobleem en oplossing voor dat bedrijfsprobleem, als je data analytical
thinking begrijpt moet je daar de fouten uit kunnen halen, een data-driven campaign kunnen
begrijpen: waarom dat soort data? Hoe wordt model geëvalueerd? Is die evaluatie wel de
juiste evaluatie?
3.1. Will data help solve a business problem
3.2. How to do so systematically?
3.3. Venture captialists wanting to invest
3.4. Understand data-driven campaigns
3.5. Need for managers with data-analytical skills
3.6. Big Data is Big Business
Overgang van Big data. 1.0 => Big data 2.0 follows the rise in data-analytical thinking
- Data Science Capability als een strategic asset!
4. Voorbeeld van de waarde van Data Science
Signet Bank VS Capital One
Signet = private bank in VS
Capital one is de grootste uitgever van kredietkaarten wereldwijd, 1 van de grootbanken
- 2 gasten in VS werken voor een bank en komen tot ontdekking dat toekennen van
kredietkaarten: heel kleine groep die ze krijgt resulteert in grote winst en de rest
gebruikt ze en genereert weinig winst, hoe kunnen ze focussen op die kleine groep
om meeste winst te krijgen? Wouden met alle grootbanken in VS dat gaan doen
- Probleem: data was er niet: enige manier om eraan te komen: mensen random
krediet geven (af en toe heel gunstige voorwaarden geven terwijl iemand niet gaat
terugbetalen), geen enkele grootbank wou het risico wagen en meedoen, op bepaald
moment Signet kunnen overtuigen om mee te doen (investering van 25miljoen
jaarlijks) om data te verzamelen, 5 jaar later is Signet overgegaan in Capital One
Amazon
Als eersten echt met e-commerce bezig, maakten in het begin heel veel verlies maar kreeg
funding
Harrah’s Casinos
Online website, 1 van eersten die zei: er was een gokcommissie, verplicht data bijhouden,
maar tegelijk privacy concerns:
Hebben beslist we gaan de data oneindig blijven bewaren en analyseren, hebben caesars
palance in vegas gekocht puur met de winsten van de analyse van die data
Data-analyse: maken van beslissingen proberen verbeteren en ervoor zorgen dat de
2
,resultaten inzetbaar worden in de business, moet in voordeel zijn van de
bedrijfsvoering
5. Wat is Data Science
5.1. Aims to…
- Improve decision making
Automated DDD = Harrah’s Casino’s example
- In direct interest to the business
5.2. Some foundational principles…
a) Extracting useful knowledge from data to solve business problems can be treated
systematically by following a process with reasonably well-defined stages
a. CRISP-DM = raamwerk die je in staat stelt om op analytische manier bepaalde
problemen op te lossen
b) From a large mass of data, information technology can be used to find informative,
descriptive attributes of entities of interest
a. Je moet in staat zijn om uit enorme hoeveelheid data de nuttige info te halen!
b. Vertaal het bedrijfsprobleem in een dataprobleem
c) If you look too hard at a set of data, you will find something, but it might not generalize
beyond the data you’re looking at:
a. Je kan soms data zo hard analyseren dat je dingen ziet die er eigenlijk niet zijn
b. Enorm probleem in data science, je maakt winst en winst en winst en verfijnd
en bepaald moment is je model zo fijn dat je gigantische verliezen maakt =>
over-fitting
d) Formulating data mining solutions and evaluating the results involves thinking
carefully about the context in which they will be used
a. Vb. Voorspellen of iemand kanker heeft: fout negatief is veel erger dan fout
positief!
Individual role of the data scientist in this process is very important!
H2: Business Problems & Data Science Solutions
2. Different data-mining tasks
Er is een reeks gemeenschappelijke taken die onder bedrijfsproblemen schuilen en steeds
terugkomen => essentieel om het probleem te kunnen opdelen in stukjes, waarvan we elk
stukje als een gekende taak kunnen zien en zo kunnen oplossen
1. Classification & class probability estimation
3
, Attempt to predict, for each individual in a population, which class the individual belongs to
DOEL = class prediction & class probability prediction
Voor een classificatieprobleem zal er een model gebouwd worden dat, gegeven een nieuw
individu, bepaald tot welke klasse die behoort
- Een scoring of class probability estimation: schat een score die de
waarschijnlijkheid weergeeft dat een individu tot een bepaalde klasse behoort
2. Regression (value estimation)
Attempts to estimate / predict, for each individual, the numerical value of some variable
Vb. How much will a certain customer use the service?
- Regressie: schat een waarde van een bepaalde variabele specifiek voor dat individu
CLASSIFICATION: if something will happen
REGRESSION: how much/ to what degree something will happen
3. Similarity matching
Attempts to identify similar individuals based on data known about them
- Basis voor product aanbevelingen (finding people who are similar to you in terms of
the products they have liked/purchased)
4. Clustering
Attempts to group individuals in a population together by their similarity, but not driven
by any specific purpose!
Vb. Do our customers form natural groups/segments?
- Good for exploration
5. Co-occurrence grouping
= frequent itemset mining = association rule discovery = market-basket analysis
- Attempts to find associations between entities based on transactions involving
them
Vb. What items are commonly purchased together?
- Similarity of objects based on their appearance together in transactions!
- Gebruikt in sommige aanbevelingssystemen
- Resultaat van co-occurrence grouping = description of items that occur together
6. Profiling = behavior description
Attempts to characterize the typical behavior of an individual, group / population
Vb. What is the typical cell phone usage of this customer segment?
- Used to establish behavioral norms for anomaly detection applications: fraud
detection & monitoring for intrusions to computer systems
- Vb. Als we weten welke soorten aankopen iemand doet met kredietkaart kunnen we
bij nieuwe geldafnames bepalen of er een alarm gegeven moet worden
7. Link prediction
Attempts to predict connections between data items, usually by suggesting that a link
should exist & possibly estimating the strength of the link
- Vaak in social networking systems: “do you know this person?”
- Ook voor filmaanbevelingen
8. Data reduction
Attempts to take a large set of data and replace it with a smaller set of data that contains
much of the important information in the larger set
- Smaller set will be easier to deal with/process
- Smaller set might better reveal the information
- Usually involves loss of information => trade-off for improved insight
9. Causal modelling
Attempts to help us understand what events / actions actually influence others
- Vb. Target advertisement to consumer & we observe that the targeted consumers
actually do purchase more subsequent to being targeted: was this because the ads
influenced the consumers? Or did the model just do a good job identifying consumers
4