Resume

Data Science for Auditors - Samenvatting & R codes (programmeren) - UvA

44 vues 4 fois vendu

Cours
Data Science for Auditors (6614ZP021Y)

Établissement
Universiteit Van Amsterdam (UvA)

Dit document betreft een samenvatting voor Data Science for Auditors met toelichting over de R codes (programmeren), welke voorkomen in de Jupyter huiswerkopdrachten. Dit vak wordt aangeboden aan de UvA voor de Post-Master Accountancy.

[Montrer plus]

Aperçu 4 sur 39 pages

Voir l'exemple

Publié le 29 juin 2023
Nombre de pages 39
Écrit en 2022/2023
Type Resume

data science for auditors
post master accountancy
pma
6614zp021y
jupyter
uva
universiteit van amsterdam

Établissement
Universiteit van Amsterdam (UvA)
Cours
Accountancy
Cours
Data Science for Auditors (6614ZP021Y)

davidcarvalho

Membre depuis 3 année 16 documents vendus

€10,49

Ajouté

Ajouter au panier

Ajouter au liste de veux

Garantie de satisfaction à 100%
Disponible immédiatement après paiement
En ligne et en PDF
Tu n'es attaché à rien

Samenvatting – Data science for auditors

Inhoud
Introductie ............................................................................................................................................... 2
Handreiking 1141 .................................................................................................................................... 7
Audit standards and data-driven audit planning ...................................................................................... 7
Process mining ...................................................................................................................................... 14
Data engineering.................................................................................................................................... 18
Estimation, hypothesis testing, sampling .............................................................................................. 20
Estimation.......................................................................................................................................... 20
Hypothesis testing ............................................................................................................................. 22
Sampling – ISA/AU 530 ................................................................................................................... 23
Predictive analytics with regression ...................................................................................................... 25
Regression analysis ........................................................................................................................... 25
Sampling – ISA/AU 520 ................................................................................................................... 29
Machine Learning.................................................................................................................................. 31
Fraud detection ...................................................................................................................................... 33
Advanced analytics and artificial intelligence (AI) ............................................................................... 35
Jupyter codes ......................................................................................................................................... 37
Data engineering................................................................................................................................ 37
Estimation.......................................................................................................................................... 37
Attribute sampling ............................................................................................................................. 38

1

,Introductie
Data
Gestructureerde data verwijst naar informatie die in een duidelijk gedefinieerd formaat is
georganiseerd, zoals tabellen of databases. Bijvoorbeeld: een Excel-spreadsheet met klantgegevens.
Ongestructureerde data is niet georganiseerd en heeft geen duidelijke indeling, zoals e-mails of
sociale media-updates. Interne data is afkomstig van bronnen binnen een organisatie, zoals
verkoopcijfers. Externe data komt van buiten de organisatie, zoals marktonderzoeksrapporten.

Data-driven audit planning
- Understanding the entity
- Risk assessment
- Risk response
o Data analytics objectives, approach & tools
o Integration into the audit plan
- Determining data requirements

Data Engineering
Data engineering is het proces van het verzamelen van data vanuit het systeem, organiseren en
voorbereiden voordat er mee wordt geanalyseerd. Hierbij worden verschillende stappen doorlopen:
1. Data-identificatie: Identificeren van de relevante databronnen en het begrijpen van de aard en
structuur van de beschikbare data.
2. Data-extractie: Het extraheren van de benodigde data uit verschillende bronnen, zoals
databases, logbestanden of externe API's.
3. Data-kwaliteitscontrole: Het controleren en valideren van de kwaliteit van de verzamelde data
om ervoor te zorgen dat het compleet, nauwkeurig en consistent is. Dit omvat het identificeren
en oplossen van ontbrekende waarden, inconsistenties of anomalieën.
4. Data-transformatie: Het omzetten en aanpassen van de ruwe data naar een gestructureerd
formaat dat geschikt is voor analyse en verwerking. Dit omvat het uitvoeren van
gegevensreiniging, aggregatie, normalisatie of het toepassen van complexe transformaties
zoals joins of splitsingen.

2

,Door deze stappen van data engineering te doorlopen, kunnen accountants waardevolle inzichten uit
de data halen en deze gebruiken voor analyses voor jaarrekeningcontrole.

Hypothesis testing, sampling, estimation
Steekproeven(sampling): ISA530.
Hoe kan je op basis van een steekproef een redelijke uitspraak doen over een populatie?
Om een redelijke uitspraak te doen over een populatie op basis van een steekproef, is het belangrijk
dat de steekproef representatief is. Dit betekent dat de geselecteerde steekproefitems op een
willekeurige manier moeten worden gekozen en dat ze een goede afspiegeling vormen van de hele
populatie. Het gebruik van statistische technieken, zoals willekeurige steekproeftrekking en berekening
van betrouwbaarheidsintervallen, kan helpen bij het maken van uitspraken over de gehele populatie
op basis van de steekproefresultaten.

Hoe kan je een optimale steekproefomvang bepalen?
Het bepalen van de optimale steekproefomvang is afhankelijk van verschillende factoren, waaronder
het gewenste betrouwbaarheidsniveau, de omvang van de populatie en het verwachte
foutenpercentage. Om de steekproefomvang te bepalen, kunnen statistische methoden, zoals de
formule voor het berekenen van de benodigde steekproefomvang op basis van de gewenste
betrouwbaarheid en de verwachte foutenpopulatie, worden toegepast. Het is belangrijk om een
voldoende grote steekproefomvang te kiezen om een betrouwbaar resultaat te verkrijgen zonder
onnodige kosten of tijdsinvesteringen.

Hoe weet je of het steekproefrisico tot een aanvaardbaar niveau beperkt blijft?
Het beperken van het steekproefrisico tot een aanvaardbaar niveau wordt bereikt door het instellen van
een acceptabel foutniveau en een betrouwbaarheidsniveau. Het steekproefrisico, ook wel bekend als de
toelaatbare afwijzingsrisico, is de kans dat de conclusies op basis van de steekproef niet overeenkomen
met de werkelijke populatie. Dit risico kan worden beheerst door het bepalen van een geschikt
betrouwbaarheidsniveau en een fouttolerantie, waarbij rekening wordt gehouden met de
risicoacceptatie van de gebruiker van het steekproefresultaat. Dit kan worden bereikt door het
toepassen van statistische methoden, zoals het berekenen van de fouttolerantie en de gewenste
betrouwbaarheid op basis van de steekproefresultaten.

Schatten (estimation) en toetsen(hypothesis testing)
Hoe kan je op basis van een steekproef een schatting maken met een bepaald zekerheidsinterval?
Om een schatting te maken met een bepaald zekerheidsinterval op basis van een steekproef, kunnen
statistische methoden worden gebruikt. Een veelgebruikte techniek is het berekenen van een
betrouwbaarheidsinterval. Dit interval geeft een range aan waarden waarin de werkelijke
populatiewaarde naar verwachting valt met een bepaalde mate van zekerheid.
Om een betrouwbaarheidsinterval te berekenen, wordt vaak gebruikgemaakt van de normale
verdeling of de t-verdeling, afhankelijk van de steekproefgrootte en andere factoren. De formule voor
het berekenen van het betrouwbaarheidsinterval is gebaseerd op de steekproefstatistieken, zoals de
steekproefgemiddelde en de standaarddeviatie, evenals het gewenste betrouwbaarheidsniveau.

Hoe kan je een hypothese over een populatie toetsen?
Het toetsen van een hypothese over een populatie kan worden gedaan met behulp van
hypothesetesting, waarbij statistische methoden worden gebruikt om te bepalen of de gegevens
voldoende bewijs leveren om de hypothese te ondersteunen of te verwerpen. Er zijn twee typen
hypothesen: de nulhypothese (H0) en de alternatieve hypothese (H1).
Bij hypothesetesting wordt eerst een nulhypothese opgesteld, die meestal stelt dat er geen
verschil of geen relatie is in de populatie. Vervolgens wordt een steekproef genomen en worden

3

, statistische testen toegepast om te bepalen of de gegevens voldoende bewijs leveren om de
nulhypothese te verwerpen ten gunste van de alternatieve hypothese.
Bij het uitvoeren van hypothesetesting wordt een significantieniveau gekozen, meestal
aangeduid als α, dat de kans op het ten onrechte verwerpen van de nulhypothese aangeeft. Als het p-
waarde (de kans op het waarnemen van de gegevens of extremere gegevens, gegeven de nulhypothese)
kleiner is dan het gekozen significantieniveau, wordt de nulhypothese verworpen en wordt
geconcludeerd dat er voldoende bewijs is om de alternatieve hypothese te ondersteunen.

Predictive analytics: regression analysis
Wat is correlatie?
Correlatie is een statistische maatstaf die de relatie tussen twee variabelen meet. Het geeft aan in
hoeverre veranderingen in de ene variabele gepaard gaan met veranderingen in de andere variabele.
Correlatie varieert tussen -1 en 1, waarbij een correlatie van 1 een perfecte positieve relatie aangeeft, -
1 een perfecte negatieve relatie en 0 geen lineaire relatie.

Hoe kun je met regressie-analyse een voorspellend model bouwen?
Met regressie-analyse kun je een voorspellend model bouwen door de relatie tussen een afhankelijke
variabele en één of meer onafhankelijke variabelen te modelleren. Het doel is om een wiskundige
vergelijking te vinden die de afhankelijke variabele zo goed mogelijk voorspelt op basis van de
waarden van de onafhankelijke variabelen.

Aan welke voorwaarden moet je dan voldoen?
Om een voorspellend regressiemodel te bouwen, moet je aan bepaalde voorwaarden voldoen,
waaronder:
- Lineaire relatie: Er moet een lineaire relatie zijn tussen de afhankelijke en onafhankelijke
variabelen.
- Onafhankelijkheid van fouten: De fouttermen in het model moeten onafhankelijk zijn van
elkaar.
- Homoscedasticiteit: De variantie van de fouttermen moet constant zijn over het bereik van de
voorspelde waarden.
- Geen multicollineariteit: De onafhankelijke variabelen mogen onderling geen sterke lineaire
relatie hebben.

Hoe kan je toetsen of je model “goed” is?
Om te beoordelen of een regressiemodel "goed" is, zijn er verschillende statistieken en grafieken die
kunnen worden gebruikt:
- R-kwadraat (R²): Dit geeft de proportie van de variantie in de afhankelijke variabele weer die
wordt verklaard door het model. Een hogere R²-waarde geeft een betere pasvorm aan.
- Gecorrigeerd R-kwadraat: Dit houdt rekening met het aantal variabelen en de
steekproefgrootte, en het helpt om overmatige complexiteit in het model te vermijden.
- F-toets: Dit toetst de significantie van het gehele model.
- Residu-analyse: Door de residuen (de verschillen tussen de werkelijke en voorspelde waarden)
te analyseren, kunnen patronen, niet-lineaire relaties of heteroscedasticiteit worden
geïdentificeerd.

Machine learning en fraud detection
Wat is machine learning?
Machine learning is een tak van kunstmatige intelligentie (AI) die zich richt op het ontwikkelen van
algoritmen en modellen die computers in staat stellen te leren en taken uit te voeren zonder expliciete
programmering. Het draait om het bouwen van modellen die patronen in gegevens kunnen
identificeren en gebruiken om voorspellingen te doen, patronen te herkennen of beslissingen te nemen.

4

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur davidcarvalho. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €10,49. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

78998 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 14 ans

Commencez à vendre!

Populaire universiteiten

Populaire hogescholen

Populaire studieboeken voor Communicatie en Taal

Populaire studieboeken voor Economie en Bedrijf

Populaire studieboeken voor Exact en Informatica

Populaire studieboeken voor Gedrag en Maatschappij

Populaire studieboeken voor Gezondheid en Geneeskunde

Populaire studieboeken voor Recht en Bestuur

Resume

Data Science for Auditors - Samenvatting & R codes (programmeren) - UvA

Infos sur le Document

Sujets

École, étude et sujet

Vendeur

Avis reçus

Aperçu du contenu