L-DATAVERWERKING
Inleiding: Data, informatie, kennis en de
computer
Data w met technologische hulpmiddelen omgezet in informatie
Info is basis van nieuwe kennis en ideeën
De DIKW-piramide
- Data
- Informatie
- Kennis
- Wijsheid
Hiërarchisch model uit informatiewetenschap
Data = basis informatie, informatie = basis kennis, kennis = basis wijsheid
Wat zijn data?
Data zijn de registraties of representaties van feiten
Onderzoeksdata
Data in een academische context
‘data zijn representaties van observaties, objecten of andere entiteiten die
worden gebruikt als bewijs voor fenomenen binnen wetenschappelijk
onderzoek’
Eigenschap data :: altijd resultaat van codering
== representaties van observaties moeten w vastgelegd op een drager /
medium
Bv: op harde schijf PC
Kunnen ongeveer alles coderen met binaire code
(alles tssn 1 en 0)
Serialisatie = proces waarbij gegevens in digitale vorm w opgeslagen op
opslagmedium of verstuurd via netwerk
Verschillende soorten data opgeslagen in databanken
- Primaire data
Gegevens zoals ze in informatiesysteem of databank w opgeslagen
Declaratieve data
Primaire data ontbreekt? Missing data
, - Procedurele/afgeleide data
Data die je krijgt op basis context & beschikbare primaire data
Bv -> door wisk berekening
- Metadata
Data over data
Beschrijvende eigenschappen v data
Over een opgeslagen document/ informatiedrager
Bv over bestandsformaat
- Operationele data
Geg over verrichtingen &prestaties van informatiesysteem
Bv excel die foutmelding geeft als je iets fout doet
Geg kunnen ook geclassificeerd worden
- op basis v bron
- bestandformaat
- manier waarop gemaakt
- voorwaarden waaronder de geg mogen worden gebruikt
bv Copyright
Gestructureerde data
Geordend volgens een vast herkenbaar patroon
Door mensen / machines aangemaakt
Bv: lijsten, tabellen etc
Centrale rol wet onderzoek
Ook ongestructureerde datasets gebruikt
Bv doorlopende tekst
Structuren & patronen moeten nog worden blootgelegd
Uitdagend onderzoek
WANT: Onderzoeker minder duidelijkheid over grenzen en
mogelijkheden vd data
Meer voorbereidend en verkennend werk
Ontw methodes gestructureerde en ongestructureerde data te beheren en
analyseren
= prioriteit academische wereld
Onderzoek n verkenning gegevens gedaan onder koepel : Data Science
Onderzoeksgebied bevind zich op snijvlak v statistiek, computerwet &
andere dom
Onderzoek n geavanceerde modellen
= basis v Artificiële Intelligentie & machine learning
Wat is informatie?
Data = basis info
Info == data die betekenisvol of nuttig zijn
Data w info als ze antwoord geven op specifieke vraag
Computer = hulpmiddel
= systeem waarin data w samengebracht, gesorteerd & getransformeerd op
manier waarop eind gebruiker info krijgt
Interne computerprocessen spelen af op 2 niveau’s
- Niveau: data revival
Juiste data geïdentificeerd en opgehaald
, - Hogere niveau: information retrieval
Systeem filtert meest relevante info op basis v criteria om dan aan gebruiker
te tonen
Versch disciplines gebruiken begrip ‘info’
- Informatica
Klemtoon op ontw technologische toepassingen
- Informatiekunde
Hoe info kan worden verwerkt & gecommuniceerd
Bekijkt processen vanuit cognitief, sociaal & bedrijfskundig persp
‘hoe tech kan worden geïmplementeerd op hoger organisatorisch niveau’
- Informatiewetenschap
Hoe productie & gebruik info kunnen w gefaciliteerd
Rol bij ontw nieuwe systemen en wet publiceren
- Informatietheorie
Zoeken n wiskundige, kwantitatieve definities van informatie
Grondlegger = Claude Shannon
‘A Mathematical Theory of Communication’
Grenzen tssn versch disciplines : vaag
Informatie en kennis
Info is nog geen kennis
Kennis = datgene wat geweten is of toegepast wordt door individuen of de
samenleving
Def versch van domein – domein
Kennis opdoen? Aan drie voorwaarden voldoen
1. Info bereiken
2. In staat zijn info begrijpen
3. Goede redenen hebben dat info waar is
Nu ook veel info en kennis te vinden online
Meer nog dan via ‘officiele’ academische kanalen
Belangrijk? Waardevolle info onderscheiden v RUIS
Web = onderhevig aan BIAS of misleidende & gekleurde info
Drie soorten info
1. Feitelijke informatie
Info = waar
2. Desinformatie
Info = bewust foutief
3. Misinformatie
Info = onbewust foutief
Belangrijk om goede informatievaardigheden te hebben
Valkuil?
Overvloed aan posts op soc.media, artikels & grijze literatuur
Wekt illusie geïnformeerd te zijn
Te gemakkelijk foute conclusies
Zoekfuncties houden je zoektermen bij waardoor ze info suggereren die je
graag zou willen zien, niet langer blootgesteld aan info die je voorkeuren &
standpunten tegenspreekt
= Information bubble / filter bubble
Algoritmes kunnen informatiespecialisten helpen te filteren
, Kennis digi ruimte = niet alleen afhankelijk van juiste info, ook van praktische
vaardigheden
Door kennis beter te plaatsen in sociaal netwerk waarin deze functioneert w je
interpretatie betrouwbaarder
Op inzichtelijke manier met kennis omgaan = WIJSHEID
De computer in de geesteswetenschappen
Opmars informatietechnologie => toevloed nuttige software
Toepassingen opdelen 2 groepen
1. Verwerken van tekstuele data
2. Verwerken van beeld, geluid, en overige niet-tekstuele gegevens
Vertalen zich ook in de geesteswetenschappen
1. Toepassingen gebruikt voor analyseren talen & teksten
2. Toepassingen gebruikt voor artefacten & tastbare objecten
Ook kruisbestuivingen
Tendensen binnen huidig geesteswet. Onderzoek:
- Digitale bibliotheek
- Full-tekst databank
Hebben onderzoekspraktijk sterk veranderd
Makkelijker verwijzingen of kruisverbanden tssn bronnen vinden
- Linked data
Laat toe bibliotheekcollecties te verbinden met externe datasets
- Vragen die centraal staan bij zoeken
o Wat zoeken
o Waar vinden
o Hoe zoeken
o Hoe resultaten ordenen
= Aan basis onderzoeksproject
Hoe materiaal verwerken om nieuwe inzichten te bekomen
2 stromingen:
1. Gebruik computationele technieken in taalkunde
2. Digital humanities
Eerste stroming:
Technieken gebruikt voor tekst gebaseerde taalstudie en ontw NLP-
Toepassingen
(Natural Language processing applications)
Programma’s efficiënt gemaakt
Corpuslinguïstische technieken
Ontw voor wet studie van taal als dusdanig
Ingezet eigenschappen woorden, syntactische constructies etc op
systematische manier in kaart brengen
Vb: technieken als keyword analysis & collpcation analysis
Concrete voorbeelden:
Machine translation
Question answering
Named entity recognition
Etc
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur geiketrappeniers. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €7,49. Vous n'êtes lié à rien après votre achat.