Computationele analyse van digitale communicatie (S_CADC)
Resume
Samenvatting Computationele analyse van digitale communicatie
20 vues 0 fois vendu
Cours
Computationele analyse van digitale communicatie (S_CADC)
Établissement
Vrije Universiteit Amsterdam (VU)
Een samenvatting van de eerste 4 hoorcolleges van het vak Computationele analyse van digitale communicatie aan de Vrije Universiteit Amsterdam en de bijbehorende artikelen. Een goede voorbereiding voor de midterm.
Computationele analyse van digitale communicatie (S_CADC)
Tous les documents sur ce sujet (2)
Vendeur
S'abonner
Sterrevermond
Aperçu du contenu
Week 1 - Lecture 1 - Introduction to Computational Methods
Computational Social Science: Field of Social Science that uses algorithmic tools and
large/unstructured data to understand human and social behavior. → Het gebruikt algoritmes
en grote ongestructureerde data om menselijk en sociaal gedrag te begrijpen.
Typical workflow:
1. Problem/purpose identification.
2. Data acquisition: Dataverwerving/verzameling.
3. Data wrangling: Transforming data: raw format → another format.
4. Data analysis and modeling.
5. Reporting and/or deployment (inzet).
Stukje geschiedenis: In het verleden was dataverzameling erg duur. Nu in het digitale
tijdperk, wordt het gedrag van mensen opgenomen, opgeslagen en op die manier
geanalyseerd. Alles wat je online doet zorgt voor een opname van jouw digitale gedrag. Dit
wordt digital traces genoemd. Grote schaal opnames van personen of bedrijven wordt big
data genoemd.
10 eigenschappen van big data:
Big (scale is impressive) Non representative (of certain
populations)
Nonreactive (participants are not aware or Algorithmically confounded (gedrag in
have become accustomed) algoritmen is niet natuurlijk. Het wordt
aangedreven door systemen)
Incomplete (ze hebben niet altijd de informatie Dirty (noise: junk, spam, spurious data
dat je nodig hebt voor je onderzoek. Denk aan points…)
gaps)
Inaccessible (often held by Sensitive (information = sensitive)
companies/governments)
Typische strategieën voor computational research
1. Counting things: In het big data tijdperk kan er van alles geteld worden.
2. Forecasting and nowcasting: big data maakt het mogelijk om nauwkeurige
voorspellingen te doen (heden en toekomst).
3. Approximating experiments: Computational research biedt mogelijkheden voor
natural experiments.
Voordelen en nadelen van computational research
Actual behavior versus self-report Techniques are often complicated
Social context versus lab setting Data often proprietary
Large N versus small N Samples are often biased
Gezamenlijk versus solitair Insufficient metadata
,Computational Communication Science (CCS): Het onderzoeken van computationele
algoritmen om grote ongestructureerde datasets te verzamelen en analyseren om
communicatiewetenschappelijke theorieën te ontwikkelen en te testen.
De recente versnelling in het gebruik van computational methods voor communicatie wordt
gevoed door de samenvloeiing van 3 ontwikkelingen:
1. Er zijn grote hoeveelheden digitaal beschikbare gegevens.
2. Er zijn verbeterde tools om deze gegevens te analyseren.
3. Er zijn krachtige en goedekope verwerkingskrachten en gebruiksvriendelijke
computerinfrastructuur voor het verwerken van deze gegevens.
Ethische problemen met computational methods
Meer macht over participanten dan in het verleden (dataverzameling en manipulatie
zonder consent en bewustzijn. sensitive data - gebruikers zijn te identificeren).
Leidende principes: Respect mensen, beneficence (begrijpen en verbeteren van het
risico/voordelen van de studie), rechtvaardigheid, respect law and public interest.
Uitdagingen van computational communication science
Simpelweg datagedreven onderzoek is misschien niet altijd theoretisch interessant.
Eigendomsgegevens bedreigen toegankelijkheid en reproduceerbaarheid.
‘Found’ data is niet altijd representatief. Dit is bedreigend voor de externe validiteit.
Bias en noise (ruis) bedreigen de nauwkeurigheid en interne validiteit.
Ontoereikende ethische normen/procedures.
Big data is “found” and survey data is “made”
First, big data is “found” while survey data is “made”. Most of the big data is secondary and
intended for other primary uses, most of which have little relevance to academic research.
On the other hand, most of the survey data are “made” by researchers who design and
implement their studies and questionnaires with specific research purposes in mind. The big
data is “found” and then tailored or curated by researchers to address their own theoretical or
practical concerns. The gap between the primary purpose intended for big data and the
secondary purpose found for big data will pose a threat to the validity of design,
measurement, and analysis in computational communication research.
Samenvatting
Computational communication research houdt veel beloften in.
We kunnen gebruik maken van informatiebronnen en grote datasets omdat mensen
constant digitale sporen achterlaten.
Nieuwe methoden maken het mogelijk om deze gegeven te structureren, aggregeren
en te begrijpen om communicatiegedrag te bestuderen.
Computational communication research gaat echter gepaard met ethische
uitdagingen met betrekking tot toestemming, privacy en autonomie van de
participanten.
Voorbeeld vragen:
MC: Waarom is ‘the Facebook Manipulation Study’ van Kramer et al. een ethisch probleem?
Mensen wisten niet dat ze deelnamen aan een onderzoek. Er was geen sprake van
informed consent. Daarnaast manipuleerde het onderzoek de emotie van mensen op
een te overdreven manier.
Open: Noem 2 eigenschappen van big data en leg deze uit.
Big data is often “incomplete”: This means they do not have the information that you
want for your research. This is a common feature of data that was created for
purposes other than research. For example, log data (browser history) includes all
links a person has visited over time, but does not provide any additional information.
, Moreover, it may contain gaps where the software failed or the person purposefully
hid his surfing behavior.
Big data is often “algorithmically confounded”: Behavior in big data systems is not
natural; it is driven by the engineering goals of the systems. For example, what you
see on a facebook news feed depends on an algorithm that Facebook has built into
their platform. Behavior of individuals is thus also driven by these system-immanent
features.
Week 2 - Lecture 2 - Basis of Automatic Text Analysis and Digital
Communication
Veel van wat wij weten over menselijk gedrag is gebaseerd op wat mensen ons vertellen via
self-reports in surveys, antwoorden in experimenteel onderzoek en in kwalitatief
onderzoek. Veel massacommunicatie ziet er zo uit als de krant, gecodeerd in tekst of is
gebaseerd op user-generated content van mobiele telefoons. Een stijgende hoeveelheid
van data is beschikbaar online. Veel communicatie is encoded in text. Maar text kunnen we
niet makkelijk analyseren. Text data moet omgezet worden in experimentele data zodat de
computer er iets mee kan doen.
Stappen van context/text analyze
1. Selecting the content one wants to analyze.
2. Choosing the text that contains the content one wants to analyze.
3. Define the units and categories of analysis.
4. Develop a set of rules for the manual coding process.
5. Coding the text accordion to the rules.
6. Analyze frequencies, relationships, differences, similarities between units/codes.
Probleem: Veel werk. Er zijn meer texts dan mensen die kunnen coderen (omzetten naar
analyseerbare dataset). Oplossing: Het proces automatiseren!
Text analysis: A research technique for making replicable and valid inferences from texts (or
other meaningful matter) to the contexts of their use” (Krippendorff, 2004).
Wat is text?
Text consists of symbols. Symbols by themselves do not have meaning. A symbol itself is a
mark, sign, or word that indicates, signifies, or is understood as representing an idea, object,
or relationship. Symbols thereby allow people to go beyond what is known or seen by
creating linkages between otherwise very different concepts and experiences. Text (a
collection of symbols) only attains meaning when interpreted (in its context).
Grootste uitdaging in het automatiseren van text analysis: Bridge the gap from symbols
to meaningful interpretation.
Het begrip van taal: “As natural language processing (NLP) practitioners, we bring our
assumptions about what language is and how language works into the task of creating
modeling features from natural language and using those features as inputs to statistical
models. This is true even when we don’t think about how language works very deeply or
when our understanding is unsophisticated or inaccurate; speaking a language is not the
same as having an explicit knowledge of how that language works. We can improve our
machine learning models for text by heightening that knowledge.” (Hvitfeldt & Silge, 2021).
Overzicht van de taalkunde
Elk veld bestudeert een ander organisatieniveau. Tijdens text analysis gebruiken we deze
organisatieniveaus om taalkenmerken te creëren (bijvoorbeeld tokens, n-grams). Ze zijn
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur Sterrevermond. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €7,99. Vous n'êtes lié à rien après votre achat.