Hoorcollege 9
CAREC/CARES Crowdsourced Algorithm of Reading
Comprehension / Speech
Coh-metrix levels - Surface level
- Textbase
- Situatiemodel
Surface level Zijn de woorden bekend en de zinnen niet te
ingewikkeld?
Tekstbase Sluiten de zinnen op elkaar aan, referentieel en
lexicaal?
Situatiemodel Wat voor situatie wordt er beschreven?
Temporele cohesie Zijn opeenvolgende hoofdwerkwoorden gelijk
qua tijd (tt, vt) en aspect (voltooid, onvoltooid)?
Hoge repetitiescore Indicatief voor consistentie
Lage repetitiescore Er zijn veel shifts
Intentionaliteit De handelingen van personen in dienst van het
bereiken van doelen
Intentionele partikels In order to, so that
Causaliteit Oorzaak-gevolgmechanismen in de wereld die
buiten deze doelen staan
Causale partikels Because, therefore
Lemmata Aantal tot woordenboekvorm hereleide types
N-gram Een venster dat je over de tekst heen schuift,
waarbij n correspondeert met de grootte van het
venster in aantal woorden
Beperkingen van het corpus - Alleen taal uit boeken
- Boeken worden niet gewogen naar hoe
wijd ze verspreid zijn en hoeveel ze
gelezen worden
- Niet geactualiseerd
- N-grams tot n = 5
College 8
Leesbaarheidsformule Flesch-Kincaid grade Zinslengte en woordlengte
level 0,39 (totaal woorden / totaal zinnen) + 11,8
(totaal lettergrepen / totaal woorden) – 11,59
Product tekstbegrip Kan de lezer een volledige en coherente mentale
representatie van de tekst maken?
Proces tekstbegrip Hoeveel moeite moet de lezer hiervoor doen?
Tekortkomingen leesbaarheidsformules - Predictoren zijn niet causaal relevant
- Zinslengte vs zinscomplexiteit
- Afhankelijkheidslengte zou beter zijn
- Je kunt de zinnen door elkaar husselen
zonder dat de leesbaarheidsscore
verandert.
- Negeert variatie binnen de tekst
- Voorkennis en vaardigheid lezer worden
genegeerd.
- Nader onderzoek is nodig om
moeilijkheid voor individuele lezers te
kunnen voorspellen.
Gebruikte kenmerken voor 1. Woordmoeilijkheid
leesbaarheidsanalyse in T-scan 2. Zinscomplexiteit
3. Informatiedichtheid
, 4. Coherentie
5. Concreetheid
6. Persoonlijkheid
Soorten maten om kenmerken te meten 1. Dichtheid (kenmerk X : vast aantal
woorden)
2. Porportie (aandeel)
3. Ratio (kenmerk X : kenmerk Y)
Type-Token Ratio Type = aantal unieke woorden
Token = totaal aantal woorden
Hoe hoger de TTR, hoe meer unieke woorden
op het totaal
Measure of Textual Lexical Diversity Lengte-ongevoelig alternatief voor TTR
Lemmatisering Alle verbuigingen/vervoegingen van een woord
aan dezelfde vorm toegewezen
(woordboekvorm)
Conclusie leesbaarheidsvoorspelling Toewijzen teksten aan algemene doelgroep kan
vrij goed, maar bepaling moeilijkheid voor
individuele lezer is lastiger.
College 7
Praktisch nut van computationele lexicale - Diverse NLP toepassingen gebruiken
analyse semantische relaties tussen woorden in
een tekst
- Automatisch samenvatten
- Automatische correctie van typefouten
Relatedness Dit omvat meronymie (= huis – verdieping).
Maar ook functionele associatie (regen – plas)
Similarity Special case of semantic relatedness
Distance De inverse van relatedness.
Wordnet Gebouwd op woordbetekenissen. Gelabelde
semantische relaties tussen woordbetekenissen,
meer dan alleen synoniemen.
Meest frequente relatie in naamwoorden Hyponymie/hyperonomie/meronymie
(WordNet)
Meest frequente relaties in werkwoorden Troponymie (= steeds specifiekere manieren om
(WordNet) een handeling te beschrijven)
Synset Synonym set (bijv. alle betekenissen van coffee)
Path-based similarity Concepten zijn meer gelijkend als ze dichterbij
elkaar in de hiërarchie zitten, gemeten met het
aantal stappen om van concept A naar concept B
te komen.
Padlengte Gelijk aan het aantal stappen dat je nodig hebt
om van het ene concept naar het andere concept
te gaan.
Probelemen met path-based similarity Elke stap weegt even zwaar, en dat is
problematisch want hoger in de hiërarchie zijn
de stappen intuïtief hoger en abstracter.
Normalized Path Length Houdt rekening met de maximale diepte van de
hiërarchie
Conceptual similarity Houdt rekening met het niveau binnen de
hiërarchie (gezien vanuit de most specific
common subsumer)
Information based approach Gedeelde informatiewaarde tussen twee
concepten is de informatiewaarde van de most
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur nhackl. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €5,18. Vous n'êtes lié à rien après votre achat.