Resume

Samenvatting HCO kwantificeren van sequentie similarity

Name: HCO kwantificeren van sequentie similarity
SKU: doc_403028
Rating: 4.00 (4 reviews)
Author: brittheijmans

4 revues

114 vues 0 fois vendu

Cours
Systeembiologie

Établissement
Universiteit Utrecht (UU)

Dit is een uitgebreide samenvatting van het hoorcollege over hoofdstuk 6 uit de reader: kwantificeren van sequentie similarity. Er zijn twee gedeeltes geel gemarkeerd, omdat ik daar maandag bij het hoorcollege nog vragen over heb. Onderwerpen die aan bod komen, zijn: similarity, fylogenetische boom...

[Montrer plus]

Aperçu 2 sur 5 pages

Voir l'exemple

Publié le 3 mars 2018
Nombre de pages 5
Écrit en 2017/2018
Type Resume

similarity
fylogenetische boom
homoloog
identity
alignment
evolutionaire afstand
substitutie matrix
identity matrix
transitie
transversie
blosum matrix
blosum nummers
alignment score
pam matrix
gonnet

Établissement
Universiteit Utrecht (UU)
Cours
Biologie
Cours
Systeembiologie

4 revues

Par: tomlous • 4 année de cela

Par: joycevanloenhout • 5 année de cela

Par: et98 • 6 année de cela

Par: sanneejanssen • 6 année de cela

brittheijmans

Membre depuis 7 année 629 documents vendus

308

148

€2,99

Egalement disponible en groupe à partir de €10,49

Ajouté

Ajouter au panier

Ajouter au liste de veux

Garantie de satisfaction à 100%
Disponible immédiatement après paiement
En ligne et en PDF
Tu n'es attaché à rien

Document également disponible en groupe (1)

Systeembiologie deeltoets 1

(2)

€ 41,86 € 10,49

30x vendu

14 éléments

1. Resume - Hco inleiding bio-informatica
2. Resume - Hco biologie als een datawetenschap
3. Resume - Hco praten tegen computers
4. Resume - Kennisclip afstand tussen vectoren
5. Resume - Kennisclip file formats
6. Resume - Hco dimensies in data
7. Resume - Hco fylogenetische bomen
8. Resume - Hco conservatie
9. Resume - Hco kwantificeren van sequentie similarity
10. Resume - Hco algoritmes voor sequentie alignments
11. Resume - Hco heuristic searches
12. Resume - Hco fylogenetische interferentie
13. Resume - Hco permutatie statistieken
14. Resume - Dwo opgaven kansberekening
Montrer plus

Kwantificeren van sequentie similarity
Similarity, als je sequenties alignt, moet je daar iets van een score of getal aan kunnen plakken.
Fylogenetische boom, als je een fylogenetische boom maakt van sequenties kun je daarin heel veel
informatie aflezen over de functie en evolutie van sequenties. Denk hierbij aan de orthology
conjecture. De boom is echter alleen logisch als de sequenties afstammen van een
gemeenschappelijke voorouder en ze dus evolutionair gerelateerd zijn. Als je sequenties gaat
vergelijken die niet gerelateerd zijn, ben je letterlijk appels met peren aan het vergelijken en dat mag
niet. Je mag dus alleen een boom maken van sequenties die homoloog zijn!
Homoloog, je kan bepalen of iets homoloog is of niet door te kijken naar overeenkomsten.
Kijk bijvoorbeeld naar de overeenkomsten tussen Trump en apen. Zaken die dus ‘really
similar’ zijn, zijn waarschijnlijk homoloog. Maar wat is ‘really similar’?
Identity, is een maat voor similarity. Het geeft het aantal posities binnen twee sequenties
aan die identiek zijn. Om dit te meten moet je de sequenties alignen. Hierbij plaats je gaps
in de sequenties tot ze optimaal alignen. Het percentage matches tussen de sequenties
levert dan de identity. Als je voor de alignment die rechts is
100∗31
weergegeven de identity berekent, krijg je: =79
39
identiek.
Alignment, bij het maken van een alignment neem je evolutionaire
gebeurtenissen waar als indels, substituties en andere mutaties.
Identiteit & homologie, identity kan gekwantificeerd worden, maar homologie niet. Als je zegt dat
iets 79% homoloog is, ben je dus verkeerd bezig. Je bent homoloog (familie) of je bent het niet.
Similarity, is ook kwantificeerbaar, maar is niet hetzelfde als identity. Identity gaat om het aantal
identieke residuen in een DNA of aminozuren sequentie, terwijl similarity gaat om het percentage AZ
residuen in een alignment die een positieve substitutie score hebben. Similarity wordt niet gebruikt
voor DNA.
Evolutionaire afstand, de taklengte van fylogenetische bomen geeft de
evolutionaire afstand aan tussen twee individuen. De afstand wordt over
het algemeen in mutaties gemeten. De moleculaire klok zegt dat er elk X
jaar een mutatie optreedt. De afstand tussen virus 3 en 7 is dan ook de
optelsom van de rood gemarkeerde takken. Als je dan de taklengte met
0,07 vermenigvuldigt, levert dat een afstand van 0,77 mutaties/site. De
eenheid van afstand is dus het aantal substituties per positie van de
alignment. Een aanname die hierbij van belang is, is dat alle posities
random en onafhankelijk evolueren.
Substitutie matrix, de similarity kan gekwantificeerd
worden met een substitutie matrix. Hierin staan scores
voor matches in een sequentie alignment en penaltys voor mismatches in een
sequentie aligment. De identity matrix wordt het meest gebruikt.
Identity matrix, hierbij geldt een positieve score als de residuen identiek zijn en een
0 of negatieve score als de residuen verschillend zijn. Door elke positie een score toe
te kennen en deze scores op te tellen, krijg je een alignment
score. Rechts zie je een voorbeeld van een identity matrix. Niet elke mutatie in
DNA is even waarschijnlijk. Transities vinden bijna twee keer zo vaak plaats als
transversies. Dat komt door de chemie van DNA, aangezien A en G twee ringen
bevatten en C en T maar 1.
Transitie, is een omzetting tussen A & G of C & T.
Transversie, is een omzetting tussen A & C,A & T,C & G of G & T.

, De kans op een transitie is groter dan op een transversies en daar kan in je een substitutie matrix dus
onderscheid in maken, zoals rechts is weergegeven. Ondanks dat deze matrix beter is, wordt de
bovenste identity matrix het meest gebruikt.
Identiteit & similarity, de sequenties die rechtsonder zijn weergegeven, zijn allemaal 66,7% identiek.
De similarity is echter verschillend. Dat komt door de kleurcode. Sommige aminozuren lijken namelijk
meer op elkaar dan andere AZ. Zo lijken D en E meer op elkaar dan dat zij op C lijken en dat wordt dan
gevisualiseerd door de kleuren. Hierdoor zijn seqD en seqE meer similar dan seqC bijvoorbeeld is met
seqD. Wat je uiteindelijk wil bereiken met deze similarity is kijken of twee sequenties dezelfde
voorouder hebben (homoloog). Dan kan je kijken of de functie van het eiwit behouden is gebleven.
Ook kan je dan iets zeggen over de evolutionaire relatie. We gebruiken evolutie als tool om de
similarity te bepalen. Evolutie heeft namelijk miljarden jaren lang allerlei verschillende
aminozuurvolgordes uitgeprobeerd en heeft dus gevonden welke aminozuren wel of niet op elkaar
lijken. Bij evolutie werken sommige aminozuur substituties wel en andere niet.
Aminozuur similarity, je zoekt heel veel sequenties bij elkaar die overduidelijk homoloog zijn en dus
gealigned kunnen worden, waarbij je precies weet waar inserties en deleties plaats hebben gevonden
(dus geen indels). In deze well-aligned homologs ga je dan tellen hoe vaak bepaalde aminozuren in
elkaar zijn gemuteerd. Zo kijk je bijvoorbeeld hoe vaak er geen G boven een N staat (en dus in elkaar
gesubstitueerd zijn).
BLOSUM matrix, is opgesteld door naar well-aligned
homologs te kijken en daarvan de posities met een
hogere identity dan 62% samen te voegen. Deze gebieden
tonen zo veel overeenkomsten dat ze samengevoegd worden om biases te voorkomen. Als er
bijvoorbeeld 100 sequenties zijn die een hogere identity dan 62% laten zien, worden zij
samengevoegd tot 1 sequentie, waardoor de sequenties met een hoge identity uiteindelijk per stuk
maar 1/100 meetellen. Er wordt dus vooral naar delen van sequenties gekeken waarin minder dan
62% overeenkomst is. Hieruit identificeer je well-aligned blocks zodat alleen echte mutaties
vergeleken worden. Ten slotte wordt voor elk paar aminozuren geteld hoe vaak ze in elkaar muteren.
Vervolgens wordt gekeken hoeveel vaker een mutatie optreedt dan verwacht. Die verwachte kans kan
je uitrekenen door de frequentie van aminozuren in de totale eiwitten te vergelijken. De
observerd
ratio, ook wel odds ratio, geeft aan hoeveel vaker/minder vaak je een mutatie ziet dan
expected
verwacht. Hierbij geeft observed aan hoe vaak ze aligned worden in well-alligned homologs en
expected geeft aan hoe vaak ze alligned worden in unaligned sequences. Een kans ratio van 2
betekent dan ook dat iets 2 maal vaker gebeurt dan verwacht door random kans. Als je dit tegenkomt
is de kans dus 2 keer groter dat ze homoloog zijn, dan dat ze het niet zijn. De ratio is om te schrijven
FI ,J
in , waarbij ‘expected’ uitgerekend wordt door de kans dat je het ene AZ tegenkomt te
F I ∗F J
vermenigvuldigen met de kans dat je het andere AZ tegenkomt. ‘Observed’ geeft dan aan hoe vaak je
de twee aminozuren boven elkaar aantreft. Deze odds ratio kan je voor een hele aligment uitrekenen
door de ratio’s van alle gealignde aminozuren met elkaar te vermenigvuldigen. Dit levert echter al
snel een heel laag getal (lage kans) dus wordt het logaritme van de formule genomen, zodat de
uitkomsten bij elkaar opgeteld kunnen worden. Dit levert uiteindelijk de volgende formule op voor de
BLOSUM score:
¿
FI , J
(¿ )
F I∗F J

( observerd
expected )
→ S I , J =2∗log 2 ¿
log ¿
Voorbeeld BLOSUM, in dit voorbeeld heb je well-aligned blocks die allemaal van dezelfde voorouder
afkomen en in totaal 100 aminozuren lang zijn en 1000 aminozuren diep zonder gaps. De sequenties

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur brittheijmans. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €2,99. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

80796 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 14 ans

Commencez à vendre!

Populaire universiteiten

Populaire hogescholen

Populaire studieboeken voor Communicatie en Taal

Populaire studieboeken voor Economie en Bedrijf

Populaire studieboeken voor Exact en Informatica

Populaire studieboeken voor Gedrag en Maatschappij

Populaire studieboeken voor Gezondheid en Geneeskunde

Populaire studieboeken voor Recht en Bestuur

Resume

Samenvatting HCO kwantificeren van sequentie similarity

Infos sur le Document

Sujets

École, étude et sujet

4 revues

Vendeur

Avis reçus

Aperçu du contenu

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

L’achat facile et rapide

Focus sur l’essentiel

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Garantie de remboursement : comment ça marche ?

Auprès de qui est-ce que j'achète ce résumé ?

Est-ce que j'aurai un abonnement?

Peut-on faire confiance à Stuvia ?