Dit is een uitgebreide samenvatting van het hoorcollege over hoofdstuk 6 uit de reader: kwantificeren van sequentie similarity. Er zijn twee gedeeltes geel gemarkeerd, omdat ik daar maandag bij het hoorcollege nog vragen over heb. Onderwerpen die aan bod komen, zijn: similarity, fylogenetische boom...
Kwantificeren van sequentie similarity
Similarity, als je sequenties alignt, moet je daar iets van een score of getal aan kunnen plakken.
Fylogenetische boom, als je een fylogenetische boom maakt van sequenties kun je daarin heel veel
informatie aflezen over de functie en evolutie van sequenties. Denk hierbij aan de orthology
conjecture. De boom is echter alleen logisch als de sequenties afstammen van een
gemeenschappelijke voorouder en ze dus evolutionair gerelateerd zijn. Als je sequenties gaat
vergelijken die niet gerelateerd zijn, ben je letterlijk appels met peren aan het vergelijken en dat mag
niet. Je mag dus alleen een boom maken van sequenties die homoloog zijn!
Homoloog, je kan bepalen of iets homoloog is of niet door te kijken naar overeenkomsten.
Kijk bijvoorbeeld naar de overeenkomsten tussen Trump en apen. Zaken die dus ‘really
similar’ zijn, zijn waarschijnlijk homoloog. Maar wat is ‘really similar’?
Identity, is een maat voor similarity. Het geeft het aantal posities binnen twee sequenties
aan die identiek zijn. Om dit te meten moet je de sequenties alignen. Hierbij plaats je gaps
in de sequenties tot ze optimaal alignen. Het percentage matches tussen de sequenties
levert dan de identity. Als je voor de alignment die rechts is
100∗31
weergegeven de identity berekent, krijg je: =79
39
identiek.
Alignment, bij het maken van een alignment neem je evolutionaire
gebeurtenissen waar als indels, substituties en andere mutaties.
Identiteit & homologie, identity kan gekwantificeerd worden, maar homologie niet. Als je zegt dat
iets 79% homoloog is, ben je dus verkeerd bezig. Je bent homoloog (familie) of je bent het niet.
Similarity, is ook kwantificeerbaar, maar is niet hetzelfde als identity. Identity gaat om het aantal
identieke residuen in een DNA of aminozuren sequentie, terwijl similarity gaat om het percentage AZ
residuen in een alignment die een positieve substitutie score hebben. Similarity wordt niet gebruikt
voor DNA.
Evolutionaire afstand, de taklengte van fylogenetische bomen geeft de
evolutionaire afstand aan tussen twee individuen. De afstand wordt over
het algemeen in mutaties gemeten. De moleculaire klok zegt dat er elk X
jaar een mutatie optreedt. De afstand tussen virus 3 en 7 is dan ook de
optelsom van de rood gemarkeerde takken. Als je dan de taklengte met
0,07 vermenigvuldigt, levert dat een afstand van 0,77 mutaties/site. De
eenheid van afstand is dus het aantal substituties per positie van de
alignment. Een aanname die hierbij van belang is, is dat alle posities
random en onafhankelijk evolueren.
Substitutie matrix, de similarity kan gekwantificeerd
worden met een substitutie matrix. Hierin staan scores
voor matches in een sequentie alignment en penaltys voor mismatches in een
sequentie aligment. De identity matrix wordt het meest gebruikt.
Identity matrix, hierbij geldt een positieve score als de residuen identiek zijn en een
0 of negatieve score als de residuen verschillend zijn. Door elke positie een score toe
te kennen en deze scores op te tellen, krijg je een alignment
score. Rechts zie je een voorbeeld van een identity matrix. Niet elke mutatie in
DNA is even waarschijnlijk. Transities vinden bijna twee keer zo vaak plaats als
transversies. Dat komt door de chemie van DNA, aangezien A en G twee ringen
bevatten en C en T maar 1.
Transitie, is een omzetting tussen A & G of C & T.
Transversie, is een omzetting tussen A & C,A & T,C & G of G & T.
, De kans op een transitie is groter dan op een transversies en daar kan in je een substitutie matrix dus
onderscheid in maken, zoals rechts is weergegeven. Ondanks dat deze matrix beter is, wordt de
bovenste identity matrix het meest gebruikt.
Identiteit & similarity, de sequenties die rechtsonder zijn weergegeven, zijn allemaal 66,7% identiek.
De similarity is echter verschillend. Dat komt door de kleurcode. Sommige aminozuren lijken namelijk
meer op elkaar dan andere AZ. Zo lijken D en E meer op elkaar dan dat zij op C lijken en dat wordt dan
gevisualiseerd door de kleuren. Hierdoor zijn seqD en seqE meer similar dan seqC bijvoorbeeld is met
seqD. Wat je uiteindelijk wil bereiken met deze similarity is kijken of twee sequenties dezelfde
voorouder hebben (homoloog). Dan kan je kijken of de functie van het eiwit behouden is gebleven.
Ook kan je dan iets zeggen over de evolutionaire relatie. We gebruiken evolutie als tool om de
similarity te bepalen. Evolutie heeft namelijk miljarden jaren lang allerlei verschillende
aminozuurvolgordes uitgeprobeerd en heeft dus gevonden welke aminozuren wel of niet op elkaar
lijken. Bij evolutie werken sommige aminozuur substituties wel en andere niet.
Aminozuur similarity, je zoekt heel veel sequenties bij elkaar die overduidelijk homoloog zijn en dus
gealigned kunnen worden, waarbij je precies weet waar inserties en deleties plaats hebben gevonden
(dus geen indels). In deze well-aligned homologs ga je dan tellen hoe vaak bepaalde aminozuren in
elkaar zijn gemuteerd. Zo kijk je bijvoorbeeld hoe vaak er geen G boven een N staat (en dus in elkaar
gesubstitueerd zijn).
BLOSUM matrix, is opgesteld door naar well-aligned
homologs te kijken en daarvan de posities met een
hogere identity dan 62% samen te voegen. Deze gebieden
tonen zo veel overeenkomsten dat ze samengevoegd worden om biases te voorkomen. Als er
bijvoorbeeld 100 sequenties zijn die een hogere identity dan 62% laten zien, worden zij
samengevoegd tot 1 sequentie, waardoor de sequenties met een hoge identity uiteindelijk per stuk
maar 1/100 meetellen. Er wordt dus vooral naar delen van sequenties gekeken waarin minder dan
62% overeenkomst is. Hieruit identificeer je well-aligned blocks zodat alleen echte mutaties
vergeleken worden. Ten slotte wordt voor elk paar aminozuren geteld hoe vaak ze in elkaar muteren.
Vervolgens wordt gekeken hoeveel vaker een mutatie optreedt dan verwacht. Die verwachte kans kan
je uitrekenen door de frequentie van aminozuren in de totale eiwitten te vergelijken. De
observerd
ratio, ook wel odds ratio, geeft aan hoeveel vaker/minder vaak je een mutatie ziet dan
expected
verwacht. Hierbij geeft observed aan hoe vaak ze aligned worden in well-alligned homologs en
expected geeft aan hoe vaak ze alligned worden in unaligned sequences. Een kans ratio van 2
betekent dan ook dat iets 2 maal vaker gebeurt dan verwacht door random kans. Als je dit tegenkomt
is de kans dus 2 keer groter dat ze homoloog zijn, dan dat ze het niet zijn. De ratio is om te schrijven
FI ,J
in , waarbij ‘expected’ uitgerekend wordt door de kans dat je het ene AZ tegenkomt te
F I ∗F J
vermenigvuldigen met de kans dat je het andere AZ tegenkomt. ‘Observed’ geeft dan aan hoe vaak je
de twee aminozuren boven elkaar aantreft. Deze odds ratio kan je voor een hele aligment uitrekenen
door de ratio’s van alle gealignde aminozuren met elkaar te vermenigvuldigen. Dit levert echter al
snel een heel laag getal (lage kans) dus wordt het logaritme van de formule genomen, zodat de
uitkomsten bij elkaar opgeteld kunnen worden. Dit levert uiteindelijk de volgende formule op voor de
BLOSUM score:
¿
FI , J
(¿ )
F I∗F J
( observerd
expected )
→ S I , J =2∗log 2 ¿
log ¿
Voorbeeld BLOSUM, in dit voorbeeld heb je well-aligned blocks die allemaal van dezelfde voorouder
afkomen en in totaal 100 aminozuren lang zijn en 1000 aminozuren diep zonder gaps. De sequenties
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur brittheijmans. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €2,99. Vous n'êtes lié à rien après votre achat.