Samenvatting van het gehele deel bio-informatica(B-B1GENO20) van het vak genomica. Alle hoorcolleges zijn goed uitgewerkt met plaatjes erbij. 56 pagina's.
Bio-informatica HC1
Metagenomics -> sample van groep organismen nemen, filteren, je houdt dan microben of virussen
over, DNA sequencen, bio-informatics.
Microbiome -> alle microben
Top down -> Question first, hoe werkt het? Als je een vraag hebt, dan pas bedenken welke datasets
je kunt gebruiken om de vraag te beantwoorden
Bottom up -> Data first. Eerst data bekijken en daarna een hypothese hierbij opstellen
Je zoekt een “query” in een database
Waarom? -> Als 2 sequenties (eiwit of DNA) gelijk zijn dan gaan we ervan uit dat ze gerelateerd zijn.
(zoals mensen en chimpansees)
Hoe? -> Elke stukje uit de query wordt los van elkaar in de database gezocht. De “Hits” zijn de dingen
die je in de database vindt. Dus het splits de query op in kleine stukjes en zoekt naar exacte matches
voor deze kleine stukjes.
K-mers
Sequenties kunnen verdeeld worden in kleine sub sequenties of K-mers
- K-mers bestaan uit k (dus hoeveelheid) nucleotiden of aminozuren.
• We kunnen een index maken van alle k-meren die voorkomen in de databasereeksen en dan neemt
het alle sequenties waar minimaal 1 van de k-mers exact matcht.
• Als we een queryreeks opsplitsen in k-meren van dezelfde lengte, kunnen we snel alle
databasereeksen identificeren die ze bevatten
• Maar: we beperken ons tot exacte matches dus de k-mer moet precies geraakt worden.
In de evolutie werkt dit dus niet zo want dingen evolueren. Dus we vinden niet altijd 100% matches.
• De sequenties bovenaan (~97% identiteit) behoren tot een stam die nauw verwant is aan het
referentiegenoom
• De onderstaande sequenties (~60-80% identiteit) zijn verder verwante stammen
Als we een bijvoorbeeld een nieuwe bacterie vinden die nog nooit gesequenced is, dan willen we
weten waar in de tree of life het ongeveer thuis hoort.
,Soms matchen de letters perfect en soms matchen de letters helemaal niet en soms heb je een
opening. Je kan dit voor eiwit- en DNA sequenties doen.
Gegeven zijn 2 sequenties: seqX = X1X2…XM en seqY = Y1
Y2…YN
een alignment is een toewijzing van openingen aan posities 0, …, M in x, en aan posities 0, …, N in
seqY, zodat elke letter in één reeks wordt uitgelijnd met ofwel een letter of een opening in de andere
reeks”
Pairwise sequence alignment -> Pairwise Sequence Alignment wordt gebruikt om regio's met
overeenkomst te identificeren die kunnen wijzen op functionele, structurele en/of evolutionaire
relaties tussen twee biologische sequenties (eiwit of nucleïnezuur).
- Laat verschillen toe dus we kunnen we kunnen elke sequence in de database gebruiken en
efffffffkijken welke het beste past.
Dit duurt alleen heel lang. Wat we inplaats hiervan doen is dat we het beide willen. We willen dus
een index search hebben omdat het snel is maar we willen ook pairwise allignments hebben omdat
we dingen willen vinden die erg gerelateerd zijn(dus niet exact hetzelfde)
Beste van twee werelden
• Het gebruik van een k-mer-zoekopdracht (=indexzoekopdracht) gaat erg snel ... maar beperkt je tot
exacte overeenkomsten
• Door alle mogelijke paarsgewijze uitlijningen te maken, kunt u ook ver-verwante sequenties vinden
... maar het zou erg lang duren
Hoe doen we dit? -> Eerst doen we een index search, dus kleine stukjes die precies gelijk aan elkaar
zijn. Hierna alleen de dingen in de database gebruiken die deze kleine stukjes bevatten. Met deze
maken we pairwise allignments. Hierdoor kunnen we de meeste sequenties heel snel wegstrepen en
hoeven we alleen pairwise allingments te maken van de potentiële hits.
Een tool om dit mee te doen heet BLAST(Basic Local Alignment Search Tool)
• BLAST vindt vergelijkbare sequenties met een redelijke snelheid - 10-50x sneller dan eerdere
algoritmen
• Terminologie:
– Query: volgorde waarmee we de database doorzoeken
– Hit of Subject: vergelijkbare volgorde gevonden in de database
• BLAST is het meest gebruikte bio-informaticaprogramma – Meer dan 100.000 zoekopdrachten per
dag op de NCBI BLAST-server – Het BLAST-artikel is >58.000 keer geciteerd
• Nog snellere algoritmen zijn nu beschikbaar – bijv. DIAMOND, USEARCH
The BLAST search algorithm
1. Identificeer alle woorden(in lente W) in de query
- W = 3 is eiwit, W = 11 is DNA
- gebaseerd op substitutie scores
,PQG is dus 7 + 5 + 6 = 18 dus de score is 18.
2. Snel gelijke woorden in de database vinden
- “Vergelijkbare” woorden worden gedefinieerd met behulp van de substitutiematrix (bijv.
BLOSUM62)
- De index lokaliseert snel alle potentiële hitreeksen
- Neighborhood score threshold betekent: er is een minimale score die een gelijk woord
nodig heeft om inbegrepen te zijn.
PQG is 18 en PEG is 15. 15 is hoger dan T=13 dus het is included. Alles boven de 13 in een
potentiële hit.
3. Breidt zaden in beide richtingen uit om HSP's te vinden tussen zoekopdracht en hit
- HSP: regio die kan worden uitgelijnd met een score boven een bepaalde drempel
In de subject zit een potentiele hit. Dus er wordt een alignment gemaakt links en rechts van
de k-mer en wordt er gekeken hoe goed de andere stukken buiten deze k-mer scoren.
Elk stukje dat gelijk wordt de high-scoring segment pair(HSP) genoemd.
, Nog een voorbeeld:
We beginnen bij de 3 letter match.
Dan kijken we links van dit stukje of
het gelijk is door te kijken naar de
alignment score. Daarna kijk je naar
het rechter deel naast het stukje om
te kijken of het ook gelijk is.
Wanneer de score gelijkmatig naar
beneden gaat, dan zegt het: dit is het
einde van de match.
Globale en lokale sequence aligments
• Zijn sequenties geheel of gedeeltelijk homoloog (=behoren ze tot dezelfde ‘familie’, hebben
ze een gemeenschappelijke voorouder)?
• Lokale alignment
– Je zoekt naar lokale gelijkheden
– Vindt de optimale sub-uitlijning binnen twee sequenties
– Gedeeltelijke homologen zijn gerelateerd aan elkaar
• Globale alignment
– Lijnt twee sequenties van begin tot eind uit
– Als je weet dat twee sequenties volledige homologen zijn, b.v. als gevolg van gen duplicatie
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur julietimmerbeil1. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €5,98. Vous n'êtes lié à rien après votre achat.