Bioinformatics = study of informatic processes in biotic systems
Bioinformatics data analysis
- Genomics: Sequence all of the DNA of one organism
- Transcriptomics: Sequence all of the mRNA in an organism/tissue/cell
- Proteomics: Sequence all of the proteins in an organism/tissue/cell
- Metagenomics: Sequence the DNA of all organisms in a sample → take a sample of sea water
for example → micro-organisms → DNA
- Metatranscriptomics: Sequence the mRNA of all organisms in a sample
- Metaproteomics: Sequence the proteins of all organisms in a sample
Research naar microbiome – all microbes
Metabolomics = looking at metabolites
BLAST
- When two sequence are similar → related
- When two genes are similar → same function
- it splits up your (query) in words and will look it up on the website
k-mers
- Sequences can be divided into shorter subsequences or k-mers (consist of k nuleotides or
amino acids)
- K-mers bestaan uit k (dus hoeveelheid) nucleotiden of aminozuren
- Als we een queryreeks opsplitsen in k-meren van dezelfde lengte, kunnen we snel alle
databasereeksen identificeren die ze bevatten
-
- Maar: we beperken ons tot exacte matches dus de k-mer moet precies geraakt worden. In de
evolutie werkt dit dus niet zo want dingen evolueren. Dus we vinden niet altijd 100%
matches.
- 60/80 % overeenkomend → niet het zelfde maar misschien wel related
-
Als we een bijvoorbeeld een nieuwe bacterie vinden die nog nooit gesequenced is, dan willen
we weten waar in de tree of life het ongeveer thuis hoort.
,Pairwise sequence alignments
= Soms matchen de letters perfect en soms matchen de letters helemaal niet en soms heb je een
opening. Je kan dit voor eiwit- en DNA sequenties doen. → duurt lang
Eerst doen we een index search, dus kleine stukjes die precies gelijk aan elkaar zijn. Hierna alleen de
dingen in de database gebruiken die deze kleine stukjes bevatten. Met deze maken we pairwise
allignments. Hierdoor kunnen we de meeste sequenties heel snel wegstrepen en hoeven we alleen
pairwise allingments te maken van de potentiële hits
Sequence alignment is a way of arranging protein (or DNA) sequences to identify regions of similarity
that may be a consequence of evolutionary relationships between the sequences
BLAST – basic local alignment search tool
- Blast vindt vergelijkbare sequenties
- Query: volgorde waarmee we de database doorzoeken – wat we in de search bar zoeken
- Hit of subject: vergelijkbare volgorde gevonden in data base
- Heuristic = a practical method that is not guaranteed to be optimal, but sufficient for the
present goals.
Blast algorithm
1. Identificeer alle woorden (in lengte W) in de query
W = 3 is eiwit en W=11 is DNA
Goeie woorden er uit pakken
Dit is bij elkaar 18
2. Snel gelijke woorden in de database vinden
Je wil hoge score in woorden bij elkaar vinden, en op elkaar lijken
De lager je neighorhood treshold de meer verschillen je toelaat.
3. Vervolgens als je een match hebt → sequence alignment
HSP: regio die kan worden uitgelijnd met een score boven een
bepaalde drempel
In de subject zit een potentiele hit. Dus er wordt een alignment gemaakt links en rechts van
de k-mer en wordt er gekeken hoe goed de andere stukken buiten deze k-mer scoren. Elk
stukje dat gelijk wordt de high-scoring segment pair(HSP) genoemd.
,Heuristic; Er kan theoretisch gezien een betere match zijn, maar dit scheelt tijd.
Als de score omhoog gaat rondom de match dan is het een match, als het consistent naar beneden
gaat is het niet meer de match.
Globale en lokale sequence aligments
Zijn sequenties geheel of gedeeltelijk homoloog (=behoren ze tot dezelfde ‘familie’, hebben ze een
gemeenschappelijke voorouder)
Lokale alignment
– Je zoekt naar lokale gelijkheden
– Vindt de optimale sub-uitlijning binnen twee sequenties
– Gedeeltelijke homologen zijn gerelateerd aan elkaar
Globale alignment
– Lijnt twee sequenties van begin tot eind uit – dus helemaal gelijk
– Als je weet dat twee sequenties volledige homologen zijn, b.v. als gevolg van gen duplicatie
How could you alter your BLAST search to find only closely related hits?
Long kmer/word length(lange kmer → en ze matchen dan nog steeds, the longer your initial exact
match has to ber), high neighborhood threshold
Running blast
Blast input: query sequenties
Blast output: hits
BLAST flavors: direct searches
-> je stopt nucleotiden erin en je zoekt naar nucleotiden. Dus je stopt er een DNA sequentie in en je
wil DNA sequenties terugkrijgen als een hit.
Nucleotide-nucleotide zoekopdrachten
– Nucleotide database & nucleotide query
– blastn, DNA in DNA uit (standaard: W = 11 nucleotiden) • Vind homologe genen in verschillende
soorten
– Megablast (standaard: W = 28 nucleotiden)
, • Ontworpen om efficiënt langere uitlijningen te vinden tussen zeer vergelijkbare
nucleotidesequenties
• Beste tool om zeer identieke treffers voor een zoekopdrachtreeks te vinden
• Bijvoorbeeld: vind reeksen van dezelfde soort
– Niet-aaneengesloten megablast / discontiguous words
• Maakt gebruik van niet-aaneengesloten woorden (bijv. W = 11 nucleotiden: AT-GT-AC-CG-CG-T, dit
is eigenlijk een lengte van 16 maar het negeert elke 3e positie)
• Dit kan het zoeken bijvoorbeeld richten op codons (het derde nucleotide van codons is minder
geconserveerd door de degeneratie van de genetische code, wobble base)
• Beste hulpmiddel om nucleotide-nucleotide hits op grotere evolutionaire afstanden te vinden voor
eiwit coderende querysequenties, dus minder gerelateerd aan elkaar
Eiwit-eiwit zoekopdrachten
- Eiwitdatabase & eiwitquerysequenties
- blastp (standaard: W = 3 aminozuren)
• Vind homologe eiwitten in verschillende soorten (het eerste stuk over blast)
BLAST flavors: translated searches
• We kunnen het behoud van eiwitsequenties benutten bij het uitlijnen van DNA-sequenties door
middel van vertaalde zoekopdrachten. Dus als je een DNA sequentie gebruikt en je wil weten wat
voor soort eiwitten eruit komen dus welke eiwitten gelijk zijn aan het DNA wat je gebruikt.
• Dit maakt gevoeligere zoekopdrachten mogelijk die homologie op grotere evolutionaire afstanden
detecteren
- bijvoorbeeld: homologe genen in verre verwante soorten
• blastx (query is DNA sequence, maar als hit protein seqeunce)en tblastx vertalen eerst de
zoekopdracht van nucleotide naar eiwit voordat ze woorden met een hoge score identificeren
• tblastn(protein sequence maar je wil dna als een hit) en tblastx gebruiken een vertaalde database
van nucleotidesequenties die zijn opgeslagen als eiwitten
Blast website
identity = same amino acid in the same spot
positives = positive scoring amino acid, identity + all amino acids in the alignment that are not
identical but similar (not reported for DNA search) (want de mutatie doet niet veel voor verandering
eiwit)
E-value = howmany hits you expect of similar or higher quality, if it was totally random/so not related
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur fiekedezwart. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €6,49. Vous n'êtes lié à rien après votre achat.