Resume

Samenvatting ALLE HOOFDSTUKKEN bio-informatica + lesnotities + oplossingen

29 vues 1 fois vendu

Cours
Bio-informatica (E0G29A)

Établissement
Katholieke Universiteit Leuven (KU Leuven)

Met deze samenvatting hoef je 1) geen enkele opname te kijken 2) geen enkele ppt te openen 3) geen enkele oefening nog uit te zoeken, alle oplossingen staan erin 4) geen enkele les bijgestaan hebben 5) een heel semester uitgespaard... Hier kruipt oprecht veel tijd in, dus deze prijs is ni...

[Montrer plus]

Aperçu 5 sur 80 pages

Voir l'exemple

Publié le 30 mai 2024
Nombre de pages 80
Écrit en 2023/2024
Type Resume

Lorejansens123 Membre depuis 2 année 55 documents vendus

€15,49

Egalement disponible en groupe à partir de €17,49

Ajouté

Ajouter au panier Ajouter au liste de veux

Garantie de satisfaction à 100%
Disponible immédiatement après paiement
En ligne et en PDF
Tu n'es attaché à rien

Document également disponible en groupe (1)

Gewone versie en verbeterde versie Bio-informatica

€ 31,98 € 17,49

1x vendu

2 éléments

1. Resume - Samenvatting alle hoofdstukken bio-informatica + lesnotities + oplossingen
2. Resume - Samenvatting alle hoofdstukken bio-informatica + oplossingen + lesnotities + nog iets...
Montrer plus

Bio-informatica: introductie + databases deel 1

Software
Windows Mac OS X
Tekst Editor Notepad++ / visual studio code Bbedit / sublime
Browser Chrome + firefox Chrome / Firefox
MySQL Client Heidisql Sequel Pro
SSH client / terminal Powershell / Bitvise Terminal / iTerm
File transfer Bitvise Cyberduck or scp

What is bioinformatics?

The first bioinformatician
• Margaret Dayhoff (1925–1983)
• COMPROTEIN (Fortran)
• Atlas of Protein Sequence and Structure (1965)
• First ever biological sequence database

Waar is het allemaal begonnen: bioinformatisch algoritme geplubliceerd door Margaret Dayhoff
Software vroeger op kaarten, nu op pc. Database van 600 proteïnedatabases

What is bioinformatics?
Bio-informatica = probleemoplossing Verschillende algortimes en verschillende databases, er is
Bio-informatica = veel mogelijke oplossingen geen gouden standaard voor elk probleem.
Gebruik/kies een combinatie van:
• Hulpmiddelen Algoritme kan aI of machine learning zijn of statistical.
Online/zelfstandig
Opdrachtregel Vaak hebben wetenschappers inhouse datasets.
Python-scripts
Notitieboekjes De manier waarop je data filtert kan al bias zijn en de view
Spreadsheets van data kan veranderen obv welk algoritme/ op welke
• Algoritmen manier gekozen.
AI / machinaal leren
Statistische modellering
• Gegevenssets
In eigen huis
Publiekelijk verkrijgbaar

Bioinformatics in biomedical research
In onderzoek: we genereren experiment, data
wordt gepubliceerd in wetenschappelijke
tijdschriften die komt dat in biological databases.
Data kan in house.

Obv data-analyse kan je voorspellingen maken over
hypotheses → nieuwe experimenten verzinnen

Evolution of sequence databases
Evolutie van data: over algemeen alle biomedische databases zijn
exponentieel. Bv. aantal bp gesequenced in functie van tijd → neemt
toe en komt door afnemende kost

, Evolution of compute
Meer en meer transisters in computers zien we ook betere evolutie bv.
AI systeem om beeldverwerking,…

Tot 2009-2010 zaten we in de klassieke machiens, klassieke tools, maar
in dit jaar break trough → genereren generale netwerken

Modellen hebben meer parameters bv. chat gpt heeft heel veel parameters

What is a gene?
Een uitgebreidere definitie van een gen omvat die DNA-segmenten die coderen voor informatie voor het
maken van een RNA-molecuul dat op een andere manier functioneert dan direct coderen voor een eiwit; deze
worden soms RNA-genen genoemd

Protein coding genes
Gen in genoom liggen, DNA sequentie.
Het gen zelf is een deel dat omgezet wordt in RNA
3’ UTR ligt downstream
5’UTR ligt upstream
UTR wordt niet omgezet in eiwit, AZ seq. → wel deel
van mRNA
RBS daar bindt ribosoom voor translatie
Exonen bevatten coderende seq.
Intronen worden gespliced.

In intronen kunnen waardevolle sequentie zitten, weet hierover niet zoveel

Entrez gene

Information about a gene
Wat willen we weten (en handig opslaan) over een gen of eiwit?
Annotatie van de genstructuur (bijv. 5’UTR/exons/introns/3’UTR en alternatieve splitsingsvormen)
mRNA's/CDS/exon/intron-kenmerken → zie ook genomische databases
Functionele annotatie (met behulp van een gecontroleerd vocabulaire, namelijk Gene Ontology)
Genexpressie
Interacties met andere eiwitten (fysieke en genetische interacties)
Mutante fenotypes
Homologie
...
Elk gen kan eigenlijk met meerdere transcirpten geasocieerd worden (isovormen) → opslaan in databanken

Entrez gene
1) NCBI opzoeken
2) Gene aanklikken
3) Zoek het gen TP53
4) Je ziet alle genen die TP53 in de naam hebben, de eerste is effectief TP53
5) Klik op de TP53, dan zie je terug heel wat informatie (wat doet het, genomische
context, welke transcripten er aanwezig zijn , …)
1) Genomische context: 13e exon,…
2) Transcripten: Elke lijn is een TP53 transcript en elke transcript heeft een ID
(NM nummer is een transcript van een bepaald gen!) en elk donker groen blokje is een exon. Elk NM
nummer heeft een NP nummer en dat zijn de proteines.
3) Expression: in welke tissues komt TP53 tot expressie?
4) Bibliography: verschillende papers die naar TP53 verwijzen
5) geneRIF: alle papers die dat TP53 associeren met een bepaalde functie (53 functies)
6) Phenotypes: welke zijn er geassocieerd met TP53? Voornamelijk tumoren
7) Pathways: welke interacties met andere proteinen interageren
1) EXP: pc voorspeld, niet 100% aangetoond
2) IDA: effectief voorspeld geweest!
8) Refseq: database van alle transcripten van alle genen
1) .6 is versie van transcript (NM 000546.6) → transcript geassocieerd met een NP 000537.3 (proteine
dat overeenkomt met transcript)

, Human TP53
• Official symbol, summary, ...
• Genomic regions, transcripts, products
• Links to Genome Browsers and to other databases (related information) on the right (try UCSC, Ensembl,
PubMed, Nucleotide, OMIM, …)
NM nummer: transcript a priori

Elk van de NM transcritpt is geassocieerd met
NP nummer (= proteïne)

Niet 2 NM nummers in dezelfde NP nummer
hebben

Elk NM nummer glinkt aan 1 NP nummer
(=uniek!)

TP53 Transcripts
• Elke lijn is een transcript-isovorm (vanwege alternatieve promoters en alternatieve splitsing); kijk naar de
exons, introns, niet-coderende exons (lichtgroen: 5'UTR, 3'UTR), coderende exons (donkergroen)
• Elk transcript heeft een unieke NM_-identifier = RefSeq-identifier
• Elk NM-transcript komt overeen met een unieke NP_-eiwitinvoer
• Meer details over elke NM/NP en links naar de sequentie in Entrez Nucleotide staan onderaan de Gen-pagina

• Entrez Nucleotide bevat alle nucleotidesequenties
(niet alleen door RefSeq samengestelde vermeldingen)
• Zoek Nucleotide db met NM_000564
• (Na de punt “.” staat het versienummer)

RefSeq
• Veel sequenties waren/zijn meer dan één keer vertegenwoordigd in GenBank
• RefSeq = samengestelde “secundaire” database die tot doel heeft een uitgebreide, geïntegreerde, niet-
redundante reeks sequenties te bieden
• Het doel is om voor elk molecuul in het centrale dogma (DNA, mRNA en eiwit) een referentiesequentie te
verschaffen.
• Elke RefSeq vertegenwoordigt een enkel, natuurlijk voorkomend molecuul van één organisme
• Elke reeks wordt één keer weergegeven
• Nucleotide- en eiwitsequenties in RefSeq zijn expliciet aan elkaar gekoppeld
• RefSeq-inzendingen worden voortdurend beheerd, waardoor wordt gegarandeerd dat de RefSeq-
inzending de meest actuele stand van kennis vertegenwoordigt
• Duidelijk toegangsnummer: 2+6 formaat (2 letters, onderstrepingsteken, zescijferig nummer)
• NT_123456 (Genomische contigs), NM_123456 (mRNA's), NP_123456 (Eiwitten)
• XM_123456 (Model-mRNA's), XP_123456 (model-eiwitten): computationele voorspellingen

, EIF4E1
Voorbeeld: elke NM ID is gelinkt aan NP (proteine) →
moeten verschillend zijn op basis van transcript

Niet omdat je exon ziet, dat die automatisch tot
proteine structuur bijdragen

GenBank format (.gb)- oefening
This is an example of an Entrez Nucleotide record, with identifier u54469
(non-Refseq entry)
Can you find this entry in Entrez Nucleotide?
Download the sequence in genbank format (gb) as a text file,
and open it in a text editor.
Genbank formaat heeft 3 delen:
1) Header
2) Features
3) Sequence

1) Ga naar NCBI en zoek op "Nucleotide". In de zoekbalk, voer "u54469" in. Dit brengt je automatisch naar de
GenBank-weergave.
2) Header: Bevat informatie over het gen, van locus tot titel van het tijdschrift. Deze gegevens kunnen worden
geparsed met scripts om informatie te extraheren voor grootschalige genenstudies, bijvoorbeeld door alle
rijen met de bron te gebruiken om automatisch een databank te genereren.
3) Features: Specifieke delen van de sequentie.
- CDS: De coderende sequentie begint later dan mRNA vanwege de 5' UTR.
- mRNA → Join: Eerste exon van positie 80 tot 242 en exon 2 vanaf 892.
- CDS → Translation: De vertaling van het mRNA-segment. MVVLETEKTSAPSTEQGRPEPPTSAAA…
4) Sequence: De nucleotidesequentie van het gen.
5) Het genproduct is eukaryote initiatiefactor 4E-II en de gennaam is eIF4E.
6) Download in GenBank Formaat:
- Aan de rechterkant van de gedetailleerde recordpagina, vind de knop "Send to".
- Klik op "Send to" en selecteer "File" in het dropdown-menu.
- Kies "GenBank" als formaat.
- Klik op "Create File" om het GenBank bestand te downloaden.
- Open het gedownloade bestand in een teksteditor (bijv. Notepad, Sublime Text, of VSCode). Het GenBank
bestand bevat metadata (header) en sequentie informatie.
7) Download in FASTA Formaat**:
- Op dezelfde recordpagina, klik opnieuw op "Send to".
- Selecteer "File" in het dropdown-menu.
- Kies "FASTA" als formaat.
- Klik op "Create File" om het FASTA bestand te downloaden.
- Open het gedownloade bestand in een teksteditor. Het FASTA bestand zal regels bevatten die beginnen
met ">", dit zijn headers, gevolgd door de nucleotide sequenties

Open/Edit flat files in a text editor
• Text editor is very important in bioinformatics
• open, view, edit text files
• write code in a programming language
• Windows
• Notepad, Notepad++, WinEdit, Atom, Visual Studio Code, …
• Linux
• vi, Emacs, nano, …
• MacOS
• vi, Emacs, BBEdit, Sublime, Atom, Visual Studio Code, …

European database – EMBL/EBI

, DBFETCH
• https://www.ebi.ac.uk/Tools/dbfetch/
• Example, fetch raw FASTA file for a RefSeq nucleotide entry:
• http://www.ebi.ac.uk/Tools/dbfetch/dbfetch? db=refseqn;id=NM_000231;format=fasta&style=raw
• Can be used from the command-line, from Python, R code, ..
1) Ga naar DBFETCH-tool:
Bezoek [https://www.ebi.ac.uk/Tools/dbfetch/](https://www.ebi.ac.uk/Tools/dbfetch/).
2) Zoek een voorbeeld-FASTA-bestand:
- Gebruik deze link als voorbeeld:
http://www.ebi.ac.uk/Tools/dbfetch/dbfetch?db=refseqn;id=NM_000231;format=fasta&style=raw
- Plak de link in je browser om het bestand te bekijken of te downloaden.
3) Zoek op een specifiek gen zoals TP53:
- Ga naar de DBFETCH-tool en zoek naar 'TP53'.
- Klik op het eerste resultaat dat overeenkomt met 'TP53'.
4) Download het FASTA-bestand:
- Open een nieuw tabblad en gebruik een aangepaste link om het FASTA-bestand te downloaden:
http://www.ebi.ac.uk/Tools/dbfetch/dbfetch?db=refseqn;id=NM_000546;format=fasta&style=raw
- Plak de link in je browser en druk op Enter.
- Kopieer de volledige sequentie inclusief de header (de regel die begint met '>').
5) Opslaan als tekstbestand:
- Open een teksteditor (Notepad, Word, VSCode).
- Plak de gekopieerde FASTA-sequentie in de teksteditor.
- Sla het bestand op met een .txt of .fasta extensie, bijvoorbeeld 'TP53.fasta'.

Exercise
Zoek publicatie in PubMed met PMID 29764999
Ontdek de links naar genen en nucleotiden (RefSeq) in de 'Gerelateerde informatie'
Aan welk gen is het gekoppeld?
Wat is de NM-identificatie?
Er is slechts één transcript voor dit gen. Ga naar Nucleotide en geef Fasta, GenBank en Graphics weer
Download het GenBank-geformatteerde flatfile
Flatfile downloaden met DBFetch (gebruik format=default)
Openen in tekstverwerker
1. Ga naar PubMed en zoek op het artikel met PMID 29764999.
2. De link naar het artikel is: https://pubmed.ncbi.nlm.nih.gov/29764999/

Stap 2: Ga naar gerelateerde informatie
1. Rechts van de pagina, onder "Related information," klik op "Gene."
2. Scroll naar beneden naar de sectie "mRNA and protein(s)."
3. Hier zie je de beschikbare transcript(en). Klik op de transcript (NM_005225.3) link om naar de nucleotide
sequentie pagina te gaan.
4. Op deze pagina kun je de sequentie downloaden door op "Send to" te klikken en het gewenste formaat (zoals
Genbank of FASTA) te selecteren.

Stap 3: Visualisatie van de sequentie
1. Op de pagina met de nucleotide sequentie, klik naast "FASTA" op "Graphics." → vanboven
2. Hier zie je een visualisatie van de structuur van het gen.
3. Je kunt inzoomen en uitzoomen om de details van de genstructuur te bekijken. (met schuifknop)

Stap 4: Gebruik DBFetch om een sequentie te downloaden
1. Kopieer de aangepaste DBFetch link:
• -Basislink:
https://www.ebi.ac.uk/Tools/dbfetch/dbfetch?db=refseqn;id=NM_005225.3;default=fasta&style=raw
2. Pas deze link aan met jouw gewenste gen ID en parameters. → dus default erin, en NM nummer
3. Open de link in je browser om de FASTA sequentie te downloaden.

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.

L’achat facile et rapide

Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.

Focus sur l’essentiel

Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.

Garantie de remboursement : comment ça marche ?

Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.

Auprès de qui est-ce que j'achète ce résumé ?

Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur Lorejansens123. Stuvia facilite les paiements au vendeur.

Est-ce que j'aurai un abonnement?

Non, vous n'achetez ce résumé que pour €15,49. Vous n'êtes lié à rien après votre achat.

Peut-on faire confiance à Stuvia ?

4.6 étoiles sur Google & Trustpilot (+1000 avis)

80364 résumés ont été vendus ces 30 derniers jours

Fondée en 2010, la référence pour acheter des résumés depuis déjà 14 ans

Commencez à vendre!

Récemment vu par vous

Examen ·

(0)

College math placement test Exam with verified solutions 2024

Examen ·

(0)

Populaire universiteiten

Populaire hogescholen

Populaire studieboeken voor Communicatie en Taal

Populaire studieboeken voor Economie en Bedrijf

Populaire studieboeken voor Exact en Informatica

Populaire studieboeken voor Gedrag en Maatschappij

Populaire studieboeken voor Gezondheid en Geneeskunde

Populaire studieboeken voor Recht en Bestuur

Resume

Samenvatting ALLE HOOFDSTUKKEN bio-informatica + lesnotities + oplossingen

Infos sur le Document

Sujets

École, étude et sujet

Vendeur

Avis reçus

Aperçu du contenu

Les avantages d'acheter des résumés chez Stuvia:

Qualité garantie par les avis des clients

L’achat facile et rapide

Focus sur l’essentiel

Foire aux questions

Qu'est-ce que j'obtiens en achetant ce document ?

Garantie de remboursement : comment ça marche ?

Auprès de qui est-ce que j'achète ce résumé ?

Est-ce que j'aurai un abonnement?

Peut-on faire confiance à Stuvia ?

Récemment vu par vous

Examen ·

College math placement test Exam with verified solutions 2024

Examen ·

UCVTS Admissions Exam With Verified Solutions.