4.3. Case

---
title: "PC-practicum 4: Project"
output: html_document
author: Vul hier jullie naam in.
---

#Filmpje

https://www.youtube.com/watch?v=ziO1NSLlCFA&feature=youtu.be

#Situering

Een aantal humane eiwitten werden ingespiket in een gistproteoom in vijf verschillende concentraties (0,25 fmol/microL, 0,74 fmol/microL, 2,2 fmol/microL, 6,7 fmol/microL en 20 fmol/microL). Dit experiment werd drie keer herhaald en elk van deze stalen werd geanalyseerd op een massaspectrometer. In totaal werden er dus 15 stalen gelopen (5x3) op het toestel. De volgorde waarin de 15 stalen werden gelopen werd door toeval bepaald.

Hier krijgen jullie de log2-getransformeerde peptide-intensiteiten van één enkel eiwit. Van dit eiwit werden er drie verschillende peptiden geïdentificeerd: "FTAPTSPSTSSPK" "IRPPPAVDPLFR" "ISSASTPQTSQGR". De intensiteit die voor een peptide gemeten wordt op de massaspectrometer is een goede maat voor de abundantie van het eiwit. Echter, het is geweten dat sommige peptiden van nature gemakkelijker ioniseren dan andere en daardoor ook een hogere intensiteit vertonen.

Voor de humane eiwitten verwachten we hogere intensiteiten naarmate de spike-in concentratie toeneemt, terwijl de gisteiwitten een constant achtergrondsignaal zullen geven dat onafhankelijk is van de spike-in concentratie. Wij willen graag weten hoe de intensiteit voor het gegeven eiwit evolueert met toenemende spike-in concentratie. Op basis hiervan zouden we dan kunnen zeggen of het gegeven eiwit een humaan eiwit (intensiteit neemt toe met de concentratie) of een gisteiwit (intensiteit is onafhankelijk van de concentratie) is.

De dataset die jullie krijgen, omvat de volgende variabelen:

- sample: het staal waarin het peptide werd geïdentificeerd.
- concentration: de spike-in concentratie van het staal.
- peptide_FTAPTSPSTSSPK, peptide_IRPPPAVDPLFR en peptide_ISSASTPQTSQGR: de log2-getransformeerde peptide-intensiteiten voor de peptiden "FTAPTSPSTSSPK", "IRPPPAVDPLFR" en "ISSASTPQTSQGR". Deze intensiteit is een maat voor de abundantie van elk peptide en dus ook een maat voor de abundantie van het eiwit zelf.

#Opdracht

Ga na of er een lineair verband is tussen de spike-in concentratie en de log2-getransformeerde peptide-intensiteiten. Is dit lineair verband verschillend van nul? Vermeld in je conclusie ook kort of je denkt dat dit een gisteiwit (niet-gespiket eiwit) of een humaan eiwit is (gespiket eiwit) en waarom.

Schrijf een verslag per groepjes van $4$ personen (gemaakt in Rmarkdown) van ongeveer 1-2 pagina's dat de volgende elementen bevat: 

- Dataverkenning
- Data-analyse (één lineair regressiemodel dat overeenstemt met de onderzoeksvraag)
- Conclusie

Een aantal belangrijke tips:

- Hou de onderzoeksvraag in je achterhoofd wanneer je data-exploratie doet.
- Maak je een figuur, voorzie ze dan van een nummer en een bijschrift!
- Bespreek figuren! Zeg altijd **wat** je ziet op de plot en wat je eruit concludeert.
- Denk eens na welke variabele de afhankelijke en welke de onafhankelijke variabele is.
- Ga voor je regressiemodel de voorwaarden na.
- Je hoeft niet alle parameters te interpreteren, enkel diegene die relevant zijn voor je vraagstelling.
- Interpreteer zowel op de log2-schaal als op de originele schaal.
- TIP:
$$2^{\sum \limits _{i=1} ^{n}[\log_2(x_i)]}
= 2^{\sum\limits _{i=1}^{n}[\frac{\ln(x_i)}{\ln(2)}]}
= 2^{\frac{1}{ln(2)}\sum\limits _{i=1}^{n}[\ln(x_i)]}
= e^{\ln(2)*\frac{1}{ln(2)}\sum\limits _{i=1}^{n}[\ln(x_i)]}
= e^{\sum\limits _{i=1}^{n}[\ln(x_i)]}$$

met "ln" het natuurlijk logaritme ("log" in `R`).

- Formuleer de nulhypothese en alternatieve hypothese en interpreteer het resultaat **altijd** in functie van je vraagstelling. Vergeet ook niet om het 95%-betrouwbaarheidsinterval te vermelden en correct te interpreteren.
- Indien je symbolen ($\mu$, $\sigma$, e.d.) gebruikt bij het opstellen van hypotheses of interpretaties, vermeld dan altijd hun betekenis!
- Zorg ervoor dat ook je **conclusie volledig** is, ook al moet je daarvoor misschien iets herhalen.

Indienen van het rapport wordt verwacht ten laatste één week na het begin van dit practicum. Hou hierbij rekening met het stellen van de juiste onderzoeksvraag, nulhypothese en besluitvorming zoals gezien in de vorige voorbeelden.

# Maak een keuze

```{r}
#Lees de data in
eiwit <- read.table("eiwit.txt", sep = "\t", header=TRUE)
```

Voor het analyseren van deze data geven we twee opties: 

1. analyseer de data op peptideniveau, waarbij je elk peptide beschouwt als een onafhankelijke observatie van de log2 eiwit-intensiteit.

2. werk met log2 eiwit-intensiteiten door de data in elke staal uit te middelen over de drie peptiden heen. 

```{r}
# Optie 1: data op peptideniveau houden
eiwit_pep <- rbind(eiwit, eiwit, eiwit)
eiwit_pep$log2intensity <- c(eiwit[,"peptide_FTAPTSPSTSSPK"], eiwit[,"peptide_IRPPPAVDPLFR"], eiwit[,"peptide_ISSASTPQTSQGR"])
eiwit_pep$peptide <- c(rep("FTAPTSPSTSSPK", 15), rep("IRPPPAVDPLFR", 15), rep("ISSASTPQTSQGR", 15))
eiwit_pep <- eiwit_pep[,c("sample", "concentration", "peptide", "log2intensity")]
rownames(eiwit_pep) <- NULL
eiwit_pep
```

```{r}
# Optie 2: uitmiddelen over peptiden
eiwit_mean <- eiwit
eiwit_mean$log2intensity <- rowMeans(eiwit[c("peptide_FTAPTSPSTSSPK", "peptide_IRPPPAVDPLFR", "peptide_ISSASTPQTSQGR")])
eiwit_mean <- eiwit_mean[,c("sample", "concentration", "log2intensity")]
eiwit_mean
```

**Kies zelf de beste optie.** Waarom is dit de beste optie?

TIP om de juiste keuze te maken: kijk eens naar hoofdstuk **5.3.2 Imprecisie/standard error**.

# Data-exploratie

```{r, error=T}
# Kies hier voor eiwit_pep of eiwit_mean
sample <- eiwit_...$sample
concentration <- eiwit_...$concentration
log2intensity <- eiwit_...$log2intensity
```

# Data-analyse

...

```{r, error=T}
modelEW = lm(...)
```

...

# Conclusie

...
Je kunt zo vaak indienen als je wenst. Er wordt enkel rekening gehouden met je laatst ingediende oplossing.