Fraunhofer-Gesellschaft

Publica

Hier finden Sie wissenschaftliche Publikationen aus den Fraunhofer-Instituten.

Solving the differential peak calling problem in ChIP-seq data

Lösung des Differential-Peak-Erkennungsproblems in ChIP-seq Daten
 
: Allhoff, M.

:
Volltext (PDF; )

Aachen, 2016, XIII, 126 S
Aachen, TH, Diss., 2016
URN: urn:nbn:de:hbz:82-rwth-2016-051022
Englisch
Dissertation, Elektronische Publikation
Fraunhofer FIT ()

Abstract
Gene expression is the process of selectively reading genetic information and it describes a life-essential mechanism in all known living organisms. Key players in the regulation of gene expression are proteins that interact with DNA. DNA-protein interaction sites are nowadays analyzed in a genome wide manner with chromatin immunoprecipitation followed by sequencing (ChIP-seq). With ChIP-seq it becomes possible to assign a discrete value to each genomic location. The value corresponds to the strength of the protein binding event. Peaks, that is, regions with a signal higher than expected by chance, correspond to the protein-DNA interaction sites. Detecting such peaks is the fundamental computational challenge in the ChIP-seq analysis. As in every complex wet lab protocol, ChIP-seq contains a wide range of potential biases. To reduce the effect of unwanted biases, ChIP-seq experiments are often replicated, which helps to distinguish between biological and random events and to verify the reliability of all experimental steps. Complex ChIP-seq based studies emphasize the demand of methods to compare replicated ChIP-seq signals which are associated with distinct biological conditions. These studies investigate the differential peak calling problem which is subject of current biological and medical research. Solving this problem leads to a deeper understanding of gene expression regulation. Several computational challenges arise when detecting differential peaks (DPs). First, the shape of ChIP-seq peaks depends on the underlying protein of interest. For ChIP-seq data of histone modifications, the DNA-protein interactions occur in mid-size to large domains. Here, domains can span several hundreds of base pairs and may have intricate patterns of gains and losses of ChIP-seq signals within the same domain. In contrast, ChIP-seq from transcription factors mostly happens in small isolated peaks. Second, artefacts, which arise due to the complexity of the ChIP-seq protocol, produce signals with distinct signal-to-noise ratios, even when they are produced in the same lab and follow the same protocols. Furthermore, different sequencing depths between samples aggravate the comparison of their ChIP-seq signal. Hence, a robust normalization method for the ChIP-seq signals is required. Finally, clinical samples, where patients have a distinct genetic background, introduce further variation to the distinct ChIP-seq signals. Moreover, replicated ChIP-seq experiments introduce further complexity which has to be reflected by the use of sophisticated statistical models. Current differential peak calling methods fail to cover all listed challenges. They apply heuristic signal segmentation strategies, such as window-based approaches, to identify DPs. There are only a few attempts to normalize ChIP-seq data. Furthermore, most methods do not support replicates. Hence, there is a clear need for computational methods that address all challenges. In this thesis, we propose ODIN and THOR, algorithms to determine changes of protein-DNA complexes for distinct cellular conditions in ChIP-seq experiments without and with replicates. We apply a statistical model (hidden Markov model) to call DPs and to handle replicates. We also introduce a novel normalization strategy which is based on control regions. These features lead to comprehensive algorithms that accurately call DPs in ChIP-seq signals. Moreover, the evaluation of differential peak calling algorithms is an open problem. The research community lacks both a direct metric to rate the algorithms and data sets with a genome wide map of DNA-protein interaction sites which can serve as gold standards. We propose two alternative approaches for the evaluation. First, we present indirect metrics to quantify DPs by taking advantage of gene expression data and second, we use simulation to customize artificial gold standards.

 

Genexpression ist der Prozess des gezielten Ablesens spezieller DNA Bereiche und stellt eine lebenswichtige Funktion in allen bekannten Organismen dar. Proteine binden an die DNA und beeinflussen die Genexpression. Diese Protein-DNA Bindestellen werden heutzutage mit der Chromatin-Immunpräzipitation, gefolgt von einem Sequenzierungsschritt, analysiert (ChIP-seq). Die ChIP-seq Technologie ermöglicht es, jeder Position im Genom einen Wert zuzuordnen, der die Stärke der Bindung zwischen dem Protein und der DNA beschreibt.Bereiche im ChIP-seq Signal mit höheren Werten als erwartet, sogenannte Peaks, beschreiben die Protein-DNA Bindestellen. Die Erkennung solcher Peaks ist eine wichtige, rechnergestützte Aufgabe bei der ChIP-seq Datenanalyse. Wie jedes im Labor durchgeführte Experiment, weist auch das ChIP-seq Protokoll zahlreiche potentielle Fehlerquellen auf. Um den Einfluss dieser Fehlerquellen zu minimieren, werden ChIP-seq Experimente häufig mehrfach wiederholt. Mit diesen wiederholten ChIP-seq Experimenten kann man besser zwischen biologischen und zufälligen Befunden unterscheiden sowie die Glaubwürdigkeit der einzelnen Protokollschritte erhöhen. Aktuelle Studien unterstreichen die Wichtigkeit des Vergleichens von ChIP-seq Signalen, die unterschiedlichen Zuständen zugeordnet sind. Durch das Erkennen dieser differenziellen Peaks kann man zu einem tieferen Verständnis der Genexpressionsregulation gelangen. Dazu müssen verschiedene Probleme der computergestützten Analyse gelöst werden. Das Profil von ChIP-seq Signalen ist stark von dem untersuchten Protein abhängig. ChIP-seq Daten von Histonemodifikationen weisen Protein-DNA Bindestellen mit einer Länge von bis zu mehreren hundert Basenpaaren im Genom auf. Innerhalb dieser Bereiche können die Signale zwischen den Zuständen stark variieren. ChIP-seq Daten von Transkriptionsfaktoren hingegen weisen Protein-DNA Bindestellen nur in kleinen, isolierten Bereichen auf. Weiterhin können Artefakte in den Daten zu unterschiedlichen Signal-zu-Hintergrund Verhältnissen zwischen den ChIP-seq Signalen führen. Zudem können verschiedene Sequenzierungstiefen den Vergleich zwischen zwei ChIP-seq Signalen erschweren. Es wird eine Methode benötigt, um die ChIP-seq Signale zu normalisieren. Außerdem fügen klinische Proben mit unterschiedlichen Genomen weitere Variabilität zu den ChIP-seq Experimenten hinzu. Wiederholte ChIP-seq Experimente erhöhen die Komplexität der Analyse und müssen durch statistische Modelle abgebildet werden. Keine der bis jetzt veröffentlichten Algorithmen, um differenzielle Peaks zu erkennen, decken alle oben genannten Probleme ab. Insbesondere verwenden diese Algorithmen heuristische Strategien wie zum Beispiel Fenster-basierte Ansätze, um differenzielle Peaks zu identifizieren. Zudem gibt es nur wenige Strategien, um ChIP-seq Daten zu normalisieren. Die meisten dieser Algorithmen unterstützen keine wiederholten ChIP-seq Experimente. In dieser Arbeit stellen wir ODIN und THOR vor. Diese Algorithmen erkennen differenzielle Peaks in (wiederholten) ChIP-seq Signalen mit Hilfe eines statistischen Modells (hidden Markov model). Wir beschreiben zudem eine neue auf Kontrollregionen basierende Methode, um ChIP-seq Signale zu normalisieren. Es ist zudem nicht klar, wie man Erkennungsalgorithmen evaluieren kann. Es gibt weder eine direkte Metrik, um die Algorithmen zu bewerten, noch einen Goldstandard von Protein-DNA Bindestellen, der als Referenzlösung benutzt werden könnte. In dieser Arbeit stellen wir zwei Lösungsansätze vor. Zum einen erläutern wir eine indirekte Metrik, die auf Genexpressionsdaten basiert. Zum anderen stellen wir einen Algorithmus vor, der es ermöglicht, ChIP-seq Daten zu simulieren. Dadurch können Goldstandards künstlich erzeugt werden.

: http://publica.fraunhofer.de/dokumente/N-461530.html