Vorhersage von Genduplikationen und deren Entwicklung in der Evolution

Eulenstein, O.

1998

Doctoral Thesis

Abstract

Evolution vollzieht sich durch Genduplikation und Modifikation, durch deren wiederholte Anwendung die Natur die Vielzahl der heutigen unterschiedlichen Gene geschaffen hat. Wird ein Gen das eine wesentliche Funktion kodiert, dupliziert, so bewahrt eine Kopie diese Funktion für dessen Organismus. Die andere Kopie jedoch kann ungehindert modifiziert werden, wobei das UrsprungsGen dazu als Ausgangsbasis dient. Eine genaue Kenntnis vorausgegangener Genduplikationen ist für die zuverlässige Rekonstruktion phylogenetischer Beziehungen unerläßlich, welche uns dann erlaubt, die Funktionsvorhersage von Genen zu verbessern. Für einige Genfamilien, wie z.B. Globine oder Rhodopsine, sind Genduplikationen glaubhaft vorhergesagt worden, aber im allgemeinen sind diese noch unbekannt. Die Erforschung dieses unbekannten Gebietes stellt ein bedeutendes, noch ungelöstes Problem der heutigen Molekularbiologie dar. Um dieses Problem zu lösen, konstruierten wir einen Algorithmus, der ein erfolgreiches aber nicht formal beschriebenes Modell erweitert, welches ursprünglich von Biologen entwickelt wurde. Dieser Algorithmus sagt Genduplikationen durch die Auswertung der Inkonsistenzen zwischen zwei phylogenetischen Bäumen voraus, einem Genbaum und einem Speziesbaum. Der Genbaum stellt die Phylogenie für eine Menge aktueller Gene dar, während der Speziesbaum die Phylogenie der Wirts-Spezies dieser aktuellen Gene darstellt. Als Ausgabe berechnet der Algorithmus einen auf dessen vorhergesagte Genduplikationen abgestimmten Genbaum, welchen wir als Reconciled Tree bezeichnen. Für alle in der Praxis möglichen Anwendungen hat dieser Algorithmus ein lineares Laufzeitverhalten, in der Größe des gegebenen Genbaumes. Diese Zeitkomplexität ermöglicht es uns, die heutigen, schnell wachsenden Gendatenbanken nach Genduplikationen zu durchsuchen. Zuerst partitionieren wir dazu eine Gendatenbank in Genfamilien und rekonstruieren einen Genbaum für jede dieser Genfamilien durch einen etablierten und schnellen Rekonstruktions-Algorithmus. Dann suchen wir für jeden Genbaum seinen Speziesbaum in einer morphologischen Datenbank. Abschließend sagen wir die Genduplikationen für jedes Paar von Gen- und Speziesbaum voraus. Somit können wir in der Gendatenbank verborgene Genduplikationen vorhersagen. Während unser Algorithmus Genduplikationen vorhersagt, ordnet er gleichzeitig der Menge seiner ausgegebenen Vorhersagen einen Zuverlässigkeits-Index zu. Da der Reconciled Tree quadratisch in der Größe des Genbaumes ist, entwickelten wir eine neue graphische Darstellung, um die Analyse durch den Biologen zu vereinfachen. Im Wesentlichen ist diese graphische Darstellung der Genbaum, welcher nur auf die für den Biologen interessanten Genduplikationen abgestimmt ist. Durch diese natürliche Reduktion der Darstellung können wir im allgemeinen die quadratische Explosion vermeiden. Bis jetzt ist diese Arbeit theoretischer Natur, die Umwandlung in die Anwendung hat jedoch begonnen.

;

Evolution proceeds via gene duplication and modification; it is through their successive application that nature has created the vast diversity of current genes. When a gene encoding an essential function is duplicated, one copy must preserve the function for its organism. The other, however, is free to be modified, using its ancestral gene as its starting point. Knowing precisely when ancestral gene duplications occurred is indispensable for reconstructing reliable phylogenetic relationships which in turn allows us to refine the prediction of a genetic function. For some gene families, such as globines or rhodopsines, ancestral gene duplications are well predicted, but in general they are unknown. Mapping out this unknown territory is an important open issue in molecular biology today. Recognizing this, we designed an algorithm that extends a successful but in- formal model built by biologists. This algorithm predicts gene duplications by exploiting inconsistencies in two phylogenetic trees, a gene tree and a species tree. The gene tree represents the phylogeny of a set of current genes, while the species tree represents the phylogeny of the current genes organized by their host-species. As output the algorithm calculates the gene tree reconciled with its predicted gene duplications, which is called a reconciled tree. For all applications that are possible in practice, this algorithm runs in linear time in the size of the given gene tree. This time complexity allows us to screen the today's fast growing molecular databases for gene duplications. First, we partition a genetic database into gene-families and reconstruct a gene tree for each family by one of the well established and fast reconstruction algorithms. For each gene tree, we then find its species tree in a morphologic database. Finally we predict the gene duplications for every gene and species tree pair. Thus, we are able to predict hidden gene duplications throughout the genetic database. While our algorithm predicts gene duplications, it simultaneously associates a reliability index with the set of predictions it has output. Since the reconciled tree is quadratic in the size of the gene tree, we developed a new graphical representation to ease its analysis by biologists. In essence, this graphical representation is the gene tree reconciled only at those gene duplications that are of interest for the biologist. Through this logical compression in presentation, we can, in general, avoid the quadratic explosion. Up to now, this work is of theoretical nature, but its transformation into applications for biologists has begun.

ThesisNote

Zugl.: Bonn, Univ., Diss., 1998

Author(s)

Eulenstein, O.

Verlag

GMD Forschungszentrum Informationstechnik

Verlagsort

Sankt Augustin

Options

Vorhersage von Genduplikationen und deren Entwicklung in der Evolution