Large scale clustering of protein sequences
暂无分享,去创建一个
Mit dem enormen Wachstum biologischer Sequenzdatenbanken wird die Verarbeitung dieser Daten mehr und mehr zum Problem. Proteinsequenzdatenbanken enthalten heute uber eine halbe Million verschiedener Sequenzen. Es ist daher naheliegend, eine Gruppierung evolutionar verwandter Sequenzen durchzufuhren. Dies bietet viele Vorteile. Eine haufig gestellte Frage ist z.B. die Identifikation ahnlicher Sequenzen zu einer bisher unbekannten Sequenz. Diese Aufgabe kann schneller durchgefuhrt werden, wenn nur ein Sequenzvergleich pro Gruppe (Cluster) im Gegensatz zu einem Sequenzvergleich pro Datenbanksequenz durchgefuhrt werden muss. Der Informationsgehalt des gefundenen Clusters ist zudem hoher, da samtliche Informationen der im Cluster enthaltenen Sequenzen herangezogen werden. Daruber hinaus kann eine geclusterte Sequenzdatenbank die Auswahl von Kandidaten fur die zeit- und kostenintensive Strukturbestimmung erleichtern. Ferner konnen die Sequenzen eines Clusters direkt zur Analyse ihrer evolutionaren Beziehung herangezogen werden. Die biologisch sinnvolle Gruppierung von Proteinsequenzen kann auf der Basis von Sequenzahnlichkeit erfolgen. Eine der einfachsten und haufig verwendeten Methoden hierzu ist Single-Linkage Clustering. Ausgehend von einem Paar von Datenpunkten mit groster Ahnlichkeit werden sukzessive Datenpunkte bzw. bereits erzeugte Cluster zusammengefasst. Die resultierende Hierarchie kann auch als Baum betrachtet werden. Die Blatter entsprechen hierbei den Datenpunkten, wahrend die Wurzel ein groses Cluster mit allen Datenpunkten bildet. Alle Ebenen dazwischen entsprechen Clustermengen an verschiedenen Ahnlichkeitsstufen. Es ist jedoch nicht klar, welche dieser Ebenen einer sinnvollen Gruppierung der Daten entspricht bzw. ob es uberhaupt eine Ebene gibt, die alle Daten sinnvoll gruppiert.
In dieser Arbeit werden verschiedene Methoden zur automatischen Gruppierung groser Proteinsequenzdatenmengen prasentiert und evaluiert. Zunachst wird basierend auf der iterativen Datenbanksuchmethode SYSTERS (SYSTEmatic Re-Searching) eine mengentheoretische Clusterung (SYSTERS1) abgeleitet. Die nachfolgende Methode SYSTERS2 andert die Sicht der Daten auf einen graph-basierten Ansatz. Hierbei liegt der Schwerpunkt zunachst auf der Verbesserung der Qualitat der Eingabedaten, insbesondere der paarweisen Distanzen der Sequenzen. Darauf aufbauend wird dann ein Single-Linkage Clustering an verschiedenen statischen Schwellwerten durchgefuhrt. Es stellt sich heraus, dass es keinen eindeutigen Schwellwert fur alle Proteinfamilien gibt, da der Grad an Sequenzahnlichkeit innerhalb verschiedener Proteinfamilien stark variiert. Aufgrund dieses Ergebnisses wurde die ebenfalls graph-basierte Methode SYSTERS3 entwickelt, die eine Gruppierung der Sequenzdaten in Superfamilien- und Familien-Cluster erzeugt. Hierbei werden aufgrund der inneren Struktur des Single-Linkage Baumes zunachst Superfamilien abgeleitet. Fur jede Superfamilie wird anschliesend der entsprechende Distanzgraph an geeigneten Stellen weiter in Familien-Cluster getrennt. SYSTERS3 ist damit vollig unabhangig von statischen benutzerdefinierten Schwellwerten.
Der zweite Teil der Arbeit widmet sich der Rekonstruktion der Phylogenese der Wirbeltiere. Um verschiedene Hypothesen uber weitreichende Gen- bzw. Genomduplikationen auf dem Weg zu den Wirbeltieren testen zu konnen, bedarf es zunachst wohl-separierter Proteinfamilien, die jeweils nur einen Reprasentanten in den Wirbellosen haben. Als Grundlage dienen hier die vorhergesagten Proteinsequenzen der komplett sequenzierten Genome von Fruchtfliege, Fadenwurm und Backerhefe. Im Gegensatz zu anderen Ansatzen ist die hier entwickelte Methode des weiteren in der Lage, auch Datensatze nicht komplett zur Verfugung stehender Genome einzubinden (z.B. Mensch, Maus, Ratte, Lanzettfischchen). Die resultierende Clustermenge COPSE (Clusters of Orthologous and Paralogous SEquences) bildet eine hilfreiche Basis zur Analyse der Wirbeltierevolution sowie zur funktionellen Annotation. Beide Clustermengen wurden zusammen mit weiteren Informationen im Internet zur Verfugung gestellt.