Das 1000 Genome Projekt 



Die Erstellung des Kataloges der menschlichen DNA Polymorphismen durch Next Generation Sequencing

Mehr als 99 % der Gene sind bei allen Menschen identisch. Wissenschaftler interessieren sich jedoch vor allem für die Unterschiede, da diese nach unserem bisherigen Wissen für die individuelle Empfänglichkeit gegenüber Krankheiten, Medikamenten und Umwelteinflüssen verantwortlich sind. Das Erstellen einer genauen Karte solcher Unterschiede im Erbmaterial verschiedener Individuen ist Ziel des internationalen 1.000 Genome Projektes (www.1000genomes.org), das im September 2007 in Hinxton, UK, geplant und im Januar 2008 begonnen wurde. Im August 2008 wurde das Max-Planck-Institut für molekulare Genetik (MPIMG) aus Berlin als Partner in das internationale Konsortium aufgenommen mit Dr. Ralf Sudbrak als Projektleiter des deutschen Beitrags zum 1.000 Genome Projekt. Prof. Dr. Hans Lehrach ist Direktor jener Abteilung des MPIMG, in der die Sequenzierungsarbeiten stattfinden und zudem Mitglied des Lenkungsgremiums des 1.000 Genome Projektes sowie Koordinator des NGFN-Verbundes Mutanom.
Im Juni 2010 gaben die Forscher des 1.000 Genome Projektes den erfolgreichen Abschluss ihrer drei Pilotstudien bekannt. Damit beginnen die Arbeiten an der Hauptphase des Projektes mit dem Ziel, eine öffentliche Datenbank mit genomischen Informationen von 2.500 Individuen aus weltweit 27 verschiedenen Bevölkerungsgruppen zu erstellen.

Das 1.000 Genome Projekt  will sämtliche Varianten von Genen in einem Katalog erfassen, die mit einer Häufigkeit von mindestens 1 % im Erbgut der gesamten Menschheit vorkommen.  Die Forscher gehen davon aus, dass sie durch die neuen Kenntnisse über die natürliche Genvariation beim Menschen in künftigen Projekten mehr über die Rolle der einzelnen Variationen bei der Entstehung von Krankheiten wie Krebs, Diabetes oder Störungen des Herz-Kreislaufsystems erfahren.

Die durch das 1000 Genome Projekt produzierte Datenmenge ist bislang einmalig in der biomedizinischen Forschung. Zurzeit beträgt die Größe des Datensatzes ungefähr 50 Terabyte oder 50.000 Gigabyte. Das entspricht fast 7,3 Billionen (eine Eins mit 12 Nullen!) DNA-Buchstaben oder Terabasen an Sequenzdaten. Wissenschaftler haben freien Zugriff auf die Pilotdaten des 1.000 Genome Projektes durch die Projektwebseite und können sich die Daten über das NCBI (ftp://ftp-trace.ncbi.nih.gov/1000genomes/) oder das EBI (ftp://ftp.1000genomes.ebi.ac.uk/) herunterladen.

Die Pilotstudien des 1.000 Genome Projektes - Abschätzung der grundlegenden Aspekte zur Durchführbarkeit des Projektes

In der ersten Pilotstudie wurde die genetische Information von sechs Individuen (zwei sogenannte Kernfamilien mit jeweils beiden Elternteilen und einem Nachkommen) mit einer sehr hohen Abdeckung sequenziert. Dies bedeutet, dass jeder Buchstabe der DNA durchschnittlich 20- bis 60-mal abgelesen wurde, um eine hohe Genauigkeit der resultierenden DNA-Sequenz zu gewährleisten. Die sechs Genome wurden mit den unterschiedlichen zur Verfügung stehenden Technologien von akademischen Instituten in den USA, China, Großbritannien und Deutschland sowie von den drei Firmen 454 Life Sciences/Roche, Applied Biosystems/Applera Corp. Gesellschaft und Illumina Inc. sequenziert.

In der zweiten Pilotstudie wurden die Genome von 179 Individuen mit einer wesentlich niedrigeren Abdeckung sequenziert. Im Durchschnitt wurde jeder Buchstabe dreimal gelesen. Obwohl die Sequenzierkosten stetig fallen, ist die vollständige Sequenzierung von hunderten von Genomen immer noch sehr kostspielig. Ein Ansatz zur Bestimmung der genetischen Varianten, die mit einer bestimmten Häufigkeit in einer Volksgruppe auftreten, besteht darin, viele Genome mit einer geringen Abdeckung zu analysieren. Anschließend werden die erhaltenen Daten nach genetischen Varianten durchsucht, die bei mehreren Individuen auftreten. Die Ergebnisse dieser Pilotstudie konnten zeigen, dass diese Strategie effektiv und zielführend ist.

In der dritten Pilotstudie wurden die kodierenden Regionen („Exone“) von 1.000 Genen in 700 Individuen untersucht. Ziel war es, herauszufinden, wie am besten ein sehr genauer Katalog von genetischen Varianten in den Protein-kodierenden Genen erstellt werden kann. Die Pilotstudie lieferte durch eine beispiellose Probenzahl Muster von sehr seltenen Varianten in der menschlichen Bevölkerung.
Die Ergebnisse aller drei Pilotstudien zeigen, dass die neuen Sequenzierungstechnologien den Zugang auch zu seltenen bzw. weniger häufigen Varianten ermöglichen. Das Sequenzierungsvolumen belief sich auf über 3,8 Terabasen. Dies bedeutet, dass bereits in der Pilotphase eine 1000fache Abdeckung des humanen Genoms erreicht wurde.