Das Genom abbauen

Larry Hunter war gerade in sein neues Büro eingezogen, als ein Reporter zu Besuch kam, daher fehlte es im Raum an Schnickschnack und Familienschnappschüssen. Hunter hatte jedoch damit begonnen, seine Bücher auszupacken, und sie begannen bereits, ein interessantes Muster zu bilden. Roger Schanks Dynamischer Speicher , ein klassischer Titel der Künstlichen Intelligenz, wurde neben Georg Schulz' Prinzipien der Proteinstruktur. Maschinelles Lernen flankiert Onkogene . Künstliches Leben angelehnt Medizinische Informatik .

Richtig interpretiert zeigt das Muster in Hunters Bücherregal den neuesten Trend in der Biologie, einem Gebiet, das mittlerweile so von Informationen überflutet ist, dass es zunehmend von Informatikern wie Hunter abhängig ist, um seine Erkenntnisse zu verstehen. Als Experte für einen Ableger der künstlichen Intelligenzforschung, bekannt als maschinelles Lernen, bei dem Computern beigebracht wird, subtile Muster zu erkennen, wurde Hunter kürzlich von einer einsamen theoretischen Stelle in der National Library of Medicine gelockt, um die Abteilung für Molekularstatistik und Bioinformatik am National . zu leiten Cancer Institute (NCI) – eine 1997 gegründete Gruppe, um mathematisches Know-how zu nutzen, um die Aufschlämmung biologischer Erkenntnisse zu sichten.

Woher kommen all die Daten? Die einfache Antwort ist, dass es aus dem Human Genome Project herauswäscht. Angetrieben durch überraschende Konkurrenz aus dem kommerziellen Sektor nähert sich die öffentlich finanzierte Anstrengung, die geschätzten 100.000 menschlichen Gene zu katalogisieren, ihrem Ende; Mehrere große akademische Zentren wollen bis zum nächsten Frühjahr einen Rohentwurf fertigstellen. Bis dahin werden sie zig Milliarden Datenbits in das als GenBank bekannte Online-Gensequenz-Repository abgelegt haben, das vom National Center for Biotechnology Information (NCBI) an den National Institutes of Health (NIH) in Bethesda, Maryland, verwaltet wird DNA-Sequenzen sind nicht die einzige Art von Daten, die auf dem Vormarsch sind. Mithilfe von DNA-Chips können Wissenschaftler jetzt Muster erkennen, während Tausende von Genen in einer lebenden Zelle ein- und ausgeschaltet werden, was die Flut an Erkenntnissen noch verstärkt.



Neue Arten von Daten werden in atemberaubender Geschwindigkeit verfügbar, freut sich Nat Goodman, Direktor für Life Sciences Informatik bei Compaq Computer. Compaq ist eines von vielen Unternehmen, das nach einer wichtigen Geschäftsmöglichkeit in der Bioinformatik sucht. Dieser Kongress für Computer und Biologie ist ein boomendes Geschäft, drehte sich aber bisher hauptsächlich um Software zur Generierung und Verwaltung des Bergs von Gendaten. Jetzt brauchen Pharmaunternehmen immer schnellere Möglichkeiten, diesen Berg nach Entdeckungen zu bergen, die zu neuen Behandlungsmethoden für Krankheiten führen.

Hier kommen unternehmerische Forscher wie Larry Hunter ins Spiel. Auf Hunters Bücherregal steht eine Glaskugel mit der Aufschrift: 2.000.000 $ Serie A Preferred. 5. März 1999 – eine Feier für Risikokapitalfonds, die von Molecular Mining, einem von ihm mitbegründeten Unternehmen, aufgebracht wurden. Das Unternehmen mit Sitz in Kingston, Ontario, hofft, mithilfe von Data-Mining-Methoden Pharmaunternehmen dabei zu unterstützen, die Entwicklung neuer Medikamente zu beschleunigen, indem wichtige biologische Muster in lebenden Zellen identifiziert werden – etwa welche Gene in besonders gefährlichen Tumoren aktiviert sind und welche Medikamente dies sind Tumoren werden darauf reagieren. Und ein Dutzend anderer Startups – der beste Indikator für einen heißen Trend in der Biotech-Branche – wurden gegründet, um Data-Mining-Tools herzustellen (siehe The Genome Miners). Die Biologie, prognostiziert Hunter, wird zunehmend von Algorithmen unterstützt, die in riesigen Mengen molekularer Daten versteckte Strukturen finden können. Diese Art der Data-Mining-Arbeit, auf die Hunter spezialisiert ist, wird oft als Mustererkennung bezeichnet und ist einer der am schnellsten wachsenden Bereiche in der Bioinformatik. Wenn Hunter Recht hat, könnte sich die Mustererkennung als die Wahl herausstellen, die das Gold neuer Therapien hervorbringt.

Die Genom-Miner

Eine Auswahl von Unternehmen, die sich auf Software zur Mustererkennung spezialisiert haben.

Begleitung Ort Markieren Bioreason
(privat) Santa Fe, N.M. Software für künstliche Intelligenz macht aus Chemiedaten Sinn. Compugen
(privat) Tel Aviv, Israel Ex-israelische Rüstungsunternehmen punkten beim Gendaten-Mining. Zu den Kunden zählen das US-Patentamt. IBM
(öffentlich) Armonk, N.Y. Fortschrittliche Mustererkennungsalgorithmen unterstützen eine 1997 gegründete Monsanto-Allianz zur Proteinentdeckung. Lion Bioscience
(privat) Heidelberg, Deutschland Ein 100-Millionen-Dollar-Pakt mit dem Pharmariesen Bayer stellt einen Bioinformatik-Rekord auf. Molekularer Bergbau
(privat) Kingston, Ontario Beschaffte im März Startkapital in Höhe von 2 Millionen US-Dollar von Risikokapitalgebern. Neomorph
(privat) Berkeley, Kalifornien. Hidden-Markov-Modelle gehören zu den fortschrittlichen Gen-Findungswerkzeugen dieses Startups aus dem Jahr 1996. Partek
(privat) St. Peters, Mo. Spezialisten für neuronale Netze stiegen 1998 in den Biologiemarkt ein. Silizium Genetik
(privat) San Carlos, Kalifornien. Stanford-Spinoff sammelt Gendaten für Profit. Silizium-Grafik
(öffentlich) Mountain View, Kalifornien. Mine Set Das visuelle Data-Mining-Tool ist in der Finanz-, Telekommunikations- und Arzneimittelindustrie beliebt.

Zuerst musst du sie finden

ray band sonnenbrille

Um ein Gefühl dafür zu bekommen, wie groß der Berg Hunter und seine Kollegen sind, bedenkt man die Tatsache, dass jede menschliche Zelle 23 Chromosomenpaare hat, die etwa 3,5 Milliarden Nukleotidpaare enthalten, die chemischen Buchstaben A, C, G und T, aus denen sich zusammensetzt Der genetische Code der DNA. Aber die eigentlichen Gene, die den Code zur Herstellung von Proteinen tragen und bei genetischen Krankheiten und Krebs fehlschlagen, nehmen weniger als 3 Prozent des Genoms ein; der Rest ist genetisches Rauschen. Die Entdeckung von Genen wird noch schwieriger, weil ihre proteinkodierenden Elemente verstreut sind, ebenso wie die genetischen Signale, die die Zelle verwendet, um sie wieder zusammenzufügen und ihre Expression zu steuern: der Prozess, der sie zur Herstellung von Proteinen aktiviert. Der Schlüssel zum Verständnis des Genoms liegt darin, die Sprache dieser Signale zu verstehen, sagt David Haussler, ein führender Computerbiologe an der University of California in Santa Cruz. Aber sie sind versteckt, und sie sind laut.

Das erste entscheidende Problem besteht darin, sie aus diesem Labyrinth irrelevanten Codes zu extrahieren. Am Oak Ridge National Laboratory hat sich die Computational Biosciences Section von Edward Uberbacher mit dem Problem der Genfindung mit künstlichen neuronalen Netzen befasst – einer Art von künstlichem Intelligenz (KI)-Programm, das sich durch seine Fähigkeit auszeichnet, aus Erfahrung zu lernen. In Oak Ridge wurden neuronale Netze für Aufgaben wie das Erkennen feindlicher Panzer in unscharfen Satellitenbildern verwendet; 1991 adaptierte Uberbacher diese Methoden, um ein Programm namens GRAIL zu entwickeln, das Gene auslesen kann. Seitdem hat sich GRAIL von mindestens einem Dutzend weiterer Gen-Findungsprogramme angeschlossen, von denen viele Forschern online zur Verfügung stehen.

Die aktuellen Genlokalisierungsprogramme sind alles andere als perfekt, sie sagen manchmal Gene voraus, die nicht echt sind, und oft fehlen solche Gene. Teilweise wegen Genauigkeitsproblemen, sagt Überbacher, seien diese Methoden seit einiger Zeit am Rande geblieben. Aber angesichts der sich beschleunigenden Flut von Genomdaten werden Biologen gezwungen sein, sich auf sie zu verlassen und sie zu verbessern. So unvollkommen sie auch sind, sie sind der beste Ausgangspunkt, sagt Lisa Brooks, Programmdirektorin der Genominformatik-Abteilung des National Human Genome Research Institute, deren Betrieb jährlich 20 Millionen US-Dollar ausgibt, um bioinformatische Datenbanken zu unterstützen und neue Data-Mining-Methoden zu entwickeln .

Mustererkennungsprogramme werden nicht nur zur Entdeckung von Genen verwendet; Sie werden auch stark ausgenutzt, um Forschern Hinweise darauf zu geben, was Gene tun. Heute erhält das am weitesten verbreitete Programm – das Basic Local Alignment Search Tool des NCBI oder BLAST – 50.000 Treffer pro Tag von Forschern, die nach Ähnlichkeiten zwischen neu entdeckten DNA-Sequenzen und solchen suchen, deren Rolle bereits bekannt ist. Aufgrund ähnlicher Sequenzen können Wissenschaftler oft folgern, dass zwei Gene ähnliche Funktionen haben.

In der Fachsprache wird der Vorgang, die Funktion eines Gens zu interpretieren und in eine Datenbank einzugeben, als Annotation bezeichnet. Im Mai kündigten das Londoner Sanger Center und das European Bioinformatics Institute (EBI), eine Zweigstelle des multinationalen European Molecular Biology Laboratory in Hinxton, England, ein hastig organisiertes Projekt namens EnsEMBL an. Das Ziel von EnsEMBL, sagt Alan Robinson vom EBI, besteht darin, sicherzustellen, dass der erste Entwurf des menschlichen Genoms mit einer Anmerkung versehen wird. Die erste Aktivität von EnsEMBL wird darin bestehen, Genfindungsalgorithmen auszusenden, um das Genom zu durchsuchen und ein grobes Bild davon zu erhalten, wo sich die Gene befinden – eine handgezeichnete Karte eines Prospektors. Mit der gezeichneten Karte wird EnsEMBL Tools wie BLAST verwenden, um die Funktionen der Gene zu erraten.

Pläne für computergestützte Entdeckungspipelines wie diese sind für Pharmaunternehmen wichtig, die um die Identifizierung und Patentierung wichtiger krankheitsverursachender Gene kämpfen. Im Juni etwa stimmte der deutsche Pharmariese Bayer zu, dem Heidelberger Startup Lion Bioscience bis zu 100 Millionen Dollar für ein automatisiertes System zum Mining genetischer Datenbanken zu zahlen. Lion nennt den computergestützten Ansatz i-biology, so sein Bioinformatiker Reinhard Schneider und verspricht Bayer, dass seine Computer in fünf Jahren 500 neue Gene entdecken und 70 Gene kommentieren, die Bayer bereits gefunden hat. Kernstück der i-biology sind Mustererkennungsalgorithmen, die das tägliche Durchsuchen der Datenbanken vorantreiben werden.

Obwohl der Bayer-Löwen-Pakt ein Rekordbrecher ist, ist er nur eine von Dutzenden von Data-Mining-Allianzen zwischen Pharmariesen und rechenaffinen Start-ups – ein Beweis dafür, dass mathematische Methoden im Mittelpunkt der Genomforschung stehen. Und auch die Akademiker, die die Algorithmen schreiben, sehen ihre Sterne gerade in der Industrie aufsteigen. Lion wurde von Top-Bio-Infonauten des European Molecular Biology Laboratory mit Sitz in Heidelberg gegründet. Bei Celera Genomics, dem Unternehmen in Rockville, Md., dessen Pläne zur Entschlüsselung des genetischen Codes das Humangenomprojekt auf den Kopf gestellt und die öffentlich finanzierten Arbeiten beschleunigt haben, beruht der Erfolg auf der Expertise des Musteranalyseexperten Eugene Myers. Celera lockte Myers von einer unbefristeten Position an der University of Arizona als Leiter der Informatikaktivitäten an und heuerte Compaq an, um ihm den leistungsstärksten zivilen Supercomputer der Welt zu bauen (siehe The Gene Factory, TR März/April 1999). Laut Haussler glauben die meisten Wissenschaftler, dass der Erfolg der Myers-Methoden Celera machen oder zerstören wird.

Tier-Mensch-Hybriden China

Krebs-Kategorisierer

So wichtig sie auch sind, die Identifizierung und der Vergleich von Genen für Hinweise auf ihre Funktion sind nur erste Schritte auf einem langen Weg zur medizinischen Relevanz – die Entwicklung eines Medikaments kann viele Jahre länger dauern. Computerwissenschaftler sagen jedoch, dass sich Pattern Mining viel kurzfristiger auszahlen könnte, wenn es auf eine andere Art von Genomdaten angewendet wird, die als Genexpressionsprofile bekannt sind.

Das Expressionsniveau eines Gens bezieht sich darauf, wie viele Kopien seines spezifischen Proteins es zu einem bestimmten Zeitpunkt herstellen muss. Die Proteine ​​sind die eigentlichen Arbeitspferde in der Zelle, die die täglichen Aufgaben des Stoffwechsels erfüllen; die Konzentrationen von jedem können im Laufe der Zeit dramatisch variieren und sind in erkrankten Zellen oft aus dem Gleichgewicht geraten. Dank sogenannter DNA-Microarrays oder besser DNA-Chips können Wissenschaftler nun erstmals regelmäßig die Expression von Tausenden von Genen auf einmal messen. DNA-Chips machen sich die Tatsache zunutze, dass eine Zelle zur Herstellung eines Proteins zunächst ein Gen in mehrere Kopien eines Moleküls namens Messenger-RNA (mRNA) übersetzt. Art und Menge der mRNAs in einer Zelle entsprechen der Reihenfolge der Proteine ​​– und durch die gleichzeitige Messung der Spiegel von Tausenden verschiedener mRNAs können DNA-Chips eine Momentaufnahme der Aktivität Tausender von Genen erstellen.

Mark Buguski, leitender Forscher beim NCBI, sagt, dass die neuen Daten zum Niveau der Genexpression anders sind als alles, was Biologen jemals zuvor erlebt haben. Bisher konnten Biologen nur die Aktivität einiger weniger Gene gleichzeitig analysieren. DNA-Chips können jetzt massiv parallel die Zellaktivität auslesen. Das ist ein wichtiger Fortschritt, denn der Unterschied zwischen Gesundheit und Krankheit liegt normalerweise nicht in der Aktivität eines einzelnen Gens, sondern im Gesamtmuster der Genexpression.

Ein Team am Whitehead/MIT Center for Genome Research setzt diese massiv parallele Auslesung ein, um verräterische Unterschiede zwischen verschiedenen Krebsarten zu identifizieren. Die als Molecular Pattern Recognition-Gruppe bekannte Gruppe wurde letztes Jahr vom Direktor des Genomzentrums Eric Lander gegründet und wird vom Molekularbiologen Todd Golub geleitet. Weitere Mitglieder sind die ehemalige IBM-Mathematikerin Jill Mesirov, die Informatikerin Donna Slonim und der Computerphysiker Pablo Tamayo, der von der Supercomputerfirma Thinking Machines zu Whitehead kam.

Dieser interdisziplinäre Brain Trust versucht, ein enorm wichtiges Problem der Mustererkennung zu lösen. Tumore unterscheiden sich auf subtile Weise, und Krebszellen, die unter dem Mikroskop gleich aussehen, reagieren sehr unterschiedlich auf Medikamente. Die Dinge, die wir eine einzelne Krebsart nennen, sind sicherlich viele Krebsarten, sagt Lander, aber wir wissen nicht, nach welchen [Unterschieden] wir suchen sollen.

Um einen Benchmark für die neuen Methoden zu geben, ging Landers Gruppe von zwei bereits unter dem Mikroskop zu unterscheidenden Leukämiearten aus: der akuten myeloischen Leukämie (AML) und der akuten lymphatischen Leukämie (ALL). Sie maßen die Spiegel von etwa 6.800 verschiedenen Genen in Knochenmarkproben von 38 Leukämiepatienten, die sie nach Mustern durchsuchten, die AML von ALL unterscheiden könnten. Aber die Arbeit mit 6.800 Parametern (den Genen) und nur 38 Datenpunkten (den Stichproben) war eine Aufgabe, die dem Versuch ähnelte, eine Wahl vorherzusagen, indem man ein Dutzend Leute befragte. Nachdem sie einen Jahresvorrat an Bleistiften und Rubbelpapier durchgearbeitet hatten, fanden sie eine Lösung.

was ist das größte schwarze loch

Ein wichtiger Schritt bestand darin, die Datenpunkte in einen Lernalgorithmus einzuspeisen, der als selbstorganisierende Karte bekannt ist. Durch Auftragen der 38 Proben in einen hochdimensionalen mathematischen Raum konnte der Kartenalgorithmus die Proben in zwei Gruppen unterteilen – eine für jede Krebsart. Beim Abgleich mit Informationen über die bekannten Tumorarten, sagt Lander, wurde klar, dass die Cluster die ALL- und AML-Proben fast perfekt ausbrachen. Wir haben gezeigt, dass Sie dies an einem Nachmittag hätten rekapitulieren können, wenn Sie den Unterschied zwischen diesen beiden Arten von Leukämien nicht gewusst hätten – was in der Tat 40 Jahre Arbeit gedauert hat –, sagt er.

Das Forschungsteam ahnte auch, wie wertvoll ihre Methoden (bei Redaktionsschluss von TR noch unveröffentlicht) für Patienten sein könnten. An einem Punkt gelang es den Algorithmen nicht, eine Probe in eine der Leukämie-Kategorien zu kategorisieren. War die Mathematik fehlerhaft? Nein, die Diagnose lautete. Angeregt durch das Ergebnis des Programms schauten die Ärzte noch einmal nach und stellten fest, dass es sich bei Leukämie in Wirklichkeit um einen hochbösartigen Muskelkrebs handelte, gegen den der Patient jetzt behandelt wird. Bei Millennium Pharmaceuticals mit Sitz in Cambridge, Massachusetts, wetten Forscher, dass ähnliche Ansätze zu optimalen Diagnosetests für Krebs führen werden, so Dave Ficenec, ein ehemaliger Astrophysiker, der von Millennium angestellt wurde, um die neuesten Data-Mining-Algorithmen in seiner hauseigenen Software zu installieren. Das Unternehmen arbeitet eng mit dem Zentrum von Lander zusammen – Lander ist ein Millennium-Mitbegründer, der im Vorstand des Unternehmens sitzt.

Die neuen parallelen Methoden zur Erstellung von Schnappschüssen der Genexpression werden auch verwendet, um neue Wirkstoffkandidaten zu evaluieren. Beim Startup Rosetta Inpharmatics in Kirkland, Washington, baut ein wissenschaftliches Team Datenbanken nach Genmustern zusammen und durchsucht sie, um die Entdeckung von Medikamenten zu beschleunigen. Rosetta untersucht Hefezellen, setzt sie potenziellen neuen Medikamenten aus und analysiert dann das Ausmaß der Genexpression, um Hinweise auf die Wirkung der Medikamente zu erhalten. So können die Zellen beispielsweise schnell überprüft werden, ob ihre Reaktion einem für toxische Nebenwirkungen typischen Muster entspricht. Solche Verlierer frühzeitig auszuschließen ist Teil von Rosettas Programm zur Verbesserung der Effizienz der Wirkstoffforschung, sagt Stephen Friend, der gleichzeitig Rosettas Chief Science Officer und Leiter des Molekularpharmakologieprogramms am Fred Hutchinson Cancer Research Center in Seattle ist. Arzneimittelfirmen haben dies bemerkt, acht haben sich als Rosetta-Partner angemeldet.

Brain Drain

Während Forscher in Unternehmen und Universitäten auf den Data-Mining-Zug aufspringen, werden sie wahrscheinlich auf viele Unebenheiten stoßen. Einige Investoren sind beispielsweise nach wie vor besorgt, dass Datenbanken mit verschiedenen biologischen Ergebnissen immer noch schlecht miteinander verbunden und manchmal von ungleicher Qualität sind. Larry Bock, Investor im Palo Alto-Büro der Venture-Firma CW Group, sagt: Für Data-Mining ist es vielleicht noch etwas zu früh, da Ihre Fähigkeit zum Mining direkt mit der Qualität der Datenbank zusammenhängt. Dennoch, sagt Barbara Dalton, Vizepräsidentin der Venture-Firma SR One in West Conshohocken, Pennsylvania, sehen die langfristigen Aussichten gut aus. SR One hat zusammen mit Princeton, N.J.s Cardinal Health Partners, 2 Millionen US-Dollar aufgebracht, um Larry Hunters Startup Molecular Mining zu finanzieren. Data-Mining wird ein Kernelement der Wirkstoffforschung sein, prognostiziert Dalton.

Doch bevor es dazu kommt, muss das Feld möglicherweise seinen gravierendsten Engpass überwinden: einen akuten Mentorenmangel. Die Bioinformatik ist in den 1990er Jahren explosionsartig gewachsen und hat viele der besten Hochschullehrer und Forscher in den hochbezahlten Privatsektor gezogen. Wir gingen von einem sehr geringen Interesse an Bioinformatik zu - Bang! - die meisten Leute arbeiteten in Unternehmen, sagt Mark Adams, der den akademischen Weg verlassen hat, um für das Biotech-Unternehmen Variagenics in Cambridge, Massachusetts, zu arbeiten. Da die Universitäten einige ihrer klügsten Köpfe verloren haben, fragen sich viele, wer die nächste Generation von Computerbiologen ausbilden wird.

Ein Teil der Antwort kam im Juni, als ein von NIH-Direktor Harold Varmus einberufener Sonderbeirat zu dem Schluss kam, dass die US-Regierung bis zu 10 Millionen US-Dollar ausgeben sollte, um 20 neue Exzellenzprogramme im biomedizinischen Computing zu finanzieren. Mehrere Universitäten haben sich ebenfalls beteiligt, darunter Johns Hopkins, wo dank eines Zuschusses in Höhe von 2,5 Millionen US-Dollar vom Burroughs Wellcome Fund ein neues Programm für Computerbiologie im Gange ist. Stanford, Princeton und die University of Chicago planen alle große Zentren, die Physiker mit Biologen zusammenbringen sollen.

In der Industrie ist die Konvergenz bereits Realität. Ein Drittel der 100 Mitarbeiter von Rosetta Inpharmatics sind Computerwissenschaftler aus so unterschiedlichen Bereichen wie Sonarerkennung, Flugsicherung und Astrophysik. Chefwissenschaftler Stephen Friend sagt, dass er seit seinem Eintritt in das Unternehmen im Jahr 1997 zu einer wichtigen Erkenntnis gelangt ist. Biologen mögen immer noch die besten Fragen stellen und die überzeugendsten Experimente entwerfen, sagt er, aber die besten Antworten kommen von den Physikern oder Mathematikern. Diese Antworten werden wahrscheinlich zu wichtigen neuen Therapien führen – Gold, das mit den Werkzeugen der Mustererkennung aus den Bergen des Humangenomprojekts gewonnen wird.

verbergen

Tatsächliche Technologien

Kategorie

Unkategorisiert

Technologie

Biotechnologie

Technologierichtlinie

Klimawandel

Mensch Und Technik

Silicon Valley

Computer

Mit News Magazine

Künstliche Intelligenz

Platz

Intelligente Städte

Blockchain

Reportage

Alumni-Profil

Alumni-Verbindung

Mit News Feature

1865

Meine Sicht

77 Mass Avenue

Treffen Sie Den Autor

Profile In Großzügigkeit

Auf Dem Campus Gesehen

Lerne Den Autor Kennen

Alumni-Briefe

Nicht Kategorisiert

77 Massenallee

Rechnen

Tech-Richtlinie

Lernen Sie Den Autor Kennen

Nachrichten

Wahl 2020

Mit Index

Unter Der Kuppel

Feuerwehrschlauch

Unendliche Geschichten

Pandemie-Technologieprojekt

Vom Präsidenten

Titelstory

Fotogallerie

Empfohlen