Wie man eine Million Bücher digitalisiert

Fünfzehn Monate nachdem Google ein Projekt zum Scannen von Büchern mit biblischen Ausmaßen angekündigt hat – unter anderem um die gesamten Buchbestände der New York Public Library und der Bibliotheken der Harvard University zu digitalisieren – ist das Unternehmen immer noch verschwiegen, wie es wichtige technische Probleme löst und werden nicht sagen, wie viel sie bisher erreicht haben.

Ein ähnliches, wenn auch kleineres Projekt – die Millionenbuchprojekt an der Carnegie Mellon University in Pittsburgh – läuft seit rund sieben Jahren. Es könnte einige Anhaltspunkte liefern. Der Direktor des Projekts, der Informatiker Raj Reddy, sagt, er und seine Kollegen hätten nicht mehr Wissen über die Methoden oder den Fortschritt von Google als alle anderen, aber sie meistern viele der gleichen Herausforderungen.

Das Ziel der Google Buchsuche ist es, alle Offline-Bücher – derzeit für Google unsichtbar – durchsuchbar zu machen. Dies bedeutet, dass Hunderte Millionen Seiten zwischen den Deckblättern von schätzungsweise 18 Millionen Büchern physisch gescannt werden, etwa 430 Sprachen und alle Arten von Schriftarten erkannt werden, die Ergebnisse für die Textsuche verfügbar gemacht werden und das traditionelle Durchsuchen von Bibliotheken nach Abschluss des Vorgangs repliziert wird. Daniel Clancy, Engineering Director bei Google Book Search, sagt, er könne sich nicht dazu äußern, was das Unternehmen bisher erreicht hat.



Im CMU-Projekt ist die Scantechnologie jedoch von der Stange. Sie verwenden leicht verfügbare Minolta PS 7000 Buchscanner an 40 Scanstationen in Indien und China, wo die lokalen Regierungen helfen, die Kosten für das gemeinnützige Projekt niedrig zu halten. In dieser Konfiguration blättern die Mitarbeiter jede Seite manuell um. Sieben Jahre nach Projektbeginn wurden rund 600.000 Bücher (hauptsächlich gemeinfreie Werke aus der ganzen Welt) gescannt, und jeden Tag kommen weitere 100.000 Seiten zum digitalen Korpus. Bei diesem Tempo könnte es knapp fünf Jahre dauern, bis das CMS-Projekt abgeschlossen ist.

Im Gegensatz dazu sagt Clancy, dass Google eine eigene Scan-Technologie entwickelt hat. Aber das Unternehmen schweigt über die technischen Details der Hardware, der Software zur optischen Zeichenerkennung (OCR) und der Scanrate in seinen fünf Scanzentren in der Nähe der kooperierenden Bibliothekspartner in Harvard, Stanford, University of Michigan, University of Oxford und New York Öffentliche Bibliothek.

Reddy sagt im Handel erhältlich Software zum Erkennen von Englisch funktioniert gut für das Million Book Project. Die Herausforderungen mit OCR werden von ihren chinesischen Partnern angegangen, die spezielle Software entwickeln, um unkonventionelle Schriftarten und kalligrafische Schriften, die oft in älteren Büchern zu finden sind, besser zu erkennen. Darüber hinaus entwickeln ihre Partner in Ägypten OCR für Arabisch. Im Moment, sagt Reddy, sei OCR ein aktiver Forschungsbereich, in dem viele Länder ihre Expertise einbringen.

Sobald Bücher gescannt und ihre Texte zugänglich sind, besteht die größte Herausforderung darin, den Text für die Suche nützlich zu machen. Die Inkonsistenz in der physischen Qualität von Büchern kann zu Problemen führen, sagt Clancy insbesondere bei der Seitennummerierung. So können beispielsweise ganze Seiten fehlen oder Ecken mit Eselsohren können eine falsche Seitenzahl erkennen lassen. Und wenn die Paginierung in einem Teil des Buches falsch ist, breitet sich der Fehler im gesamten Werk aus.

Dieses Problem wird laut Reddy von CMU durch die Entwicklung von Software überwunden, die nicht auf Seitenzahlen angewiesen ist. Stattdessen werden strukturelle Metadaten erstellt, bei denen es sich im Wesentlichen um Tags handelt, die die Bedeutung von Informationen innerhalb eines Buches zusammenfassen, sodass Forscher Wörter im Inhaltsverzeichnis mit entsprechenden Kapiteln verknüpfen können. Außerdem können indizierte Begriffe mit den richtigen Passagen verknüpft werden. Leider, sagt Reddy, ist das Herstellen der Verbindungen immer noch ein manueller Prozess; Niemand hat eine Software entwickelt, die diese Hyperlinks mit mehr als etwa 90 Prozent Genauigkeit herstellen kann. Wenn die Technik jedoch verfeinert werden kann, könnte dies die Textsuche aussagekräftiger machen.

Letztendlich, sagt Clancy, möchte Google, dass die Buchsuche das gleiche Ergebnis liefert, als würde jemand in eine Bibliothek gehen, in ihren Stapeln suchen und zufällig ein Buch finden, das interessant oder nützlich ist. Eine Möglichkeit, dies zu tun, wäre, Bücher nach Kategorien und Themen miteinander zu verknüpfen, schlägt er vor. Komplizierter wird die Aufgabe jedoch, wenn man beispielsweise Werke von Virginia Woolf mit Kritiken an ihrem Werk, Werken, die sie inspirierten, oder Autoren, die in derselben Epoche schrieben, in Verbindung bringt. Algorithmen zu entwickeln, die all diese neuen Informationen effektiv organisieren können, ist laut Clancy eine der großen Herausforderungen und wird viele Jahre dauern.

Reddy sagt, dass CMU-Forscher versuchen, diese Herausforderung zu bewältigen, indem sie einen statistischen Ansatz zur Organisation der Informationen verwenden. Bei diesem Ansatz würden beispielsweise Virginia Woolfs Bewusstseinsstromsätze von einem Algorithmus analysiert, der Muster basierend auf Satzlänge, Struktur und Interpunktion findet. Diese Technik könnte ein Werk von James Joyce finden, einem von Woolfs Einflüssen – oder das eines obskuren Autors, dessen Schriften sonst vielleicht nie gefunden worden wären.

In der Zwischenzeit suchen Forscher nach Abkürzungen für die Suche zwischen Autoren, Büchern und Genres, sagt Reddy. Ähnlich wie beim kollaborativen Filtern bei Amazon die vergangenen Einkäufe von Personen verwendet werden, um anderen zu helfen, potenzielle Käufe zu finden, könnten sich Benutzer von Book Search gegenseitig helfen. Der Community-basierte Ansatz ist eine Idee, die Google nicht angekündigt hat, sagt Clancy, aber er könnte der Suche in Büchern eine weitere Ebene hinzufügen und die Basis für das Projekt begeistern.

Sicherlich ist es für Google nicht neu, seine Karten festzuhalten. Sie sind bei fast allem, was sie tun, geheim. Dies ist bei Unternehmen aus dem Silicon Valley sehr üblich, sagt Reddy von der CMU. Bei der Buchsuche wolle Google eine Captive-Lösung für alle Bibliotheken haben. Trotzdem ist Reddy von Googles Projekt begeistert und glaubt, dass es seine Forschung letztendlich ergänzen wird. Ich bin sicher, dass sie irgendwann einen Hinweis auf unsere Bücher haben werden, sagt er.

In der Zwischenzeit muss sich Google mit dem nichttechnischen Problem auseinandersetzen, dass verärgerte Urheberrechtsinhaber sie vor Gericht ziehen. Die Author’s Guild und eine Reihe von Verlagen haben sie verklagt und behauptet, dass das Projekt von Google gegen das Urheberrecht verstößt. (Stanford-Professor Lawrence Lessig hat eine 30-minütige Video zum Rechtsstreit.)

Aber wenn die rechtlichen und technischen Herausforderungen gemeistert werden können, könnten digitalisierte physische Bücher die Milliarden existierender Webseiten an Informationsbreite und -tiefe weit übertreffen. Tatsächlich hat ein einziger umfassender Online-Kartenkatalog für Millionen Bücher der Welt das Potenzial, ein ganz neues Kapitel im Informationszeitalter aufzuschlagen.

verbergen

Tatsächliche Technologien

Kategorie

Unkategorisiert

Technologie

Biotechnologie

Technologierichtlinie

Klimawandel

Mensch Und Technik

Silicon Valley

Computer

Mit News Magazine

Künstliche Intelligenz

Platz

Intelligente Städte

Blockchain

Reportage

Alumni-Profil

Alumni-Verbindung

Mit News Feature

1865

Meine Sicht

77 Mass Avenue

Treffen Sie Den Autor

Profile In Großzügigkeit

Auf Dem Campus Gesehen

Lerne Den Autor Kennen

Alumni-Briefe

Nicht Kategorisiert

77 Massenallee

Rechnen

Tech-Richtlinie

Lernen Sie Den Autor Kennen

Nachrichten

Wahl 2020

Mit Index

Unter Der Kuppel

Feuerwehrschlauch

Unendliche Geschichten

Pandemie-Technologieprojekt

Vom Präsidenten

Titelstory

Fotogallerie

Empfohlen