Wiederholen, bitte auf Englisch

Obwohl sich die Qualität computergerenderter Übersetzungen in den letzten 20 Jahren stark verbessert hat, sind einige Ergebnisse grammatikalisch immer noch genauso albern wie die Anweisungen auf einem Essstäbchen-Wrapper. Nehmen wir zum Beispiel eine Website für a Japanische Apfelfarm das wurde mit Googles ins Englische umgewandelt automatischer Übersetzungsdienst :

Am Someya-Apfelgarten wird es sehr gut gehen! Es wurde 1954 gepflanzt, außerdem überschreitet es noch heute das Alter des Baumes 50 Jahre alt, wohlhabend, groß - kommend wird der Baum abnormes Spiel Alligatorapfel befruchtet. Der schmackhafte Apfel, wo der Temperaturunterschied von Tag und Nacht angezogen wird, um extrem zu sein, ist die Präfektur Gunma Stadt Numata, deren vier Jahreszeiten die Natur klar groß sind, hart wird geschaffen. *

Ja, das Gesamtbild kommt rüber, aber viel geht durch den Japanisch-Englisch-Übersetzungsalgorithmus von Google verloren. Google bietet seine Übersetzungsfunktion bereits seit einigen Jahren an, ebenso wie das kanadische Internetunternehmen Babel Fisch . In jüngerer Zeit haben jedoch kommerzielle Softwareentwickler damit begonnen, die Übersetzung über eine statische Webseite oder ein elektronisches Dokument hinaus zu erforschen, und wenden die Technologie auf die Echtzeit-Internet-Instant-Messaging-Gespräche an. Anfang dieses Monats veröffentlichte AvMedia eine Instant-Messaging Übersetzer wurde entwickelt, um Englischsprachigen das Chatten mit Freunden zu erleichtern, die Deutsch, Spanisch, Französisch, Italienisch und Portugiesisch sprechen und umgekehrt (Französisch kann auch ins Deutsche und Deutsch ins Französische übersetzt werden).

Aber all dieser Software fehlt es noch an Genauigkeit, um in anspruchsvollen Situationen wie Geschäftsverhandlungen oder militärischer Planung nützlich zu sein. Dies liegt wahrscheinlich daran, dass die meisten kommerziellen Software einen traditionellen Ansatz für die maschinelle Übersetzung verfolgt, sagt Kevin Knight, Informatiker an der University of Southern California Institut für Informationswissenschaften (ISI) und Mitbegründer des kalifornischen Unternehmens Sprachweber .

wie viele Sudoku-Rätsel gibt es

Traditionell war maschinelle Übersetzungssoftware auf Algorithmen angewiesen, die Tausende von Grammatikregeln für die beiden zu übersetzenden Sprachen durchsuchen, sagt Knight. Das Problem, erklärt er, sei, dass so viele Regeln manuell geschrieben werden müssten, ebenso wie die Ausnahmen von diesen Regeln, und sich Ungenauigkeiten einschleichen, wenn sich komplexe Regelwerke widersprechen. Wenn man die 5000. Regel schreibt, bricht man manchmal Dinge, sagt Knight.

Mit Language Weaver und seiner Forschung an der USC gehen Knight sowie eine Handvoll anderer Forscher auf der ganzen Welt das Problem anders an. Anstatt starren grammatikalischen Regeln zu folgen, ordnet Language Weaver korrekte Wörter und Phrasen in allen Sprachen basierend auf der Wahrscheinlichkeit zu, dass solche Wörter und Phrasen in einem bestimmten Kontext korrekt sind.

wenn du es machst

Dieser statistische Ansatz stützt sich auf eine Vielzahl von Beispielen aus bereits übersetzten Dokumenten, sagt Michael Collins, Computeringenieur am MIT, der dieselbe Methode für eine Softwareanwendung verwendet, die er entwickelt, um Übersetzungen vom Deutschen ins Englische durchzuführen. IBM sei bei diesem Ansatz in den 1990er Jahren Pionier gewesen, sagt er, unter anderem durch die Nutzung einer riesigen Datenbank mit kanadischen Parlamentssitzungen, die sowohl in französischer als auch in englischer Sprache veröffentlicht wurden.

Die statistische Vielfalt der maschinellen Übersetzung führe nicht nur zu besseren Ergebnissen als die traditionelle Methode, sagt Knight, sondern auch die Software sei darauf ausgelegt, sich selbst weiter zu verbessern. Je mehr übersetzte Dokumente die Software vorfindet, desto wahrscheinlicher ist es, dass die Phrasen korrekt übereinstimmen. Vor einigen Jahren konnten wir für unsere chinesischen und arabischen Sprachen nur das grundlegende Thema eines Artikels bekommen, sagt Knight. Jetzt liegt die Auflösung auf Satzebene. [Fortsetzung auf der nächsten Seite ]

-

* Berichtigung, 18. Januar 2006, 10:00 Uhr EST: In der Originalversion dieser Geschichte haben wir die folgende Übersetzung der Someya Apple Farm-Website zitiert: Der Apfelgarten mit großen Bäumen über 50 Jahre alt. Die natürliche Umgebung um Numata, mit dem großen Temperaturunterschied zwischen Tag und Nacht, erzeugt einen einzigartig köstlichen Apfel. Tatsächlich war dies ein Auszug aus Googles Übersetzung der eigenen englischen Version der Website der Apfelfarm, nicht aus Googles Übersetzung der ursprünglichen japanischen Seite. Daher war es kein gültiges Beispiel für die schlechte Qualität einiger maschineller Übersetzungsalgorithmen. In der Story haben wir jetzt die Google-Übersetzung der japanischen Originalseite ersetzt. Vielen Dank an unsere Leser für den Hinweis auf den Fehler. - Hrsg.

Die US-amerikanische Defense Advanced Research Projects Agency (DARPA) ist einer der Hauptförderer der statistischen maschinellen Übersetzung. Im vergangenen August sponserte die DARPA maschinelle Übersetzungstests für chinesische und arabische Dokumente; eine Forschungsgruppe von Google erzielte die höchste Punktzahl und strich das Information Sciences Institute des USC und die Abteilung für maschinelle Übersetzung von IBM heraus. Google, das auch den statistischen Ansatz verwendet, könnte, so Knight, einen Vorteil gehabt haben, weil es eine große Anzahl von Computern für die Wortverarbeitung verwenden und aus dem gesamten Internet für seine Datenbank mit vorübersetzten Dokumenten schöpfen konnte.

Pflaster für Blutdruck

Im Jahr 2005 kündigte die DARPA außerdem das Programm Global Autonomous Language Exploitation (GALE) an, das die Computerverarbeitung einer großen Anzahl übersetzter Dokumente beschleunigen soll, die von ihrem Mutterprogramm, der in Philadelphia ansässigen Konsortium für linguistische Daten .** GALE befindet sich derzeit im ersten Jahr und wird Reden aus Rundfunknachrichtenquellen und Talkshows in Arabisch, Chinesisch und Englisch transkribieren und auch Textnachrichtenfeeds, Web-News-Diskussionsgruppen und Blogs in diesen Sprachen katalogisieren. Derzeit konzentriert sich das Projekt hauptsächlich auf die Datensammlung aus diesen Genres, wobei Forscher der Abteilung für Computer- und Ingenieurwissenschaften der University of Pennsylvania einen Großteil der Arbeit leisten.

Aber selbst bei einer großen Sammlung von übersetztem Material wird es immer noch Sprachprobleme geben, die gelöst werden müssen. Der nächste Schritt in der maschinellen Übersetzungsforschung, der über das Abgleichen von Wörtern und Phrasen hinausgeht, besteht laut Knight darin, die grammatikalischen Inkonsistenzen auszugleichen, die entstehen, wenn Wörter und Phrasen aneinandergereiht werden. Diese Glättung kann durch die Indexierung von Millionen von Sätzen erreicht werden, deren Strukturen in den 1990er Jahren an der University of Pennsylvania diagrammartig dargestellt wurden (die Daten stammten aus 50.000 Sätzen in den 1990er Jahren). Wallstreet Journal ). Ähnlich wie eine Datenbank voller Wörter und Phrasen es einer Übersetzungssoftware ermöglicht, die statistisch wahrscheinlichste Kombination von Wörtern auszuwählen, helfen diese spezifischen Grammatikbeispiele aus den Diagrammsätzen der Software, die Wahrscheinlichkeit der Wortreihenfolge zuzuordnen, sagt Collins vom MIT.

Dies sei ein Fortschritt gegenüber der traditionellen Methode, bei der Grammatikregeln in einem Algorithmus festgelegt würden, sagt er. Anstatt codierten Grammatikkonventionen in einem Algorithmus zu gehorchen, wie es bei der traditionellen maschinellen Übersetzung der Fall ist, ermöglicht die grafisch dargestellte Satzdatenbank der Software, diesen Regeln Wahrscheinlichkeiten und Gewichte zuzuordnen, sagt Collins. [Die Software] lernt eher den Kontext, sagt er.

In gewisser Weise ist der statistische Ansatz jedoch nur so gut wie der übliche Instant-Messaging-Übersetzer. Eigennamen zum Beispiel bringen selbst den bestgelesenen Maschinenübersetzer immer noch ins Stolpern und werden oft nur zusammen mit dem Rest des Textes übersetzt. Laut seinem System, gibt Knight zu, ist die spanische Version seines Nachnamens immer noch Kevin Caballero.

** Korrektur, 20. Januar 2006: In der Originalversion dieser Geschichte, veröffentlicht am 18. Januar, heißt es, dass das Linguistic Data Consortium 2005 gegründet wurde. Tatsächlich wurde das Konsortium 1992 gegründet und sein Global Autonomous Language Exploitation Projekt wurde gestartet im Jahr 2005. – Hrsg.

Oculus Rift Mark Zuckerberg
verbergen

Tatsächliche Technologien

Kategorie

Unkategorisiert

Technologie

Biotechnologie

Technologierichtlinie

Klimawandel

Mensch Und Technik

Silicon Valley

Computer

Mit News Magazine

Künstliche Intelligenz

Platz

Intelligente Städte

Blockchain

Reportage

Alumni-Profil

Alumni-Verbindung

Mit News Feature

1865

Meine Sicht

77 Mass Avenue

Treffen Sie Den Autor

Profile In Großzügigkeit

Auf Dem Campus Gesehen

Lerne Den Autor Kennen

Alumni-Briefe

Nicht Kategorisiert

77 Massenallee

Rechnen

Tech-Richtlinie

Lernen Sie Den Autor Kennen

Nachrichten

Wahl 2020

Mit Index

Unter Der Kuppel

Feuerwehrschlauch

Unendliche Geschichten

Pandemie-Technologieprojekt

Vom Präsidenten

Titelstory

Fotogallerie

Empfohlen