Prosodie

Manchmal kommt es nicht darauf an, was man sagt, sondern wie man es sagt. Das ist eine Binsenweisheit, mit der sich die meisten Menschen identifizieren können – Computer jedoch nicht. Spracherkennungssoftware ist zwar beim Verstehen von Wörtern ziemlich gut geworden, kann jedoch immer noch keine Interpunktion wie Punkte und Kommas erkennen oder zwischen mehrdeutigen Sätzen wählen, deren Bedeutung von der Emotion des Sprechers abhängt. Das liegt daran, dass solche Software die Intonationen, Hervorhebungen und Pausen – zusammenfassend als Prosodie bekannt –, die Menschen intuitiv verwenden, um solche Unterscheidungen zu treffen, immer noch nicht verstehen kann.

Aber mit mehr als hundert Unternehmens- und akademischen Forschungsgruppen, die an dem Problem arbeiten, erfreuen sich Versuche, Prosodie in Sprachsoftware zu integrieren, zunehmenden Erfolg. Prosodie-basierte Tools werden bereits für die Sprachsynthese verwendet – um die Natürlichkeit von Computerstimmen zu verbessern, wie sie beispielsweise Ihren Kontostand am Telefon vortragen. Mit fortschreitender Prosodieforschung werden diese automatisierten Systeme auch beim Sprechen komplexer Sätze immer natürlicher klingen.

Warum Software so schlecht ist

Diese Geschichte war Teil unserer Juli-Ausgabe 2002



  • Siehe den Rest der Ausgabe
  • Abonnieren

Die wichtigsten Vorteile sollten jedoch in der Spracherkennung liegen. Jüngste Fortschritte deuten darauf hin, dass Prosodie-Software innerhalb von fünf Jahren Aufgaben erfüllen wird, z. B. wenn ein Kunde, der mit einem automatisierten Telefonsystem spricht, wütend wird, und entsprechend reagiert, indem er beispielsweise den Anruf an einen Menschen weiterleitet. Das ist wirklich topaktuell, sagt Michael Picheny, Informatiker und Leiter der Gruppe für Sprach- und Sprachalgorithmen bei IBM Research in Yorktown Heights, NY. Bis vor einigen Jahren war die Qualität der Spracherkennung so primitiv, dass es sich nicht einmal lohnte, zu untersuchen, wie man Maschinen durch die Vermittlung emotionaler Absichten unterschiedliche Verhaltensweisen entlocken kann. Zuerst wolltest du nur, dass die Maschine die Worte richtig macht.

Schallwellen haben drei grundlegende Komponenten, mit denen Prosodie-Software arbeiten kann. Die erste ist das Timing – die Dauer der Pausen zwischen Wörtern und Sätzen. Zweitens kommt die Tonhöhe – genauer gesagt die relative Änderung der Tonhöhe innerhalb von Wörtern und Sätzen. Schließlich gibt es noch die Lautstärke – eine Amplitudenänderung, die eine Betonung anzeigt.

Die Bedeutung dieser Merkmale zu erkennen ist für einen Computer viel schwieriger als die Identifizierung von Wörtern, sagt Elizabeth Shriberg, eine Informatikerin, die Prosodieforschung bei SRI International in Menlo Park, Kalifornien, leitet. Wörter sind eine lineare Reihe von phonetischen Ereignissen, wie ee und th. Im Gegensatz dazu treten prosodische Merkmale wort- und satzübergreifend auf. Schlimmer noch, verschiedene Arten von prosodischen Mustern überlappen sich oft; ein Satz könnte verraten, dass ein Satz ruhig gesprochen wurde, ein zweiter, dass der Satz eine Frage war. Aber Forscher beginnen, sie zu kartieren. Shriberg und ihre Mitarbeiter haben zum Beispiel eine Vorlage für einen wütenden Satz erstellt: er ist insgesamt langsamer, hat eine übertriebene Betonung von Schlüsselwörtern und endet mit einer Abwärtsdrehung der Tonhöhe (das habe ich gebraucht .) Letzter Dienstag aber es ist nicht angekommen). Shriberg hat prosodische Modelle für alles erstellt, von verschiedenen emotionalen Zuständen über Satzzeichen bis hin zu Unstimmigkeiten - Verschiebungen, wenn Leute ihre Gedanken mitten im Satz ändern oder ähm murmeln.

Während die Tools von SRI immer noch Forschungsübungen sind, könnte ein breiter Einsatz von Prosodie für die Spracherkennung kurz bevorstehen. Begrenzte Anwendungen werden bereits in chinesischer Spracherkennungssoftware verwendet. In China kann das Wort Ma je ​​nach Flexion Mama oder Pferd bedeuten oder darauf hinweisen, dass der Satz ein Fluch war, erklärt Xuedong Huang, ein Informatiker, der eine Sprachtechnologiegruppe bei Microsoft Research in Redmond, WA, leitet. Das ist sehr gefährlich, scherzt er. Microsoft hat bereits damit begonnen, einfache Prosodie in seine chinesische Spracherkennungssoftware zu integrieren und arbeitet daran, Software der nächsten Generation für chinesische und japanische Sprachen zu entwickeln.

In den nächsten fünf Jahren sollten englischsprachige prosodische Tools für die Spracherkennung ihre ersten Marktvorstöße machen. Eine Anwendung: Unternehmen könnten automatisch aufgezeichnete Telefondatenbanken des Kundenservice durchsuchen, wütende Anrufe finden und untersuchen, was schief gelaufen ist. Eine andere Möglichkeit: Satzzeichen erkennen, damit Ärzte, die in Diktiersysteme sprechen, keinen Punkt sagen müssen.

Aber es wird mindestens zehn Jahre dauern, sagt Shriberg vom SRI, bis ein Computer anfangen kann, das zu tun, was Menschen jeden Tag tun – ein Gespräch mit all seinen Wendungen vollständig zu entschlüsseln und gleichzeitig Hintergrundgeräusche herauszufiltern. Wir versuchen, die [Mensch-Maschine]-Lücke etwas zu schließen, damit der Computer so intelligent wie möglich ist, wenn Menschen knapp sind, im Weltraum leben oder lebenserhaltend sind, sagt Shriberg. Versuchen Sie vorerst sowieso nicht, diesen Ehrgeiz einem Computer zu erklären. Es wird deine Aufregung nicht verstehen.

verbergen

Tatsächliche Technologien

Kategorie

Unkategorisiert

Technologie

Biotechnologie

Technologierichtlinie

Klimawandel

Mensch Und Technik

Silicon Valley

Computer

Mit News Magazine

Künstliche Intelligenz

Platz

Intelligente Städte

Blockchain

Reportage

Alumni-Profil

Alumni-Verbindung

Mit News Feature

1865

Meine Sicht

77 Mass Avenue

Treffen Sie Den Autor

Profile In Großzügigkeit

Auf Dem Campus Gesehen

Lerne Den Autor Kennen

Alumni-Briefe

Nicht Kategorisiert

77 Massenallee

Rechnen

Tech-Richtlinie

Lernen Sie Den Autor Kennen

Nachrichten

Wahl 2020

Mit Index

Unter Der Kuppel

Feuerwehrschlauch

Unendliche Geschichten

Pandemie-Technologieprojekt

Vom Präsidenten

Titelstory

Fotogallerie

Empfohlen