KI-Synchronsprecher klingen menschlicher als je zuvor – und sie sind bereit, eingestellt zu werden

KI-Sprecherkonzept

Frau Technik | Getty

Der Blogbeitrag des Unternehmens trieft vor Begeisterung einer US-Werbesendung der 90er Jahre. WellSaid Labs beschreibt, was Kunden von seinen acht neuen digitalen Sprechern erwarten können! Tobin ist energisch und aufschlussreich. Paige ist ausgeglichen und ausdrucksstark. Ava ist geschliffen, selbstbewusst und professionell.

Jeder basiert auf einem echten Synchronsprecher, dessen Abbild (mit Zustimmung) mithilfe von KI erhalten wurde. Unternehmen können diese Stimmen jetzt lizenzieren, um zu sagen, was sie brauchen. Sie geben einfach etwas Text in die Sprachmaschine ein und spulen einen gestochen scharfen Audioclip mit einer natürlich klingenden Darbietung heraus.



WellSaid Labs , ein in Seattle ansässiges Startup, das aus dem gemeinnützigen Forschungsinstitut Allen Institute of Artificial Intelligence hervorgegangen ist, ist das neueste Unternehmen, das Kunden KI-Stimmen anbietet. Derzeit ist es auf Stimmen für E-Learning-Videos von Unternehmen spezialisiert. Andere Startups machen Stimmen für digitale Assistenten , Call-Center-Betreiber , und selbst Charaktere aus Videospielen .

warum ist die tastatur qwertz
KH · Ein WellSaid-KI-Synchronsprecher im Werbestil

Vor nicht allzu langer Zeit hatten solche Deepfake-Stimmen einen ziemlich miesen Ruf für ihren Einsatz betrügerische Anrufe und Internet-Tricks . Aber ihre sich verbessernde Qualität hat seitdem das Interesse einer wachsenden Zahl von Unternehmen geweckt. Die jüngsten Durchbrüche beim Deep Learning haben es möglich gemacht, viele der Feinheiten der menschlichen Sprache zu replizieren. Diese Stimmen halten an und atmen an den richtigen Stellen. Sie können ihren Stil oder ihre Emotionen ändern. Sie können den Trick erkennen, wenn sie zu lange sprechen, aber in kurzen Audioclips sind einige von Menschen nicht mehr zu unterscheiden.

KI-Stimmen sind außerdem billig, skalierbar und einfach zu handhaben. Im Gegensatz zu einer Aufnahme eines menschlichen Synchronsprechers können synthetische Stimmen ihr Skript auch in Echtzeit aktualisieren, was neue Möglichkeiten zur Personalisierung von Werbung eröffnet.

Aber der Aufstieg hyperrealistischer Falschstimmen ist nicht folgenlos. Insbesondere menschliche Synchronsprecher müssen sich fragen, was dies für ihren Lebensunterhalt bedeutet.

Wie man eine Stimme vortäuscht

Synthetische Stimmen gibt es schon seit einiger Zeit. Aber die alten, inklusive der Stimmen des Originals Syrien und Alexa , einfach Wörter und Geräusche zusammenkleben, um einen klobigen, roboterhaften Effekt zu erzielen. Sie natürlicher klingen zu lassen, war eine mühselige Handarbeit.

Deep Learning hat das geändert. Sprachentwickler mussten nicht mehr das genaue Tempo, die Aussprache oder die Intonation der generierten Sprache diktieren. Stattdessen könnten sie ein paar Stunden Audio in einen Algorithmus einspeisen und den Algorithmus diese Muster selbst lernen lassen.

Gang-Stalking Gedankenkontrolle

Wenn ich Pizza Hut bin, kann ich sicherlich nicht wie Domino’s klingen, und ich kann sicherlich nicht wie Papa John’s klingen.

Rupal Patel, Gründer und CEO von VocaliD

Im Laufe der Jahre haben Forscher diese Grundidee genutzt, um immer ausgefeiltere Voice Engines zu bauen. Das eine von WellSaid Labs konstruierte verwendet beispielsweise zwei primäre Deep-Learning-Modelle. Die erste sagt anhand einer Textpassage die groben Züge dessen voraus, wie ein Sprecher klingen wird – einschließlich Akzent, Tonhöhe und Klangfarbe. Die zweite füllt die Details aus, einschließlich Atemzügen und der Art und Weise, wie die Stimme in ihrer Umgebung mitschwingt.

Um eine überzeugende synthetische Stimme zu erzeugen, braucht es jedoch mehr als nur einen Knopfdruck. Ein Teil dessen, was eine menschliche Stimme so menschlich macht, ist ihre Inkonsistenz, Ausdruckskraft und Fähigkeit, die gleichen Zeilen je nach Kontext in völlig unterschiedlichen Stilen wiederzugeben.

Um diese Nuancen zu erfassen, müssen die richtigen Sprecher gefunden werden, um die entsprechenden Trainingsdaten bereitzustellen und die Deep-Learning-Modelle zu optimieren. Laut WellSaid erfordert der Prozess mindestens ein oder zwei Stunden Audio und einige Wochen Arbeit, um eine realistisch klingende synthetische Nachbildung zu entwickeln.

das internet vergisst nie
KH · Ein Kundendienstmitarbeiter von Resemble.ai KH · Ein Resemble.ai-Synchronsprecher im Gesprächsstil

KI-Stimmen erfreuen sich besonders großer Beliebtheit bei Marken, die bei Millionen von Interaktionen mit Kunden einen konsistenten Klang aufrechterhalten möchten. Mit der heutigen Allgegenwart intelligenter Lautsprecher und dem Aufkommen von automatisierten Kundendienstmitarbeitern sowie digitalen Assistenten, die in Autos und intelligente Geräte eingebettet sind, müssen Marken möglicherweise mehr als hundert Stunden Audio pro Monat produzieren. Aber sie wollen auch nicht mehr die generischen Stimmen verwenden, die von der traditionellen Text-to-Speech-Technologie angeboten werden – ein Trend, der sich während der Pandemie beschleunigte, als immer mehr Kunden Interaktionen im Geschäft übersprangen, um virtuell mit Unternehmen in Kontakt zu treten.

Wenn ich Pizza Hut bin, kann ich sicherlich nicht wie Domino's klingen, und ich kann sicherlich nicht wie Papa John's klingen, sagt Rupal Patel, Professor an der Northeastern University und Gründer und CEO von VocaliD, das verspricht, benutzerdefinierte Stimmen zu bauen die zur Markenidentität eines Unternehmens passen. Diese Marken haben sich Gedanken über ihre Farben gemacht. Sie haben über ihre Schriftarten nachgedacht. Jetzt müssen sie auch darüber nachdenken, wie ihre Stimme klingt.

Karen Hao, MIT Tech Review · Ein VocaliD-Werbebeispiel mit männlicher Stimme Karen Hao, MIT Tech Review · Ein VocaliD-Werbebeispiel mit einer weiblichen Stimme

Während Unternehmen früher unterschiedliche Synchronsprecher für verschiedene Märkte einstellen mussten – den Nordosten gegenüber dem Süden der USA oder Frankreich gegenüber Mexiko – können einige Sprach-KI-Firmen den Akzent manipulieren oder die Sprache einer einzelnen Stimme auf unterschiedliche Weise ändern. Dies eröffnet die Möglichkeit, Werbung auf Streaming-Plattformen je nach Zuhörer anzupassen und nicht nur die Charakteristik der Stimme, sondern auch die gesprochenen Worte zu verändern. Eine Bierwerbung könnte einen Zuhörer anweisen, in einem anderen Pub vorbeizuschauen, je nachdem, ob es zum Beispiel in New York oder Toronto spielt. Resemble.ai, das Stimmen für Anzeigen und intelligente Assistenten entwirft, arbeitet nach eigenen Angaben bereits mit Kunden zusammen, um solche personalisierten Audioanzeigen auf Spotify und Pandora zu starten.

Auch die Spiele- und Unterhaltungsindustrie sieht die Vorteile. Sonantic, eine Firma, die sich auf emotionale Stimmen spezialisiert hat, die lachen und weinen oder flüstern und schreien können, arbeitet mit Videospielherstellern und Animationsstudios zusammen, um die Voice-Overs für ihre Charaktere zu liefern. Viele seiner Kunden verwenden die synthetisierten Stimmen nur in der Vorproduktion und wechseln für die Endproduktion zu echten Synchronsprechern. Aber Sonantic sagt, einige haben begonnen, sie während des gesamten Prozesses zu verwenden, vielleicht für Charaktere mit weniger Zeilen. Resemble.ai und andere haben auch mit Film- und Fernsehsendungen zusammengearbeitet, um die Leistung von Schauspielern zu verbessern, wenn Wörter verstümmelt oder falsch ausgesprochen werden.

Aber es gibt Grenzen, wie weit KI gehen kann. Es ist immer noch schwierig, den Realismus einer Stimme über die langen Zeiträume aufrechtzuerhalten, die für ein Hörbuch oder einen Podcast erforderlich sein können. Und es gibt kaum Möglichkeiten, die Leistung einer KI-Stimme auf die gleiche Weise zu steuern, wie ein Regisseur einen menschlichen Darsteller führen kann. Wir befinden uns noch in den Anfängen der synthetischen Sprache, sagt Zohaib Ahmed, der Gründer und CEO von Resemble.ai, und vergleicht sie mit den Tagen, als CGI-Technologie hauptsächlich für Ausbesserungen verwendet wurde, anstatt völlig neue Welten aus Greenscreens zu erschaffen .

Eine menschliche Note

Mit anderen Worten, menschliche Synchronsprecher verschwinden noch nicht. Ausdrucksstarke, kreative und umfangreiche Projekte werden immer noch am besten von Menschen erledigt. Und für jede synthetische Stimme dieser Firmen muss ein Synchronsprecher auch die Original-Trainingsdaten liefern.

Aber einige Schauspieler machen sich zunehmend Sorgen um ihren Lebensunterhalt, sagt ein Sprecher von SAG-AFTRA, der Gewerkschaft, die Synchronsprecher in den USA vertritt. Wenn sie keine Angst davor haben, von KI wegautomatisiert zu werden, haben sie Angst, unfair entlohnt zu werden oder die Kontrolle über ihre Stimmen zu verlieren, die ihre Marke und ihren Ruf ausmachen.

Das ist jetzt die Gegenstand einer Klage gegen TikTok, vorgebracht von der kanadischen Synchronsprecherin Bev Standing, die behauptet, dass die eingebaute Voice-Over-Funktion der App ohne ihre Erlaubnis eine synthetische Kopie ihrer Stimme verwendet. Die Erfahrung von Standing spiegelt auch die von wider Susanne Bennett , die Originalstimme der Amerikanerin Siri, die für ihre ersten Aufnahmen bezahlt wurde, aber nicht für die fortgesetzte Verwendung ihres stimmlichen Ebenbilds auf Millionen von Apple-Geräten.

Einige Unternehmen möchten mehr Verantwortung übernehmen, wenn sie mit der Voice-Acting-Branche interagieren. Die Besten, sagt der Vertreter von SAG-AFTRA, haben sich an die Gewerkschaft gewandt, um herauszufinden, wie Sprecher für ihre Arbeit am besten entlohnt und respektiert werden können.

karen auf spanisch google übersetze
Diese gruseligen falschen Menschen läuten ein neues Zeitalter der KI ein

Benötigen Sie mehr Daten für Deep Learning? Synthetische Datenunternehmen werden es für Sie machen.

Einige verwenden jetzt ein Gewinnbeteiligungsmodell, um Schauspieler jedes Mal zu bezahlen, wenn ein Kunde ihre spezifische synthetische Stimme lizenziert, was einen neuen Strom passiven Einkommens eröffnet hat. Andere beziehen die Schauspieler in den Prozess der Gestaltung ihres KI-Abbilds ein und geben ihnen ein Vetorecht über die Projekte, in denen sie verwendet werden. SAG-AFTRA drängt auch auf Gesetze, um die Schauspieler vor illegitimen Nachbildungen ihrer Stimme zu schützen.

Aber für Patel von VocaliD besteht der Sinn von KI-Stimmen letztendlich nicht darin, die menschliche Leistung zu replizieren oder bestehende Voice-Over-Arbeiten wegzuautomatisieren. Stattdessen wird versprochen, dass sie ganz neue Möglichkeiten eröffnen könnten. Was wäre, wenn in Zukunft synthetische Stimmen verwendet werden könnten, um Online-Bildungsmaterialien schnell an unterschiedliche Zielgruppen anzupassen? Wenn Sie beispielsweise versuchen, eine Gruppe von Kindern in der Innenstadt zu erreichen, wäre es nicht großartig, wenn diese Stimme tatsächlich so klingen würde, als käme sie aus ihrer Gemeinde?

verbergen

Tatsächliche Technologien

Kategorie

Unkategorisiert

Technologie

Biotechnologie

Technologierichtlinie

Klimawandel

Mensch Und Technik

Silicon Valley

Computer

Mit News Magazine

Künstliche Intelligenz

Platz

Intelligente Städte

Blockchain

Reportage

Alumni-Profil

Alumni-Verbindung

Mit News Feature

1865

Meine Sicht

77 Mass Avenue

Treffen Sie Den Autor

Profile In Großzügigkeit

Auf Dem Campus Gesehen

Lerne Den Autor Kennen

Alumni-Briefe

Nicht Kategorisiert

77 Massenallee

Rechnen

Tech-Richtlinie

Lernen Sie Den Autor Kennen

Nachrichten

Wahl 2020

Mit Index

Unter Der Kuppel

Feuerwehrschlauch

Unendliche Geschichten

Pandemie-Technologieprojekt

Vom Präsidenten

Titelstory

Fotogallerie

Empfohlen