Warum Googles KI schöne Songs schreiben kann, aber trotzdem keinen Witz erzählen kann

Jeremy Portje



Nuckelnde Klaviermelodien und endlose Konfigurationen von Katzenzeichnungen mit KI zu erstellen, mag für Google nicht nach einem offensichtlichen Projekt klingen, aber für Douglas Eck macht es sehr viel Sinn.

Eck hat etwa 15 Jahre damit verbracht, KI und Musik zu studieren, und heute ist er Forschungswissenschaftler im Google Brain-Team und leitet Magenta – Googles Open-Source-Forschungsprojekt, das darauf abzielt, Kunst und Musik mit maschinellem Lernen zu machen.





Er sprach mit MIT Technology Review darüber, wie Google neue Sounds mit tiefen neuronalen Netzwerken produziert, wo Magenta KI-Musik übernimmt und warum Computer schlecht darin sind, Witze zu erzählen.

Unten ist ein bearbeiteter Auszug des Interviews. Prämie MIT Technology Review Abonnenten können sich das vollständige Interview anhören.

Die Verwendung von KI zum Erstellen von Kunst ist nicht neu. Was ist also das Einzigartige an Googles Ansatz?



Wir erforschen diese sehr spezifische Richtung, die mit tiefen neuronalen Netzen und rekurrenten neuronalen Netzen und anderen Arten des maschinellen Lernens zu tun hat. Und wir bemühen uns auch sehr, sowohl die künstlerische Gemeinschaft als auch kreative Programmierer und Open-Source-Entwickler gleichzeitig einzubeziehen, also haben wir es zu einem Open-Source-Projekt gemacht.

Viel Magenta konzentriert sich auf Musik. Warum ist KI gut, um Musik zu machen und zu erweitern?

Um ehrlich zu sein, ist es nur eine Voreingenommenheit von mir. Meine gesamte Forschungskarriere drehte sich um Musik und Audio. Ich denke, bei Magenta ging es schon immer um Kunst im Allgemeinen, Geschichtenerzählen, Musik, Erzählung, Bilder und den Versuch zu verstehen, wie man KI als kreatives Werkzeug einsetzt. Aber irgendwo muss man ja anfangen. Und ich denke, wenn Sie ernsthafte Fortschritte bei etwas so Kompliziertem wie Musik und so wichtig für uns wie Musik machen, dann hoffe ich, dass einiges davon auch auf andere Bereiche übertragen wird.

Können wir Musik hören, die mit Magenta gemacht wurde?



Dies ist etwas Musik von einem Modell namens Leistung RNN .

Hören Sie zu und achten Sie einfach auf die Textur und alles dort. Das ist eine Art Musikkomposition, aber gleichzeitig auch eine Musikperformance, denn das Modell erzeugt nicht nur Viertelnoten – es entscheidet, wie schnell sie gespielt werden, wie laut sie gespielt werden, und tatsächlich reproduziert es das, worauf es trainiert wurde, nämlich eine Reihe von Klavierdarbietungen im Rahmen eines Klavierwettbewerbs.

Wie dieses Stück zeigt, ist Musik, die bisher mit Magenta entstanden ist, im Wesentlichen Improvisation. Kann KI verwendet werden, um ein zusammenhängendes Musikstück mit Struktur zu erstellen?

supermassives Schwarzes Loch

Daran arbeiten wir. Eine der wichtigsten zukünftigen Forschungsrichtungen für uns und offen gesagt für das gesamte Feld der generativen Modelle – damit meine ich Modelle für maschinelles Lernen, die versuchen können, etwas Neues zu generieren – ist das Lernen von Strukturen. Und das zeigt sich hier in der Musik. Sie hören, dass es kein übergreifendes Modell gibt, das entscheidet, wohin die Dinge gehen sollen.

Wenn wir ihm Akkordwechsel geben wollten, sogar die Symbole des Akkordwechsels, und kontextuell lernen würden, wie man diese Akkordwechsel ausnutzt, könnten wir das tun. Wir könnten sogar ein separates Modell haben, das Akkordwechsel erzeugt. Unser Ziel ist es, dieses End-to-End-Modell zu entwickeln, das alle diese Strukturebenen selbst herausfindet.

Erzähl mir von Sketch-RNN , ein aktuelles Magenta-Experiment, mit dem Sie zeichnen mit einem wiederkehrenden neuronalen Netzwerk – im Grunde fangen Sie an, eine Ananas zu zeichnen, und dann übernimmt Sketch-RNN und vervollständigt sie immer wieder in vielen verschiedenen Stilen.

Wir konnten eine Reihe von Zeichnungen verwenden, die von Leuten erstellt wurden, die Pictionary gegen einen maschinellen Lernalgorithmus spielten – dies waren [Daten aus einem anderen Google-KI-Zeichenexperiment, das von Google Creative Lab erstellt wurde] Schnelle Zeichnung!

Den Daten sind Grenzen gesetzt. Es gibt nur so viel, was Sie aus diesen winzigen 20-Sekunden-Zeichnungen herausholen können. Aber ich denke, die Arbeit des Hauptforschers von [Sketch-RNN], David Ha, war wirklich schön. Er trainierte im Grunde ein rekurrentes neuronales Netzwerk, um zu lernen, wie man diese Zeichnungen reproduziert. Er hat das Modell gewissermaßen gezwungen, zu lernen, was wichtig ist. Das Modell war nicht leistungsfähig genug, um sich die gesamte Zeichnung zu merken. Da es sich nicht alle Striche merken kann, die es sieht, seine Aufgabe nur darin besteht, viele Katzen oder was auch immer zu reproduzieren, muss es lernen, was über Katzen wichtig ist – was sind die gemeinsamen Aspekte von Katzenzeichnungen in Millionen von Katzenzeichnungen? Wenn Sie also mit diesem Modell spielen, können Sie es bitten, neue Katzen aus dem Nichts zu erzeugen. Es erzeugt wirklich interessant aussehende Katzen, die meiner Meinung nach auf unheimliche Weise so aussehen, wie Menschen Katzen zeichnen würden.

TensorFlow

Ich habe gelesen, dass Sie mit Magenta zusammenarbeiten, um Computern das Erzählen von Witzen beizubringen. Welche Witze machen Computer? (Das war nicht die erste Zeile eines Witzes.)

Das Projekt war sehr vorläufig, sehr explorativ und stellte die Frage: Können wir die Überraschungskomponente des Witzerzählens verstehen? Besonders pointenbezogene Witze und Wortspiele, es gibt eindeutig einen Punkt, an dem alles normal abläuft, ich glaube, ich weiß, was mit diesem Satz los ist, und dann, boom! Richtig? Und ich denke auch, dass die Pointe intuitiv eine Geometrie hat. Es ist überraschend, wenn das Gebäude auf dem Kopf zusammenbricht; [eine Pointe ist] nicht so überraschend. Es ist wie, oh, richtig, ich verstehe! Du weisst? Und dieses Gefühl, dass ich es verstehe, ist, glaube ich, eine Art Rückzieher, den man machen muss, um es zu bekommen. Wir haben uns also bestimmte Arten von maschinellen Lernmodellen angesehen, die diese Dinge erzeugen können, die als Wahrheitsvektoren bezeichnet werden und versuchen zu verstehen, was semantisch in einem Satz passiert, und können wir diese dann aktiv manipulieren, um einen anderen Effekt zu erzielen?

Und die Art von Witz, von der wir hörten, war … Die Zauberin war so wütend, dass sie ihren Hasen herauszog. Und das Wortspiel von Hase und Haar und Kaninchen – du verstehst es, oder?

Ja. Aber man muss viel über Wörter und Sprache wissen, um sie zu verstehen.

Ja, man muss viel wissen. Dieses Modell hat nicht nur keine Witze erzählt, ob lustig oder nicht, sondern wir haben den Code auch nicht zum Konvergieren gebracht.

Was versuchen Sie gerade mit Magenta herauszufinden?

Der Versuch, mehr über die langfristige Struktur von Musik zu verstehen und auch zu versuchen, sich einer anderen interessanten Frage zu widmen, nämlich: Können wir aus dem Feedback lernen, nicht von einem Künstler, sondern von einem Publikum?

Dies betrachtet den künstlerischen Prozess als eine Art Iteration. Die Beatles hatten 12 Alben und jedes davon war anders. Und sie alle zeigten, dass diese Musiker aus dem Feedback lernen, das sie von Kollegen und vom Publikum bekommen, aber auch aus anderen Dingen, die mit anderen Künstlern passieren. Sie sind wirklich mit der Kultur verbunden. Künstler sind nicht statisch.

Und diese sehr einfache Idee: Kann jemand etwas mit einem generativen Modell machen, es veröffentlichen, aber dann das Feedback nutzen, das er bekommt? Oh, das war gut, das war schlecht. Aus diesem Feedback, das wir bekommen, kann der Künstler in gewisser Weise daraus lernen, aber vielleicht kann auch das maschinelle Lernmodell daraus lernen und sagen: Oh, ich verstehe, hier sind alle Leute und hier ist, was sie über was denken Ich mache, und ich habe diese Parameter. Und wir können diese Parameter gegenüber dem Feedback einstellen, indem wir Reinforcement Learning verwenden, und daran arbeiten wir auch.

Wenn ich Musik höre, die mit Magenta erstellt wurde, frage ich mich: Wenn Sie Daten verwenden, um künstliche Intelligenz zu trainieren, kann die KI dann etwas wirklich Originelles erschaffen, oder wird es nur eine Ableitung dessen sein, worauf sie trainiert wurde, ob das nun Madonna-Songs sind oder? impressionistische Gemälde oder beides?

Ich denke, es kommt darauf an, was wir unter Original verstehen. Ich halte es für unwahrscheinlich, dass ein Algorithmus für maschinelles Lernen auftaucht und eine transformative neue Art der Kunstgestaltung hervorbringt. Ich denke, eine Person, die mit dieser Technologie arbeitet, könnte das tun. Und ich denke, wir sind so weit davon entfernt, dass diese KI ein Gefühl dafür hat, wie die Welt wirklich ist. Als wäre es einfach so, so weit weg. Gleichzeitig denke ich, dass viel Kunst in einem anderen Sinne originell ist. Ich mache zum Beispiel noch einen coolen EDM-Song mit dem Drop an der richtigen Stelle, das macht Spaß zu tanzen und ist neu, aber vielleicht nicht so, als würde ich ein komplett neues Genre schaffen. Und ich denke, diese Art von Kreativität ist sowieso sehr interessant. Dass im Großen und Ganzen das meiste von dem, was wir tun, in einem Genre sitzt, das wir irgendwie verstehen, und wir probieren neue Dinge aus, und diese Art von Kreativität, von der ich denke, dass die KI, die wir jetzt haben, eine große Rolle spielen kann. Es geht nicht um die Reproduktion der Datensatz, richtig? Es vermischt die Dinge.

verbergen

Tatsächliche Technologien

Kategorie

Unkategorisiert

Technologie

Biotechnologie

Technologierichtlinie

Klimawandel

Mensch Und Technik

Silicon Valley

Computer

Mit News Magazine

Künstliche Intelligenz

Platz

Intelligente Städte

Blockchain

Reportage

Alumni-Profil

Alumni-Verbindung

Mit News Feature

1865

Meine Sicht

77 Mass Avenue

Treffen Sie Den Autor

Profile In Großzügigkeit

Auf Dem Campus Gesehen

Alumni-Briefe

Nachrichten

Wahl 2020

Mit Index

Unter Der Kuppel

Feuerwehrschlauch

Unendliche Geschichten

Pandemie-Technologieprojekt

Vom Präsidenten

Titelstory

Fotogallerie

Empfohlen