Eine neue Methode zum Aufbau winziger neuronaler Netze könnte eine leistungsstarke KI auf Ihrem Telefon schaffen

FRAU. TECHNIKFrau Tech

Neuronale Netze sind die Kernsoftware des Deep Learning. Obwohl sie so weit verbreitet sind, werden sie wirklich kaum verstanden. Forscher haben ihre emergenten Eigenschaften beobachtet, ohne sie wirklich zu verstehen warum Sie funktionieren so, wie sie es tun.

Jetzt ein neues Papier aus dem MIT hat einen großen Schritt zur Beantwortung dieser Frage getan. Und dabei haben die Forscher eine einfache, aber dramatische Entdeckung gemacht: Wir verwenden neuronale Netze, die viel größer sind, als wir eigentlich brauchen. In einigen Fällen sind sie 10- oder sogar 100-mal größer, sodass uns ihr Training um Größenordnungen mehr Zeit und Rechenleistung als nötig kostet.



Anders ausgedrückt, in jedem neuronalen Netzwerk existiert ein viel kleineres Netzwerk, das darauf trainiert werden kann, die gleiche Leistung wie sein übergroßes Elternteil zu erreichen. Das sind nicht nur aufregende Neuigkeiten für KI-Forscher. Die Entdeckung hat das Potenzial, neue Anwendungen zu erschließen – von denen wir einige noch nicht ergründen können – die unser tägliches Leben verbessern könnten. Dazu später mehr.

Aber lassen Sie uns zuerst in die Funktionsweise neuronaler Netzwerke eintauchen, um zu verstehen, warum dies möglich ist.

Ein Bild eines neuronalen Netzwerkdesigns.

Ein Diagramm eines neuronalen Netzwerks, das lernt, einen Löwen zu erkennen. JEFF CLUNE/SCREENSHOT

Das beste Alter zum Sterben ist 75

Wie neuronale Netze funktionieren

Möglicherweise haben Sie neuronale Netzwerke gesehen, die in Diagrammen wie dem obigen dargestellt sind: Sie bestehen aus gestapelten Schichten einfacher Rechenknoten, die miteinander verbunden sind, um Muster in Daten zu berechnen.

Was zählt, sind die Verbindungen. Bevor ein neuronales Netz trainiert wird, werden diesen Verbindungen Zufallswerte zwischen 0 und 1 zugewiesen, die ihre Intensität repräsentieren. (Dies wird als Initialisierungsprozess bezeichnet.) Während des Trainings, wenn das Netzwerk mit einer Reihe von, sagen wir, Tierfotos gefüttert wird, optimiert es diese Intensitäten und stimmt sie ab – ähnlich wie Ihr Gehirn verschiedene Neuronenverbindungen stärkt oder schwächt, wenn Sie Erfahrung sammeln und Wissen. Nach dem Training werden die endgültigen Verbindungsintensitäten dann auf Dauer verwendet, um Tiere auf neuen Fotos zu erkennen.

Während die Mechanik neuronaler Netze gut verstanden ist, ist der Grund, warum sie so funktionieren, ein Rätsel geblieben. Durch viele Experimente haben Forscher jedoch zwei Eigenschaften neuronaler Netze beobachtet, die sich als nützlich erwiesen haben.

Beobachtung Nr. 1. Wenn ein Netzwerk vor dem Trainingsprozess initialisiert wird, besteht immer eine gewisse Wahrscheinlichkeit, dass die zufällig zugewiesenen Verbindungsstärken in einer nicht trainierbaren Konfiguration enden. Mit anderen Worten, egal wie viele Tierfotos Sie dem neuronalen Netzwerk zuführen, es wird keine anständige Leistung erzielen, und Sie müssen es nur auf eine neue Konfiguration neu initialisieren. Je größer das Netzwerk ist (je mehr Schichten und Knoten es hat), desto unwahrscheinlicher ist das. Während ein winziges neuronales Netzwerk möglicherweise nur in einer von fünf Initialisierungen trainierbar ist, kann ein größeres Netzwerk in vier von fünf Initialisierungen trainierbar sein. Wieder, warum Dass dies passiert, war ein Rätsel, aber deshalb verwenden Forscher normalerweise sehr große Netzwerke für ihre Deep-Learning-Aufgaben. Sie wollen ihre Chancen auf ein erfolgreiches Modell erhöhen.

Beobachtung Nr. 2. Die Folge ist, dass ein neuronales Netz meist größer anfängt, als es sein muss. Nach dem Training bleibt normalerweise nur ein Bruchteil seiner Verbindungen stark, während die anderen ziemlich schwach werden – so schwach, dass Sie sie tatsächlich löschen oder beschneiden können, ohne die Leistung des Netzwerks zu beeinträchtigen.

Seit vielen Jahren nutzen Forscher diese zweite Beobachtung, um ihre Netzwerke zu verkleinern nach Training, um den Zeit- und Rechenaufwand für deren Ausführung zu senken. Aber niemand hielt es für möglich, seine Netzwerke zu verkleinern Vor Ausbildung. Es wurde davon ausgegangen, dass man mit einem überdimensionierten Netzwerk starten muss und der Trainingsprozess seinen Lauf nehmen muss, um die relevanten Verbindungen von den irrelevanten zu trennen.

Jonathan Frankle, der MIT-Doktorand, der das Papier mitverfasst hat, stellte diese Annahme in Frage. Wenn Sie viel weniger Verbindungen benötigen als zu Beginn, warum können wir nicht einfach das kleinere Netzwerk ohne die zusätzlichen Verbindungen trainieren? Es stellt sich heraus, dass Sie es können.

Michael Carbin und Jonathan Frankle, die Autoren der Zeitung, posieren auf einer Treppe.

Michael Carbin (links) und Jonathan Frankle (rechts), die Autoren des Papiers. Jason Dorfman, MIT CSAIL

Die Lottoschein-Hypothese

Die Entdeckung hängt von der Realität ab, dass die zufälligen Verbindungsstärken, die während der Initialisierung zugewiesen werden, in ihren Folgen tatsächlich nicht zufällig sind: Sie prädisponieren verschiedene Teile des Netzwerks dazu, zu scheitern oder erfolgreich zu sein, bevor das Training überhaupt stattfindet. Anders ausgedrückt beeinflusst die anfängliche Konfiguration, welche endgültige Konfiguration das Netzwerk erreichen wird.

Indem sie sich auf diese Idee konzentrierten, stellten die Forscher fest, dass Sie, wenn Sie ein übergroßes Netzwerk nach dem Training beschneiden, das resultierende kleinere Netzwerk tatsächlich wiederverwenden können, um mit neuen Daten zu trainieren und die hohe Leistung zu erhalten – solange Sie jede Verbindung innerhalb dieses verkleinerten Netzwerks auf zurücksetzen seine Anfangsstärke.

Ausgehend von dieser Erkenntnis schlagen Frankle und sein Co-Autor Michael Carbin, ein Assistenzprofessor am MIT, vor, was sie die Lottoschein-Hypothese nennen. Wenn Sie die Verbindungsstärken eines neuronalen Netzwerks zufällig initialisieren, ist das fast so, als würden Sie eine Tüte Lottoscheine kaufen. In Ihrer Tasche, so hoffen Sie, befindet sich ein Gewinnerticket – d. h. eine anfängliche Konfiguration, die leicht zu trainieren ist und zu einem erfolgreichen Modell führt.

Dies erklärt auch, warum Beobachtung Nr. 1 zutrifft. Mit einem größeren Netzwerk zu beginnen, ist wie der Kauf von mehr Lottoscheinen. Sie erhöhen nicht die Menge an Energie, die Sie auf Ihr Deep-Learning-Problem werfen; Sie erhöhen einfach die Wahrscheinlichkeit, dass Sie eine erfolgreiche Konfiguration haben. Sobald Sie die Gewinnerkonfiguration gefunden haben, sollten Sie sie immer wieder verwenden können, anstatt weiterhin die Lotterie zu wiederholen.

Nächste Schritte

Dies wirft viele Fragen auf. Erstens, wie finden Sie das Gewinnlos? In ihrer Arbeit verfolgten Frankle und Carbin einen Brute-Force-Ansatz, indem sie ein übergroßes Netzwerk mit einem Datensatz trainierten und beschnitten, um das Gewinnticket für einen anderen Datensatz zu extrahieren. Theoretisch sollte es viel effizientere Wege geben, von Anfang an eine erfolgreiche Konfiguration zu finden oder sogar zu entwerfen.

Zweitens, was sind die Trainingsgrenzen einer erfolgreichen Konfiguration? Vermutlich würden unterschiedliche Arten von Daten und unterschiedliche Deep-Learning-Aufgaben unterschiedliche Konfigurationen erfordern.

wann wurde das erste computerspiel erfunden

Drittens, was ist das kleinstmögliche neuronale Netzwerk, mit dem Sie durchkommen und dennoch eine hohe Leistung erzielen können? Frankle stellte fest, dass er durch einen iterativen Trainings- und Beschneidungsprozess in der Lage war, das Ausgangsnetzwerk konsequent auf 10 % bis 20 % seiner ursprünglichen Größe zu reduzieren. Aber er glaubt, dass es eine Chance gibt, dass es noch kleiner wird.

Viele Forschungsteams innerhalb der KI-Community haben bereits begonnen, Folgearbeiten durchzuführen. Ein Forscher in Princeton vor kurzem neckte die Ergebnisse eines bevorstehenden Papiers, das sich mit der zweiten Frage befasst. Ein Team von Uber veröffentlichte auch eine neues Papier auf mehreren Experimenten, die die Natur der metaphorischen Lottoscheine untersuchten. Am überraschendsten war, dass sie herausfanden, dass, sobald eine erfolgreiche Konfiguration gefunden wurde, diese bereits eine deutlich bessere Leistung erzielt als das ursprüngliche untrainierte übergroße Netzwerk Vor jegliche Ausbildung. Mit anderen Worten, das Beschneiden eines Netzwerks zum Extrahieren einer erfolgreichen Konfiguration ist selbst eine wichtige Trainingsmethode.

Nirvana des neuronalen Netzwerks

Frankle stellt sich eine Zukunft vor, in der die Forschungsgemeinschaft über eine Open-Source-Datenbank mit all den verschiedenen Konfigurationen verfügen wird, die sie gefunden haben, mit Beschreibungen für die Aufgaben, für die sie gut sind. Er nennt dieses neuronale Netzwerk scherzhaft Nirvana. Er glaubt, dass es die KI-Forschung dramatisch beschleunigen und demokratisieren würde, indem es die Kosten und die Geschwindigkeit des Trainings senkt und es Menschen ohne riesige Datenserver ermöglicht, diese Arbeit direkt auf kleinen Laptops oder sogar Mobiltelefonen zu erledigen.

Es könnte auch die Natur von KI-Anwendungen verändern. Wenn Sie ein neuronales Netz lokal auf einem Gerät statt in der Cloud trainieren können, können Sie die Geschwindigkeit des Trainingsprozesses und die Sicherheit der Daten verbessern. Stellen Sie sich zum Beispiel ein auf maschinellem Lernen basierendes medizinisches Gerät vor, das sich durch den Gebrauch selbst verbessern könnte, ohne Patientendaten an die Server von Google oder Amazon senden zu müssen.

Wir stoßen ständig an den Rand dessen, was wir trainieren können, sagt Jason Yosinski, ein Gründungsmitglied von Uber AI Labs, der das Uber-Folgepapier mitverfasst hat, und meint damit die größten Netzwerke, die auf eine GPU passen, oder die längsten, die wir können warten, bevor wir ein Ergebnis zurückbekommen. Wenn die Forscher herausfinden könnten, wie man von Anfang an erfolgreiche Konfigurationen identifiziert, würde dies die Größe neuronaler Netze um den Faktor 10 oder sogar 100 reduzieren. Die Obergrenze der Möglichkeiten würde dramatisch steigen und eine neue Welt potenzieller Anwendungen eröffnen.

verbergen

Tatsächliche Technologien

Kategorie

Unkategorisiert

Technologie

Biotechnologie

Technologierichtlinie

Klimawandel

Mensch Und Technik

Silicon Valley

Computer

Mit News Magazine

Künstliche Intelligenz

Platz

Intelligente Städte

Blockchain

Reportage

Alumni-Profil

Alumni-Verbindung

Mit News Feature

1865

Meine Sicht

77 Mass Avenue

Treffen Sie Den Autor

Profile In Großzügigkeit

Auf Dem Campus Gesehen

Lerne Den Autor Kennen

Alumni-Briefe

Nicht Kategorisiert

77 Massenallee

Rechnen

Tech-Richtlinie

Lernen Sie Den Autor Kennen

Nachrichten

Wahl 2020

Mit Index

Unter Der Kuppel

Feuerwehrschlauch

Unendliche Geschichten

Pandemie-Technologieprojekt

Vom Präsidenten

Titelstory

Fotogallerie

Empfohlen