Die Netflix-Challenge im Wert von 1 Million US-Dollar

Anfang dieser Woche gab Netflix, der Online-Filmverleihdienst, die Verleihung bekannt 1 Million US-Dollar an jeden, der einen Algorithmus entwickeln kann, der die Genauigkeit seines Filmempfehlungsdienstes verbessert.

Das Sternebewertungssystem von Netflix hilft bei der Ermittlung personalisierter Filmempfehlungen. Jetzt sucht das Unternehmen externe Entwickler, um diese Empfehlungen zu verbessern.

Damit ruft das Unternehmen Forscher an, die sich auf maschinelles Lernen spezialisiert haben – die Art von künstlicher Intelligenz, die zum Bau von Systemen verwendet wird, die Musik, Bücher und Filme empfehlen. Den Preis gewinnt der Teilnehmer, der die Genauigkeit des Cinematch genannten Netflix-Empfehlungssystems bis 2011 um 10 Prozent steigern kann.



Empfehlungssysteme, wie sie von Netflix, Amazon und anderen Web-Händlern verwendet werden, basieren auf dem Prinzip, dass zwei Personen, die dasselbe Produkt mögen, wahrscheinlich auch andere Favoriten gemeinsam haben.

Aber hinter dieser einfachen Prämisse steckt ein komplexer Algorithmus, der Millionen von Benutzerbewertungen, Zehntausende von Elementen und sich ständig ändernde Beziehungen zwischen Benutzerpräferenzen einbezieht.

Um dieser Komplexität gerecht zu werden, werden Algorithmen für Empfehlungssysteme auf riesigen Datensätzen trainiert. Ein im Netflix-System verwendeter Datensatz enthält die Sternebewertungen – eins bis fünf –, die Netflix-Kunden Filmen zuordnen. Anhand dieser ersten Informationen können gute Algorithmen zukünftige Einschaltquoten vorhersagen und daher andere Filme vorschlagen, die einer Person gefallen könnten.

Raumschiff verlässt Sonnensystem

Da der Zugriff auf einen solchen Datensatz entscheidend für die Verbesserung der Qualität seiner Empfehlungssysteme ist, hat das Unternehmen laut Jim Bennett, Vice President of Recommendation Systems bei Netflix, auch 100 Millionen Empfehlungen veröffentlicht – ohne jegliche persönliche Identifizierungsinformationen.

Wir haben diese Woche mit Bennett über die Funktionsweise von Empfehlungssystemen gesprochen – und über die Herausforderungen beim Aufbau eines besseren.

Technologie-Review: Bevor Sie ein besseres Empfehlungssystem aufbauen, ist es hilfreich, Ihren aktuellen Ansatz zu verstehen. Wie funktioniert Cinematch?

Jim Bennett: Zunächst sammelst du 100 Millionen Nutzerbewertungen für etwa 18.000 Filme. Nimm zwei beliebige Filme und finde die Leute, die beide bewertet haben. Schauen Sie dann, ob die Leute, die einen der Filme hoch bewerten, den anderen hoch bewerten, ob ihnen der eine und der andere nicht gefallen hat oder ob ihnen einer der Filme nicht gefallen hat. Anhand ihrer Bewertungen erkennt Cinematch, ob es einen Zusammenhang zwischen diesen Personen gibt. Tun Sie dies nun für alle möglichen Paare von 65.000 Filmen.

TR: Daher würde Cinematch mir Filme empfehlen, basierend auf den Bewertungen von Leuten, die Filme so bewertet haben, wie ich es getan habe. Funktioniert diese Methode für alle Filme bei Netflix?

JB: Viele der wirklich obskuren Discs, zum Beispiel die How to Mow a Lawn DVDs, haben nicht viele Bewertungen und diese Methode funktioniert nicht so gut. Bei Filmen mit vielen Bewertungen schneiden Sie im Wesentlichen gut ab. Aber damit es funktioniert, muss viel Daten-Tuning durchgeführt werden, da die Leute manchmal interessante Bewertungsmuster haben können.

TR: Wie was?

JB: Es gibt zum Beispiel viele Leute, die einen Film mit nur einem Stern oder fünf Sternen bewerten. Und es gibt Leute, die einfach alles mit drei Sternen bewerten. Was Sie suchen, ist eine interessante Verbreitung von Meinungen, weil Sie versuchen, Korrelationen zu erfassen. Das ist der Kern des Motors.

TR: Wie messen Sie die Genauigkeit Ihres Systems quantitativ?

JB: Wir haben Cinematch mit 100 Millionen Einschaltquoten trainiert und gebeten, vorherzusagen, was die anderen 3 Millionen sein würden. Wir haben unsere mit den tatsächlichen Antworten verglichen. Das tun wir jeden Tag. Wir erhalten etwa 2 Millionen Bewertungen pro Tag und verfolgen die täglichen Schwankungen des Systems. Wir erwarten, die Einreichungen für den Wettbewerb [auf die gleiche Weise] zu messen. Der tatsächliche Preisdatensatz umfasst 103 Millionen Bewertungen, von denen wir jedoch nur 100 Millionen veröffentlicht haben.

TR: Um den Preis von 1 Million US-Dollar zu gewinnen, muss ein neuer Algorithmus die Genauigkeit der Empfehlungen gegenüber Cinematch um 10 Prozent verbessern. Außerdem erhalten Sie jedes Jahr einen Fortschrittspreis von 50.000 US-Dollar für den Algorithmus, der die größte Verbesserung gegenüber dem besten Algorithmus des Vorjahres zeigt, um mindestens 1 Prozent. Was bedeuten diese prozentualen Verbesserungen für einen Netflix-Kunden?

JB: Wenn Sie auf die Website gehen und 100 Filme für uns bewerten, sind die roten Sterne unter jedem Film für Sie personalisiert. Wir verwenden diese Bewertungen, um die Vorhersage nach Ihrem Geschmack von der durchschnittlichen Empfehlung abzuweichen. Ein Unterschied von drei Prozent kann beispielsweise einen Unterschied von einem Viertel der Sterne ausmachen. Wir haben Millionen von Menschen, die Millionen von DVDs bewerten, und diese Viertel-Sterne-Differenz hilft uns, die Liste zu sortieren. Die einzelnen Filmempfehlungen werden vielleicht nicht so viel besser, aber insgesamt ist die Reihe der empfohlenen Filme sehr unterschiedlich. Bewegen Sie ein Schlachtschiff ein wenig, und es macht einen großen Unterschied.

TR: Warum sind Empfehlungssysteme so schwer zu verbessern?

JB: Einer der Gründe ist, dass es keine Datensätze gibt. Viele der Anwendungen für maschinelles Lernen erfordern ziemlich umfangreiche Datensätze, die leicht Millionen von Datenpunkten enthalten. Es gibt viele verschiedene Ansätze zur Lösung des Problems, die jedoch alle große Datensätze benötigen. Und wie bei vielen Datensätzen gibt es keinen Ort mehr, an den wir uns wenden können, sobald wir die Techniken auf diese Datensätze angewendet haben.

TR: Sie suchen also einen Algorithmus, der das Problem ganz anders angeht als Cinematch?

JB: Richtig. Soweit wir wissen, gibt es viele gute Ideen in der Praxis. Wir können sie einfach nicht alle testen. Wir wissen, dass es Leute gibt, die sich in der Literatur wirklich gut auskennen, die sich mit [Empfehlungssystemen] auskennen, und wir würden wirklich gerne wissen, welche besser wären.

TR: Welche in der Literatur diskutierten Ansätze könnten funktionieren, wurden aber noch nicht mit Filmempfehlungen getestet?

JB: Es ist schwer zu sagen. Es gab einen Artikel in Wissenschaft vor einigen Monaten [28. Juli 2006], das eine interessante Kombination aus zwei Arten von neuronalen Netzen verwendete [eine Computermethode, die Daten ähnlich wie das menschliche Gehirn sortiert]. Ein neuronales Netz überwacht das maschinelle Lernen und das andere steuert dieses Lernen. Bei Netflix betrachten wir Korrelationen zwischen Bewertungen, und das ist ein lineares Modell. Nicht jedes Wissen kann durch eine lineare Kombination von Merkmalen dargestellt werden. Dieses besondere Modell in Wissenschaft verwendet einen nichtlinearen Ansatz. Ich denke, diese Technik könnte ganz gut sein.

TR: Gibt es andere dringende technische Herausforderungen bei Netflix, die durch die Vergabe eines Preises gelöst werden könnten?

Indien schaltet das Internet ab

JB: Auf weitere Wettbewerbe möchte ich nicht spekulieren. Gibt es weitere technische Herausforderungen? Absolut. Abgesehen von der Herausforderung des Systems, die Empfehlungs-Engines bei einem wachsenden Kundenstamm am Laufen zu halten, haben wir auch eine Vielzahl von Herausforderungen innerhalb des Unternehmens – wie der Versuch, täglich zwei Millionen Discs an Menschen zu versenden. Und es stehen interessante Herausforderungen bevor, während wir uns auf die Download-Welt vorbereiten [in der Leute Filme über das Internet herunterladen können]. Das Unternehmen steckt voller enormer Herausforderungen.

verbergen

Tatsächliche Technologien

Kategorie

Unkategorisiert

Technologie

Biotechnologie

Technologierichtlinie

Klimawandel

Mensch Und Technik

Silicon Valley

Computer

Mit News Magazine

Künstliche Intelligenz

Platz

Intelligente Städte

Blockchain

Reportage

Alumni-Profil

Alumni-Verbindung

Mit News Feature

1865

Meine Sicht

77 Mass Avenue

Treffen Sie Den Autor

Profile In Großzügigkeit

Auf Dem Campus Gesehen

Lerne Den Autor Kennen

Alumni-Briefe

Nicht Kategorisiert

77 Massenallee

Rechnen

Tech-Richtlinie

Lernen Sie Den Autor Kennen

Nachrichten

Wahl 2020

Mit Index

Unter Der Kuppel

Feuerwehrschlauch

Unendliche Geschichten

Pandemie-Technologieprojekt

Vom Präsidenten

Titelstory

Fotogallerie

Empfohlen