Videosuche nach Sicht und Skript

Die Übernahme von YouTube.com durch Google in dieser Woche hat die Hoffnung geweckt, dass sich die Suche nach Videos verbessern wird. Laut der Website werden täglich mehr als 65.000 Videos auf YouTube hochgeladen. Bei all diesen Inhalten kann es schwierig sein, den richtigen Clip zu finden.

Jetzt haben Forscher ein System entwickelt, das eine Kombination aus Gesichtserkennung, Untertitelungsinformationen und Original-Fernsehskripten verwendet, um die Gesichter, die auf dem Bildschirm erscheinen, automatisch zu benennen und Episoden der Fernsehsendung zu erstellen Buffy die Vampirjägerin durchsuchbar.

Wir sehen diese Arbeit im Grunde als einen der ersten Schritte, um automatisierte Beschreibungen dessen zu erhalten, was in einem Video passiert, sagt Mark Everingham , heute Informatiker an der University of Leeds (ehemals University of Oxford), der seine Forschung im September auf der British Machine Vision Conference präsentierte.



gruselige Interaktion aus der Ferne

Derzeit werden Videosuchen angeboten von AOL-Video , Google , und Youtube durchsuchen nicht den Inhalt eines Videos selbst, sondern verlassen sich hauptsächlich auf Metadaten oder Textbeschreibungen, die von Benutzern geschrieben wurden, um einen durchsuchbaren Index von webbasierten Medieninhalten zu entwickeln.

Benutzer laden häufig (und illegal) Teile ihrer Lieblings-Sitcoms auf Video-Sharing-Sites wie YouTube hoch. Zum Beispiel eine kürzliche Suche nach Buffy the Vampire Slayer Auf YouTube tauchten fast 2.000 Clips auf, von denen viele tausende Male aufgerufen wurden. Die meisten dieser Clips sind weniger als fünf Minuten lang und die Beschreibungen sind vage. Eine mit dem Titel Ein neuer Tag ist gekommen zum Beispiel wird von einem Benutzer so beschrieben: Sie enthält hauptsächlich Buffy und Spike. Es zeigt, wie Spike für Buffy da war, bis er starb und sie sich danach allein fühlte.

Everingham sagt, dass frühere Arbeiten in der Videosuche Daten aus Untertiteln verwendet haben, um Videos zu finden, aber er ist sich nicht bewusst, dass jemand seine Methode verwendet, die – in der technischen Tour de Force – Untertitel und Skriptanmerkungen kombiniert. Das Skript sagt Ihnen, was gesagt wird und wer es gesagt hat, und Untertitel sagen Ihnen, wann etwas gesagt wird, erklärt er. Die Software von Everingham kombiniert diese beiden Informationsquellen mit leistungsstarken Tools, die zuvor entwickelt wurden, um Gesichter zu verfolgen und Sprecher zu identifizieren, ohne dass Benutzereingaben erforderlich sind.

Was hat die Buffy Eine solche Herausforderung besteht laut Everingham darin, dass in Film und Fernsehen nicht immer die Person im Mittelpunkt steht. Der Star, Buffy, kann zum Beispiel außerhalb des Bildschirms sprechen oder von der Kamera abgewandt sein, und die Kamera zeigt Ihnen die Reaktionen des Zuhörers. In anderen Fällen können mehrere Schauspieler auf dem Bildschirm sein oder das Gesicht des Schauspielers ist nicht direkt in die Kamera gerichtet. All diese Mehrdeutigkeiten sind für Menschen leicht zu interpretieren, für Computer jedoch schwierig – zumindest bis jetzt. Everingham sagt, dass sein multimodales System bis zu 80 Prozent der Zeit genau ist.

Könntest du auf Jupiter gehen?

Eine einzelne Folge von Buffy kann bis zu 20.000 Instanzen von erkannten Gesichtern enthalten, aber die meisten dieser Instanzen entstehen aus mehreren Bildern eines einzelnen Charakters in einer bestimmten Aufnahme. Die Software verfolgt wichtige Orientierungspunkte auf den Gesichtern des Schauspielers – zum Beispiel Nasenlöcher, Pupillen und Augen – und wenn sich eines von ihnen mit dem nächsten Bild überschneidet, werden die beiden Gesichter als Teil einer einzigen Spur betrachtet. Wenn diese Orientierungspunkte jedoch unklar sind, verwendet die Software eine Beschreibung der Kleidung, um zwei gebrochene Gesichtsspuren zu vereinen. Schließlich beobachtet die Software auch die Lippen der Schauspieler, um zu erkennen, wer spricht oder ob der Sprecher nicht auf dem Bildschirm ist. Letztendlich erzeugt das System eine detaillierte, Play-by-Play-Anmerkung des Videos.

Die allgemeine Idee ist, dass Sie mehr Informationen erhalten möchten, ohne dass sie von anderen erfasst werden, sagt Alex Berg von der Gruppe für Computer Vision an der University of California, Berkeley. Wenn Sie eine bestimmte Szene mit einem Charakter finden möchten, müssen Sie zuerst die Szenen finden, die diesen Charakter enthalten. Er sagt, dass Everinghams Forschung den Weg für komplexere Recherchen nach Fernsehprogrammen ebnen wird.

Informatiker Josef Sivic bei Oxford Gruppe Visuelle Geometrie , die dazu beigetragen haben Buffy Project, sagt, dass es in Zukunft möglich sein wird, nach hochrangigen Konzepten wie Buffy und Spike zu suchen, die Hand in Hand auf die Kamera zugehen, oder nach allen Outdoor-Szenen, die Buffy enthalten.

Timothy Tuttle, Vice President von AOL Video, sagt: Es scheint, als würden in den nächsten fünf bis zehn Jahren immer mehr Leute wählen, was sie sich nach ihrem eigenen Zeitplan ansehen möchten, und sie werden Inhalte nach Bedarf ansehen. Er weist auch darauf hin, dass die Barriere für die Anpassung von Technologien wie der von Everingham möglicherweise nicht mehr technisch, sondern legal ist.

Diese rechtlichen Barrieren sind bei Printmedien weggefallen, weil Unternehmen die finanziellen Vorteile durchsuchbarer Inhalte geerntet haben – Googles Book Scan und Amazons Suchprogrammen haben sich gezeigt, dass sie Buchverkauf in den letzten zwei Jahren ankurbeln .

erwartete Lebensdauer des Universums

Es ist jedoch unklar, ob ein durchsuchbares Video den DVD-Verkauf auf dieselbe Weise steigern kann. Derzeit bietet Google Teaser von Premium-Videoinhalten an, sagt der wissenschaftliche Mitarbeiter Michele Covell. Für bestimmte Genres wie Sportvideos wird es einfacher, einen Teaser-Clip auszuwählen, der die Leute zum Kauf des Videos anregt, sagt sie.

Shumeet Baluja, wissenschaftlicher Mitarbeiter bei Google, stimmt zu, dass das Kommentieren von Videos über das Web eine Herausforderung sein wird, aber im Laufe der Zeit werden sie in der Lage sein, beliebte Videoclips offline mit immer mehr Metadaten zu versehen, was die Geschwindigkeit und Genauigkeit von verbessert sucht.

verbergen

Tatsächliche Technologien

Kategorie

Unkategorisiert

Technologie

Biotechnologie

Technologierichtlinie

Klimawandel

Mensch Und Technik

Silicon Valley

Computer

Mit News Magazine

Künstliche Intelligenz

Platz

Intelligente Städte

Blockchain

Reportage

Alumni-Profil

Alumni-Verbindung

Mit News Feature

1865

Meine Sicht

77 Mass Avenue

Treffen Sie Den Autor

Profile In Großzügigkeit

Auf Dem Campus Gesehen

Lerne Den Autor Kennen

Alumni-Briefe

Nicht Kategorisiert

77 Massenallee

Rechnen

Tech-Richtlinie

Lernen Sie Den Autor Kennen

Nachrichten

Wahl 2020

Mit Index

Unter Der Kuppel

Feuerwehrschlauch

Unendliche Geschichten

Pandemie-Technologieprojekt

Vom Präsidenten

Titelstory

Fotogallerie

Empfohlen