Software lernt, Fotos zu markieren

US-Forscher haben ein neues Online-Programm zum automatischen Taggen von Bildern nach ihrem Inhalt veröffentlicht. In seinem ersten Praxistest verarbeitete das Programm Tausende von öffentlich zugänglichen Bildern, die auf der Foto-Sharing-Site verfügbar waren Flickr . Für 98 Prozent aller analysierten Bilder wurde mindestens ein zutreffender Tag generiert.

Die neue Software namens ALIPR (Automatic Linguistic Indexing of Pictures) verwendet eine Kombination statistischer Techniken, um ein Bild zu verarbeiten und ihm einen Stapel von 15 Wörtern zuzuweisen, die nach wahrgenommener Relevanz geordnet sind. Diese Wörter können sich auf ein bestimmtes Objekt im Bild beziehen, beispielsweise eine Person oder ein Auto, oder auf ein allgemeineres Thema, beispielsweise im Freien oder von Menschenhand geschaffen.

Für den Menschen ist das Entziffern eines Bildes täuschend einfach. Doch für Computer, die Millionen von Textdokumenten mit atemberaubender Geschwindigkeit und Genauigkeit durchsuchen können, bleibt die Identifizierung des Inhalts eines Bildes eine teuflisch schwierige Aufgabe.



Zu erkennen, worum es bei einem Bild semantisch geht, ist eines der schwierigsten Probleme in der KI, sagt Jia Li, Mathematiker an der Pennsylvania State University am State College, der die Software zusammen mit seinem Kollegen James Wang, einem Mitglied des College of Information Sciences und . entwickelt hat Technologie. Objekte in der realen Welt sind 3-D, erklärt Li. Wenn sie in einem Bild angezeigt werden, können sie in Farbe, Form, Geste, Größe und Position stark variieren, und ein Computer hat normalerweise keine Vorkenntnisse über die Variationen.

Da ein komplexes Verständnis der Welt die Fähigkeit von Computern übersteigt, werden effizientere Bildverarbeitungsalgorithmen benötigt, die ihnen helfen, das menschliche Sehvermögen und die menschliche Intelligenz nachzuahmen.

ALIPR analysiert ein Bild Pixel für Pixel und wendet ein neuartiges statistisches Verfahren an, um die Wahrscheinlichkeit zu berechnen, dass ein bestimmtes Wort seinen Inhalt beschreiben kann. Dazu gehört die Untersuchung der Farb- und Texturverteilung innerhalb des Bildes und der Vergleich dieser Merkmale mit einer gespeicherten Wort- und Bilddatenbank. Li und Wang trainierten ihr Programm mit einer kommerziellen Datenbank mit rund 50.000 Bildern, die bereits markiert waren.

Kürzlich testeten sie ALIPR mit 5.411 zuvor nicht gesehenen Bildern, die auf der beliebten Bilder-Sharing-Site Flickr verfügbar waren. Bei 51 Prozent dieser Bilder taucht das erste von ALIPR generierte Wort in den Tags der Benutzer auf. Das Programm produzierte außerdem in 98 Prozent der Fälle mindestens ein genaues Wort. Die Forscher verwendeten Bilder, die von Flickr-Nutzern öffentlich zugänglich gemacht wurden, die auch über die Flickr-eigene Application Programming Interface offen zugänglich waren.


Bessere Bilderkennungssoftware könnte eine Reihe von Anwendungen haben, sagt Li. Es könnte beispielsweise Internet-Suchmaschinen verbessern oder digitale Bildsammlungen automatisch mit Tags versehen. Li glaubt, dass es Wissenschaftlern auch helfen könnte, große Mengen visueller Informationen zu sortieren: Bildklassifizierung ist manchmal bei wissenschaftlichen Studien erforderlich. Ohne Computerunterstützung müssen Forscher Bilder manuell klassifizieren, und dieser Prozess kann langsam sein und hinter dem hohen Durchsatz neuer Bilder zurückbleiben.

Die zugrunde liegenden Algorithmen könnten sich vielleicht für verschiedene andere schwierige Rechenaufgaben eignen. Ähnliche Ansätze können auf die Videoanalyse und möglicherweise andere Probleme angewendet werden, fügt Li hinzu.

Louis von Ahn , ein Assistenzprofessor für Informatik an der Carnegie Mellon University in Pittsburgh, PA, sagt, die Forschung sei ein Schritt in die richtige Richtung, aber die Genauigkeit der Software müsse verbessert werden. Er stellt fest, dass Bilder auf Websites wie Flickr oft sehr ähnliches Material enthalten. Die Wahrheit ist, dass es bei diesen Bildern im Wesentlichen um dasselbe geht – die Leute machen meistens Bilder von anderen Menschen, sagt er. Wenn Sie also nur das Wort „Menschen“ verwenden, wird bereits ein großer Prozentsatz der Bilder richtig getaggt.

Von Ahn glaubt auch, dass der Mensch beim Training von Seherkennungsalgorithmen eine größere Rolle spielen könnte. Er betreibt eine Seite namens Peekaboom das macht das Taggen von Bildern zu einem Spiel für zwei Online-Spieler. Während ein Bild langsam aufgedeckt wird, muss jeder Spieler um die Wette laufen, um das richtige Tag dafür zu finden. Auf diese Weise kann von Ahns Software trainiert werden, Bilder zu identifizieren, indem sie sich auf Schlüsselbereiche konzentriert. Bisher seien mit Peekaboom rund 100.000 Einzelbilder klassifiziert worden, sagt von Ahn.

Alexander Berg , ein Computer-Vision-Experte von der University of California in Berkley, stimmt zu, dass Menschen Computern helfen könnten, komplexe Daten besser zu verstehen. Er schlägt vor, dass sich die Tags, die auf Websites wie Flickr und YouTube sowie auf vielen Blogs und Nachrichten-Websites erscheinen, in Zukunft als entscheidend für dieses Unterfangen erweisen könnten. Generell sei die Bild- und Videosuche ein Bereich mit großen Schritten, sagt Berg. Immer mehr Daten sind online mit einem gewissen Maß an menschlicher Kennzeichnung.

Eine Idee, die Li begrüßt: Je zuverlässiger wir auf Daten zugreifen und sie nutzen können, desto besser.

verbergen

Tatsächliche Technologien

Kategorie

Unkategorisiert

Technologie

Biotechnologie

Technologierichtlinie

Klimawandel

Mensch Und Technik

Silicon Valley

Computer

Mit News Magazine

Künstliche Intelligenz

Platz

Intelligente Städte

Blockchain

Reportage

Alumni-Profil

Alumni-Verbindung

Mit News Feature

1865

Meine Sicht

77 Mass Avenue

Treffen Sie Den Autor

Profile In Großzügigkeit

Auf Dem Campus Gesehen

Lerne Den Autor Kennen

Alumni-Briefe

Nicht Kategorisiert

77 Massenallee

Rechnen

Tech-Richtlinie

Lernen Sie Den Autor Kennen

Nachrichten

Wahl 2020

Mit Index

Unter Der Kuppel

Feuerwehrschlauch

Unendliche Geschichten

Pandemie-Technologieprojekt

Vom Präsidenten

Titelstory

Fotogallerie

Empfohlen