Das Löschen unethischer Datensätze ist nicht gut genug

Gesichter aus KI-Datensätzen

Frau Technik | Pixabay



In der Hoffnung, Fortschritte bei der Gesichtserkennung voranzutreiben, veröffentlichte Microsoft 2016 die größte Gesichtsdatenbank der Welt. Es hieß MS-Celeb-1M und enthielt 10 Millionen Bilder von 100.000 Gesichtern von Prominenten. Berühmtheit war jedoch lose definiert.

Drei Jahre später die Forscher Adam Harvey und Jules LaPlace den Datensatz durchforstet und fand viele gewöhnliche Einzelpersonen wie Journalisten, Künstler, Aktivisten und Akademiker, die eine Online-Präsenz für ihr Berufsleben unterhalten. Keiner hatte der Aufnahme zugestimmt, und doch hatten ihre Gesichter ihren Weg in die Datenbank und darüber hinaus gefunden; Die Forschung mit der Sammlung von Gesichtern wurde von Unternehmen wie Facebook, IBM, Baidu und SenseTime, einem der größten Gesichtserkennungsgiganten Chinas, der seine Technologie an die chinesische Polizei verkauft, durchgeführt.





Kurz nach der Untersuchung von Harvey und LaPlace und nach Erhalt Kritik von Journalisten , Microsoft entfernte den Datensatz mit der einfachen Aussage: Die Forschungsherausforderung ist vorbei. Aber die Datenschutzbedenken, die es geschaffen hat, verweilen in einem ewigen Land des Internets. Und dieser Fall ist nicht der einzige.

wann schließt das nagelstudio

Das Durchsuchen des Internets nach Bildern und Text galt einst als erfinderische Strategie zum Sammeln von Daten aus der realen Welt. Jetzt haben Gesetze wie die DSGVO (Europäische Datenschutzverordnung) und die zunehmende Besorgnis der Öffentlichkeit über Datenschutz und Überwachung die Praxis rechtlich riskant und unangemessen gemacht. Infolgedessen haben KI-Forscher die so erstellten Datensätze zunehmend zurückgezogen.

Aber eine neue Studie zeigt, dass dies wenig dazu beigetragen hat, die Verbreitung und Nutzung problematischer Daten zu verhindern. Die Autoren wählten drei der am häufigsten zitierten Datensätze mit Gesichtern oder Personen aus, von denen zwei zurückgezogen wurden; Sie verfolgten in fast 1.000 Papieren, wie sie kopiert, verwendet und wiederverwendet wurden.



Im Fall von MS-Celeb-1M existieren immer noch Kopien auf Websites von Drittanbietern und in abgeleiteten Datensätzen, die auf dem Original aufbauen. Auf den Daten vortrainierte Open-Source-Modelle bleiben ebenfalls leicht verfügbar. Der Datensatz und seine Derivate wurden auch in Hunderten von Artikeln zitiert, die zwischen sechs und 18 Monaten nach dem Widerruf veröffentlicht wurden.

DukeMTMC, ein Datensatz mit Bildern von Menschen, die auf dem Campus der Duke University spazieren gehen und der im selben Monat wie MS-Celeb-1M zurückgezogen wurde, bleibt in ähnlicher Weise in abgeleiteten Datensätzen und Hunderten von Papierzitaten bestehen.

lustige Filter für Fotos

Die Liste der Orte, an denen die Daten verweilen, ist umfangreicher, als wir ursprünglich gedacht hätten, sagt Kenny Peng, Student im zweiten Jahr in Princeton und Mitautor der Studie. Und selbst das, sagt er, ist wahrscheinlich eine Unterschätzung, weil Zitate in Forschungsarbeiten nicht immer die Art und Weise berücksichtigen, wie die Daten kommerziell genutzt werden könnten.

Abgehen

Ein Teil des Problems besteht laut dem Princeton-Papier darin, dass diejenigen, die Datensätze zusammenstellen, schnell die Kontrolle über ihre Kreationen verlieren.



Datensätze, die für einen bestimmten Zweck freigegeben wurden, können schnell für andere kooptiert werden, die von den ursprünglichen Erstellern nie beabsichtigt oder erdacht wurden. MS-Celeb-1M zum Beispiel sollte die Gesichtserkennung von Prominenten verbessern, wurde aber seitdem für eine allgemeinere Gesichtserkennung und Gesichtsmerkmalsanalyse verwendet, fanden die Autoren heraus. Es wurde auch in abgeleiteten Datensätzen wie Racial Faces in the Wild, das seine Bilder nach Rassen gruppiert, umbenannt oder neu verarbeitet, was die Tür für umstrittene Anwendungen öffnet.

So haben wir die Kontrolle über unsere Gesichter verloren

Die bisher größte Studie zu Gesichtserkennungsdaten zeigt, wie sehr der Aufstieg von Deep Learning zum Verlust der Privatsphäre geführt hat.

Die Analyse der Forscher legt auch nahe, dass Labeled Faces in the Wild (LFW), ein Datensatz, der 2007 eingeführt und als erster verwendet wurde Gesichtsbilder, die aus dem Internet geschabt wurden , hat sich in fast 15 Jahren Gebrauch mehrfach verändert. Während es als Ressource für die Bewertung von Gesichtserkennungsmodellen nur für Forschungszwecke begann, wird es heute fast ausschließlich zur Bewertung von Systemen verwendet, die für den Einsatz in der realen Welt bestimmt sind. Dies trotz eines Warnhinweises auf der Website des Datensatzes, der vor einer solchen Verwendung warnt.

In jüngerer Zeit wurde der Datensatz in einem Derivat namens SMFRD umfunktioniert, das jedem der Bilder Gesichtsmasken hinzufügte, um die Gesichtserkennung während der Pandemie zu verbessern. Die Autoren weisen darauf hin, dass dies neue ethische Herausforderungen aufwerfen könnte. Befürworter des Datenschutzes haben solche Anwendungen kritisiert, um beispielsweise die Überwachung zu fördern – und insbesondere, um die Identifizierung maskierter Demonstranten durch die Regierung zu ermöglichen.

Dies ist ein wirklich wichtiges Papier, da die Augen der Menschen im Allgemeinen nicht offen für die Komplexität und potenziellen Schäden und Risiken von Datensätzen waren, sagt Margaret Mitchell, eine KI-Ethikforscherin und eine führende Persönlichkeit im Bereich verantwortungsbewusster Datenpraktiken, die nicht beteiligt war die Studium.

Gesichtserkennung Deep Learning

Lange Zeit sei die Kultur innerhalb der KI-Community davon ausgegangen, dass Daten dazu da seien, verwendet zu werden, fügt sie hinzu. Dieses Papier zeigt, wie das später zu Problemen führen kann. Es ist wirklich wichtig, die verschiedenen Werte zu durchdenken, die ein Datensatz codiert, sowie die Werte, die ein verfügbarer Datensatz codiert, sagt sie.

Eine Lösung

Die Studienautoren geben mehrere Empfehlungen für die Zukunft der KI-Community. Erstens sollten Urheber klarer über die beabsichtigte Verwendung ihrer Datensätze kommunizieren, sowohl durch Lizenzen als auch durch detaillierte Dokumentation. Sie sollten auch den Zugang zu ihren Daten strenger einschränken, indem sie etwa von den Forschern die Unterzeichnung von Vereinbarungen verlangen oder sie auffordern, einen Antrag auszufüllen, insbesondere wenn sie beabsichtigen, einen abgeleiteten Datensatz zu erstellen.

Zweitens sollten Forschungskonferenzen Normen dafür festlegen, wie Daten gesammelt, gekennzeichnet und verwendet werden sollten, und sie sollten Anreize für eine verantwortungsvolle Erstellung von Datensätzen schaffen. NeurIPS, die größte KI-Forschungskonferenz, enthält bereits eine Checkliste mit Best Practices und ethischen Richtlinien.

Sauerstoffgehalt auf dem Mars

Mitchell schlägt vor, noch weiter zu gehen. Im Rahmen das BigScience-Projekt , einer Zusammenarbeit von KI-Forschern zur Entwicklung eines KI-Modells, das natürliche Sprache unter strengen ethischen Standards parsen und generieren kann, experimentierte sie mit der Idee, Data Set Stewardship Organizations zu schaffen – Teams von Menschen, die sich nicht nur um die Kuration, Wartung, und Nutzung der Daten, sondern arbeiten auch mit Anwälten, Aktivisten und der Öffentlichkeit zusammen, um sicherzustellen, dass sie den gesetzlichen Standards entsprechen, nur mit Zustimmung gesammelt werden und entfernt werden können, wenn sich jemand entscheidet, personenbezogene Daten zurückzuziehen. Solche Stewardship-Organisationen wären nicht für alle Datensätze erforderlich – aber sicherlich für abgekratzte Daten, die biometrische oder personenbezogene Informationen oder geistiges Eigentum enthalten könnten.

Das Sammeln und Überwachen von Datensätzen ist keine einmalige Aufgabe für ein oder zwei Personen, sagt sie. Wenn Sie dies verantwortungsvoll tun, zerfällt es in eine Menge verschiedener Aufgaben, die tiefes Denken, tiefes Fachwissen und eine Vielzahl unterschiedlicher Personen erfordern.

In den letzten Jahren hat sich das Feld zunehmend in Richtung der Überzeugung bewegt, dass sorgfältig kuratierte Datensätze wird der Schlüssel zur Bewältigung vieler technischer und ethischer Herausforderungen der Branche sein. Es ist jetzt klar, dass es bei weitem nicht ausreicht, verantwortungsbewusstere Datensätze zu erstellen. Diejenigen, die in der KI arbeiten, müssen sich auch langfristig dazu verpflichten, sie zu warten und ethisch korrekt zu verwenden.

verbergen

Tatsächliche Technologien

Kategorie

Unkategorisiert

Technologie

Biotechnologie

Technologierichtlinie

Klimawandel

Mensch Und Technik

Silicon Valley

Computer

Mit News Magazine

Künstliche Intelligenz

Platz

Intelligente Städte

Blockchain

Reportage

Alumni-Profil

Alumni-Verbindung

Mit News Feature

1865

Meine Sicht

77 Mass Avenue

Treffen Sie Den Autor

Profile In Großzügigkeit

Auf Dem Campus Gesehen

Lerne Den Autor Kennen

Alumni-Briefe

Nicht Kategorisiert

77 Massenallee

Rechnen

Tech-Richtlinie

Lernen Sie Den Autor Kennen

Nachrichten

Wahl 2020

Mit Index

Unter Der Kuppel

Feuerwehrschlauch

Unendliche Geschichten

Pandemie-Technologieprojekt

Vom Präsidenten

Titelstory

Fotogallerie

Empfohlen