KI hat immer noch nicht den gesunden Menschenverstand, um die menschliche Sprache zu verstehen

Verschwommene Schrift an der Wand

Verschwommene Schrift an der WandPexels / Jimmy Chan



Bis vor kurzem waren Computer hoffnungslos darin, sinnvolle Sätze zu produzieren. Aber der Bereich der Verarbeitung natürlicher Sprache (NLP) hat große Fortschritte gemacht, und Maschinen können jetzt auf Knopfdruck überzeugende Passagen generieren.

Diese Fortschritte wurden durch Deep-Learning-Techniken vorangetrieben, die statistische Muster im Wortgebrauch und in der Argumentstruktur aus riesigen Textfunden heraussuchen. Aber ein neues Papier vom Allen Institute of Artificial Intelligence macht auf etwas aufmerksam, das noch fehlt: Maschinen verstehen nicht wirklich, was sie schreiben (oder lesen).





Dies ist eine grundlegende Herausforderung im großen Streben nach verallgemeinerbarer KI – aber über die Wissenschaft hinaus ist sie auch für Verbraucher relevant. Chatbots und Sprachassistenten, die beispielsweise auf modernsten natürlichen Sprachmodellen basieren, sind für viele zur Schnittstelle geworden Finanzinstitutionen , Gesundheitsdienstleister , und Regierungsbehörden . Ohne ein echtes Sprachverständnis sind diese Systeme anfälliger für Ausfälle und verlangsamen den Zugriff auf wichtige Dienste.

Die Forscher bauten auf der Arbeit der Winograd-Schema-Challenge , ein 2011 entwickelter Test zur Bewertung der vernünftigen Argumentation von NLP-Systemen. Die Herausforderung verwendet einen Satz von 273 Fragen mit Satzpaaren, die bis auf ein Wort identisch sind. Dieses Wort, das als Auslöser bekannt ist, dreht die Bedeutung des Pronomens jedes Satzes um, wie im folgenden Beispiel zu sehen ist:

  • Die Trophäe passt nicht in den braunen Koffer, weil es ist auch groß .
  • Die Trophäe passt nicht in den braunen Koffer, weil es ist auch klein .

Um erfolgreich zu sein, muss ein NLP-System herausfinden, auf welche der beiden Optionen sich das Pronomen bezieht. In diesem Fall müsste für die erste Trophäe und für die zweite Koffer ausgewählt werden, um das Problem korrekt zu lösen.



diese kalifornische firma könnte eine ac obsolet machen

Der Test wurde ursprünglich mit der Idee entwickelt, dass solche Probleme ohne ein tieferes Verständnis der Semantik nicht beantwortet werden können. Hochmoderne Deep-Learning-Modelle können mittlerweile eine Genauigkeit von etwa 90 % erreichen, also scheint NLP seinem Ziel näher gekommen zu sein. Aber in ihrem Papier, das auf der AAAI-Konferenz im nächsten Monat mit dem Outstanding Paper Award ausgezeichnet wird, stellen die Forscher die Wirksamkeit des Benchmarks und damit den Fortschritt, den das Gebiet tatsächlich gemacht hat, in Frage.

Sie erstellten einen wesentlich größeren Datensatz namens WinoGrande mit 44.000 derselben Art von Problemen. Dazu entwarfen sie ein Crowdsourcing-Schema, um schnell neue Satzpaare zu erstellen und zu validieren. (Ein Teil des Grundes, warum der Winograd-Datensatz so klein ist, ist, dass er von Experten handgefertigt wurde.) Mitarbeiter von Amazon Mechanical Turk erstellten neue Sätze mit erforderlichen Wörtern, die durch ein Zufallsverfahren ausgewählt wurden. Jedes Satzpaar wurde dann an drei weitere Bearbeiter gegeben und nur dann behalten, wenn es drei Kriterien erfüllte: Mindestens zwei Bearbeiter wählten die richtigen Antworten aus, alle drei fanden die Optionen eindeutig, und die Bezüge des Pronomens ließen sich nicht durch einfache Wortassoziationen erschließen.

Als letzten Schritt ließen die Forscher den Datensatz außerdem durch einen Algorithmus laufen, um so viele Artefakte wie möglich zu entfernen – unbeabsichtigte Datenmuster oder Korrelationen, die einem Sprachmodell helfen könnten, aus den falschen Gründen zu den richtigen Antworten zu gelangen. Dies verringerte die Wahrscheinlichkeit, dass ein Modell lernen könnte, den Datensatz zu spielen.

Als sie modernste Modelle mit diesen neuen Problemen testeten, fiel die Leistung auf 59,4 % bis 79,1 %. Im Gegensatz dazu erreichten Menschen immer noch eine Genauigkeit von 94 %. Dies bedeutet, dass eine hohe Punktzahl beim ursprünglichen Winograd-Test wahrscheinlich überhöht ist. Es ist nur eine datensatzspezifische Errungenschaft, keine Errungenschaft für allgemeine Aufgaben, sagt Yejin Choi, außerordentlicher Professor an der University of Washington und leitender Forschungsmanager bei AI2, der die Forschung leitete.



Choi hofft, dass der Datensatz als neuer Maßstab dienen wird. Sie hofft aber auch, dass es mehr Forscher dazu inspirieren wird, über Deep Learning hinauszublicken. Die Ergebnisse betonten für sie, dass echte NLP-Systeme mit gesundem Menschenverstand andere Techniken beinhalten müssen, wie beispielsweise strukturierte Wissensmodelle. Ihr vorherige Arbeit hat sich in dieser Richtung als vielversprechend erwiesen. Wir müssen irgendwie einen anderen Spielplan finden, sagt sie.

Das Papier ist auf einige Kritik gestoßen. Ernest Davis, einer der Forscher, die an der ursprünglichen Winograd-Herausforderung gearbeitet haben, sagt, dass viele der in der Abhandlung aufgeführten Beispielsatzpaare ernsthafte Fehler und eine verwirrende Grammatik aufweisen. Sie entsprächen nicht der Art und Weise, wie Menschen, die Englisch sprechen, tatsächlich Pronomen verwenden, schrieb er in einer E-Mail.

Choi merkt jedoch an, dass wirklich robuste Modelle keine perfekte Grammatik benötigen sollten, um einen Satz zu verstehen. Menschen, die Englisch als Zweitsprache sprechen, verwechseln manchmal ihre Grammatik, vermitteln aber dennoch ihre Bedeutung.

Menschen können leicht verstehen, worum es bei unseren Fragen geht, und die richtige Antwort auswählen, sagt sie und verweist auf die Leistungsgenauigkeit von 94 %. Wenn Menschen dazu in der Lage sein sollten, bin ich der Meinung, dass Maschinen das auch können sollten.

Prinzessin Leia am Ende von Rogue One

Melden Sie sich für unseren von Webby nominierten KI-Newsletter The Algorithm an, um mehr Geschichten wie diese direkt in Ihren Posteingang zu bekommen. Es ist kostenlos.

verbergen

Tatsächliche Technologien

Kategorie

Unkategorisiert

Technologie

Biotechnologie

Technologierichtlinie

Klimawandel

Mensch Und Technik

Silicon Valley

Computer

Mit News Magazine

Künstliche Intelligenz

Platz

Intelligente Städte

Blockchain

Reportage

Alumni-Profil

Alumni-Verbindung

Mit News Feature

1865

Meine Sicht

77 Mass Avenue

Treffen Sie Den Autor

Profile In Großzügigkeit

Auf Dem Campus Gesehen

Lerne Den Autor Kennen

Alumni-Briefe

Nicht Kategorisiert

77 Massenallee

Rechnen

Tech-Richtlinie

Lernen Sie Den Autor Kennen

Nachrichten

Wahl 2020

Mit Index

Unter Der Kuppel

Feuerwehrschlauch

Unendliche Geschichten

Pandemie-Technologieprojekt

Vom Präsidenten

Titelstory

Fotogallerie

Empfohlen