Computer lernen zu lesen – aber sie sind immer noch nicht so schlau


Die Mad-Libs-ähnliche Vorschulungsaufgabe, die BERT verwendet – die sogenannte maskierte Sprachmodellierung – ist nicht neu. Tatsächlich wird es seit Jahrzehnten als Instrument zur Beurteilung des Sprachverständnisses beim Menschen verwendet. Für Google bot es auch eine praktische Möglichkeit, Bidirektionalität in neuronalen Netzen zu ermöglichen, im Gegensatz zu den unidirektionalen Vorlernmethoden, die zuvor das Feld dominiert hatten. "Vor BERT war die unidirektionale Sprachmodellierung der Standard, obwohl sie eine unnötig einschränkende Einschränkung darstellt", sagte Kenton Lee, ein Forscher bei Google.

Jeder dieser drei Bestandteile – ein tiefes vorgeübtes Sprachmodell, Aufmerksamkeit und Bidirektionalität – existierte unabhängig voneinander vor BERT. Aber bis Google sein Rezept Ende 2018 veröffentlichte, hatte niemand sie auf solch mächtige Weise kombiniert.

Rezept verfeinern

Wie jedes gute Rezept wurde BERT bald von den Köchen an ihren eigenen Geschmack angepasst. Im Frühjahr 2019 gab es eine Zeit, in der „Microsoft und Alibaba Woche für Woche überholten und ihre Modelle und Handelsplätze an der Spitze der Rangliste weiter optimierten“, erinnerte sich Bowman. Als im August eine verbesserte Version von BERT mit dem Namen RoBERTa auf den Markt kam, bemerkte der DeepMind-Forscher Sebastian Ruder in seinem vielgelesenen NLP-Newsletter trocken: "Ein weiterer Monat, ein weiteres hochmodernes, trainiertes Sprachmodell."

Die „Tortenkruste“ von BERT beinhaltet eine Reihe von strukturellen Entwurfsentscheidungen, die sich auf die Funktionsweise auswirken. Dazu gehören die Größe des zu backenden neuronalen Netzwerks, die Menge der Vorbereitungsdaten, wie diese Vorbereitungsdaten maskiert werden und wie lange das neuronale Netzwerk darauf trainieren kann. Nachfolgende Rezepte wie RoBERTa resultieren aus Forschern, die diese Designentscheidungen treffen, ähnlich wie Köche, die ein Gericht verfeinern.

Im Fall von RoBERTa erhöhten Forscher von Facebook und der University of Washington einige Zutaten (mehr Vorbereitungsdaten, längere Eingabesequenzen, mehr Trainingszeit) und nahmen einen weg (eine Aufgabe zur Vorhersage des nächsten Satzes, die ursprünglich in BERT enthalten war und die Leistung tatsächlich beeinträchtigte) ) und modifizierten eine andere (sie erschwerten die Aufgabe des Maskensprachenvorbereitens). Das Ergebnis? Erster Platz bei GLUE – kurz. Sechs Wochen später fügten Forscher von Microsoft und der University of Maryland RoBERTa ihre eigenen Verbesserungen hinzu und erzielten einen neuen Sieg. Zum jetzigen Zeitpunkt hat ein weiteres Modell namens ALBERT, kurz für "A Lite BERT", den ersten Platz von GLUE belegt, indem es das grundlegende Design von BERT weiter angepasst hat.

"Wir überlegen immer noch, welche Rezepte funktionieren und welche nicht", sagte Ott von Facebook, der an RoBERTa mitgearbeitet hat.

Genauso wenig theoretisches Wissen über die Weiterentwicklung der NLP vermittelt die schrittweise Optimierung des BERT, wie die Perfektionierung Ihrer Kuchenbacktechnik Ihnen wahrscheinlich die Grundlagen der Chemie beibringt. "Ich bin ganz ehrlich zu Ihnen: Ich folge diesen Papieren nicht, weil sie mir extrem langweilig sind", sagte Linzen, der Computerlinguist von Johns Hopkins. "Da gibt es ein wissenschaftliches Rätsel", räumt er ein, aber es liegt nicht darin, herauszufinden, wie man BERT und all seinen Spawn intelligenter macht, oder gar herauszufinden, wie sie überhaupt schlau geworden sind. Stattdessen "versuchen wir zu verstehen, inwieweit diese Modelle die Sprache wirklich verstehen", sagte er, und nicht "seltsame Tricks aufzugreifen, die bei den Datensätzen auftreten, auf denen wir unsere Modelle üblicherweise bewerten."

Mit anderen Worten: BERT macht etwas richtig. Aber was ist, wenn es die falschen Gründe gibt?

Clever aber nicht schlau

Im Juli 2019 verwendeten zwei Forscher der taiwanesischen National Cheng Kung University das BERT, um ein beeindruckendes Ergebnis in einem relativ undurchsichtigen Benchmark für das Verständnis natürlicher Sprachen zu erzielen, der als Aufgabe des Argumentationsverständnisses bezeichnet wird. Die Ausführung der Aufgabe erfordert die Auswahl der entsprechenden impliziten Prämisse (Haftbefehl genannt), die einen Grund für die Argumentation eines Anspruchs stützt. Um beispielsweise zu argumentieren, dass „Rauchen Krebs verursacht“ (die Behauptung), weil „wissenschaftliche Studien einen Zusammenhang zwischen Rauchen und Krebs gezeigt haben“ (der Grund), müssen Sie davon ausgehen, dass „wissenschaftliche Studien glaubwürdig sind“ (die Begründung), als Im Gegensatz zu "wissenschaftlichen Studien sind teuer" (was zwar stimmt, aber im Kontext des Arguments keinen Sinn ergibt). Hast du das alles?