AI kann Bilder erkennen, aber Text war bis jetzt schwierig


Im Jahr 2012 künstlich Intelligenzforscher zeigten eine große Verbesserung der Fähigkeit von Computern, Bilder zu erkennen, indem sie einem neuronalen Netzwerk Millionen von etikettierten Bildern aus einer Datenbank namens ImageNet zuführten. Es begann eine aufregende Phase für die Computer-Vision, als klar wurde, dass ein mit ImageNet trainiertes Modell helfen könnte, alle Arten von Bilderkennungsproblemen anzugehen. Sechs Jahre später hat dies dazu beigetragen, dass selbstfahrende Autos durch die Straßen der Stadt und Facebook navigieren können, um automatisch Personen in Ihren Fotos zu markieren.

In anderen Bereichen der KI-Forschung, wie dem Verstehen von Sprache, haben sich ähnliche Modelle als schwer fassbar erwiesen. Jüngste Forschungsergebnisse von fast.ai, OpenAI und dem Allen Institute for AI zeigen jedoch einen möglichen Durchbruch, mit robusteren Sprachmodellen, die den Forschern helfen können, eine Reihe ungelöster Probleme anzugehen. Sebastian Ruder, ein Forscher hinter einem der neuen Modelle, nennt es "ImageNet Moment" seines Feldes.

Die Verbesserungen können dramatisch sein. Das am häufigsten getestete Modell heißt Embeddings from Language Models oder ELMo. Als es im Frühjahr dieses Jahres vom Allen Institute veröffentlicht wurde, stürzte ELMo seine bisherigen Bestleistungen schnell auf eine Reihe von herausfordernden Aufgaben – wie Leseverstehen, wo eine KI SAT-Fragen über eine Passage beantwortet, und Sentimentanalyse. In einem Bereich, in dem der Fortschritt eher inkrementell ist, hat das Hinzufügen von ELMo die Ergebnisse um bis zu 25 Prozent verbessert. Im Juni wurde es auf einer großen Konferenz als bestes Paper ausgezeichnet.

Dan Klein, Professor für Informatik an der UC Berkeley, gehörte zu den ersten Anwendern. Er und ein Student waren bei der Arbeit an einem Wahlkreis-Parser beschäftigt, einem Brot-und-Butter-Werkzeug, das die Abbildung der grammatischen Struktur eines Satzes beinhaltet. Durch Hinzufügen von ELMo hatte Klein plötzlich das beste System der Welt, das mit einem überraschend großen Vorsprung am genauesten war. "Wenn Sie mich vor ein paar Jahren gefragt hätten, ob es möglich wäre, ein solches Niveau zu erreichen, wäre ich mir nicht sicher gewesen", sagt er.

Modelle wie ELMo adressieren ein Kernproblem für KI-fähige Linguisten: Mangel an etikettierten Daten. Um ein neuronales Netzwerk zu trainieren, um Entscheidungen zu treffen, benötigen viele Sprachprobleme Daten, die sorgfältig von Hand beschriftet wurden. Aber die Erstellung dieser Daten kostet Zeit und Geld, und selbst eine Menge davon kann die unvorhersehbaren Arten, wie wir sprechen und schreiben, nicht erfassen. Für andere Sprachen als Englisch verfügen Forscher häufig nicht über ausreichend beschriftete Daten, um selbst grundlegende Aufgaben zu bewältigen.

"Wir werden nie in der Lage sein, genug beschriftete Daten zu bekommen", sagt Matthew Peters, ein Wissenschaftler am Allen Institute, der das ELMo-Team leitete. "Wir müssen wirklich Modelle entwickeln, die unordentliche, unmarkierte Daten aufnehmen und so viel wie möglich daraus lernen."

Glücklicherweise haben die Forscher dank des Internets viele unordentliche Daten aus Quellen wie Wikipedia, Büchern und sozialen Medien. Die Strategie besteht darin, diese Wörter einem neuronalen Netzwerk zuzuführen und es zu ermöglichen, selbständig Muster zu erkennen, einen sogenannten "unüberwachten" Ansatz. Die Hoffnung ist, dass diese Muster einige allgemeine Aspekte der Sprache erfassen werden – ein Gefühl dafür, was Wörter sind, oder die grundlegenden Konturen der Grammatik. Wie bei einem Modell, das mit ImageNet trainiert wurde, könnte ein solches Sprachmodell dann feinabgestimmt werden, um spezifischere Aufgaben zu bewältigen – wie das Zusammenfassen eines wissenschaftlichen Artikels, das Klassifizieren einer E-Mail als Spam oder sogar das Erzeugen eines befriedigenden Endes einer Kurzgeschichte.

Diese grundlegende Intuition ist nicht neu. In den letzten Jahren haben sich die Forscher mit einer Technik namens Worteinbettungen in unmarkierte Daten vertieft, die darauf abzielt, wie Wörter miteinander in Beziehung stehen, je nachdem, wie sie in großen Mengen von Text erscheinen. Die neuen Modelle zielen darauf ab, tiefer zu gehen und Informationen zu erfassen, die von Wörtern bis zu höheren Sprachkonzepten reichen. Ruder, der über das Potenzial für diese tieferen Modelle geschrieben hat, um für eine Vielzahl von Sprachproblemen nützlich zu sein, hofft, dass sie ein einfacher Ersatz für Worteinbettungen werden.

ELMo zum Beispiel verbessert Worteinbettungen, indem es mehr Kontext einbaut und die Sprache auf einer Skala von Sätzen anstatt von Wörtern betrachtet. Dieser zusätzliche Kontext macht das Modell gut zum Analysieren des Unterschieds zwischen zum Beispiel "Mai" des Monats und "kann" das Verb, bedeutet aber auch, dass es über Syntax lernt. ELMo erhält einen zusätzlichen Schub durch das Verständnis von Untereinheiten von Wörtern, wie Präfixe und Suffixe. Füttere ein neuronales Netzwerk mit einer Milliarde Wörtern, wie Peters Team es getan hat, und dieser Ansatz erweist sich als ziemlich effektiv.

Es ist immer noch unklar, was das Modell tatsächlich bei der Analyse all dieser Wörter lernt. Aufgrund der undurchsichtigen Möglichkeiten, in denen tiefe neuronale Netze arbeiten, ist es eine knifflige Frage zu beantworten. Forscher wissen immer noch nicht genau, warum Bilderkennungssysteme so gut funktionieren. In einem neuen Paper, das im Oktober auf einer Konferenz erschien, ging Peters einen empirischen Ansatz ein und experimentierte mit ELMo in verschiedenen Softwaredesigns und über verschiedene linguistische Aufgaben hinweg. "Wir haben herausgefunden, dass diese Modelle grundlegende Eigenschaften der Sprache lernen", sagt Peters. Aber er warnt, dass andere Forscher ELMo testen müssen, um zu bestimmen, wie robust das Modell bei verschiedenen Aufgaben ist und welche versteckten Überraschungen es enthalten kann.

Ein Risiko: Kodierung von Vorurteilen aus den Daten, mit denen sie trainiert werden, so dass Ärzte als Männer und Krankenschwestern als Frauen bezeichnet werden, wie es zum Beispiel Worteinbettungen zuvor getan haben. Und während die anfänglichen Ergebnisse, die durch das Anzapfen von ELMo und anderen Modellen generiert werden, aufregend sind, ist es unklar, wie weit die Ergebnisse getrieben werden können, vielleicht durch Verwendung von mehr Daten zum Trainieren der Modelle oder durch Hinzufügen von Beschränkungen, die das neuronale Netzwerk zwingen, mehr zu lernen effektiv. Auf lange Sicht kann KI, die genauso flüssig liest und spricht wie wir, einen neuen Ansatz erfordern.


Mehr große WIRED Geschichten