Sprachmodelle: neue Methoden für dialogfähige Agenten

Autor
Prof. Thomas Hofmann
ETH Zürich

Im Rahmen dieses Projekts wurden mehrere theoretische Fortschritte im Bereich der Sprachmodelle erzielt, insbesondere für dialogfähige Agenten oder Dialogsysteme, die zur Beantwortung von Anfragen eingesetzt werden.

Im Rahmen des Projekts wurden Resultate in vier grundlegenden Bereichen erzielt, welche von zentraler Bedeutung sind für die sich rasch entwickelnden Bereiche Verarbeitung natürlicher Sprache und dialogfähige Agenten.

Im Bereich Erkennung und Verknüpfung von Entitäten trug das Projekt zu einem neuartigen Verkettungssystem bei, welches das fortschrittliche Einbetten von Entitäten, einen neuronalen Aufmerksamkeitsmechanismus über lokale Kontextfenster und eine differenzierbare gemeinsame Disambiguierungsinferenzierung kombiniert. Insbesondere kombiniert das System die Erkennung und Verknüpfung von Entitäten. Darüber hinaus hat die Arbeit in diesem Bereich zu innovativen Folgeprojekten geführt.

Zweitens konnten im Bereich der Spracherzeugungsmodelle, welche die Grundlage für Konversationssysteme bilden, Resultate erzielt werden, die sich mit verschiedenen Einschränkungen durch Verzerrungen und Lernzwang beim Training bedingungsloser Sprachmodelle befassen.

Drittens wurden im Zusammenhang mit der Verwendung von tiefen neuronalen Netzen für generative Modelle Fortschritte bei Lernalgorithmen für Generative Adversarial Networks (GAN) und deren Bewertung erzielt. Die Hoffnung ist, dass GANs für die Textproduktion und den Austausch in Gesprächen eingesetzt werden könnten, was nach wie vor eine Herausforderung darstellt.

Viertens wurden Resultate in Bezug auf die Entwicklung von Agenten für bestärkendes Lernen im Rahmen von textbasierten Spielen erzielt. Der Schwerpunkt lag auf der Frage, wie mit der kompositorischen und kombinatorischen Natur der Sprache umgegangen werden kann, die eine Strategieoptimierung erschwert. Es wurde ein Agent entwickelt, der in der Lage ist, in einer ganzen Familie von Spielen gute Leistungen zu erbringen, nicht nur in einem einzigen.

Insgesamt leistete das Projekt bedeutende Beiträge zur Methodik des maschinellen Lernens, vor allem in den Bereichen geometrische Einbettungen und generative Modelle. Die Resultate sind in einem Dutzend wissenschaftlichen Publikationen dokumentiert, darunter bereits stark zitierte Beiträge von Top-Konferenzen im Bereich des maschinellen Lernens oder der künstlichen Intelligenz wie NeurIPS, ICML und AISTATS.

Zum Projekt

Weiterführende Links