Sprecher kombinieren intuitiv Sprache mit spontaner Gestik zu multimodalen Äußerungen. In diesen Äußerungen erscheinen Sprache und Gestik sehr gut koordiniert bzw. durch den Sprecher miteinander aligniert (intra-personal). Darüber hinaus koordinieren sich Sprecher in einem Dialog auch inter-personal über Sprache und Gesten. Das Projekt B1 untersucht Skopus, Systematik und zugrundeliegende Prozesse dieser beiden Arten von Alignierungsphänomenen.

Forschungsmethode

B1 kombiniert empirische Untersuchungen multimodalen kommunikativen Verhaltens basierend auf einem umfassend annotierten Dialogkorpus (SaGA Korpus) mit der Konzeption und Simulation komputationeller, kognitiver Modelle, die in virtuellen Agenten realisiert werden.

Video- und Motion-Capturing-Daten werden annotiert, um statistisch signifikante Muster zu extrahieren. Basierend auf der Analyse von Verhalten und Strukturen werden formale Schnittstellen zwischen Sprache und Gestik auf Ebene von Form/Syntax und Semantik (bis zu multimodalen Propositionen) konstruiert. Kognitive Modelle der zugrundeliegenden Prozesse werden (basierend auf Literatur, empirischen Datenanalysen und theoretischen Ergebnissen) konzipiert und in einem virtuellen, multimodalen Agenten implementiert. Dieser Prototyp wird verwendet, um sprach-gestisches Verhalten zu simulieren und zu evaluieren. In der Evaluation kommen verschiedene Methoden zum Einsatz: Abgleich mit beobachteten Originaldaten (Prädiktion), Vergleich mit theoretischen Rekonstruktionen (Konsistenz) und nutzer-basierte Bewertung (Akzeptanz) [Best Student Paper Award auf der AAMAS 2009].

A1 diagram

Intra-personale Alignierung von Sprache und Gestik

In der ersten Projektphase haben wir Modelle entwickelt, die Repräsentationen von Inhalten und kommunikativen Intentionen auf verbales und gestisches Verhalten abbilden. Dabei wurden speziell Synchronisation und Formulierungsprobleme bearbeitet. Die entwickelten Absätze kombinieren grammatik-basierte Sprachgenerierung, graphische Modelle zur Gestengenerierung und Echtzeitsynthese von kommunikativem Verhalten. In der aktuellen Projektphase konzentrieren wir uns speziell auf das Problem der multimodalen Konzeptualisierung, d.h. auf die Auswahl, Verteilung und Koordination von Bedeutung auf Sprache und Gestik. Dazu gehört auch, wie diese Koordination mit form-basierter und temporaler Alignierung einhergeht. Wir haben ein kognitives Modell entwickelt, das - basierend auf einem gegebenen kommunikativen Ziel - multimodale Inhalte dynamisch auf der Basis eines multimodalen Arbeitsgedächtnisses koordiniert. Dabei wird verfügbares Wissen über Referenten, Assoziationen zwischen visuo-spatialen und symbolisch-propositionalen Repräsentationen, sowie verfügbare linguistische Ressourcen berücksichtigt. Das Modell wurde basierend auf Aktivierungsausbreitung, hybriden Repräsentationen und einer integrierten Sprach-Gestik-Produktionsarchitektur implementiert. Damit ist es möglich, Effekte linguistischer Ressourcen (z.B. unterschiedliche Grammatiken) und kognitiver Bedingungen (z.B. verfügbare Zeit zur Konzeptualisierung) auf die semantische Koordination von Sprache und Gestik (Gesten sind redundant bzw. supplementär zur Sprache), sowie die Verteilung von Bedeutung (eine vs. mehrere Äußerungen) zu reproduzieren [Best Paper Award auf der IVA 2013].

B1 diagram

Dieses Demonstrationsvideo zeigt die Formulierung und Realisierung von Sprache und Gestik basierend auf sprecher-spezifischen Generierungsmodellen (gelernt aus Datensätzen unterschiedlicher Sprecher):

Ein Demonstrationsvideo des Sprach-Gestik-Produktionsmodells basierend auf dynamischem, multimodalem Arbeitsgedächtnis ist in Arbeit.

Inter-personale Alignierung von Sprache und Gestik

Basierend auf empirischen Analysen des SaGA Korpus konnten wir erstmals detaillierte Evidenz zu gestischer Alignierung zwischen Dialogpartnern erbringen. Diese Alignierung wird in Form von Konvergenz sichtbar. Interessanterweise beinhaltet sie Aspekte von Priming (z.B. Abnahme der Ähnlichkeit mit größeren Distanzen) und lässt sich speziell in Gestenkomponenten beobachten, die weniger stark zu kommunikativen Zwecken verwendet werden (z.B. Händigkeit). Damit vervollständigen unsere Arbeiten die Literatur zur inter-personalen Gestenalignierung, in der bislang ein experimentell kontrollierter und grounding-basierter Ansatz gestischer Mimikry beschrieben wurde (Kimbara 2006, Holler & Wiklin 2011, Mol et al. 2012). Basierend auf unseren empirischen Ergebnissen haben wir ein Zwei-Routen-Modell vorgeschlagen, das beide Pfade inter-personaler Alignierung integriert.