Meine Interessen

Ich arbeite über Computerlinguistik und mathematische Linguistik sowie Logik. Diese Seite gibt hoffentlich ein genaueres Bild von dem, was mich umtreibt oder umgetrieben hat.

Computerlinguistik und Mathematische Linguistik

Ich verstehe mich als theoretischer Computerlinguist. So wie auch ein theoretischer Informatiker bin ich nicht unbedingt jemand, der am Computer mehr tut, als Texte zu schreiben. Das Primäre Ziel ist die Erkenntnis, und der Computer ist ein Werkzeug dafür. Natürlich versuche ich auch zu verstehen, wie der Computer in der Sprachverarbeitung eingesetzt werden kann. Dabei entstehen oft folgende Fragen.
  1. Wie kann ein Problem adäquat formalisiert werden?
  2. Kann das Problem prinzipiell gelöst werden, und wenn ja, wie?
  3. Was ist die effizienteste Methode, das Problem zu lösen?
Der Löwenanteil der Forschung in Computerlinguistik ist praktischer Natur. Man benutzt eine Methode, um ein bestimmtes praktisches Problem zu lösen, und es kommt im Wesentlichen darauf an, dass man die Arbeit überhaupt macht (zB das Erstellen von Korpora). Dabei sollte man sich aber immer wieder fragen, ob die Methode dem Problem angemessen ist und ob man überhaupt auf diesem Wege etwas erreichen kann. Viele Probleme und Fragen sind auch nicht so weitgehend präzisiert worden, dass man versteht, wie sie beantwortet werden können. Rigorose Formalisierung ist vonnöten, bevor man sich überhaupt ans Rechnen machen kann. Vorbildhaft sind hier die Arbeiten von Ed Stabler.

Formalisierung der Generativen Grammatik

Ursprünglich habe ich mich für formale Syntax begeistert, speziell formale Eigenschaften von Rektions- und Bindungstheorie (GB), auch wenn ich gelegentlich über GPSG und HPSG veröffentlicht habe. In einer Serie von drei Arbeiten habe ich die drei Grundbausteine der Transformationsgrammatik abgehandelt: Kommandorelationen, Adjunktion und Ketten. Neben dem theoretischen Interesse (zB an dem Beweis, dass Multidominanzstrukturen praktisch äquivalent sind zu den gebräuchlichen Spurstrukturen, die man in den Lehrbüchern findet) gibt es noch ein anderes Motiv. Generative grammatik ist eine sehr reichhaltige und komplizierte Theorie, und es durchaus nicht leicht, die Konsequenzen von verschiedenen Annahmen abzuschätzen. Man hätte idealerweise gerne einen Beweis dafür, dass die Postulate den Zweck erfüllen, für den sie geschaffen wurden. Solch eine Zusicherung kann durch einen Theorembeweiser geliefert werden, den man mit der Theorie füttert, und dann gewisse formale Eigenschaften abfragt. Dieses Projekt wurde zunächst in Prolog von Ed Stabler verwirklicht. In meiner eigenen Forschung benutze ich aber nicht Prolog (= Prädikatenlogik erster Stufe) oder wie James Rogers monadische Prädikatenlogik zweiter Stufen, sondern schlicht dynamische Aussagenlogik. Der Grund ist, dass diese Logiken sehr viel elementarer sind. Immerhin lässt sich zeigen, dass die dynamische (Aussagen)logik der Multidomanzstrukturen entscheidbar ist (siehe hier). Das ist zwar erst die halbe Miete, aber ich bin sicher, dass die zweite auch noch bezahlt wird.

Formale Sprachen

Die Sprachhierarchie oder -hiearchien haben eine wichtige Rolle in der Syntaxtheorie gespielt (man denke etwa an den Beweis von Peters und Ritchie, dass Transformationsgrammatiken alle rekursiv aufzählbaren Sprachen erzeugen können oder an die Entwicklung der GPSG). Mein eignenes Interesse ist, einerseits herauszufinden, wie kompliziert natürliche Sprache denn nun eigentlich ist, und andererseits, welche Sprachen ein Formalismus erzeugen kann, und welche nicht. Ein wichtiges Resultat ist hier, dass die Rektions- und Bindungstheorie (GB) kontextfreie Sprachen erzeugt, wenn Kopfbewegung nur beschränkt oft angewendet werden kann (siehe Syntactic Codes and Grammar Refinement). Dieses Ergebnis wurder unabhängig auch von James Rogers gezeigt. Mich haben auch sogenannte Linear Context Free Rewrite Systems begeistert. Aufgrund der Arbeiten von Jens Michaelis und Henk Harkema wissen wir, dass das Minimalistische Programm schwach äquivalent zu diesen Grammatiken ist. Mit Jens Michaelis habe ich davor zeigen können, dass Sprachen mit Suffixaufnahme nicht semilinear sind und deswegen von LCFRSn nicht erzeugt werden können. Daraus folgt, dass auch das Minimalistische Programm sie nicht erzeugen kann. Der Aufsatz befindet sich hier. (Bhatt und Joshi haben die Behauptungen über Altgeorgisch (zu Recht) kritisiert, allerdings erscheint die zentrale Aussage dennoch richtig). Eine Zusammenfassung von Suffixaufnahme findet sich hier. Semilinearität hat micht seitdem sehr beschäftigt. Ich habe einen neuen Beweis des Satzes von Spanier und Ginsburg gegeben (siehe A New Proof of a Result by Ginsburg and Spanier). Ein anderes Abfallprodukt ist, dass Ogden's Lemma (oder auch das Pumplemma) völlig unzureichend ist, um kontextfreie Sprachen zu charakterisieren; nicht einmal die Verschärfung durch Alexis Manaster-Ramer ist genug (siehe Too Manz Languages Satisfy Ogden's Lemma).

Implementierungen

Computerlinguistik ist zwar kein Programmierunterricht, aber trotzdem möchte man gerne nicht nur wissen, wie's geht, sondern auch selber mal programmieren. Ich selber programmiere am liebsten in OCaml (funktional, aber nicht strikt; und freie Software, zu haben bei INRIA). Mein bisher größtes Projekt ist die Implementierung von einem semantischen Parser, der sogenannte Referentensysteme benutzt. Die Idee des Systems war es, die eigene Intuition zu schärfen. Inzwischen ist das Projekt allerdings sehr groß geworden. Der Quellcode ist frei erhältlich.

Logik und Grammatik

Seit einiger Zeit hat sich eine Forschungsrichtung namens modelltheoretische Syntax etabliert. Ein Forschungszweig wurde schon oben besprochen, die formale Analyse von Theorien (HPSG, generative Grammatik) mit Hilfe von logischen Sprachen (in meinem Fall dynamische Aussagenlogik). Ein anderer Zweig ist die Anwendung von endlicher Modelltheorie, selbst eine Hochzeit von Logik und Komplexitätstheorie. Es gibt aber auch noch tiefergehende Fragen. So habe ich in Inessential Features den Begriff eines unwesentlichen Merkmals eingeführt. Dies ist ein Merkmal, dessen Verteilung von den anderen Merkmalen determiniert wird. Logisch gesprochen sagen wir, es sei implizit definiert. In dem Fall, wo man auch eine explizite Definition finden kann, kann man das Merkmal von der Theorie entfernen. Es ist allerdings nicht immer so, dass implizit definierte Merkmal auch explizit definierbar sind; im Wesentlichen hängt dies von der Ausdrucksstärke der beschreibenden Sprache ab. Dieser Ansatz erlaubt es, eine Brücke zwischen HPSG und generativen Theorien zu schlagen. In generativer Grammatik bemüht man sich um repräsentationelle Ökonomie, das heißt, man eliminiert unwesentliche Merkmale. Dies mag eine etwas idiosynkratische Sichtweise sein, aber sie ist keineswegs unplausibel.

Allgemeine Sprachwissenschaft

Kongruenzmorphologie und Kasus

Nach Ausflügen in die Syntax habe ich mich in letzter Zeit verstärkt der Semantik zugewandt. Am meisten interessiert mich die Interaktion zwischen Morphologie und Semantik. In der Monographie Agreement Morphology, Argument Structure and Syntax, stelle ich eine Theorie vor, die Zeichenketten in Bedeutungen und zurück umwandelt. Dies ist ein erster Anfang. Es ging dabei wesentlich um die Frage, welchen Beitrag Morphologie, allen voran Kasus und Kongruenz, spielen. Eine Seitenlinie dieses Projektes ist die Forschung über Lokalkasus. Ein spezielles Ergebnis ist, dass Lokalkasus aus mehreren semantisch Schichten bestehen (siehe Against the Feature Bundle Theory of Case). Kasusselektion ist normalerweise die Selektion von zwei Köpfen, und nicht einem; der Fall, wo nur ein Kopf, der äußere, selegiert wird, wurde bisher gar nicht diagnostiziert isit aber gar nicht so selten (siehe Directionality Selection).

Kompositionalität

Kompositionalität ist eine Eigenschaft, die jeder Linguist seiner eigenen Semantik gerne wünscht; eine Art Gütesiegel also. Leider ist es um die Intuition, was jetzt eine kompositionale Semantik ist und was nicht, sehr schlecht bestellt. Dies liegt daran, dass man bei der Semantik immer wieder syntaktische Beimischungen findet, die oft großzügig durchgewunken werden. Ein anderes Problem ist ein unkritischer Gebrauch des Begriffs ``Teil''. Deswegen ist nach meinen Erfahrung auch der Löwenanteil an ``Frameworks'' leider nicht kompositional. Ich habe darüber in Strict Compositionality and Literal Movement Grammars geschrieben. Kompositionalität ist auch eines der zentralen Themen in meinem Buch "The Mathematics of Language". Während ich in dem Buch vornehmlich die Hauptströmungen durchgegangen binn, wie etwa Montague Grammatik, so habe ich mich danach alternativen Zugängen gewidmet. Angenommen, Bedeutungen sind gar nicht getypte λ-terme sondern nur Wahrheitsbedingungen. Und es sei so, dass Bedeutungen keinerlei Angaben über Syntax machen und umgekehrt (wobei klar sein sollte, dass zwischen den beiden keine Verbindung a priori existiert). Dann wird die Frage nach Kompositionalität von Sprachen nichttrivial. Die Konversion auf Chomskysce Normalform ist nicht mehr garantiert. Es wird jetzt möglich zu zeigen, dass Niederländlisch tatsächlich nicht stark kontextfrei ist, auch wenn es schwach kontextfrei sein sollte (immer wieder vermutet, aber nie bewiesen). Mehr dazu in hier). Inzwischen habe ich dem Them ein ganzes Buch gewidmet; dies und Material drumherum findet man auf "Die Kompositionalitätssaga".

Sprache und Raum

Die linguistischen Veröffentlichungen zum Thema Raum sind immer noch ein Bruchteil im Vergleich zu denen zum Thema Zeit (und Aspekt). (In der kognitiven Linguistik ist es allerdings umgekehrt.) So langsam beginnt sich jedoch die Einsicht durchzusetzen, dass aus linguistischer Sicht die räumlichen Ausdrücke durchaus etwas Besonderes bieten. Ich bin zu diesem Thema auf dem Umweg der Kasussysteme gekommen, aber seitdem lässt es mich nicht los, insbesondere uralische Sprachen und Lokalkasus. Die Semantik von lokalen Ausdrücken ist noch in den Kinderschuhen, obwohl wir aus den technischen Disziplinen (Physik, Mathematik) eine Menge wissen. In The Fine Structure of Local Cases habe ich Parallelen zwischen der semantischen und der morphologischen Struktur (à la Svenonius) befasst. Ich habe mich seither mit einer Reihe von Sprachen auseinandergesetzt (Indo-Germanisch, Uralisch, Oceanisch, Uto-Aztekisch) und die morphologischen und syntaktischen Strukturen angeschaut. Es gibt zu einer Vorlesungn auch ein Manuskript, das allerdings in keinem sehr guten Zustand ist.

Der Verband der Modalen Logiken

Mein Spezialgebiet war ursprünglich die Modallogik, genauer die modale Aussagenlogik. Das klingt sehr speziell, ist aber ein sehr reiches Gebiet. Meine ersten Arbeiten waren über den Verband der Aussagenlogiken, insbesondere Splittings. Später habe ich mich mit dem Verband der polymodalen Logiken auseinanderegsetzt und wie der mit dem der monomodalen Logiken zusammenhängt. Die meisten Arbeiten hierzu entstanden zuammen mit Frank Wolter. Das grundlegende Ergebnis ist, dass der Verband der n-modalen Logiken isomorph zu einem Intervall in dem Verband der monomodalen Logiken ist. Dieser Isomorphismus erhält viele Eigenschaften (endliche Modelleigenschaft, Entscheidbarkeit, Interpolation, um nur einige zu nennen). Dies ist ein ausgezeichnetes Werkzeug, um Gegenbeispiele zu konstruieren. Mein Buch "Tools and Techniques in Modal Logic" (Elsevier, 1999) enthält ein (wie ich hoffe) ziemlich gutes Bild von dem Stand der Forschung.

Reduktionsfunktionen

Man betrachte das Problem, ob in einer Logik M eine gegebene Formel φ aus einer Menge von Prämissen Γ folgt. Es sei L in M enthalten. Dann existiert eine endliche Menge Δ (= Δ(φ,Γ)) von Tautologien von M derart, dass φ schon in L aus Γ;Δ folgt. Angenommen, es gibt einen Algorithmus, um Δ gegeben φ und Γ effektiv berechnen. Wenn dann L entscheidbar ist, so ist es auch M. Ferner lassen sich Komplexitätsschranken bestimmen. Falls L die endliche Modelleigenschaft hat, so auch M. Außerdem gibt es ein leicht zu prüfendes Kriterium, nach dem M Interpolation haben muss, wenn es L hat. Diese Methode habe ich zuerst in "Tools and Techniques" beschrieben. Sie ist einfach und wirkungsvoll; die besten bekannten Komplexitätsschranken lassen sich mit ihrer Hilfe ableiten. Sie ist strikt finitär und konstruktiv.

Modale Prädikatenlogik

Modale Prädikatenlogik ist vor allem für Sprachwissenschaftler und Philosophen von Belang, weswegen sie auch am meisten dazu beigetragen haben, sowohl in der Form von Rätseln (das Pierre Puzzle von Kripke) wie auch in der Form von Vorschlägen zur Semantik. Die beliebtesten Semantiken sind die Kripke-Semantik und die Gegenstücksemantik (von Lewis). Beide sind allerdings hochgradig unvollständig. Dies bedeutet, dass Logiken in der Regel keine charakterisierende Klasse von Modellen haben. Dies änderte sich mit den Arbeiten von Valentin Shehtman und Dimiter Skvortsov. Ihre Semantik basiert auf einer Konstruktion, die schon sehr viel früher von Fred Lawvere eingeführt wurde, nämlich die Hyperdoktrin (das ist eine Sorte Funktor von der Kategorie der natürlichen Zahlen in die Kategorie der Algebren). Leider ist diese Semantik nicht sehr intuitiv. Zusammen mit Oliver Kutz habe ich eine allgemeine Semantik entwickelt, zunächst für Gegenstücklogiken und dann für modale Prädikatenlogik (erster und zweiter Stufe). Wir haben einen allgemeinen Vollständigkeitsbeweis geliefert, sowie Methoden, um diese Semantik in anderen Semantiken zu interpretieren (und umgekehrt).
Marcus Kracht
Zuletzt geändert: Mo 15. September 2008 14:00:00 2008