Meine Interessen
Ich arbeite über Computerlinguistik und mathematische Linguistik
sowie Logik. Diese Seite gibt hoffentlich ein genaueres Bild von dem,
was mich umtreibt oder umgetrieben hat.
Computerlinguistik und Mathematische Linguistik
Ich verstehe mich als theoretischer Computerlinguist. So wie auch
ein theoretischer Informatiker bin ich nicht unbedingt jemand, der am
Computer mehr tut, als Texte zu schreiben. Das Primäre
Ziel ist die Erkenntnis, und der Computer ist ein Werkzeug
dafür. Natürlich versuche ich auch zu verstehen, wie
der Computer in der Sprachverarbeitung eingesetzt werden kann.
Dabei entstehen oft folgende Fragen.
- Wie kann ein Problem adäquat formalisiert werden?
- Kann das Problem prinzipiell gelöst werden, und wenn ja,
wie?
- Was ist die effizienteste Methode, das Problem zu lösen?
Der Löwenanteil der Forschung in Computerlinguistik ist
praktischer Natur. Man benutzt eine Methode, um ein bestimmtes
praktisches Problem zu lösen, und es kommt im Wesentlichen
darauf an, dass man die Arbeit überhaupt macht (zB das
Erstellen von Korpora). Dabei sollte man sich aber immer wieder
fragen, ob die Methode dem Problem angemessen ist und ob man
überhaupt auf diesem Wege etwas erreichen kann. Viele
Probleme und Fragen sind auch nicht so weitgehend präzisiert
worden, dass man versteht, wie sie beantwortet werden können.
Rigorose Formalisierung ist vonnöten, bevor man sich
überhaupt ans Rechnen machen kann. Vorbildhaft sind hier
die Arbeiten von
Ed Stabler.
Formalisierung der Generativen Grammatik
Ursprünglich habe ich mich für formale Syntax begeistert,
speziell formale Eigenschaften von Rektions- und Bindungstheorie
(GB), auch wenn ich gelegentlich über GPSG und HPSG
veröffentlicht habe. In einer Serie von drei Arbeiten
habe ich die drei Grundbausteine der Transformationsgrammatik
abgehandelt:
Kommandorelationen,
Adjunktion und
Ketten. Neben dem theoretischen
Interesse (zB an dem Beweis, dass Multidominanzstrukturen
praktisch äquivalent sind zu den gebräuchlichen
Spurstrukturen, die man in den Lehrbüchern findet)
gibt es noch ein anderes Motiv. Generative grammatik ist
eine sehr reichhaltige und komplizierte Theorie, und es
durchaus nicht leicht, die Konsequenzen von verschiedenen
Annahmen abzuschätzen. Man hätte idealerweise
gerne einen Beweis dafür, dass die Postulate den Zweck
erfüllen, für den sie geschaffen wurden.
Solch eine Zusicherung kann durch einen Theorembeweiser
geliefert werden, den man mit der Theorie füttert,
und dann gewisse formale Eigenschaften abfragt. Dieses
Projekt wurde zunächst in Prolog von
Ed Stabler
verwirklicht. In meiner eigenen Forschung benutze ich aber
nicht Prolog (= Prädikatenlogik erster Stufe) oder wie
James Rogers monadische Prädikatenlogik zweiter Stufen,
sondern schlicht dynamische Aussagenlogik. Der Grund ist,
dass diese Logiken sehr viel elementarer sind. Immerhin
lässt sich zeigen, dass die dynamische (Aussagen)logik
der Multidomanzstrukturen entscheidbar ist
(siehe hier). Das ist zwar
erst die halbe Miete, aber ich bin sicher, dass die
zweite auch noch bezahlt wird.
Die Sprachhierarchie oder -hiearchien haben eine wichtige
Rolle in der Syntaxtheorie gespielt (man denke etwa an den
Beweis von Peters und Ritchie, dass Transformationsgrammatiken
alle rekursiv aufzählbaren Sprachen erzeugen können
oder an die Entwicklung der GPSG). Mein eignenes Interesse
ist, einerseits herauszufinden, wie kompliziert natürliche
Sprache denn nun eigentlich ist, und andererseits, welche
Sprachen ein Formalismus erzeugen kann, und welche nicht.
Ein wichtiges Resultat ist hier, dass die Rektions- und
Bindungstheorie (GB) kontextfreie Sprachen erzeugt, wenn
Kopfbewegung nur beschränkt oft angewendet werden kann
(siehe
Syntactic Codes and Grammar Refinement).
Dieses Ergebnis wurder unabhängig auch von
James Rogers
gezeigt. Mich haben auch sogenannte Linear Context Free Rewrite
Systems begeistert. Aufgrund der Arbeiten von
Jens Michaelis
und Henk Harkema
wissen wir, dass das Minimalistische Programm schwach
äquivalent zu diesen Grammatiken ist. Mit
Jens Michaelis habe ich davor zeigen können, dass Sprachen
mit Suffixaufnahme nicht semilinear sind und deswegen von
LCFRSn nicht erzeugt werden können. Daraus folgt, dass auch
das Minimalistische Programm sie nicht erzeugen kann.
Der Aufsatz befindet sich hier.
(Bhatt und Joshi haben die Behauptungen über Altgeorgisch
(zu Recht) kritisiert, allerdings erscheint die zentrale
Aussage dennoch richtig). Eine Zusammenfassung von Suffixaufnahme
findet sich hier. Semilinearität
hat micht seitdem sehr beschäftigt. Ich habe einen neuen Beweis
des Satzes von Spanier und Ginsburg gegeben (siehe
A New Proof of a Result by Ginsburg and Spanier).
Ein anderes Abfallprodukt ist, dass Ogden's Lemma (oder auch
das Pumplemma) völlig unzureichend ist, um kontextfreie
Sprachen zu charakterisieren; nicht einmal die Verschärfung
durch Alexis Manaster-Ramer ist genug (siehe
Too Manz Languages Satisfy Ogden's Lemma).
Implementierungen
Computerlinguistik ist zwar kein Programmierunterricht, aber
trotzdem möchte man gerne nicht nur wissen, wie's geht,
sondern auch selber mal programmieren. Ich selber programmiere
am liebsten in OCaml (funktional, aber nicht strikt; und freie
Software, zu haben bei INRIA).
Mein bisher größtes Projekt ist die Implementierung von
einem semantischen Parser, der sogenannte
Referentensysteme benutzt. Die Idee des
Systems war es, die eigene Intuition zu schärfen. Inzwischen
ist das Projekt allerdings sehr groß geworden. Der Quellcode
ist frei erhältlich.
Logik und Grammatik
Seit einiger Zeit hat sich eine Forschungsrichtung namens
modelltheoretische Syntax etabliert. Ein Forschungszweig
wurde schon oben besprochen, die formale Analyse von Theorien
(HPSG, generative Grammatik) mit Hilfe von logischen Sprachen
(in meinem Fall dynamische Aussagenlogik). Ein anderer
Zweig ist die Anwendung von endlicher Modelltheorie,
selbst eine Hochzeit von Logik und Komplexitätstheorie.
Es gibt aber auch noch tiefergehende Fragen.
So habe ich in Inessential Features
den Begriff eines unwesentlichen Merkmals eingeführt.
Dies ist ein Merkmal, dessen Verteilung von den anderen
Merkmalen determiniert wird. Logisch gesprochen sagen wir,
es sei implizit definiert. In dem Fall, wo man auch
eine explizite Definition finden kann, kann man das
Merkmal von der Theorie entfernen. Es ist allerdings nicht
immer so, dass implizit definierte Merkmal auch explizit
definierbar sind; im Wesentlichen hängt dies von der
Ausdrucksstärke der beschreibenden Sprache ab.
Dieser Ansatz erlaubt es, eine Brücke zwischen
HPSG und generativen Theorien zu schlagen. In generativer
Grammatik bemüht man sich um repräsentationelle
Ökonomie, das heißt, man eliminiert unwesentliche
Merkmale. Dies mag eine etwas idiosynkratische Sichtweise
sein, aber sie ist keineswegs unplausibel.
Allgemeine Sprachwissenschaft
Kongruenzmorphologie und Kasus
Nach Ausflügen in die Syntax habe ich mich in letzter
Zeit verstärkt der Semantik zugewandt. Am meisten
interessiert mich die Interaktion zwischen Morphologie und
Semantik. In der Monographie Agreement
Morphology, Argument Structure and Syntax, stelle ich
eine Theorie vor, die Zeichenketten in Bedeutungen und
zurück umwandelt. Dies ist ein erster Anfang. Es ging
dabei wesentlich um die Frage, welchen Beitrag Morphologie,
allen voran Kasus und Kongruenz, spielen. Eine Seitenlinie
dieses Projektes ist die Forschung über Lokalkasus.
Ein spezielles Ergebnis ist, dass Lokalkasus aus mehreren
semantisch Schichten bestehen (siehe
Against the Feature Bundle Theory of Case).
Kasusselektion ist normalerweise die Selektion von zwei
Köpfen, und nicht einem; der Fall, wo nur ein Kopf, der
äußere, selegiert wird, wurde bisher gar nicht
diagnostiziert isit aber gar nicht so selten (siehe
Directionality Selection).
Kompositionalität
Kompositionalität ist eine Eigenschaft, die jeder Linguist
seiner eigenen Semantik gerne wünscht; eine Art Gütesiegel
also. Leider ist es um die Intuition, was jetzt eine kompositionale
Semantik ist und was nicht, sehr schlecht bestellt. Dies liegt
daran, dass man bei der Semantik immer wieder syntaktische
Beimischungen findet, die oft großzügig durchgewunken
werden. Ein anderes Problem ist ein unkritischer Gebrauch des
Begriffs ``Teil''. Deswegen ist nach meinen Erfahrung auch der
Löwenanteil an ``Frameworks'' leider nicht kompositional.
Ich habe darüber in
Strict Compositionality and Literal Movement Grammars
geschrieben. Kompositionalität ist auch eines der zentralen
Themen in meinem Buch "The Mathematics of Language". Während ich
in dem Buch vornehmlich die Hauptströmungen durchgegangen
binn, wie etwa Montague Grammatik, so habe ich mich danach
alternativen Zugängen gewidmet. Angenommen, Bedeutungen sind
gar nicht getypte λ-terme sondern nur Wahrheitsbedingungen.
Und es sei so, dass Bedeutungen keinerlei Angaben über
Syntax machen und umgekehrt (wobei klar sein sollte, dass
zwischen den beiden keine Verbindung a priori existiert).
Dann wird die Frage nach Kompositionalität von Sprachen
nichttrivial. Die Konversion auf Chomskysce Normalform ist nicht
mehr garantiert. Es wird jetzt möglich zu zeigen, dass
Niederländlisch tatsächlich nicht stark kontextfrei
ist, auch wenn es schwach kontextfrei sein sollte (immer
wieder vermutet, aber nie bewiesen). Mehr dazu in
hier). Inzwischen habe ich dem
Them ein ganzes Buch gewidmet; dies und Material drumherum
findet man auf
"Die Kompositionalitätssaga".
Sprache und Raum
Die linguistischen Veröffentlichungen zum Thema Raum sind
immer noch ein Bruchteil im Vergleich zu denen zum Thema Zeit
(und Aspekt). (In der kognitiven Linguistik ist es allerdings
umgekehrt.) So langsam beginnt sich jedoch die Einsicht
durchzusetzen, dass aus linguistischer Sicht die räumlichen
Ausdrücke durchaus etwas Besonderes bieten. Ich bin zu
diesem Thema auf dem Umweg der Kasussysteme gekommen, aber
seitdem lässt es mich nicht los, insbesondere uralische
Sprachen und Lokalkasus. Die Semantik von lokalen Ausdrücken
ist noch in den Kinderschuhen, obwohl wir aus den technischen
Disziplinen (Physik, Mathematik) eine Menge wissen. In
The Fine Structure of Local Cases
habe ich Parallelen zwischen der semantischen und der
morphologischen Struktur (à la Svenonius) befasst.
Ich habe mich seither mit einer Reihe von Sprachen auseinandergesetzt
(Indo-Germanisch, Uralisch, Oceanisch, Uto-Aztekisch)
und die morphologischen und syntaktischen Strukturen angeschaut.
Es gibt zu einer Vorlesungn auch ein Manuskript, das allerdings
in keinem sehr guten Zustand ist.
Mathematische Logik
Der Verband der Modalen Logiken
Mein Spezialgebiet war ursprünglich die Modallogik,
genauer die modale Aussagenlogik. Das klingt sehr speziell,
ist aber ein sehr reiches Gebiet. Meine ersten Arbeiten
waren über den Verband der Aussagenlogiken, insbesondere
Splittings. Später habe ich mich mit dem Verband der
polymodalen Logiken auseinanderegsetzt und wie der mit dem
der monomodalen Logiken zusammenhängt. Die meisten
Arbeiten hierzu entstanden zuammen mit
Frank Wolter.
Das grundlegende Ergebnis ist, dass der Verband der
n-modalen Logiken isomorph zu einem Intervall in dem
Verband der monomodalen Logiken ist. Dieser Isomorphismus
erhält viele Eigenschaften (endliche Modelleigenschaft,
Entscheidbarkeit, Interpolation, um nur einige zu nennen).
Dies ist ein ausgezeichnetes Werkzeug, um Gegenbeispiele
zu konstruieren. Mein Buch "Tools
and Techniques in Modal Logic" (Elsevier, 1999) enthält
ein (wie ich hoffe) ziemlich gutes Bild von dem Stand der
Forschung.
Reduktionsfunktionen
Man betrachte das Problem, ob in einer Logik M eine
gegebene Formel φ aus einer Menge von Prämissen
Γ folgt. Es sei L in M enthalten.
Dann existiert eine endliche Menge Δ (= Δ(φ,Γ))
von Tautologien von M derart, dass φ
schon in L aus Γ;Δ folgt. Angenommen,
es gibt einen Algorithmus, um Δ gegeben φ
und Γ effektiv berechnen. Wenn dann L
entscheidbar ist, so ist es auch M. Ferner lassen sich
Komplexitätsschranken bestimmen. Falls L die endliche
Modelleigenschaft hat, so auch M. Außerdem gibt es
ein leicht zu prüfendes Kriterium, nach dem M
Interpolation haben muss, wenn es L hat. Diese Methode
habe ich zuerst in "Tools and Techniques"
beschrieben. Sie ist einfach und wirkungsvoll; die besten
bekannten Komplexitätsschranken lassen sich mit ihrer
Hilfe ableiten. Sie ist strikt finitär und konstruktiv.
Modale Prädikatenlogik
Modale Prädikatenlogik ist vor allem für Sprachwissenschaftler
und Philosophen von Belang, weswegen sie auch am meisten dazu
beigetragen haben, sowohl in der Form von Rätseln (das Pierre
Puzzle von Kripke) wie auch in der Form von Vorschlägen zur
Semantik. Die beliebtesten Semantiken sind die Kripke-Semantik und
die Gegenstücksemantik (von Lewis). Beide sind allerdings
hochgradig unvollständig. Dies bedeutet, dass Logiken in der
Regel keine charakterisierende Klasse von Modellen haben.
Dies änderte sich mit den Arbeiten von Valentin Shehtman
und Dimiter Skvortsov. Ihre Semantik basiert auf einer Konstruktion,
die schon sehr viel früher von Fred Lawvere eingeführt
wurde, nämlich die Hyperdoktrin (das ist eine Sorte
Funktor von der Kategorie der natürlichen Zahlen in die Kategorie
der Algebren). Leider ist diese Semantik nicht sehr intuitiv.
Zusammen mit Oliver Kutz
habe ich eine allgemeine Semantik entwickelt, zunächst für
Gegenstücklogiken und dann für modale Prädikatenlogik
(erster und zweiter Stufe). Wir haben einen allgemeinen
Vollständigkeitsbeweis geliefert, sowie Methoden, um
diese Semantik in anderen Semantiken zu interpretieren (und
umgekehrt).
Marcus Kracht
Zuletzt geändert: Mo 15. September 2008 14:00:00 2008