Berechnen von Semantischen Repräsentationen mit Referentensystemen

English German

Version 6.1 Datum: Dienstag, 12. Juli 2016

Dieses Projekt umfasst zwei Teile.

Das Manuskript enthält auch eine Einführung in das Programm und seine Benutzung, sodass man mit beiden gleichzeitig arbeiten kann.
  1. Quellkode
  2. Installation
  3. Tk-Interface
  4. Änderungen
  5. Zu Tun
  6. Internationalisierung
  7. Andere Plattformen
  8. Danksagung

Quellkode

(Die neuesten Fassung.) Ab Version 5.0 wird der Quellkode erstmals öffentlich. Sie können ihn gemäss der GNU Lizenz verwenden. Ich übernehme allerdings auch kein Haftung jeglicher Art, die aus der Verwendung dieser Software resultiert. Untenstehende Erklärungen betreffen bisher lediglich Unix basierte Systeme (das schliesst Mac OS X ein), für eine Anpassung an Windows fehlte mir bisher die Zeit und Expertise.

Zum Seitenanfang

Installation

Falls Sie eine eigene lauffähige Version auf Ihrem Computer installieren wollen, brauchen Sie folgende Software:

Um das Programm zu installieren, laden Sie die Datei referent_v6-1.tar herunter. Sie enthält die folgenden Dateien: Die Installation verläuft wie folgt. Wählen Sie ein Verzeichnis, <RefSys>, kopieren Sie dorthin die Datei referent_v6-1.tar und entpacken Sie sie mit folgendem Befehl:

  tar xvf referent_v6-1.tar

Sie bekommen Unterverzeichnisse dict und bin. dict ist der Platz für die Wörterbücher, bin der Platz für die ausführbaren Dateien. Tippen Sie nun

  chmod +x bin/*

Dies macht die Dateien in bin ausführbar. Wenn Sie zum ersten Mal compile aufrufen, wird ein Verzeichnis parse von <RefSys> erzeugt. In diesem Verzeichnis werden Sie alle Ausgaben von Parses etc. wiederfinden. Das interaktive Installationsprogramm erlaubt eine Installation in Deutsch und Englisch. Die Installationssprache wird an das System weitergegeben und bestimmt die Sprache, in der Ausgabefiles geschaffen werden. Dieser Schritt sollte nicht übersprungen werden. Es folgt eine Abfrage, ob Sie die Software kompilieren wollen. Beim ersten Mal sollten Sie das unbedingt tun, danach nur, wenn Sie Änderungen vorgenommen haben. Danach werden Sie nach den Wörterbüchern gefragt. Am Ende bekommen Sie ein Tcl/Tk User Interface, das Sie mit ref aurufen können. Fehler bei der Kompilation werden in der Datei compile.log abgelegt. Wenn dieser leer ist, ist das System erfolgreich installiert. Jetzt fehlt nur noch der magische Spruch, der das System startet.

  ref


Zum Seitenanfang

Tk-Interface

Das graphische Interface erlaubt die Eingabe von beliebigen Zeichen (man muss sie nur in das Lexikon stellen). Um das Interface aufzurufen, müssen Sie lediglich ref eintippen. Wenn Sie "parse" antippen, wird eine Datei namens

  parse/date<datum>at<zeit>.tex

erzeugt, sodass ältere Dateien nicht zerstört werden. (Sie sollten deswegen von Zeit zu Zeit das Verzeichnis parse aufräumen.)

Zum Seitenanfang

Changelog

Version 3
Seit Version 3 ist das Programm modular aufgebaut und deswegen auch für andere transparenter. Auch der Algorithmus ist anders: das Programm berechnet erst Parseterme ohne Semantik und rechnet nur die erfolgreichen Terme aus. Eine weitere Neuerung sind das Polyadische Merge (welches unter anderem zur Behandlung von Infinitiven nötig ist.)
Version 4
Neben der Berichtigung von einigen Codefehlern erzeugt die neue Fassung jetzt auch eine interaktive Webseite, bei der Benutzer Wörterbücher laden können.

Zum Seitenanfang
Version 5.0

Die grössten Änderungen betreffen die Morphologie. Einträge bestehen jetzt unter anderem aus Morphemen, welche ihrerseits Mengen von Morphen sind. Jedes Morph besitzt ausser einem Exponenten (ein Array von Strings) auch Angaben zur Behandlung von Exponenten. Der Vorzug liegt ausser im linguistischen Bereich auch in der besseren Integration von Morphologie und damit der Vermeidung von exponentiellem Blowup durch die bisher verwendeten morphologischen Tabellen.

Das Tcl-Skript ist vereinfacht worden.

Version 5.1

Es ist jetzt möglich, nicht ASCII-Zeichen mit einer Standardtastatur bei der Standalone-Fassung einzugeben. Dazu wird lediglich eine Kombinationstabelle aufgebaut, die frei wählbare Kürzel enthält.

Exponenten sind Arrays von sogenannten klebenden Strings. Das sind Zeichenketten, die zusätzlich Bedingungen haben on der Form "darf nur an ein Zeichenkette angehängt werden, die (k)ein Suffix der Form suf hat" bzw. "darf nur an Zeichenkette vorangestellt werden, falls diese (k)ein Präfix der Form pref hat".

Variable sind Paare (Zeichenkette, integer) und Zeichenketten werden mit Hilfe von Buffern ausgegeben, um schneller zu arbeiten.

Version 5.2

Diese Version ist eine drastische Änderung gegenüber. Es gibt keine Standalone Version mehr, dafür ist die graphische Oberfläche einfacher zu benutzen. Sie verwendet einen Stapel, auf den man Dinge ablegen kann und einen Benutzerdialog, der direkte Steuerung erlaubt. Wir haben vergeblich versucht, dynamisches Linken in der neuen OCaml Distribution zum Laufen zu bringen. Deswegen sind wir auf XML-Format umgestiegen. Im Augenblick benutzen wir einen handgemachten Parser, der aber bald abgelöst werden soll. Die Internet Version wird im Augenblick nicht unterstützt. Die Dokumentation ist veraltet.

Version 5.4

Version 5.7

Version 5.8/5.9

Version 6.0

Version 6.1

Zu Tun



Zum Seitenanfang

Internationalisierung

Die Software ist in zwei Hinsichten flexibel. Zum einen ermöglicht sie die Installierung in beliebigen Sprachen (die Sprachkomponente ist strikt getrennt). Zum anderen erlaubt sie die Behandlung von Zeichen ausserhalb von ISO-Latin-1. Augenblicklich benutzt OCaml intern nur ISO-Latin-1, aber die Wörterbücher dürfen sämtliche Unicode Zeichen verwenden. Zum einen benutzen wir eine Erweiterung (Camomile), zum anderen unterstützt Tcl Unicode. LaTeX ist da ein bisschen wählerischer. (Der typewriter font ist etwas unvollständig.) Solange man UTF-8 verwendet und keine zu exotischen Sprachen, sollte allerdings alles ohne Probleme funktionieren. Das Tk-Interface bietet die Möglichkeit, Symbole mittels eines frei wählbaren Codes einzugeben. Näheres im Manuskript Revision 5.

Zum Seitenanfang

Andere Plattformen

Die Software wurde erfolgreich auf zahlreichen Linuxoberflächen getestet, einschliesslich Mac OS X. compile läuft vorschriftsmässig. Für Windows ist bisher der einzige Weg, Cygwin zu installieren. Mir fehlt die Erfahrung mit Windows, um hier Rat zu geben.

Zum Seitenanfang

Danksagung

Referentensysteme wurden von Kees Vermeulen eingeführt. Ich bin Kees sowie Albert Visser dankbar für die Einführung in die Theorie der Referentensysteme. Die Software wurde von mir selbst erstellt und finanziert durch zwei Senatsstipendien der UCLA. Bei der Implementierung waren insbesondere Cory Hill, Ben Keil, Adam Skory und Joseph Vaughan behilflich. Seit März 2009 arbeitet auch Udo Klein an diesem Projekt und November 2010 - September 2011 Sabine Gründer. Sie wurden gefördert durch die Alfried Krupp von Bohlen und Halbach-Stiftung.

Förderung


Zum Seitenanfang

Klagen und Lob richten Sie bitte an Marcus Kracht.

Zum Seitenanfang