- Christian Wartena, Linguatec Entwicklung & Services, Heidelberg, zum Thema Einsatzmöglichkeiten bilingualer Satzarchive. Ort: Komplex Golm, Haus 24, R.033/034. Zeit: Montag, 15. April '02, 17 Uhr s.t.
Abstract
Für eine effiziente fremdsprachliche Kommunikation gewinnen elektronische Hilfsmittel, die Sprachdaten einfach und schnell zur Verfügung stellen, zunehmend an Bedeutung. Neben elektronischen Wörterbüchern spielen hier vor allem Satzarchive (Translation Memories) und Programme, die diese abfragbar machen, eine wichtige Rolle.
Satzarchive werden traditionell bei der computerunterstützten und automatischen Übersetzung eingesetzt. Die Beliebtheit von Online-Diensten wie denen der TU München (http://dict.leo.org) oder linguatec (http://linguadict.de), die ein Wörterbuch und ein Satzarchiv unter einer einfachen Oberfläche vereinen, belegt aber ein weitaus breiteres Anwendungsgebiet. Der Erfolg dieser Dienste beruht sicherlich nicht nur auf der Qualität und der Quantität der Daten, sondern zum Großteil auch auf der Einfachkeit in der Bedienung und der Transparenz der Suchergebnisse. Am Beispiel des linguadict werden wir sehen, wie einfache computerlinguistische Techniken zur Benutzerfreundlichkeit beitragen können.
Ein weiteres Einsatzgebiet für Satzarchive liegt im Aufbau von Terminologielexika. Originaltexte und ihre Übersetzung könnten in vielen Firmen die Grundlage eines firmenspezifischen Lexikons für sowohl menschliche als auch automatische Übersetzung bilden. Voraussetzung ist aber die Möglichkeit, dieses Material automatisch aufzubereiten. Hierzu sind im wesentlichen drei Schritte erforderlich: 1. Aufbau eines Satzarchives aus dem Rohmaterial; 2. Identifikation von Terminologie und Mehrwortlexemen; 3. Zuordnung der einzelnen Wörter zu ihrer Übersetzung. In meinem Vortrag werden wir auf das dritten Problem näher eingehen und einen Prototyp einer Implementierung des sogenannten word alignments vorstellen.