- Georg Rehm, Arbeitsbereich Angewandte Sprachwissenschaft und Computerlinguistik, Justus-Liebig-Universität Gießen, zum Thema Hypertextsorten - Neuartige Möglichkeiten der Informationsrecherche im World Wide Web. Ort: Komplex Golm, Haus 24, R.075. Zeit: Dienstag, 4. Dezember '01, 17 Uhr s.t.
Abstract
Die Suchmaschine Google hat mittlerweile mehr als 1,6 Mrd. Webseiten indiziert. Mit der explosionsartig wachsenden Anzahl von Dokumenten werden die Grenzen herkömmlicher Verfahren der Informationsrecherche sichtbar, die sich dem Benutzer noch immer als schlichte Suche nach Stichwörtern präsentiert, die intern insbesondere eingehende Hyperlinks auf ein Dokument für das Ranking von Webseiten einsetzt.
Im Rahmen des Projekts Hypnotic (Hypertexts and their Organization into a Taxonomy by Means of Intelligent Classification) wird in diesem Kontext eine neuartige Ebene der Informationserschließung am Beispiel deutschsprachiger Webseiten aus dem akademischen Bereich untersucht: Hypertextsorten. Hierbei handelt es sich - analog zum (text)linguistischen Konzept der Textsorte - um kanonisierte Hypertextstrukturen im World Wide Web.
Anhand eines sehr großen Korpus von mehr als 1,4 Mio. Dokumenten aus o.g. Domäne wird derzeit mit empirischen Methoden eine Hypertextsorten-Taxonomie erarbeitet. Der Vortrag thematisiert hierbei den Aufbau des Korpus, die initialen Ergebnisse der empirischen Studien, für die Klassifikationsaufgabe einsetzbare strukturelle und linguistische Merkmale, verschiedene Beispiele für unterschiedliche Hypertextsorten und die zu implementierende Architektur des Hypnotic-Klassifikationssystems.