Beschreibung

Das TAGH-Morphologiesystem

Das TAGH-Morphologiesystem lemmatisiert (d.h. führt die Wortformen auf Grundformen zurück) und zerlegt Wortformen auf der Grundlage sog. gewichteter endlicher Transduktoren. Ein gewichteter Transduktor ist im Wesentlichen ein endlicher Automat, dessen Übergänge mit Symbolpaaren etikettiert sind. Zusätzlich können Endzustände und Übergänge mit numerischen Gewichten versehen sein, die bzgl. einer algebraischen Struktur (Minimum-Additions-Semiring) verarbeitet werden. Die Transduktoren sind auf der Basis der Potsdamer FST-Bibliothek realisiert (Referenz, Tom fragen). Diese in C++ geschriebene Bibliothek implementiert etwa 30 Operationen der Automatenalgebra in effizienter Weise und erlaubt zudem eine kompakte Speicherung in verschiedenen Repräsentationsformaten.

Der TAGH-Morphologietransduktor weist derzeit 3,96 Mio Zustände und 6,75 Mio Übergänge auf und belegt als Datei ca. 32 MB Festplattenspeicher. Die Verarbeitungsgeschwindigkeit liegt - je nach Rechnerleistung - zwischen 30.000 und 50.000 Wörtern pro Sekunde.

Die Erkennungsrate des TAGH-Systems bei neueren Zeitungstexten (Zeitarchiv) liegt bei über 99,3%. Die Erkennungsrate für das DWDS-Kerncorpus liegt bei 98,3%.

Das Lexikon

Die Teillexika werden mit TAGH-FST-Compilern übersetzt und dann durch einige 100 algebraische Operationen in den endgültigen Transduktor überführt.

  • Nomenlexikon: 41.000 einfache und komplexe Stämme mit Flexions- und Wortbildung.
  • Eigennamen: 60.000 geographische Eigennamen, 20.000 Vornamen, 150.000 Familiennamen
  • Verblexikon: 21.000 Stämme, davon 3.000 einfache Stämme.
  • Adjektive: 11.000 Stämme mit Flexions- und Wortbildung.
  • Adverbien: 2.300 Wortformen
  • Geschlossene Formen: ca. 1.500 Präpositionen, Determinativa, Konjunktionen, Zahlwörter, Interjektionen.
  • Konfixe: 105 Konfixe
  • Abkürzungen und Akronyme: 9.000 (11.500) Einträge.
  • Semantische Kategorien für Nomen (s. LexikoNet).

Die Begriffshierarchie LexikoNet

Eingebunden in die TAGH-Morphologie ist ferner eine konzeptbasierte lexikalische Begriffshierarchie deutscher Nomen (LexikoNet). LexikoNet umfasst etwa 1.200 hierarchisch geordnete Konzepte. Aus Effizienzgründen wurden diese im TAGH-System auf 100 Kategorien der vier obersten Ebenen reduziert. Beispiele für Konzepte sind Abstrakta, Konkreta, Materien und Stoffe, Artefakte, Instrumente, Menschen, Menschen nach Wertorientierung, Gruppen, Sportmannschaften, Gebäude etc. Etwa 75.000 Wörter (90.000 Bedeutungen) wurden den Konzepten zugeordnet; darunter befinden sich etwa 45.000 Berufsbezeichner (einschließlich movierter Formen). Ein Beispiel für die Zuordnung von Hase in der Bedeutung Sternbild findet sich in folgender Grafik.

Einige Beispielanalysen

Beispielanalyse für Handschuh mit TAGH-Ausgabe:


Beispielanalyse für Kommunion mit TAGH-Ausgabe:

Erläuterungen zu den Abbildungen und zu den Sonderzeichen