Personal tools
You are here: Home Publikationen Alle Publikationen XDOC - Extraktion, Repräsentation und Auswertung von Informationen mit einer XML-basierten Document Suite
Document Actions

Manuela Kunze and Dietmar Rösner (2004)

XDOC - Extraktion, Repräsentation und Auswertung von Informationen mit einer XML-basierten Document Suite

In: Automatische Textanalyse - Systeme und Methoden zur Annotation und Analyse natürlichsprachlicher Texte, edited by A. Mehler and H. Lobin. VS Verlag für Sozialwissenschaften, Berlin, pages 69-83.

In vielen Bereichen existieren große elektronisch verfügbare Dokumentbestände. Viele Anwender würden diese Dokumentbestände gerne für unterschiedliche Zwecke automatisch auswerten. Bisher stehen ihnen dafür aber nur wenige komfortable Werkzeuge und kaum linguistische Ressourcen, insbesondere auch für die Sprache Deutsch, zur Verfügung. Hier setzen die Arbeiten am Projekt XDOC an. Die potentiellen Nutzer des Systems sind Fachexperten, d.h. Ingenieure, Mediziner, Wirtschaftswissenschaftler u.a., die gemeinsam haben, dass sie sowohl große Dokumentbestände besitzen als auch ein starkes Interesse an ihrer Auswertung haben. Die Auswertung wird typischerweise in einer explorativen Weise erfolgen, d.h. beim Umgang mit den Dokumentbeständen selbst tauchen weitere zunächst nicht antizipierte Fragen auf. Die Nutzungsschwelle soll so niedrig wie möglich sein, d.h. Anwender sollen mit ihren Experimenten beginnen können, ohne vorher erst aufwendige Vorarbeiten z.B. für den Lexikonaufbau leisten zu müssen. Dies hat Konsequenzen für die Robustheit der Werkzeuge. Diese sollen insbesondere mit lexikalischen Lücken umgehen können. Die Arbeitsumgebung soll den Nutzern möglichst vertraut sein. Hier bietet sich eine an WWW-Browsern orientierte Benutzerschnittstelle an. Beispiele für derzeit bearbeitete Anwendungsszenarien sind: o Die Auswertung von Dokumentbeständen mit technischem Wissen im Sinne einer Unterstützung der Formalisierung und Wissensakquisition. o Die Auswertung von Beständen an Obduktionsprotokollen. o Die Auswertung von WWW-Seiten mit Informationen zu Firmen und Erstellung von standardisierten Firmenprofilen. Allen Anwendungen ist gemeinsam, dass sie Aufgaben umfassen, die nicht nur computerlinguistischer Natur sind, sondern auch Dokumentverarbeitung im weiteren Sinne erfordern. Hierzu gehören Fragen der Speicherung und Repräsentation von Dokumenten, der effizienten Algorithmen zum Umgang mit Dokumentbeständen und der Präsentation von Analyseergebnissen und internen Strukturen. Zusammengefasst lässt sich der vorgestellte Ansatz so charakterisieren: XML wird als einheitlicher Formalismus für das System verwendet, d.h. alle Module erwarten XML-Dokumente als Eingaben und liefern ihre Ergebnisse im gleichen Format, alle Ressourcen sind in XML codiert und auch Prozessinformationen werden einheitlich mit XML dargestellt. Dies bringt den Vorteil, dass für immer wiederkehrende Aufgaben im Umgang mit XML-Datenstrukturen wiederverwendbare, universell einsetzbare Module konzipiert und implementiert werden konnten. Das in diesem Beitrag vorgestellte XML-basierte System die Document Suite XDOC (XML basiertes Document Processing) kombiniert verschiedene Ansätze aus der Computerlinguistik, z.B. POS-Tagging, syntaktische Analysen, aber auch Ansätze zur semantischen Analyse. In den nachfolgenden Abschnitten wird das in der Document Suite verwirklichte Entwicklungskonzept beschrieben sowie die verschiedenen Funktionen der Document Suite und ihre Ergebnisse vorgestellt.
ISBN: 3-531-14181-3
 

Powered by Plone, the Open Source Content Management System