Achtung:

Sie haben Javascript deaktiviert!
Sie haben versucht eine Funktion zu nutzen, die nur mit Javascript möglich ist. Um sämtliche Funktionalitäten unserer Internetseite zu nutzen, aktivieren Sie bitte Javascript in Ihrem Browser.

Info-Icon This content is not available in English
Die Evolution von komplexen Textmustern Show image information
Die Evolution von komplexen Textmustern Show image information

Die Evolution von komplexen Textmustern

Photo: Simon Atzbach | www.augwerk.de unter Verwendung einer Grafik der Berlin-Brandenburgische Akademie der Wissenschaften (Susanne Haaf) sowie eines Digitalisats der Bayerischen Staatsbibiothek (Allgemeine Zeitung vom 01.01.1875)

Die Evolution von komplexen Textmustern

Photo: Simon Atzbach | www.augwerk.de unter Verwendung eines Digitalisats des Deutschen Textarchivs (http://www.deutschestextarchiv.de/book/view/egger_vater_1895/?hl=Egger;p=223)

Qualitative und quantitative Forschung

Das im Forschungsvorhaben zugrunde gelegte Analysemodell stellt eine Synthese der in der Textlinguistik der letzten Jahrzehnte vorgestellten mehrdimensionalen Modelle dar. Gleichzeitig wird der Forschungsstand zur historischen Zeitungskommunikation und zur Erbauungsliteratur einbezogen. Ausgehend von Textoberfläche gibt der Sprachgebrauch u.E. Hinweise auf die funktionale, thematische, stilistische und die Beziehungsdimension von Texten. Dabei sind wir der Auffassung, dass sich sprachliche Indikatoren auf der Textoberfläche für die unterschiedlichen Dimensionen teils mittels automatischer Verfahren und computerlinguistischer Software (s. Matrix 1) und teils bisher nur mittels manueller Annotation erschließen lassen (s. Matrix 2). Die Ergebnisse der statistischen Auswertung sollen in Rückbindung an die Quellen interpretiert und qualifiziert werden; ebenso sollen die Ergebnisse der manuellen Annotation zur automatischen Merkmalsextraktion genutzt werden. Diese Verzahnung von quantitativer und qualitativer Analyse wird in einer Pilotierungsphase erprobt.

Zur quantitativen Analyse

Im Rahmen der quantitativen Analyse in den Blick genommen werden konkret die musterhaften Ausprägungen der Textoberfläche, die - so die Annahme - auf Gegebenheiten der thematischen, funktionalen, sozialen und stilistischen Dimension hinweisen bzw. diese repräsentieren. Zum großen Teil können die betreffenden Textmuster mit automatisierten Verfahren extrahiert werden. So finden sich z.B. in Andachtsbüchern häufig Wiederholungsstrukturen, die vermutlich der Einprägsamkeit und dem meditativen Charakter des Textes dienen sollen. Solche Wiederholungsstrukturen können durch Wort- oder Phrasenwiederholungen sowie durch grammatische Parallelismen auf der Textoberfläche realisiert sein.

Für die automatische Merkmalsextraktion sind Annotationen bestimmter Texteigenschaften besonders ausschlaggebend: So weisen die Dokumente des DTA bereits TEI-Auszeichnungen von Textgliederungsstrukturen und (ggf.) Binnentextsorten auf. Darüber hinaus stellt das DTA Ausgabeformate bereit, die linguistische Informationen auf Token-Ebene (z.B. Lemma, Wortart und modernisierte Schreibweise) enthalten. Mithilfe dieser Informationen lassen sich bereits viele der zu untersuchenden Merkmale in den Texten automatisch ermitteln. Für weiterführende Analyseschritte, z.B. zu (morpho-)syntaktischen Strukturen, Koreferenzen oder Eigennamen, kann außerdem auf computerlinguistische Verfahren zurückgegriffen werden, die mittlerweile vielfältig frei zur Verfügung stehen (z.B. in CLARINs WebLicht integrierte Syntaxparser). Die Merkmalsextraktion wird häufig vielschichtig sein, d.h. mehrere Informationstypen gleichzeitig in Betracht ziehen und auswerten. Auf die automatische Merkmalsextraktion ebenso wie auf die manuelle Annotation folgt dann die statistische Auswertung der erhobenen Merkmale, wiederum mit automatischen Verfahren.

Zur qualitativen Analyse

Die qualitativ orientierte manuelle Annotation berührt Aspekte der funktionalen, stilistischen, thematischen und Beziehungsdimension, die mittels automatischer Verfahren nicht erschlossen werden können (Matrix 2). Das Projektteam hat sich für die manuelle Annotation für das browserbasierte Textannotations- und -analysetool CATMA 5.0 entschieden, da es die Möglichkeit bietet, taxonomisch aufgebaute individuelle Tagsets beliebiger Komplexitätsstufen zu erstellen, indem Annotationen problemlos verändert werden können. Das Basistagset ist bereits erstellt worden (Verlinkung auf das Basis-Tagset) und wird im Projekt in der Pilotphase weiter entwickelt.

CATMA 5.0 erlaubt problemlos den für das Inter-Annotator-Agreement wichtigen Abgleich von Annotationen. Durch die Möglichkeit des XML-Imports und -Exports ist zudem die Nach- und Weiternutzbarkeit der Daten sichergestellt. Die in CATMA annotierten und daraus exportierten Daten werden in eine TEI-P5-Repräsentation überführt und können in dieser Form der weiteren automatischen Bearbeitung zugeführt werden. Sie können somit auch mit den Merkmalen kombiniert werden, die aus der automatischen Datenanalyse gewonnen wurden. Die Annotationen werden dann daraufhin ausgewertet, ob sie Rückschlüsse auf die Wandelprozesse gemäß den Beschreibungsdimensionen und von dort ausgehend bisher in der Forschung etablierte Deutungshypothesen stützen können.

Neben der manuellen Annotation werden die bei der quantitativen Analyse erhobenen Daten qualitativ ausgewertet. Allerdings können auch die Ergebnisse der qualitativen Analyse wieder für Anlass für quantitative Erhebungen sein.