Projekt - Intergramm | Universität Paderborn

Beschreibung des Forschungsvorhabens

Das empirische Forschungsvorhaben untersucht den Sprachausbau des Mittelniederdeutschen vom 13. Jahrhundert bis zum Schreibsprachenwechsel im 16./17. Jahrhundert, mit dem das Mittelniederdeutsche seine Geltung als Schriftsprache an das Frühneuhochdeutsche verliert. Es leistet damit einen Beitrag zur Rekonstruktion der bislang erst punktuell untersuchten grammatischen Entwicklung des Mittelniederdeutschen als historischer Schriftsprache. Die Untersuchung konzentriert sich auf städtische Rechtssatzungen, und zwar aus mehreren Gründen: Sprachliche Ausbauprozesse finden sich mutmaßlich gerade in der Rechtsschriftlichkeit, die komplexe Rechtssachverhalte in allen rechtsrelevanten Aspekten kontextentbunden explizieren muss. In Rechtssatzungen geht es dabei in einem alltagspraktischen Sinne stets um konditionale Sachverhaltsrelationen, so dass untersucht werden kann, wie sich die grammatische Konstruktion von Konditionalität im Untersuchungszeitraum wandelt. Schließlich sind Rechtssatzungen lokalisier- und datierbar, so dass sich die zeiträumliche Entwicklungsdynamik des Ausbaus nachzeichnen lässt.

Entwickelt wird ein „interaktives“ Verfahren, das maschinelles Lernen und Expertenfeedback kombiniert. Auf diese Weise wird ein zentrales Problem bestehender Annotationsverfahren für historische Texte gelöst. Existierende Parsing- und Tagging-Verfahren der Computer- bzw. Korpuslinguistik setzen statische (a priori definierte) Grammatiken bzw. grammatische Kategorien voraus, was der historischen Dynamik der Grammatik nicht gerecht wird. Eine sich diachron entwickelnde, dynamische Grammatik mittels regelbasierter Textanalyseverfahren und Methoden des maschinellen Lernens im Korpus zu „entdecken“ und auf diese Weise den Sprachwandel evidenzbasiert zu rekonstruieren, ist ein Novum. Da dies gleichermaßen sprach-/grammatikhistorisches Wissen sowie Kenntnisse im Bereich der Computerlinguistik und Informatik voraussetzt, ist das Vorhaben als fächerübergreifendes Projekt konzipiert, das eine enge Kooperation der Fächer über den gesamten Förderzeitraum verlangt.

Das Projekt ist mittlerweile abgeschlossen (Laufzeit: 01.01.2017 bis 30.06.2020)

Fragestellung

Zunahme syntaktischer Komplexität?
Wachsende Präferenz für verdichtende Konstruktionen?
Texttypenspezifik konditionaler Sachverhaltsdarstellungen?
Schreibsprachenwechsel zunächst nur "Lexikwechsel"?

Fragestellung

Im Zentrum unseres Forschungsinteresses stehen zwei Sprachausbauphänomene, die den (komplexen) Satz betreffen. Vorarbeiten legen nahe, dass mit den folgenden Entwicklungen in den zu untersuchenden Rechtstexten zu rechnen ist:

mit einer Zunahme an syntaktischer Komplexität: Wir interessieren uns also für das Aufkommen und die Verbreitung von subordinativen Konstruktionen. Sie kodieren nicht nur rechtsrelevante Relationssemantiken (Konditionalität, Negativ-Restriktivität, ....), sondern dienen auch deutlich grundlegender dem Explizieren von temporalen, lokalen Umständen etc.
mit einer wachsenden Präferenz, auf verdichtende Konstruktionen beim Schreiben von Rechtstexten zurückzugreifen: Beispielsweise versuchen wir zu rekonstruieren, wie sich (adverbial gebrauchte) Präpositionalphrasen, deren nominaler Bestandteil deverbale Nomen sind, herausbilden, ggf. gegenüber anderen Kodierungsmöglichkeiten durchsetzen und mitunter den Rechtskontext verfestigen.

Unser Ziel ist es, diese konstruktionalen Entwicklungen in ihrer Qualität, Dynamik und räumlichen Ausbreitung zu beschreiben.

Darüber hinaus interessiert uns die Frage, inwiefern einzelne konditionale Kodierungsmöglichkeiten texttypenspezifisch sind, also geprägt mit Blick auf das Schreiben von Rechtstexten. Dies liegt vor allem bei solchen sprachlichen Mustern nahe, die auf ein möglichst explizites, dabei allerdings stark schematisches construal (Sachverhaltskonstruktion) zielen. Ein Vergleich mit Sprachgebrauchsmustern, wie sie in Arzneibüchern der damaligen Zeit auszumachen sind, soll in diesem Bereich Erhellung bringen. Denn auch diese instruktiven Texte zeichnen sich durch einen vermehrten Gebrauch konditionaler Strukturen aus.

Um zudem zu prüfen, inwieweit die ersten frühneuhochdeutschen Texte, die nach dem Schreibsprachenwechsel entstehen, in grammatischer Hinsicht noch mittelniederdeutsch bestimmt sind, werden ebenfalls einige der ersten frühneuhochdeutschen Rechtstexte, die im 16. und 17. Jahrhundert im niederdeutschen Raum entstehen, analysiert. Untersucht werden kann auf diese Weise, ob es sich zunächst um einen bloßen „Lexikwechsel“ handelt.

Interaktive Konstruktionsanalyse

Erfassung des konstruktionalen Ausbaus
Annotationen via human-in-the-loop
Abbildung von Ambiguität, Gradienz, Gradualität und Annotatorunsicherheit
Analysefortschritt durch maschinelles Lernen
Toolunterstützung basierend auf CorA

Interaktive Konstruktionsanalyse

Um eine qualitativ hochwertige, kontextsensitive Analyse unseres gesamten Korpus zu gewährleisten, die zudem die Dynamik der (historischen) Grammatikalität grundsätzlich berücksichtigt, entwickeln wir ein interaktives Verfahren. Wir verfolgen einen Human-in-the-loop-Ansatz, der Methoden des Maschinellen Lernens mit Expertenfeedback kombiniert. In diesem Ansatz werden die folgenden zwei Phasen iterativ durchlaufen, bis eine zufriedenstellende Analyse des Korpus erreicht ist.

Phase 1: Auf der Grundlage einer partiellen, unsicheren Annotation soll das System grammatische Muster und mögliche Grammatikregeln induzieren. Muster und Regeln haben dabei zunächst rein hypothetischen Charakter, und der Unsicherheit der Annotation soll durch eine adäquate Repräsentation der Unsicherheit der induzierten Regeln Rechnung getragen werden.
Phase 2: Dem/der Experten/in wird die Möglichkeit gegeben, einzelne Vorschläge des Systems zu bestätigen oder zu verwerfen (oder unkommentiert und somit offen zu lassen). Auf diese Weise wird die bestehende Annotation erweitert und verbessert.

Durch den Einsatz von Methoden des Maschinellen Lernens erreichen wir einen Analysefortschritt: Das Versehen eines Korpus mit Annotationen ist für Menschen eine anstrengende und zeitintensive Arbeit. Durch das Vorschlagen automatisch generierter Annotationen wollen wir die Annotierenden in ihrer Arbeit unterstützen und erhoffen uns zudem eine Zeitersparnis.

Um eine solche interaktive Konstruktionsanalyse zu realisieren, benötigen wir ein geeignetes Werkzeug. Das Annotationstool CorA hat sich bereits für die Annotation historischer Texte bewährt. Aufgrund des Projektzieles, die Dynamik sprachlicher Entwicklungen zu fassen, nehmen wir Erweiterungen vor, die es erlauben

Ambiguität,
Gradienz und
Annotatorunsicherheit

zu erfassen.

Visualisierung

Diagrammatische Illustration der zeit-räumlichen Entwicklung
Darstellung der zeit-räumlichen Entwicklungsdynamiken
Entwicklung einer dynamischen Variante der Choroplethenkarte

Visualisierung

Eine weiteres Ziel dieses Projekts ist die Entwicklung und Implementierung von Verfahren zur Visualisierung des Sprachausbaus, also zur visuellen Darstellung der zeitlichen Dynamik und räumlichen Ausbreitung der Ausbauphänomene. Die rein zeitliche Entwicklung kann dabei im einfachsten Fall durch Häufigkeitsdiagramme abgebildet werden, in denen die Häufigkeit der Verwendung bestimmter Konstruktionen als Funktion der Zeit abgetragen wird. Zur Darstellung der räumlichen Verteilung sollen Choroplethenkarten verwendet werden, in denen Areale entsprechend der Verwendungshäufigkeit farblich markiert sind. Um beide Aspekte gleichzeitig zu erfassen, den räumlichen und den zeitlichen, soll eine dynamische Variante der Choroplethenkarte entwickelt werden, die es erlaubt, die Zeit mithilfe eines Schiebereglers am Bildschirm einzustellen und die Darstellung der Karte entsprechend dynamisch anzupassen.

Diese Werkzeuge zur Visualisierung der raum-zeitlichen Entwicklungsdynamik des syntaktischen Ausbaus sollen den Linguisten/innen helfen, die Ergebnisse zu interpretieren und vor dem Hintergrund spezieller sprachwissenschaftlicher Fragestellungen auszuwerten. Um diese Analyse noch besser zu unterstützen, soll die rein visuelle Aufbereitung der Ergebnisse durch Methoden zur statistischen Analyse raum-zeitlicher Daten ergänzt werden.