Beschreibung des Forschungsvorhabens
Das empirische Forschungsvorhaben untersucht den Sprachausbau des Mittelniederdeutschen vom 13. Jahrhundert bis zum Schreibsprachenwechsel im 16./17. Jahrhundert, mit dem das Mittelniederdeutsche seine Geltung als Schriftsprache an das Frühneuhochdeutsche verliert. Es leistet damit einen Beitrag zur Rekonstruktion der bislang erst punktuell untersuchten grammatischen Entwicklung des Mittelniederdeutschen als historischer Schriftsprache. Die Untersuchung konzentriert sich auf städtische Rechtssatzungen, und zwar aus mehreren Gründen: Sprachliche Ausbauprozesse finden sich mutmaßlich gerade in der Rechtsschriftlichkeit, die komplexe Rechtssachverhalte in allen rechtsrelevanten Aspekten kontextentbunden explizieren muss. In Rechtssatzungen geht es dabei in einem alltagspraktischen Sinne stets um konditionale Sachverhaltsrelationen, so dass untersucht werden kann, wie sich die grammatische Konstruktion von Konditionalität im Untersuchungszeitraum wandelt. Schließlich sind Rechtssatzungen lokalisier- und datierbar, so dass sich die zeiträumliche Entwicklungsdynamik des Ausbaus nachzeichnen lässt.
Entwickelt wird ein „interaktives“ Verfahren, das maschinelles Lernen und Expertenfeedback kombiniert. Auf diese Weise wird ein zentrales Problem bestehender Annotationsverfahren für historische Texte gelöst. Existierende Parsing- und Tagging-Verfahren der Computer- bzw. Korpuslinguistik setzen statische (a priori definierte) Grammatiken bzw. grammatische Kategorien voraus, was der historischen Dynamik der Grammatik nicht gerecht wird. Eine sich diachron entwickelnde, dynamische Grammatik mittels regelbasierter Textanalyseverfahren und Methoden des maschinellen Lernens im Korpus zu „entdecken“ und auf diese Weise den Sprachwandel evidenzbasiert zu rekonstruieren, ist ein Novum. Da dies gleichermaßen sprach-/grammatikhistorisches Wissen sowie Kenntnisse im Bereich der Computerlinguistik und Informatik voraussetzt, ist das Vorhaben als fächerübergreifendes Projekt konzipiert, das eine enge Kooperation der Fächer über den gesamten Förderzeitraum verlangt.
Das Projekt ist mittlerweile abgeschlossen (Laufzeit: 01.01.2017 bis 30.06.2020)
- Zunahme syntaktischer Komplexität?
- Wachsende Präferenz für verdichtende Konstruktionen?
- Texttypenspezifik konditionaler Sachverhaltsdarstellungen?
- Schreibsprachenwechsel zunächst nur "Lexikwechsel"?
Fragestellung
Im Zentrum unseres Forschungsinteresses stehen zwei Sprachausbauphänomene, die den (komplexen) Satz betreffen. Vorarbeiten legen nahe, dass mit den folgenden Entwicklungen in den zu untersuchenden Rechtstexten zu rechnen ist:
- mit einer Zunahme an syntaktischer Komplexität: Wir interessieren uns also für das Aufkommen und die Verbreitung von subordinativen Konstruktionen. Sie kodieren nicht nur rechtsrelevante Relationssemantiken (Konditionalität, Negativ-Restriktivität, ....), sondern dienen auch deutlich grundlegender dem Explizieren von temporalen, lokalen Umständen etc.
- mit einer wachsenden Präferenz, auf verdichtende Konstruktionen beim Schreiben von Rechtstexten zurückzugreifen: Beispielsweise versuchen wir zu rekonstruieren, wie sich (adverbial gebrauchte) Präpositionalphrasen, deren nominaler Bestandteil deverbale Nomen sind, herausbilden, ggf. gegenüber anderen Kodierungsmöglichkeiten durchsetzen und mitunter den Rechtskontext verfestigen.
Unser Ziel ist es, diese konstruktionalen Entwicklungen in ihrer Qualität, Dynamik und räumlichen Ausbreitung zu beschreiben.
Darüber hinaus interessiert uns die Frage, inwiefern einzelne konditionale Kodierungsmöglichkeiten texttypenspezifisch sind, also geprägt mit Blick auf das Schreiben von Rechtstexten. Dies liegt vor allem bei solchen sprachlichen Mustern nahe, die auf ein möglichst explizites, dabei allerdings stark schematisches construal (Sachverhaltskonstruktion) zielen. Ein Vergleich mit Sprachgebrauchsmustern, wie sie in Arzneibüchern der damaligen Zeit auszumachen sind, soll in diesem Bereich Erhellung bringen. Denn auch diese instruktiven Texte zeichnen sich durch einen vermehrten Gebrauch konditionaler Strukturen aus.
Um zudem zu prüfen, inwieweit die ersten frühneuhochdeutschen Texte, die nach dem Schreibsprachenwechsel entstehen, in grammatischer Hinsicht noch mittelniederdeutsch bestimmt sind, werden ebenfalls einige der ersten frühneuhochdeutschen Rechtstexte, die im 16. und 17. Jahrhundert im niederdeutschen Raum entstehen, analysiert. Untersucht werden kann auf diese Weise, ob es sich zunächst um einen bloßen „Lexikwechsel“ handelt.
- Erfassung des konstruktionalen Ausbaus
- Annotationen via human-in-the-loop
- Abbildung von Ambiguität, Gradienz, Gradualität und Annotatorunsicherheit
- Analysefortschritt durch maschinelles Lernen
- Toolunterstützung basierend auf CorA
Interaktive Konstruktionsanalyse
Um eine qualitativ hochwertige, kontextsensitive Analyse unseres gesamten Korpus zu gewährleisten, die zudem die Dynamik der (historischen) Grammatikalität grundsätzlich berücksichtigt, entwickeln wir ein interaktives Verfahren. Wir verfolgen einen Human-in-the-loop-Ansatz, der Methoden des Maschinellen Lernens mit Expertenfeedback kombiniert. In diesem Ansatz werden die folgenden zwei Phasen iterativ durchlaufen, bis eine zufriedenstellende Analyse des Korpus erreicht ist.
- Phase 1: Auf der Grundlage einer partiellen, unsicheren Annotation soll das System grammatische Muster und mögliche Grammatikregeln induzieren. Muster und Regeln haben dabei zunächst rein hypothetischen Charakter, und der Unsicherheit der Annotation soll durch eine adäquate Repräsentation der Unsicherheit der induzierten Regeln Rechnung getragen werden.
- Phase 2: Dem/der Experten/in wird die Möglichkeit gegeben, einzelne Vorschläge des Systems zu bestätigen oder zu verwerfen (oder unkommentiert und somit offen zu lassen). Auf diese Weise wird die bestehende Annotation erweitert und verbessert.
Durch den Einsatz von Methoden des Maschinellen Lernens erreichen wir einen Analysefortschritt: Das Versehen eines Korpus mit Annotationen ist für Menschen eine anstrengende und zeitintensive Arbeit. Durch das Vorschlagen automatisch generierter Annotationen wollen wir die Annotierenden in ihrer Arbeit unterstützen und erhoffen uns zudem eine Zeitersparnis.
Um eine solche interaktive Konstruktionsanalyse zu realisieren, benötigen wir ein geeignetes Werkzeug. Das Annotationstool CorA hat sich bereits für die Annotation historischer Texte bewährt. Aufgrund des Projektzieles, die Dynamik sprachlicher Entwicklungen zu fassen, nehmen wir Erweiterungen vor, die es erlauben
- Ambiguität,
- Gradienz und
- Annotatorunsicherheit
zu erfassen.
- Diagrammatische Illustration der zeit-räumlichen Entwicklung
- Darstellung der zeit-räumlichen Entwicklungsdynamiken
- Entwicklung einer dynamischen Variante der Choroplethenkarte
Visualisierung
Eine weiteres Ziel dieses Projekts ist die Entwicklung und Implementierung von Verfahren zur Visualisierung des Sprachausbaus, also zur visuellen Darstellung der zeitlichen Dynamik und räumlichen Ausbreitung der Ausbauphänomene. Die rein zeitliche Entwicklung kann dabei im einfachsten Fall durch Häufigkeitsdiagramme abgebildet werden, in denen die Häufigkeit der Verwendung bestimmter Konstruktionen als Funktion der Zeit abgetragen wird. Zur Darstellung der räumlichen Verteilung sollen Choroplethenkarten verwendet werden, in denen Areale entsprechend der Verwendungshäufigkeit farblich markiert sind. Um beide Aspekte gleichzeitig zu erfassen, den räumlichen und den zeitlichen, soll eine dynamische Variante der Choroplethenkarte entwickelt werden, die es erlaubt, die Zeit mithilfe eines Schiebereglers am Bildschirm einzustellen und die Darstellung der Karte entsprechend dynamisch anzupassen.
Diese Werkzeuge zur Visualisierung der raum-zeitlichen Entwicklungsdynamik des syntaktischen Ausbaus sollen den Linguisten/innen helfen, die Ergebnisse zu interpretieren und vor dem Hintergrund spezieller sprachwissenschaftlicher Fragestellungen auszuwerten. Um diese Analyse noch besser zu unterstützen, soll die rein visuelle Aufbereitung der Ergebnisse durch Methoden zur statistischen Analyse raum-zeitlicher Daten ergänzt werden.