Description of the Research Project
This empirical research project investigates the language elaboration of Middle Low German from the 13th century to the written language shift in the 16th/17th century. At this time, Middle Low German lost its dominant position as a supraregional written language to Early New High German. This study makes an important contribution to the reconstruction of grammatical developments in written Middle Low German as historical written language, which are hitherto examined only to some extent. The investigation focuses on urban legal statutes for which there are several reasons: Processes of language elaboration are most likely found first in legal statutes as those need to construe complex (legal) issues understandable independently of contextual information. These legal issues specifically occur in the form of conditional relations; consequently, we are able to examine changes concerning the linguistic construction of conditionality during the investigation period. Furthermore, legal statutes are locatable and dateable, with the result that developmental dynamics of elaboration processes can be spatio-temporally reconstructed.
We are developing an interactive procedure that combines machine learning and expert feedback to solve one of the most central problems of existing annotation tools for historical texts. Existing parsing and tagging systems require static grammars and grammatical categories but these are of no use due to the historical dynamics of grammar. We want to discover an evolving, dynamic grammar by using rule-based text analysis techniques and machine learning methods. This enables us to reconstruct the language elaboration in an evidence-based way, which is a novelty. This requires knowledge about historical language and grammar as well as knowledge about computational linguistics and computer science. Therefore, this project is an interdisciplinary one that requires a close cooperation over the whole funding period.
- Zunahme syntaktischer Komplexität?
- Wachsende Präferenz für verdichtende Konstruktionen?
- Texttypenspezifik konditionaler Sachverhaltsdarstellungen?
- Schreibsprachenwechsel zunächst nur "Lexikwechsel"?
Fragestellung
Im Zentrum unseres Forschungsinteresses stehen zwei Sprachausbauphänomene, die den (komplexen) Satz betreffen. Vorarbeiten legen nahe, dass mit den folgenden Entwicklungen in den zu untersuchenden Rechtstexten zu rechnen ist:
- mit einer Zunahme an syntaktischer Komplexität: Wir interessieren uns also für das Aufkommen und die Verbreitung von subordinativen Konstruktionen. Sie kodieren nicht nur rechtsrelevante Relationssemantiken (Konditionalität, Negativ-Restriktivität, ....), sondern dienen auch deutlich grundlegender dem Explizieren von temporalen, lokalen Umständen etc.
- mit einer wachsenden Präferenz, auf verdichtende Konstruktionen beim Schreiben von Rechtstexten zurückzugreifen: Beispielsweise versuchen wir zu rekonstruieren, wie sich (adverbial gebrauchte) Präpositionalphrasen, deren nominaler Bestandteil deverbale Nomen sind, herausbilden, ggf. gegenüber anderen Kodierungsmöglichkeiten durchsetzen und mitunter den Rechtskontext verfestigen.
Unser Ziel ist es, diese konstruktionalen Entwicklungen in ihrer Qualität, Dynamik und räumlichen Ausbreitung zu beschreiben.
Darüber hinaus interessiert uns die Frage, inwiefern einzelne konditionale Kodierungsmöglichkeiten texttypenspezifisch sind, also geprägt mit Blick auf das Schreiben von Rechtstexten. Dies liegt vor allem bei solchen sprachlichen Mustern nahe, die auf ein möglichst explizites, dabei allerdings stark schematisches construal (Sachverhaltskonstruktion) zielen. Ein Vergleich mit Sprachgebrauchsmustern, wie sie in Arzneibüchern der damaligen Zeit auszumachen sind, soll in diesem Bereich Erhellung bringen. Denn auch diese instruktiven Texte zeichnen sich durch einen vermehrten Gebrauch konditionaler Strukturen aus.
Um zudem zu prüfen, inwieweit die ersten frühneuhochdeutschen Texte, die nach dem Schreibsprachenwechsel entstehen, in grammatischer Hinsicht noch mittelniederdeutsch bestimmt sind, werden ebenfalls einige der ersten frühneuhochdeutschen Rechtstexte, die im 16. und 17. Jahrhundert im niederdeutschen Raum entstehen, analysiert. Untersucht werden kann auf diese Weise, ob es sich zunächst um einen bloßen „Lexikwechsel“ handelt.
- Erfassung des konstruktionalen Ausbaus
- Annotationen via human-in-the-loop
- Abbildung von Ambiguität, Gradienz, Gradualität und Annotatorunsicherheit
- Analysefortschritt durch maschinelles Lernen
- Toolunterstützung basierend auf CorA
Interaktive Konstruktionsanalyse
Um eine qualitativ hochwertige, kontextsensitive Analyse unseres gesamten Korpus zu gewährleisten, die zudem die Dynamik der (historischen) Grammatikalität grundsätzlich berücksichtigt, entwickeln wir ein interaktives Verfahren. Wir verfolgen einen Human-in-the-loop-Ansatz, der Methoden des Maschinellen Lernens mit Expertenfeedback kombiniert. In diesem Ansatz werden die folgenden zwei Phasen iterativ durchlaufen, bis eine zufriedenstellende Analyse des Korpus erreicht ist.
- Phase 1: Auf der Grundlage einer partiellen, unsicheren Annotation soll das System grammatische Muster und mögliche Grammatikregeln induzieren. Muster und Regeln haben dabei zunächst rein hypothetischen Charakter, und der Unsicherheit der Annotation soll durch eine adäquate Repräsentation der Unsicherheit der induzierten Regeln Rechnung getragen werden.
- Phase 2: Dem/der Experten/in wird die Möglichkeit gegeben, einzelne Vorschläge des Systems zu bestätigen oder zu verwerfen (oder unkommentiert und somit offen zu lassen). Auf diese Weise wird die bestehende Annotation erweitert und verbessert.
Durch den Einsatz von Methoden des Maschinellen Lernens erreichen wir einen Analysefortschritt: Das Versehen eines Korpus mit Annotationen ist für Menschen eine anstrengende und zeitintensive Arbeit. Durch das Vorschlagen automatisch generierter Annotationen wollen wir die Annotierenden in ihrer Arbeit unterstützen und erhoffen uns zudem eine Zeitersparnis.
Um eine solche interaktive Konstruktionsanalyse zu realisieren, benötigen wir ein geeignetes Werkzeug. Das Annotationstool CorA hat sich bereits für die Annotation historischer Texte bewährt. Aufgrund des Projektzieles, die Dynamik sprachlicher Entwicklungen zu fassen, nehmen wir Erweiterungen vor, die es erlauben
- Ambiguität,
- Gradienz und
- Annotatorunsicherheit
zu erfassen.
- Diagrammatische Illustration der zeit-räumlichen Entwicklung
- Darstellung der zeit-räumlichen Entwicklungsdynamiken
- Entwicklung einer dynamischen Variante der Choroplethenkarte
Visualisierung
Eine weiteres Ziel dieses Projekts ist die Entwicklung und Implementierung von Verfahren zur Visualisierung des Sprachausbaus, also zur visuellen Darstellung der zeitlichen Dynamik und räumlichen Ausbreitung der Ausbauphänomene. Die rein zeitliche Entwicklung kann dabei im einfachsten Fall durch Häufigkeitsdiagramme abgebildet werden, in denen die Häufigkeit der Verwendung bestimmter Konstruktionen als Funktion der Zeit abgetragen wird. Zur Darstellung der räumlichen Verteilung sollen Choroplethenkarten verwendet werden, in denen Areale entsprechend der Verwendungshäufigkeit farblich markiert sind. Um beide Aspekte gleichzeitig zu erfassen, den räumlichen und den zeitlichen, soll eine dynamische Variante der Choroplethenkarte entwickelt werden, die es erlaubt, die Zeit mithilfe eines Schiebereglers am Bildschirm einzustellen und die Darstellung der Karte entsprechend dynamisch anzupassen.
Diese Werkzeuge zur Visualisierung der raum-zeitlichen Entwicklungsdynamik des syntaktischen Ausbaus sollen den Linguisten/innen helfen, die Ergebnisse zu interpretieren und vor dem Hintergrund spezieller sprachwissenschaftlicher Fragestellungen auszuwerten. Um diese Analyse noch besser zu unterstützen, soll die rein visuelle Aufbereitung der Ergebnisse durch Methoden zur statistischen Analyse raum-zeitlicher Daten ergänzt werden.