Die Wissenschaft der tausend Daten

Data Science: wissensgetriebene Datenanalyse, maschinelles Lernen und Algorithmen

Prof. Dr. Axel-Cyrille Ngonga Ngomo bringt Struktur in Unmengen von Daten: Der Data Scientist erforscht Algorithmen, um die Entwicklungen im Bereich wissensgetriebener Datenanalyse voranzutreiben. Das Ziel: Erkenntnisse zu gewinnen, die bei automatisierten Datenverarbeitungsprozessen oder bei der Kommunikation zwischen Mensch und Maschine zum Einsatz kommen.

Mehr als nur eine Hilfsdisziplin

„Es gibt keine allgemeingültige Definition von Data Science“, erklärt Ngonga, seit April 2017 Lehrstuhlinhaber am Institut für Informatik. „Der Begriff beschreibt eine Kombination verschiedener Fachgebiete wie Mathematik oder Informatik, die wiederum die Grundlage bilden, um Phänomene aus den Kulturwissenschaften, der Medizin oder einer anderen Wissenschaft zu untersuchen.“ Seitens der Informatik handele es sich um Datenanalysen und Mustererkennungen, aus denen bestimmte Informationen oder Handlungsempfehlungen abgeleitet werden. „Hinzu kommt die Entwicklung von Werkzeugen und Methoden, um diese Prozesse zu systematisieren“, ergänzt der Experte.

Der Wissenschaftler untersucht riesige Datenmengen, in der Regel Open Data, die weitestgehend frei verfügbar und öffentlich zugänglich sind. Die Herausforderung liegt darin, allgemeingültige Aussagen auf Basis der vorhandenen Informationen zu treffen. Dazu Ngonga: „Es gibt drei Dimensionen großer Datenmengen: Erstens Velocity, die Geschwindigkeit der Daten, die gerade bei Diensten wie Twitter sehr hoch ist. Zweitens Variety – Heterogenität der Daten. Bei Banken beispielsweise spielen die Faktoren Wetter, Börse und Politik eine Rolle. Drittens Volume – die Größe der Daten.“

Anwendung und Nutzen

Die Anwendungsbereiche sind vielfältig: Ngonga erforscht z. B. Algorithmen, die in der Lage sind, zu lernen und Entitäten zu identifizieren. „Eine solche automatisierte Erkennung, beispielsweise von Bezugsgrößen wie Ort oder Person, aber auch die automatische Diagnose grammatikalischer Kategorien führt dazu, dass Informationen gezielt zusammengestellt und sofort geliefert werden können“, erklärt Ngonga und nennt ein Beispiel: „So funktioniert die Google-Suche, bei der die Ergebnisse gebündelt in einem Fenster erscheinen“. Wird nach einer Person  – etwa Gottfried Wilhelm Leibniz – gesucht, so werden automatisch auch biografische Angaben geliefert. „Der Nutzer sieht auf einen Blick, wer Leibniz war und erhält zusätzlich Informationen zu Geburtsdaten, Ausbildung und Veröffentlichungen.“ Die Zusammenstellung der Angaben basiert auf dem Analyseergebnis tausender von Daten – und zwar im Bruchteil einer Sekunde.

Künstliche Intelligenz

Ein anderes Anwendungsszenario ist die Mensch-Maschine-Interaktion: „Intelligente digitale Assistenten könnten künftig proaktiv handeln, indem sie mit Personen interagieren und zum Beispiel Entscheidungshilfen liefern“, erklärt Ngonga. Also mehr als es bislang der Fall bei Systemen wie Alexa oder Siri ist. Aktuell können diese Programme auf Basis von Spracherkennung verhältnismäßig einfache Aufgaben erledigen oder Suchaufträge ausführen. „Im Idealfall sollen sich Mensch und Maschine aber ergänzen. Maschinen könnten dann bereits in der Lage sein, Zusammenhänge zu erkennen, die Menschen nicht sehen – und natürlich umgekehrt.“

Die Entwicklung hin zu klugen Maschinen und künstlicher Intelligenz funktioniert auf Grundlage wissensbasierter Systeme. „Bestimmte Algorithmen ermöglichen die Formalisierung und Speicherung von Wissen und sogar logische Schlussfolgerungen. Das erfordert allerdings einen hohen Grad an maschinellem Lernen“, so Ngonga. Aber: Bis zumindest Aspekte dieser Version vollständig realisierbar sind, werde es noch rund zehn Jahre dauern, fügt der Data Scientist hinzu.

 

Text: Nina Reckendorf, Stabsstelle Presse und Kommunikation 

Foto (Universität Paderborn, Kraft): Prof. Dr. Axel-Cyrille Ngonga Ngomo möchte die Entwicklungen im Bereich wissensgetriebene Datenanalyse vorantreiben.