Dank Daten entspannt mit der S-Bahn durch Stuttgart?

11 July 2018

Niklas Knöll ist Stipendiat des Bildungsprogramms "Simulierte Welten" am HLRS. Ausgerüstet mit maschinellen Lernverfahren sagt der Gymnasiast dem Stuttgarter S-Bahnchaos den Kampf an.

Auch, wenn die Apps von Deutsche Bahn, VVS und SSB Verspätungen anzeigen, haben sie einen Nachteil: es handelt sich um Aktualisierungen in Echtzeit. Doch wäre es nicht schön, von vornherein zu wissen, ob der neue Rekord über 400 Meter Sprint notwendig wird, um die Bahn zu erreichen? Oder ob noch genug Zeit für eine Butterbrezel beim Bäcker ist?

HLRS macht Stuttgarter Schüler fit für die Digitalisierung

Niklas Knöll ist Stuttgarter und mit dem (Luxus-)Problem bestens vertraut. Der Schüler des Friedrich-Schiller-Gymnasiums in Fellbach ist einer von acht ausgewählten Stipendiaten von ‚Simulierte Welten‘. Innerhalb eines Schuljahres bearbeiten die Schülerinnen und Schüler aus der Region Stuttgart ein wissenschaftliches Projekt rund um das Thema Simulation und Modellierung am Höchstleistungsrechenzentrum Stuttgart (HLRS) und werden dabei von den Mitarbeiterinnen und Mitarbeitern des HLRS betreut und unterstützt. Das Ziel: Den wissenschaftlichen Nachwuchs für die Digitalisierung fit zu machen. Das Bildungsprogramm inklusive des Stipendiums in Höhe von 1.000€ pro Schülerin und Schüler wird vom Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg (MWK) gefördert.

Weil das Thema Big Data für das Höchstleistungsrechnen immer mehr an Bedeutung gewinnt, wurden die Stipendiaten ermutigt, sich auch mit der Analyse großer Datensätze auseinanderzusetzen. Das bringt Niklas zum Stuttgarter S-Bahn-Problem: „Auf einem frei zugänglichen Portal stellt die Deutsche Bahn Tabellen zur Verfügung, die für einen Zeitraum von etwa zwei Monaten die planmäßigen und tatsächlichen Abfahrtszeiten aller S-Bahnen an allen Stationen in Stuttgart aufführen“, erklärt der Schüler den Ursprung seiner Idee. „Da dachten wir uns: daraus kann man sicher etwas machen!“ Am HLRS lernte er dafür den Umgang mit Python und Apache Spark. Dabei handelt es sich um Programmierumgebungen, die häufig in Verbindung mit der Analyse großer Datensätze genutzt werden – insbesondere, weil sie den Nutzer befähigen, Rechenprobleme auch auf komplexen Rechnerstrukturen wie die von Supercomputern zu lösen.

Maschinelle Lernverfahren prognostizieren Verspätung der S-Bahn

Startpunkt der Untersuchung war eine explorative Datenanalyse, um ein grundsätzliches Verständnis der vorliegenden Daten zu erhalten. Das, wenig überraschende, Ergebnis: An Werktagen sind die S-Bahnen oft verspätet, während sie sonntags meist pünktlich sind. Doch in einen größeren Kontext eingebettet liefert auch diese Erkenntnis wertvolle Informationen. So weiß man, dass für eine zuverlässigere Vorhersage für jeden Tag unterschiedliche Regressionsmodelle notwendig sind, weil beispielsweise donnerstags die S-Bahnen oft mehr als 15 Minuten verspätet sind und Ausreiser somit besonders stark ins Gewicht fallen.

Diese Modelle wurden mithilfe maschineller Lernverfahren trainiert, um S-Bahn-Verspätungen auf die Minute genau vorhersagen zu können. Zudem wurde das Problem in die zwei Kategorien „verspätet“ und „nicht verspätet“ – eingeordnet. Durch diese Vorgehensweise kann in 8 von 10 Fällen eindeutig vorhergesagt werden, ob ein Zug erst mit mindestens drei Minuten Verspätung abfahren wird – und Niklas könnte sich seinen 400 Meter Sprint gelegentlich sparen.

Schüler entwickeln fortgeschrittene technische Kompetenzen

Zugegeben: aus statistischer Sicht ist dieses Ergebnis nicht besonders befriedigend. Das liegt daran, dass die Datengrundlage für ein Big Data-Problem zu klein ist. Doch um wissenschaftliche Durchbrüche geht es bei Simulierte Welten auch nicht.


Acht Gymnasialschüler haben erfolgreich am Stipendienprogramm von Simulierte Welten teilgenommen. (Photo: HLRS)

 

Bei der Ergebnispräsentation mit anschließender Urkundenverleihung am 4. Juli am HLRS wird jedoch klar, wie schnell sich die Stipendiaten fortgeschrittene technische Kompetenzen zur Problemlösung angeeignet haben: „Neben Datenanalyse reichte die Bandbreite der Themen, die mit denen sich die Schülerinnen und Schüler befasst haben, von der Simulation von Blutströmungen über Kaffeemaschinen-Programmierung bis zur technikphilosophischen Reflexion“, erklärt Doris Lindner, Projektleiterin von Simulierte Welten. „Sie waren in ihrer Präsentation und der Fragerunde im Anschluss sehr souverän und professionell. Alle waren beeindruckt, wie intensiv sie sich mit ihren Themen auseinandergesetzt haben.“

Auch Schülerinnen und Schüler aus Karlsruhe konnten im Rahmen von Simulierte Welten ihr technisches Know-how unter Beweis stellen. Die Ergebnisse der Projekte, die beim Kooperationspartner Steinbuch Centre for Computing (SCC) durchgeführt wurden, wurden bereits am 22. Juni vorgestellt.

 

 — Lena Bühler