Augenblicke – Eine statistische Analyse des Flirt-Portals der BVG

Was ist „Augenblicke“?

Im Frühjahr 2006, mehr als 6 Jahre bevor Tinder die Herzen der Smarthphone-Besitzer im Sturm eroberte, startete die BVG auf ihrer Seite ein Portal mit dem Namen „Augenblicke“. Im Gegensatz zu Tinder sind sich die Nutzer von Augenblicke in der Regel aber schon einmal über den Weg gelaufen – nämlich in einem der zahlreichen Fahrzeuge der BVG oder S-Bahn.

Augenblick will diese verlorenen Seelen nun zusammenbringen. Wer nicht den Mut aufgebracht hat, das Gegenüber anzusprechen, darf das später mit einer Nachricht auf dem Portal nachholen. Das geschieht unter der  Angabe eines Pseudonyms, ein paar Zeilen Text, der Tram-, Bus- oder Bahn-Linie und natürlich dem Zeitpunkt, wann man sich über den Weg gelaufen ist – der sogenannte und namensgebende Augenblick. Das Prinzip ist recht einfach. Doch nach einem verhaltenen Start dauerte es erstmal einige Zeit, bis sich ein gewisser Erfolg zeigte.

(Bitte den Hinweis zu Fehlerquellen beachten!)

KleinerMannMitBart

Zum allerersten Augenblick kam es bereits am 14. Februar 2006 um 5 Uhr morgens in der Buslinie 284 von KleinerMannMitBart.

„Du (blond, grüne Augen, schlank)“

KleinerMannMitBart, 2006

Danach sollte es noch ein paar Monate dauern, bis der Dienst in der Öffentlichkeit wahrgenommen wird. Erst in 2007 nahm Augenblicke tatsächlich fahrt auf: die monatliche Beitragszahl stieg auf über 100. Der vorläufige Höhepunkt wurde im Mai 2018 mit 291 Beiträgen im Monat erreicht, fast 10 Gesuche pro Tag! Doch dann war der Hype schon wieder vorbei, das Ende der fetten Flirtjahre:

Bis Juli 2018  haben die Besucher in 248 verschiedenen Linien der BVG und S-Bahn 19.117 Augenblicke erlebt. Zu den meisten Begegnungen kommt es im Zug – Bus und Tram liegen weit abgeschlagen etwa gleich auf. Nur in den Fähren wird offenbar wenig geflirtet, was aber sicherlich auch daran liegt, dass diese im Vergleich zu den anderen Verkehrsmitteln weitaus weniger genutzt werden.

Wenn man etwas mehr ins Detail geht, zeigt sich, dass die U-Bahn mit 7.430 Einträgen leicht vorne liegt, dicht gefolgt von der S-Bahn (6.581)

Für dieses Ranking kann es übrigens drei Erklärungen geben:

Trakl und 2.140 Anonyme

[…]Ihr Lächeln, mal amüsiert, gelegentlich auch erstaunt, aber immer von feinster Anmut – ach, es macht(e)mich zufrieden. Nun, die hellen Tage […]

Takl am 21. März 2011 in der M1

Trakl ist nicht nur der Name eines expressionistischen Dichters aus Österreich. Der Name taucht auch auf der Plattform auf und ist mit 39 Einträgen das am meisten genutzte Synonym. 2.140 Benutzer, also etwa 11% haben keinen Namen angeben. Das ist die Top-10 der beliebtesten Namen auf dem Portal:

Schaut man sich an, auf welchen Linien Trakl zu welcher Zeit unterwegs ist, kommt schnell der Verdacht auf, dass es sich um ein und dieselbe Person handelt.

Knapp 3 1/2 Jahre war Trakl auf der M1 und der U2 unterwegs, und zwar am meisten zwischen 6 und 7 Uhr morgens, also zur typischen Pendlerzeit. Wenn er oder sie nicht gerade als Nachtwächter arbeitet, wird es sich dabei um den Weg zu seinem Arbeitsplatz handeln.

Tageszeiten und Wochentage

Zurück zur grauen Masse und der Frage: Zu welcher Tageszeit und an welchem Wochentag sind die Portal-Nutzer am aktivsten? Zunächst zum offensichtlichen: An den Werktagen zeigt sich, dass die Bereitschaft zu Flirten am müden Morgen noch relativ gering ist. Zwischen 17 und 19 Uhr, also während des Feierabendverkehrs – kommt es dagegen zu sehr vielen Kontakten.

01234567891011121314151617181920212223
U-Bahn
S-Bahn
Bus
Metro-Tram
Metro-Bus
Regio-Express
Straßenbahn
Expres-Bus
Nacht-Bus
Regionalbahn
Fähre

Wenig überraschend sieht es am Wochenende etwas anders aus. Hier verlagert sich die Anzahl der Einträge zunächst auf den frühen Nachmittag. Und außerdem kommt es vor allem in der U-Bahn zu mehr Kontaktanfragen in den Morgenstunden. Also der Zeit, zu der man die Clubs, Discos und Partys der Stadt verlässt.

01234567891011121314151617181920212223
U-Bahn
S-Bahn
Metro-Tram
Bus
Metro-Bus
Regio-Express
Expres-Bus
Straßenbahn
Nacht-Bus
Regionalbahn
Fähre

Weiter geht es mit den Wochentagen. Hier wird die Farbgebung der Heatmap nun mit den einzelnen Vorkommen von jeder Zeile individuell berechnet. Andernfalls würde die Dominanz des Linientypes „Zug“ (U-Bahnen und S-Bahnen) die Ansicht erschweren. Außerdem erfolgt die Abstufung nun relativ, also nicht zur Basis Null. Der niedrigste Wert der jeweiligen Zeile wird nicht mehr eingefärbt. Das Ergebnis überrascht: Natürlich kommt es auch Sonntags zu Augenblicken. Doch die Mehrheit der verfassten Einträge bezieht sich auf die Werktage. Vor allem der Donnerstag und bei den Zug-Linien auch der Freitag liegen hier sehr weit vorne!

MondayTuesdayWednesdayThursdayFridaySaturdaySunday
Zug
Bus
Tram

Qualitative und quantitative Analyse

Zugegeben – die Zwischenüberschrift verspricht mehr, als ich liefern kann. Die Mittel und die Zeit für eine tiefgreifende semantische Analyse fehlen. Aber auch die oberflächlichen Betrachtungen bringen halbwegs interessante Erkenntnisse zutage. Wie z.B. die Worthäufigkeiten. Denn natürlich hat das Portal ein ganz bestimmtes Ziel. Mindestens zwei Menschen zusammenbringen. Und das schlägt sich natürlich in der Wortwahl wieder. Ich, und, du – das sind die am meisten genutzten Wörter:

Die Wortlänge über alle Nachrichten hat sich im Laufe der Jahre kaum verändert. Die Ausschläge zu Beginn der Messung sind auf die geringe Fallzahl zurückzuführen. Danach sind es zwischen 70 und 80 Wörter pro Nachricht. Ab Ende 2014 gibt es einen Aufwärtstrend in Richtung 90 Wörter pro Eintrag.

Nachrichten mit den meisten Wörtern kommen übrigens nicht aus den Linien-Favoriten S-Bahn oder U-Bahn. Nein, es sind Regionalbahnen und die Nacht-Busse, die sich offenbar äußerst fruchtbar auf die Fantasie der Fahrgäste auswirken. Eine Erklärung: Hier hat man mehr Zeit zum Schreiben!

Noch mal zurück zu den Top-10-Autoren. Wird Trakl – der österreichische Autor – seinem Namen gerecht? Er hat zwar absolut betrachtet unter der Top-10 die meisten Wörter verfasst. Im Schnitt liegt Siegfried aber mit über 100 Wörtern pro Nachricht weit vorne.

Zum Abschluss noch mal die durchschnittliche Anzahl der Wörter im Wochenverlauf. Offenbar nimmt die Bereitschaft zur poetischen Arbeit zum Ende der Woche zu, vielleicht ein Zeichen der Vorfreude auf das bevorstehende Wochenende? Ist der Zeitpunkt des Treffens ein Donnerstag, Freitag oder Samstag enthalten die Nachrichten mehr Wörter als den Rest der Woche. Am Sonntag  scheinen sich die Strapazen des Wochenendes jedoch etwas negativ auf die Schreibbereitschaft auszuwirken.

Methodik und Ungenauigkeiten

Datenerfassung und grobes Datenmodell

Um die Beiträge von der Hauptseite abzugreifen, nutze ich ein in PHP geschriebenes Script (crawl-augenblicke auf Github). In einer MySQL-Tabelle speichere ich dann den Titel der Nachricht, den Nachrichten-Text, den Verfasser der Nachricht, das Datum an dem die Nachricht verfasst wurde sowie das Datum, an dem der „Augenblick“ stattgefunden hat. Dazu wird die URL zum Beitrag sowie die Linie erfasst. Zusätzlich wird eine MySQL-Funktion genutzt, um die Anzahl der Wörter im Titel und dem Nachrichten-Text sowie die Differenz zwischen den beiden Zeitpunkten zu erfassen. Außerdem wird der Flag valid auf 0 gesetzt, wenn das Datum an dem die Nachricht verfasst wurde, die Nachricht und der Titel keinen Inhalt besitzen (== „“) sind. Dem ganzen Datensatz wird dann eine eindeutige Id (contentId) zugewiesen, die auch direkt in der URL als Verweis verwendet wird.

Ein weiteres Script ist dazu da, die Vorkommen der Wörter in den Nachrichten und Titeln zu zählen und mit Bezug zur Linie in einer gesonderten Tabelle abzulegen. Diese Tabelle enthält das entsprechende Wort, die Anzahl, einen Flag, der zeigt, ob die Wortanzahl im Titel oder der Nachricht erfasst wurde sowie ein Feld für die Linie. Wurde die Wörter einer Nachricht gezählt, wird für den entsprechenden Datensatz außerdem ein Flag „words_counted“ auf 1 gesetzt, um diesen beim nächsten Durchsatz zu überspringen. (Da die Wortzählung erst später eingeführt wurde, ist sie noch nicht im Hauptscript vertreten, was den Prozess sicherlich etwas verkürzen würde).

Daneben gibt es zwei weitere Tabellen mit Meta-Informationen. Dies ist zunächst eine Blacklist-Tabelle, die bei einer Aggregation der Wort-Häufigkeiten ignoriert werden sollen. Das betrifft nicht den Vorgang des Zählens der Wörter! In einer weiteren Tabelle wird eine Zuordnung der Linien zu den Linientypen sowie Subtypen festgehalten. Zu den Linientypen zählen nur Bus, Tram, Zug sowie Fähre. Anhand der Subtypen kann außerdem in besondere Liniengruppen unterschieden werden, wie z.B. Metro-Bus, Express-Bus usw.

Datenbankschema

Datenbankschema

Mögliche Fehlerquellen

Grundsätzlich gibt es zwei Dinge zu beobachten: Die Auswertungen werden nicht in Relation zur tatsächlichen Anzahl der Fahrgäste der jeweiligen Linie betrachtet, da diese nicht zu Verfügung stehen. Es kann also nur ein Vergleich der absoluten Zahlen stattfinden. In Relation betrachtet kann die Gegenüberstellung der Linien ein anderes Ergebnis liefern!
Außerdem kann die Anzahl der Einträge je Linie (oder auch Tageszeit usw.) auf zwei Arten interpretiert werden: Die Passagiere sind in der Linie mit vielen Einträgen entsprechend flirtfreudiger und offener und deshalb kommt es auf der Plattform zu mehr Gesuchen. Oder aber es ist genau andersrum: Da die Menschen einer bestimmten Linie schüchterner sind, trauen sie sich erst im Nachhinein die Kontaktaufnahme über diese Plattform zu starten. Ich bin in meinen Auswertungen immer von ersterem ausgegangen. Meine Vermutung ist, dass Menschen eher dazu neigen die Plattform zu nutzen, weil sie im Voraus mindestens schon Annäherungsversuche übernommen haben, auch wenn diese nur sehr gering waren. Die verfassten Texte unterstreichen diese Vermutung.

Leider gab es im Laufe der Zeit einige technische Anpassungen auf den Seiten der BVG, die einige Analysen etwas erschweren bzw. verhindern. Zur Zeit (19.07.2018) enthält die Datenbank 22.868 Datensätze. Davon sind allerdings nur 19.117 als valide markiert, ca. 16,5% enthalten also nicht genug Informationen für die Auswertung. Der Wert erscheint hoch, ist aber leicht zu rechtfertigen: Die eindeutige Content-Id ist eine aufsteigende Zahl. Das Haupt-Script bietet eine Funktion an, Content-Ids zu „scannen“, die nicht auf der Übersichtsseite aller Nachrichten verzeichnet sind, um ggf. „versteckte“ Nachrichten zu finden. Das führt dazu, dass viele Content-Ids komplett leere Datensätze enthalten. Warum das BVG-System hier Ziffern auslässt, ist nicht ganz klar. Vermutlich wurden Datensätze im Nachhinein gelöscht, bevor sie mein Script erfassen konnte.

Eine weitere Ungenauigkeit betrifft das Datum, an dem die Beiträge verfasst (date_posted) wurden. Es fällt auf, dass sehr viele Einträge offenbar am 13. August 2014 verfasst wurden, das Datum des Augenblicks (date_met) aber sehr lange zurück liegt, teilweise bis 2006. Das älteste Datum in date_posted ist der 30.06.2014, bei date_met allerdings der 14.02.2006. Die Vermutung ist also, dass das Datum, an dem der Beitrag verfasst wurde, erst ab Juni 2014 mit erfasst wurde. Im August hat man dann vermutlich alle älteren Beiträge auf das feste Datum, nämlich den 13.08.2014 gesetzt. Insgesamt betrifft das immerhin 15.560 Datensätze!

Natürlich ist die Zählung der Wörter nur so präzise, wie sich die Verfasser an die deutsche Rechtschreibung halten und z.B. Abkürzungen oder alternative Schreibweisen verwenden. Auch die Angabe der jeweiligen Linie schwankt von Jahr zu Jahr, weshalb bei der Analyse auch nur Linien-Gruppen berücksichtigt werden.

Verwendete Technologie

Ganz offensichtlich verwende ich WordPress. 😉

Ansonsten habe ich zwei Plugins für die Datendarstellung selber geschrieben, da es keine vergleichbaren Alternativen gibt. Das ist zum einen das Plugin für die Darstellung der HTML-Heatmap sowie das Plugin für die WordCloud, basierend auf dem fantastischen wordCloud2.js von Tim Dream.

Für das Abgreifen des BVG-Portals verwende ich ein PHP-Script.

Start the Discussion!

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Ich verwende den selber gehosteten Analysedienst Piwik / Matomo, um das Besuchsverhalten zu analysieren und Besuchererlebnis zu optimieren. Dabei wird deine IP-Adresse nicht erfasst und es werden lediglich statistische Daten erfasst, die nur mir zur Verfügung stehen. Möchtest du mich dabei unterstützten, die Seite zu verbessern?