Um Zusammenhänge zwischen Leistung auf dem Platz und auf Instagram herstellen zu können, sind wir auf die Suche nach aussagekräftigen Datenpunkten gegangen, haben die Quellen automatisiert ausgelesen und Koeffizienten gebildet.
Ein Hauptinteresse innerhalb des Projekts lag darin, festzustellen, ob Zusammenhänge zwischen der sportlichen Leistung und dem Abschneiden auf Instagram bestehen. Dafür brauchten wir bei einem quantitativ arbeitenden Projekt quantitatives Vergleichsmaterial, also Datenpunkte. Datenpunkte sind in diesem Fall geeignete Metriken und Variablen, wie beispielsweise gelaufene Kilometer, die absolvierten Spielminuten, geschossenen Tore, und so weiter und so fort.
Die Instagram-Daten lasen wir mit einem selbstentwickelten Webscraper aus, einem Tool, welches regelmäßig und automatisiert die relevanten Accounts für uns besucht und nach Änderungen durchforstet. Diese Eigenentwicklung kostete einigen Aufwand, da Instagram im Nachgang des Cambridge Analytica-Skandals im Schwesternetzwerk Facebook kurz vor angedachtem Projektstart die Entwicklerschnittstelle kappte.
Da das Projekt nun doch eher eine populär-akademische Fingerübung darstellt, wurden wir abgesehen von einem Grundstamm an herkömmlichen Leistungsdaten bei der Wahl der weiteren Quellen etwas kreativer. Wieso kostenintensiv Statistikportale lizenzieren, wenn man auch mit den Punkten aus Managerspielen arbeiten kann, die das bereits tun? Auch die Fußballsimulation FIFA wurde für uns schnell interessant, denn wir stellten fest, dass die Spielerbewertungen dort durchaus belastbare Indikatoren für reelle Leistungen darstellten. Dafür sorgen hauptamtliche Daten- und Spielerscouts. Händisch recherchierten wir zudem Einschaltquoten des Bezahlsenders Sky, wenn ein Team spielt, Mannschaftsrat-Zugehörigkeit und weitere sehr spezifische Datenpunkte.
Die Rohdaten aus den verschiedenen Quellen legten wir in einer Datenbankinfrastruktur ab, wovon aus wir Berechnungen anstellten, die Belastbarkeit der einzelnen Datenpunkte mit wissenschaftlichen Methoden überprüften und eigene Indikatoren und Koeffizienten bildeten.
Unser Werkzeugkasten umfasste :
- WebStorm als Entwicklungsumgebung für den in Node.js geschriebenen Webscraper
- DataGrip für die Kommunikation mit der MySQL-Datenbank
- R & Tableau für das Untersuchen der Datenpunkte, etwa auf Korrelationen
- Gephi für die Untersuchung und Visualisierung der Netzwerke