Datenvisualisierung zu 10 Jahre Wikipedia
Auf welcher Datenbasis wurde die Visualisierung erstellt?
Wikipedia wird von der gemeinnützigen Stiftung Wikimedia betrieben. Diese bietet auf der Seite dumps.wikimedia.org Daten zu Wikipedia zum Herunterladen an. Für die Visualisierung der Tagesaktivitäten wurden die Rohdaten aller Bearbeitungen der deutschen Wikipedia von 2001 bis 2010 durchsucht. Die übrigen Daten hat Wikimedia schon selbst ausgewertet und bietet diese in tabellarischer Form auf einer eigenen Seite an.
Wie groß sind die verwendeten Datenmengen?
Bei den Rohdaten handelt es sich um ein einziges 20 Gigabyte großes XML-Dokument. Darin enthalten ist eine Liste mit den Titeln aller Wikipedia-Artikel. Zu jedem Artikel gibt es noch dazu die komplette Bearbeitungsgeschichte (also wer wann den Artikel bearbeitet hat).
Wie können solche riesigen Datenmengen ausgewertet werden?
Die einzige Möglichkeit solche Datenmengen auszuwerten besteht darin, einen so genannten Scraper zu schreiben. Das ist ein kleines Programm, das die Daten nach vorgegebenen Kriterien durchsucht und automatisch gewünschte Daten ausliest. In der Regel werden Scraper zum Auslesen von Informationen aus weniger gut strukturierten Datenquellen (wie zum Beispiel Webseiten) verwendet.
Warum wurde die Spiralform für die Visualisierung ausgewählt?
Die analysierten Daten lagen jeweils für einzelne Monate vor. Um herauszufinden, ob die Entwicklung der Wikipedia linear oder saisonal unterschiedlich erfolgt, braucht man eine Darstellungsform, die das auf einen Blick möglichst eindringlich sichtbar machen kann. Anhand der Spiralform kann man das leicht sehen. Wäre die Wikipedia gleichförmig linear gewachsen, hätte sich eine ideale Spiralform ergeben. Das ist aber nicht der Fall. Bei einigen Faktoren, wie zum Beispiel bei "Neue Artikel pro Tag", kommt es zu Anomalien, die sich in deutlich sichtbaren Auswölbungen äußern. Klickt man auf "Aktive Wikipedianer" wird auf einen Blick sichtbar, dass etwa seit 2008 die Zahl stagniert und sogar zurückgeht.
Autor: Steffen Leidel, Gregor Aisch
Redaktion: Marcus Bösch