vondragonlair 16.09.2018

dragonlair

Technologie ohne Weichzeichner und Softlayer wie grafische Oberflächen.

Mehr über diesen Blog

Nachdem wir uns in Teil eins so ganz allgemein angeschaut haben wie viele Bots es auf taz.de so gibt, setzt sich dieser Blogpost damit auseinander wie sich so ein Bot im Detail verhält. Die Frage die sich jetzt stellt ist „Wie lange nach dem veröffentlichen eines Artikel dauert es bis Bots von für die taz relevante Plattformen vorbei kommen und den Artikel lesen?“

Datenaquise

Bevor angefangen werden kann darüber nachzudenken, wie man solch eine Datenanalyse macht, stellt sich die Frage ob die Daten überhaupt im Haus vorhanden sind. Die rohen Logdaten werden in der taz drei Tage aufbewahrt. Die indizierten und bereinigten Logdaten in der Elasticsearch 42 Tage vorgehalten und dann unwiederbringlich gelöscht. Auf taz.de gibt es, wenn das Archiv mit seinen knapp 1.65 Millionen Einträgen ignorieren wird, etwa 200.000 Artikel. Diese werden von Menschen und Bots unterschiedlich abgerufen aber auch ältere Artikel erzeugen immer mal wieder Hits in den Logdaten z.B. wenn sie auf Wikipedia verlinkt wurden. Oder anders gesagt: nicht nur die gerade aktuellen Artikel werden abgerufen, sondern alle die online sind. Da wir an dem Verlauf seit der Veröffentlichung interessiert sind, wird eigentlich nur ein relativ kleiner Teil benötigt, da schon für den letzten Monat die Zugriffsstatistiken nicht mehr vollständig sind (zum Glück). Welche Artikel sind gerade frisch auf der Seite? Eine theoretische Lösung zur Wahrheitsfindung ist, in der taz zur Online Chefin vom Dienst zu gehen und die Frage stellen „Kannst du mir die vollständige Liste der URLs von den Artikel geben die im letztem Monat auf taz.de erschienen sind? … Ah! Wenn du schon dabei bist, kann ich das auch gleich für die letzten 5 Jahre haben? Danke?“. Schon in meinem Kopf kann ich die Gesichtszüge und die wahrscheinlichste Antwort auf diese Frage abschätzen.

Plan B ist also die 200.000 Artikel maschinell einzulesen und nach dem Erscheinungsdatum zu filtern. Glücklicherweise liegen alle XML-Dateien der Artikel intern in einfach zu erreichender Form vor, was einen schnellen Überblick ermöglicht. Im August 2018 wurden auf taz.de 1395 Artikel veröffentlicht. Mindestens waren es 21, höchstens 58 und im Durchschnitt 45 am Tag. Bei „Öffnungszeiten“ von taz.de von 8Uhr bis 20Uhr also durchschnittlich alle 16min eine neue Veröffentlichung.

Was sind die relevante Plattformen?

Einfach gesagt: Alle Plattformen die dazu führen, dass ein Artikel öfter gelesen wird. Oder kurz: Klicks. Also wie bei allen Verlagen soziale Medien und Suchmaschinen. Hier in diesem Post liegt der Fokus auf Googlebot, Bingbot, YandexBot, TwitterBot, Googlebot-News, Googlebot-mobile und dem TelegramBot. Wer das Umfeld der taz etwas kennt wird jetzt sofort feststellen „Wie kein Facebook?“. Agenten von Facebook kommen zwar bei der taz vorbei, sind aber im eigentlichen Sinne keine Bots. Im Gegensatz zu ihren Kollegen ist die Auftrittswahrscheinlichkeit an einen Tag-Nacht-Zyklus gekoppelt, was die Vermutung nahe legt, dass die Zugriffe Benutzerin gesteuert ist. Der Zusatz „http://www.facebook.com/externalhit_uatext.php“ im UserAgent gibt die Klarheit, dass der taz-Artikel im Kontext von Facebook gelesen oder geteilt wurde. Dann wäre da noch WhatsApp. Hier greift die Klassifizierung anhand des UserAgents nicht und macht den Fehler die WhatsApp-Anwendung als Bot einzustufen. Sitequest: wie viele unterschiedliche WhatsApp Versionen sind denn so da draussen? Wir können hier 122 WhatsApp UserAgents in diversen, teils stark veralteten, Versionen pro Monat feststellen. Und dann der Aufschrei: „Instagram fehlt auch!“. Es ist für uns nicht möglich irgendwelche direkten Auswirkungen der 10k Follower auf taz.de zu messen. Wahrscheinlichster Grund: Es gibt auf Instagram keine Links  zu Artikeln der taz.

// Nerdtalk

Mit etwas python code und unter Verwendung des pandas Frameworks werden die Daten aus der Elasticsearch und den XML-Dateien zusammen geführt. Dabei ist lediglich die zeitliche Differenz zwischen dem Veröffentlichungsdatum aus den XML-Dateien und den protokollierten Uhrzeiten der „Firsthits“ durch die Bots relevant.Zwei Dinge fallen auf. Keiner der Bots hat alle Artikel gefunden. Das kann technische Ursachen haben wie z.B. das Testartikel veröffentlicht wurden, die nicht auf der Webseite platziert wurden, so, dass auch der Googlebot diese nicht finden konnte. Oder sie wurden auf Seiten/Ressorts platziert die der einzelne Bot nicht auf dem Schirm hat. Zweitens fällt auf, wenn der Artikel nicht nach 14 Tagen indiziert wurde, wird das wohl auch nicht mehr passieren. Dies ist aber nur eine Vermutung, da der Erfassungszeitraum des einzelnen Artikels in der Datenbasis unterschiedlich lang ist. Artikel die am Anfang des Monats veröffentlicht wurden, haben mehr Zeit einen „Firsthit“ zu haben, als Artikel am Ende des Monats, bevor die Datenbasis abreißt.

Bleibt noch die Antwort auf die Frage. Kommen Bots mehr als einmal vorbei um Artikel zu lesen? Die Kurzform der Antwort: Ja. Für die menschlichen Leser vielleicht unbemerkt – denn wer liest willentlich einen Artikel zwei mal und sucht nach Unterschieden – aber Artikel ändern sich über Zeit. Teaser verbessern, Headline austauschen, Rechtschreibkorrekturen. Einen Artikel online zu haben heißt im allgemeinen nicht „ist fertig und ändern sich bis zum unausweichlichem Kältetod des Universums nicht“, sondern, dass der Artikel sich in einer lesbaren Form befindet. Sobald ein Artikel online gestellt wurde, ist davon auszugehen, dass er nach 15 Minuten in allen Googledatenbanken angekommen ist. Wobei die Datenkrake GoogleBot für die Suchmaschine 50% der Artikel fast 60 mal abruft und so jede Änderung feststellen kann, im Gegenstaz zu „mobil“ und „News“-Varianten. Die Suchmaschine Yandex hängt im Durchschnitt 7,5 Stunden hinterher. Bei Twitter kann es auch mal 10 Stunden dauern bis ein Artikel abgerufen wird. Vielleicht weil ein Artikel nicht von der Kommune der taz angeteasert wurde, sondern der Link andere Wege auf die Plattform gefunden hat.

Anzeige

Wenn dir der Artikel gefallen hat, dann teile ihn über Facebook oder Twitter. Falls du was zu sagen hast, freuen wir uns über Kommentare

https://blogs.taz.de/dragonlair/bots2/

aktuell auf taz.de

kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.