vondragonlair 11.03.2019

dragonlair

Technologie ohne Weichzeichner und Softlayer wie grafische Oberflächen.

Mehr über diesen Blog

Prolog

In der U-Bahn. Vielleicht 18 Uhr, vielleicht 18:30 Uhr. Aus der Unterhaltung mit einer Kollegin über die Diskrepanz der Frauenanteile bei der taz bleibt nicht viel Neues bei mir hängen. Eigentlich nur eine Aussage.:“Schau dir mal zeit.de an. Die machen das besser!“ Triggered. Woher will sie das wissen? Wie kommt sie zu der Aussage? Eine Wahrnehmungsblase, die sich über Jahre hinweg aus hunderten gelesenen Artikeln aufgebaut hat? Das wäre dann eine Selbstdarstellung, die zeit.de nach außen trägt. Mal eben 100 Artikel bei zeit.de zu lesen, um zum gleichem Schluss zu kommen … mäh.

Alright, was wird benötigt, um ein paar mehr Artikel bei Zeit Online maschinell auszuwerten? Links zu den Artikeln, der Inhalt der Artikel, die Metadaten der Artikel (?), ein paar Funktionen, die den Artikeltext bewerten können, und etwas Gluecode um Statistiken resp. Graphiken zu erzeugen. Gluecode und Funktionen sind schnell gefunden. Um die Sachen interessant zu halten, fließt neben gender-guesser zum Erraten des Geschlechts der AutorIn anhand des Vornamens auch der SentimentWortschatz von der Uni Leipzig ein. Mit letzterem lässt sich die Polarität (positiv oder negativ) eines Textes bestimmen. Dabei wurde etwa 34k Wörter (inklusive Flexionsformen) ein Wert zwischen -1 und 1 zugewiesen, was z. B. das Bewerten von Produktkommentaren erlaubt. Ein paar Beispiele für die Bewertung sind schwach ( -0.92 ), Feind ( -0.80 ), verwerflich ( -0.73 ) auf der negativen Seite und spannend ( 0.73 ),  romantisch ( 0.71 ) gelungen ( 1.00 ) mit einer positiven Bewertung.

Die Suchanfrage

Die Links zu den Artikeln zu bekommen ist dank der Suchfunktion auf zeit.de einfach. Dort wird bei den Suchergebnissen neben dem Link zum Artikel auch gleich AutorIn, die Anzahl der Kommentare und um welches journalistisches Genre es sich handelt mit angegeben. Wird nach einem leerem Text gesucht, teilt Zeit Online auf 57.000 Seiten mit je zehn Artikeln die erfolgreiche Suche mit. Es ist allerdings nicht möglich irgendwelche Seiten nach Seite 5.000 aufzurufen. Hier ist bewusst ein hartes Limit eingebaut, das auf 50k Artikel limitiert. Bei Zeit Online ist das ein Zeitfenster von etwa zwei Jahren, das sich genauer betrachten lässt:

 

Geschlecht weiblich männlich keine Autoren nicht eindeutig
Artilelanzahl 8842 15071 22381 2538
zeit.de (%) 18.11 30.86 45.83 5.20
durchschn. Kommentare 120.54 105.40 137.54 139.59

Das Geschlecht „nicht eindeutig“ wird immer dann angenommen, wenn sowohl mehrere Geschlechter am Text beteiligt waren, als auch Vorname androgyn oder schlicht der Name dem gender-guesser nicht bekannt ist. Aufgrund der Metadaten in den Suchergebnissen ist auch ein tieferer Einblick möglich. So lässt sich z. B. für die Artikelanzahl der Genres Interview, Bericht und Kommentar Folgendes feststellen:

Geschlecht weiblich männlich nicht eindeutig
Interview 784 (39%) 985 (49%) 239 (12%)
Bericht 7222 (34%) 12056 (56%) 2046 (10%)
Kommentar 223 (25%) 635 (70%) 47 (5%)

Im zeitlichen Verlauf für 2017 und 2018 lässt sich bei der Artikelanzahl erkennen, dass im September 2017 der Prozentsatz der Artikel ohne Autoren zugenommen hat. Das Zeitfenster von Juni bis September 2018 fällt ebenfalls auf. Der zeitliche Verlauf der Kommentare spiegelt diese Beobachtung teilweise wider. Eine mögliche Interpretation ist, dass es eine steuernde Entscheidung gab, wie z. B. Texte und Videos automatisiert online zu stellen, deren Autoren nicht erkannt werden. Eine andere ist, dass die „Erzeuger“ der automatischen Nachrichten mehr produzieren. Das „Backfire“ scheint die erhöhte Menge an Kommentaren zu sein.

Metadaten an den Artikeln

Aus den Links der Suchanfrage kann dann der einzelne Artikel geladen werden. Dabei wird der Artikel auch als XML-Datenstruktur von zeit.de bereit gestellt. Die 41.000 unterschiedlichen #tags (Zeitfenster 2 Jahre) ausgelesen und ausgewertet zeigen, dass die #tags in Teilgruppen aufgeteilt sind. Viele #tags haben einen Typ wie location, keywords oder organisation. In diesen oder anderen Teilgruppen lässt sich dann ermitteln, was die bevorzugten #tags sind. Gruppiert nach Ressort ergibt sich z. B., dass die am häufigsten verwendeten #tags des Zeit-Magazins in die Bereiche Kochen und Essen, Mode, Liebe, Familie und Tatort fallen. Bei ‚Digital‘ sind es dann Facebook, Datenschutz, Google, Smartphone, Hacker, gefolgt von ’soziale Netzwerke‘ und ‚künstlicher Intelligenz‘. Die Durchschnittliche Anzahl der #tags an einem Artikel pendelt sich auf sieben ein.

Unter der Annahme, dass die Metainformation mit Namen „DailyNL“ an Artikeln für das Versenden in einem täglichen Newsletters steht, lassen sich die Artikel dementsprechend gruppieren:

DailyNL seo_optimized corrected urgent
missing 0 (0%) 5718 (11.44%) 5558 (11.12%) 5544 (11.10%)
no 13583 (27.18%) 14296 (28.61%) 8730 (17.47%) 8064 (16.14%)
yes 36385 (72.82%) 29954 (59.95%) 35680 (71.41%) 36360 (72.77%)

Ähnliches gilt für die ja-nein-Metadaten mit den Namen corrected, seo_optimized, urgent oder breaking_news. Diese geben einen Hinweis darauf, wie die Artikel für das Onlineportal aufgewertet werden oder welche Steuerungsmöglichkeiten vorhanden sind. Diese Metadaten lassen sich fast nach Belieben untereinander und mit anderen Metadaten wie Ressort oder Geschlecht kombinieren.

Text der Artikel

Bei der Analyse des Textes ergibt sich für die Anzahl der Wörter pro Artikel Folgendes:

words
Anzahl Artikel Durchnittl. Wortanzahl std. Abweichung 90% max
female 8909 765 442 1112 11748
male 15590 768 609 1089 51975
no author 22598 329 336 639 25965
unknown 2871 741 544 1126 20516

Dabei ist anzumerken, dass etwa 5.000 „Artikel“ in dem Sinne keine Artikel mit Text sind, sondern Videobeiträge oder ähnliches. Diese haben oft keine Autoren und – bis auf einen Teaser – keinen Text.


Bei der Sentimentanalyse werden alle Artikel mit weniger als zehn Worten ignoriert. Auch finden Artikel keine Berücksichtigung, die gar keinen Treffer in der SentimentDatenbank haben. Gruppiert nach Ressort und Geschlecht der Autoren ist auffällig, dass der autorenlose Artikel im Durchschnitt leicht negativ bewertet wird.

Dann gibt es da noch die Idee nach Artikeln zu suchen, die in der Ich-Form geschrieben sind. Dazu ließ sich keine Software finden. Daher ein „quick and dirty“-Versuch diese anhand der Wörter ‚ich‘, ‚mich‘, ‚mir‘, ‚meine‘, ‚meiner‘, ‚meines‘, ‚mein‘, ‚meinen‘ und ‚meins‘ herauszufinden. Man könnte an der Stelle meinen, dass das fehleranfällig ist und damit auch Recht bekommen. In der entsprechenden Grafik ist die Wahrscheinlichkeit angegeben, dass in der journalistischen Darstellungsform in einem Satz eins der genannten Wörter auftaucht.

Und wohin verlinkt Zeit Online so? Dafür wird einfach nach allen Links in den Texten gesucht und Hostnamen gezählt. Das unterscheidet sich von Ressort zu Ressort.

Die Autoren

Neben den Texten gibt es auch noch etwa 3.400 Autoren, die in zwei Jahren Artikel geschrieben haben. Aus den Datensätzen lassen sich die Metadaten der Autoren auslesen. Bei einigen Metadaten lässt sich durch Stichproben auf die Funktion schließen. Bei anderen wie ‚Extern‘ oder ’ssoid‘ ist dies nicht ohne weiteren Kontext möglich. Aus den Metadaten werden dann die Features abgeleitet. So ist dann ‚hat Email‘ ein simples ja (1) oder nein (0) ob eine Email-Addresse eingetragen ist. Analog für Twitter, Instagram, Facebook und ander ‚hat‘-Features. Damit ergibt sich für die Autoren:

 

Metadata ‚ja‘ in %
hat Facebook 2.4
Extern 41.7
hat Twitter 12.5
ist Mann 52.9
ist Frau 35.1
ist unbekannt 12.0
hat Email 26.3
hat Instagram 1.5
hat ssoid 16.0
sso_connect 17.0
Feedback 1.2
hat Umfrageantworten 4.7
hat Bild 10.2
hat Biographie 53.7
hat Fav-Artikel 10.8
hat VGWortID 25.5

Zwischen all diesen Flags lassen sich Korrelationen bestimmen. Diese sind allerdings sehr vage, wenn von der starken Korrelation zwischen ‚ist Mann‘, ‚ist Frau‘ und ‚ist unbekannt‘ absieht. ‚Externe‘ scheinen weniger befüllte Profile zu haben.

Die einzelnen Flags der Autoren lassen sich über knapp 21k Artikel, die genau eine Autorin haben, chronologisch darstellen.

Sonstige Beobachtungen

Bei der Analyse der Daten stellt sich immer wieder die Frage nach der Relevanz. Ein paar Dinge sind dann wahrscheinlich nur in meinem Kopf bemerkenswert. Z. B. wird die taz in etwa 600 Artikeln erwähnt und 120 verlinken auch auf die taz. Es gibt bei der Zeit die journalistischen Darstellungsformen ‚Datenvisualisierung‘ und ‚Datenvisalierung‘, genauso wie es als #tag-Typen ‚organisation‚ als auch ‚Organization‚ gibt. Die Information, welche LDAP-Userin den Artikel zuletzt bearbeitet / aufgewertet hat, ist genauso in den Artikeln zu finden. Und wenn an einer Bildergallery mit 25 Bilder 63 #tags angehängt sind, ist das ein interessantes Konzept um #tags zugänglich zu machen. Die entsprechende Gallery aus dem Jahre 2012 wurde 2018 zuletzt aktualisiert und zeigt sechs #tags. Es scheint ein allg. Filter für die Anzahl der angezeigten #tags zu geben. Was etwas überraschent ist, ist der Umstand, dass es auch die Z+ Artikel aus dem Zeitraum irgendwie in den Dump der XML-Daten geschaft haben. Für deren Betrachtung ist eigentlich eine Registrierung bei zeit.de notwendig.

Fazit

Bei der Zeit sieht es in Bezug auf Artikel-Geschlechterverteilung nicht viel anders aus als bei der taz. Die Verteilung bei dem Genre Kommentar ist – mehr als bei der taz – zu Gunsten der Männer verschoben. Es gibt allgemein unterschiedlichere Genres bei der Zeit als bei der taz. Die SEO-Abteilung von Zeit Online ist direkt in die Artikelaufwertung eingebunden und #tags werden wesentlich größzüger, aber mit flacher Struktur genutzt. Es werden mehr Artikel- oder Videobeträge ohne gesonderte Autorennennung online gebracht als bei der taz. Ist das besser oder schlechter? Eigentlich nur anders.

Epilog

Die Frage die sich nach all dem stellt ist: „was soll jetzt mit den 50k Artikeldaten passieren“. Löschen ist immer die richtig Antwort. Ich benutze sie als Referenz um Fragen wie „zu welchen Zeiten werden Artikel veröffentlicht“ mit anderen Zeitungen vergleichen zu können. Wozu? Ich möchte informierte Entscheidungen treffen.

Schau ich mir genauer an, welche Texte keine Autoren haben (und somit mutmaßlich von einer Presseagentur kommen) und suche nach dem exaktem Titel des Artikels im Netz wird mir schwarz vor Augen. Wie viele Satelliten von Presseagenturen automatisiert Texte online stellen und daraus ihre Klicks resp. Userinteraktionen generieren ist überraschend. Zumal die Suchmaschinen darüber entscheiden, was die ‚relevante‘ URL bei gleichem Text und Bild ist.

 

Anzeige

Wenn dir der Artikel gefallen hat, dann teile ihn über Facebook oder Twitter. Falls du was zu sagen hast, freuen wir uns über Kommentare

https://blogs.taz.de/dragonlair/zeit-online/

aktuell auf taz.de

kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.