Die Tyrannei der Kennzahlen

Rezension zu "The Tyranny of Metrics" von Jerry Z. Muller und "Bibliometrics and Research Evaluation" von Yves Gingras

Die „akademische Freiheit“ ist ein ebenso hohes wie gefährdetes Gut. Hervorgegangen aus dem Bemühen der Universitätslehrer, das enge Korsett der Überwachung durch kirchliche und staatliche Instanzen zu lockern, blieb ihr Status stets prekär und umstritten. Doch während Hochschullehrer vielerorts auch heute noch (oder wieder) aufgrund ihrer politischen oder religiösen Überzeugungen mit Repressalien rechnen müssen, scheint die größte Bedrohung in unseren Breitengraden gegenwärtig von anderen Kräften auszugehen. Ging es früher um Inhalte, geht es heute um Kennzahlen. Das letzte Mal, als es in Deutschland darum ging, die mögliche Verbreitung gefährlicher Botschaften durch Universitätslehrer zu verhindern, erließen die Ministerpräsidenten und Minister der Länder einen Gemeinsamen Runderlass, der Mitgliedern radikaler Parteien die Verbeamtung verweigerte. Die landläufig als „Radikalenerlass“ bezeichnete Maßnahme von 1972 war ein stark zeitversetztes Echo auf die Kampagne gegen eine angebliche Unterwanderung des US-amerikanischen Regierungsapparats und der Hochschulen durch „Kommunisten“, die dem republikanischen Senator aus Wisconsin, Joseph McCarthy, ihren Namen verdankt.

Der nicht gering zu achtende Unterschied zwischen den Kontrollversuchen der Vergangenheit und denjenigen der Gegenwart besteht nun darin, dass die heutigen Obrigkeiten weitgehend agnostisch gegenüber dem sind, was die aus Steuermitteln finanzierten Wissenschaftler inhaltlich lehren und forschen, aber vorgeben wollen, wie vielen Studierenden das pro Semester vorgetragen werden soll, wie viele Seiten man wo publiziert haben muss und mancherorts wird inzwischen sogar der „social impact“ zur Zielvorgabe.

Das Regime der Kennzahlen wurde nicht spezifisch für die Universitäten erfunden, sondern war das Ergebnis einer gewandelten Vorstellung von den Aufgaben des öffentlichen Dienstes. Wenig überraschend entstand das New Public Management, dem sich die Zahlenhörigkeit verdankt, in einer Umgebung, die durch schwache staatliche Bürokratien gekennzeichnet war und deren räsonierende Klasse einen starken Zug zum Anti-Etatismus aufwies. Und auch wenn sich keine direkten Verbindungen zwischen den Überzeugungen und Regierungsprogrammen Ronald Reagans und Margaret Thatchers und dem Entstehen dieser neuen Lehre nachweisen lassen, ist die Familienähnlichkeit dennoch frappierend. Sehr viel erklärungsbedürftiger als der Aufstieg des neuen Paradigmas im anglo-amerikanischen Raum ist jedoch, warum diese Ideologie sich seither auch in Ländern breitmachen konnte, die auf eine lange Geschichte eines mächtigen Beamtenstaates blicken können. Nachdem dieser neue Geist die Köpfe der Staatenlenker und ihrer Vordenker allerdings erst einmal erobert hatte, war es nur konsequent, dass diese Verwaltungslehre dann auch in allen Bereichen des staatlich finanzierten und kontrollierten Sektors Einzug hielt. Wie das New Public Management in die mitteleuropäischen Universitäten kam, ist eine Geschichte für sich, die hier nicht abgehandelt werden kann. Es muss genügen darauf hinzuweisen, dass die deutschen Universitäten hier eher zu den Nachzüglern gehörten, während in Europa die britischen und niederländischen Universitäten eine Vorreiterrolle einnahmen.

Zwei schmale Bücher können helfen, den seither erfolgten Wandel und seine Folgen besser zu verstehen. Das erste stammt von dem an der Catholic University of America lehrenden US-amerikanischen Historiker Jerry Z. Muller, der hierzulande vor allem als Biograf Hans Freyers bekannt geworden ist.[1] Muller bekennt, dass die stetig wachsenden Berichtspflichten, denen er als Leiter seines Departments nachzukommen hatte, ihn dazu veranlassten, systematischer über den um sich greifenden Trend zur Quantifizierung nachzudenken. Immer öfter war er aufgefordert worden, Kennzahlen zusammenzustellen und sie in standardisierter Form als Beweis für die „performance“ seines Instituts vorzulegen. Denn, so wurde ihm mitgeteilt, nur auf diese Weise ließen sich „accountability“, „transparency“ und „assessment“ sichern. Diese Schlagworte gehören mittlerweile zum Standardvokabular, das auf allen Ebenen der Verwaltung Einzug gehalten hat. Muller charakterisiert die Begeisterung für Kennzahlen als das Ineinandergreifen von drei Überzeugungen: Erstens seien sich die Proponenten gewiss, dass man elaborierte verbale Urteile erfahrener Gutachter durch numerische Indikatoren ersetzen kann, die einen objektiven Vergleich der jeweils zu bewertenden Leistungen ermöglichen. Zweitens glaubten sie fest daran, dass die betreffenden Institutionen durch die Verpflichtung zur Veröffentlichung der Kennzahlen lernen, ihre jeweiligen Aufgaben effizienter auszuführen; und drittens gingen sie davon aus, dass man die Belegschaft besser motivieren kann, wenn man sowohl ihre Bezahlung als auch ihre Reputation an Kennzahlen koppelt.

Die ideellen Wurzeln für die von ihm diagnostizierte Tyrannei der Kennzahlen findet Muller schon im 19. Jahrhundert, als ein britischer Schulpolitiker die Finanzierung jeder einzelnen Schule von den Testergebnissen ihrer Schüler abhängig machen wollte. Daraufhin geißelte der englische Schriftsteller Matthew Arnold, der seinen Lebensunterhalt als Schulinspektor verdiente, die unzulässige Übertragung der Logik des Marktes auf die Welt der Erziehung. Neben der revolutionären Wirkung von Frederick Taylors Principles of Scientific Management (1911) auf die Organisation der Arbeit und anderer Lebensbereiche hebt Muller in seinem Überblick vor allem die Rolle der US-amerikanischen Business Schools als Saatbetten für die Machtübernahme der Kennzahlen hervor: Reduzierte Taylor die Arbeiter ausschließlich auf ihre Muskelkraft, predigten die Professoren der Business Schools schon sehr früh die Übertragbarkeit der Managementlehren auf Bereiche außerhalb der Güterproduktion. Ein besonders krasses Beispiel ist der vormalige Professor für Buchhaltung an der Harvard Business School, Robert McNamara, der als US-Verteidigungsminister unter den Präsidenten Kennedy und Johnson zweifelhafte Berühmtheit für seine Versuche erlangte, die Produktion von Leichen zu optimieren. Der mangelnde Erfolg der von ihm verfolgten Strategie des „body count“ in Vietnam hatte keine negativen Auswirkungen auf die weitere Karriere ihres Erfinders (der erst spät im Leben Einsicht zeigte[2]).

Nach dem schmachvollen Ende des Vietnamkriegs entstand in den US-amerikanischen Business Schools sodann die „Principal-Agent Theorie“, die das zentrale Motiv des Taylorismus: Kontrolle statt Vertrauen, nun auch auf die höheren Etagen der Unternehmen anwandte. Die Shareholder sollten dem Management mit dem gleichen Misstrauen gegenübertreten, wie das zuvor schon die an Taylors Grundsätzen orientierten REFA-Ingenieure bei den Fließbandarbeitern getan hatten. Allein, was diese Professoren nicht bedachten, waren die nichtintendierten Nebenfolgen dieses Entlohnungsmodells, die schon in den 1970er-Jahren auf den Begriff gebracht wurden. Unabhängig voneinander formulierten in den USA und in Großbritannien zwei Autoren eine Einsicht, die seither als „Campbellʼs Law“ beziehungsweise „Goodhartʼs Law“ zitiert wird. Der Sozialpsychologe Donald T. Campbell und der Ökonom Charles Goodhart wiesen jeweils darauf hin, dass Indikatoren zur Leistungsmessung wertlos werden, wenn sie durch diejenigen, deren Leistungsvermögen sie erfassen sollen, beeinflussbar sind (Muller, S. 19 f.).

Den Mittelteil von Mullers Buch bilden sieben Fallstudien zum Thema „The Mismeasurement of all Things“. Muller stellt an das Ende der Überschrift ein Fragezeichen, obwohl ein dickes Ausrufezeichen der Sache angemessener wäre. Das von ihm untersuchte Spektrum reicht von den Sekundar- und Tertiärbildungsinstitutionen über die Bereiche von Militär, Polizei und Medizin bis in die Geschäftswelt und endet mit Ausführungen über die Folgen der Nutzung von Kennzahlen auf den Gebieten von Philanthropie und Entwicklungshilfe. In dem knapp hundert Seiten umfassenden Kapitel gibt Muller einen Überblick über die einschlägige Literatur, wobei hervorzuheben ist, dass er sich nicht nur auf Beiträge aus den USA bezieht, sondern auch eine Reihe von europäischen Veröffentlichungen zur Kenntnis nimmt. Deprimierend ist, wie sehr der Metrikwahn das professionelle Handeln von Professoren, Lehrern, Ärzten, Offizieren und Bankern inzwischen bestimmt. Mit Blick auf die Auswirkungen der vermeintlichen Optimierungsprozesse vermag man gar nicht zu sagen, was schlimmer ist: dass Mediziner eingeladen sind, riskanten Operationen aus dem Wege zu gehen, um ihre persönliche Erfolgsstatistik (und damit auch ihr Einkommen respektive ihren ,Marktwert‘) nicht zu gefährden, oder dass Schulen immer mehr Zeit darauf verwenden, ihre Schüler auf die Bewältigung standardisierter Jahrestests hinzutrimmen, statt ihnen etwas beizubringen? Dass Bankangestellte ihre Kunden ohne deren Zustimmung in neue Finanzprodukte einschreiben, um vorgegebene Kennzahlen zu erreichen, oder dass Polizisten angesichts drohender Überarbeitung Anreiz haben, schwere Verbrechen herabzustufen oder gar nicht erst zu dokumentieren, während sie zum genauen Gegenteil eingeladen werden, wenn es um die ,Begründung‘ von mehr Planstellen geht?

Auch wenn man einiges davon schon gewusst haben mag – Mullers Zusammenstellung führt die Tyrannei der Zahlen und ihre bisweilen absurden, häufig aber kontraproduktiven oder gar gefährlichen Folgen eindrücklich vor Augen. Nebenbei zitiert er immer wieder Stimmen von Wissenschaftlern und Aktivisten, die sich gegen die Zahlenhörigkeit zur Wehr setzen oder ihr zumindest skeptisch begegnen. Erwähnt sei hier nur eine jüngst für das US-Militär durchgeführte Studie, der zufolge qualitative im Vergleich zu quantitativen Beobachtungen für gewöhnlich als weniger „empirisch“ und reliabel eingestuft werden, obwohl die quantitativen Metriken selbst oft nur anekdotischer Natur seien, weil sie den Bias der Beobachtenden widerspiegelten. Für den historisch interessierten Sozialwissenschaftler entbehrt es nicht einer gewissen Ironie, dass mit der RAND Corporation nun einer der einflussreichsten Think Tanks der USA diese für uns vielleicht nicht ganz neue Erkenntnis verkündet.

Beim Militär, so vermutet Muller, gäbe es vielleicht mehr Bereitschaft zu einem ehrlichen Umgang mit Kennziffern, weil dort der Einsatz besonders hoch sei. Widerstand gegen die Tyrannei der Kennzahlen gibt es freilich auch in der Wissenschaft. Ein gutes Beispiel hierfür bietet etwa die 2012 veröffentlichte San Francisco Declaration on Research Assessment (DORA), deren Unterzeichner sich für eine Reform der Standards zur Bewertung wissenschaftlicher Arbeit einsetzen. Diese und ähnliche Bewegungen versuchen darauf hinzuarbeiten, einen verantwortungsvollen Umgang mit Indikatoren und Metriken in der Forschungsevaluierung zu etablieren. Nur zu gerne hätte man erfahren, ob es ähnliche Initiativen auch in den anderen von Muller untersuchten Feldern gibt beziehungsweise auf welche Arten und Weisen sich das wachsende Unbehagen an der ,Vermessung der Welt‘ dort ausdrückt. Aber das wäre vermutlich Stoff für eine weitere Studie gewesen.

Muller beschließt seine nie in Polemik abdriftende Streitschrift mit der Formulierung einer Reihe von Fragen, die man beantworten sollte, ehe man sich irgendeiner Art der Erhebung oder Verwendung von Kennzahlen bedient. So hilfreich die von ihm erarbeitete 10-Punkte-Liste ist (sie reicht von der Definition der Information, die man messen will, über die vorweg zu erörternde Nützlichkeit der erhobenen Daten bis zum abschließenden Hinweis darauf, dass es gelegentlich ein Zeichen von Weisheit sei, die Grenzen des Möglichen zu kennen), so wenig gibt sie Antwort auf die Frage, wie und warum diese Tyrannei entstehen konnte.

 

Der am Département d‘Histoire de l‘Université du Québec à Montréal beheimatete Frankokanadier Yves Gingras ist ein Tausendsassa: Der studierte Physiker lehrt Wissenschaftsgeschichte und -soziologie, tritt regelmäßig in traditionellen und neuen Medien auf, nimmt Gastprofessuren auf beiden Seiten des Atlantiks wahr und publiziert im Stakkato zu einer breiten Palette von Themen. Die vorliegende Studie ist die vom Autor ins Englische übersetzte und aktualisierte Ausgabe eines bereits 2014 in der von Pierre Bourdieu begründeten Editions Raisons d’Agir erschienenen Textes.

Gingras ist alles andere als ein Gegner der statistischen Analyse großer Daten, die er schon lange vor dem Hype um Big Data praktizierte. Einen Namen gemacht hat er sich vor allem als Kritiker der negativen Auswirkungen von Zitationsdatenbanken wie dem Science Citation Index, deren Funktionsweise er in zahlreichen Arbeiten untersucht hat.[3] Sein Anliegen ist es, den Missbrauch derartiger Datenbestände in der Hoffnung anzuprangern, die Verantwortlichen von der Reformbedürftigkeit der bestehenden Parameter und Verfahren überzeugen und zu deren Änderung bewegen zu können.

In den vier Kapiteln des hier zu besprechenden Buches gibt Gingras einen gut informierten Überblick über die relativ jungen Disziplinen der Sziento- und Bibliometrie, die sich der quantitativen Messung wissenschaftlicher Arbeit beziehungsweise wissenschaftlicher Publikationen verschrieben haben. Im Zentrum der entsprechenden Ansätze steht dabei jeweils das Zitat, also der Verweis einer Autorin auf die Veröffentlichung eines anderen Autors. Seit den späten 1950er-Jahren werden Daten über derartige Verweise in den sogenannten Zitationsindizes gesammelt und für Auswertungen zur Verfügung gestellt. Es ist nicht unerheblich, mit Gingras darauf hinzuweisen, dass diese Datensammlungen anfangs geschaffen wurden, um den Bibliotheken angesichts der rasch wachsenden Zahl wissenschaftlicher Publikationen eine Entscheidungshilfe für die Auswahl und Anschaffung von Zeitschriften an die Hand zu geben.

Eine Schlüsselrolle bei dem Vorhaben, die von seiner Firma gesammelten Daten auch für andere Zwecke zu nutzen, spielte kein Geringerer als der Gründer der ersten Zitationsdatenbank, Eugene Garfield. Manche der heute im wissenschaftlichen Feld allgegenwärtigen Kennzahlen gehen auf Garfields Experimentierfreude zurück. Auch Gingras ist überzeugt, dass die Bibliometrie eine ernst zu nehmende Angelegenheit darstellt. Im zweiten Kapitel schildert er, was man mit ihrer Hilfe über die Dynamik der Wissenschaften herausgefunden hat. Die Daten zeigten beispielsweise, dass die überwiegende Zahl der Zitationen auf einen sehr kleinen Kreis von Veröffentlichungen (und damit deren Autoren) beschränkt bleibt, obwohl die Literaturlisten, die auch erst seit einigen Jahrzehnten gesammelt am Ende eines Aufsatzes zu finden sind, immer länger werden. Habe ein durchschnittlicher wissenschaftlicher Fachartikel um 1900 gerade einmal zehn Verweise auf andere Veröffentlichungen enthalten, seien es 2014 bereits vier Mal so viele gewesen. Vergleiche zwischen Disziplin(grupp)en und Regionen beziehungsweise Staaten ließen interessante und interpretierbare Unterschiede erkennen. Deutlich werde, dass die Geistes-, Kultur- und Sozialwissenschaften (GSK) markant andere Zitationsmuster aufweisen als die Natur- und Lebenswissenschaften. Gingras zitiert eine Studie, die auf einer Art Landkarte alle Disziplinen und deren relative Nähe respektive Ferne zueinander anhand der Daten von Web of Science und Scopus verzeichnet (S. 28 f.). Diese Daten wiesen eine deutliche Distanz der GSK zu den Biowissenschaften und Berührungen mit Hirnforschung, Mathematik und Gesundheit auf.

Im anschließenden dritten Kapitel diskutiert Gingras sodann das Aufkommen der Wissenschaftsevaluation, wobei er sich insbesondere für jenen Teil interessiert, bei dem es um die Vermessung der Leistung von einzelnen Forschern geht. Auch in diesem Zusammenhang habe Garfield eine ebenso wichtige wie ambivalente Rolle gespielt: Auf der einen Seite habe er wiederholt darauf hingewiesen, dass Zitationsdaten vornehmlich auf höherem Aggregatniveau aussagekräftig sind, während individuelle Zitationswerte nur geringen (Vergleichs-)Wert besäßen, weshalb sich eher belastbare Aussagen über Zeitschriften als über einzelne Wissenschaftler treffen ließen. Stelle man zudem die extrem schiefe Verteilung der Zitationen in Relation zur Anzahl der Wissenschaftler in Rechnung, zerbrösele jeder Versuch, die Leistung gewöhnlicher Wissenschaftler unter Rekurs auf metrische Verfahren zu reihen. Ohne eine derartige Reihung jedoch sei jeder Versuch einer fundierten Evaluation zum Scheitern verurteilt. Auf der anderen Seite hätten weder Garfield noch seine Nachfolger der Versuchung widerstehen können, die erhobenen Daten gleichwohl für Aussagen über Individuen heranzuziehen. Notorisch sind etwa die Versuche zur Vorhersage der jeweils nächsten Gewinner eines der wissenschaftlichen Nobelpreise. Gingras ist hier explizit: Die Benutzung des Impact Factor für die Bewertung eines einzelnen Autors der jeweiligen Zeitschrift sei nichts anderes als Hokuspokus. Und auch der neuerdings so beliebte H- (oder Hirsch-)Index findet vor seinen Augen keine Gnade. Damit befindet er sich auf einer Linie mit den Befunden, auf denen die Forderungen internationaler Initiativen wie der DORA oder dem Leiden Manifesto for Research Metrics basieren.

Universitätsverwaltungen sind zwar für gewöhnlich gern bereit, solche Initiativen zu unterschreiben, halten sich in ihrer internen Evaluierungspraxis („Qualitätssicherung“) jedoch nur selten daran. Ähnlich verhält es sich auch mit der Selbstdarstellung der Hochschulen in den verschiedenen in Umlauf befindlichen Universitäts-Rankings, an denen Gingras aus zwei Gründen ebenfalls wenig Freude hat: Einerseits beruhten diese Rankings auf fragwürdigen Vergleichen von Dingen, die sich nur schwer vergleichen lassen, und andererseits stehe ihre jährliche Verlautbarung in krassem Gegensatz zu dem erwiesenen Umstand, dass sich die Qualität einer Universität üblicherweise nicht im Verlauf eines einzigen Jahres substantiell zum Besseren oder Schlechteren verändert. Insofern stelle jeder Wechsel des Rangplatzes binnen Jahresfrist nur die Fadenscheinigkeit der Rankings sowie der ihnen zugrundeliegenden Messungen unter Beweis.

Anders als Muller ist Gingras kein prinzipieller Gegner von Indikatoren und Messungen, ihn stört nicht ihr Gebrauch, sondern der Missbrauch. Das führt zu einem zuweilen sardonischen Tonfall und gewissen Ambivalenzen im Text: Außer der kleinen Expertengruppe der Bibliometriker, so suggeriert das Buch an verschiedenen Stellen, sollte eigentlich niemand mit bibliometrischen Daten hantieren. Dass das in Zeiten von New Public Management und Digitalisierung aber unrealistisch ist, erkennt Gingras letztlich selbst an, indem er drei Kriterien formuliert, die es im Feld der Wissenschaftsevaluation zu beachten gelte: Jeder Indikator müsse dem zu messenden Objekt adäquat sein; außerdem müsse er der spezifischen Geschwindigkeit beziehungsweise Langsamkeit des betreffenden Objekts Rechnung tragen; und schließlich müssten die verwendeten Dimensionen homogen sein, das heißt man dürfe nicht unterschiedliche Messwerte miteinander addieren, wie das beispielsweise bei den bekannteren Universitäts-Rankings der Fall sei, die Publikations- und Zitationszahlen mit Reputationserhebungen zu einem Pseudo-Index zusammenfassten.

Diejenigen, die Kennzahlen nutzen, wissen manches Mal, dass sie wertlos, aber gut geeignet sind, um öffentliche Aufmerksamkeit zu erzeugen oder sonst wie das mediale Interesse auf die eigene Institution zu ziehen. Einen entscheidenden Schritt weiter gehen diejenigen, die aktiv versuchen, Kennzahlen zu manipulieren. Ein sehr beliebtes Vehikel dafür ist etwa der ,Einkauf‘ bekannter Autoren respektive Wissenschaftler, die in ihren Aufsätzen eine Zweitadresse angeben und so dazu beitragen, Universitäten wie beispielsweise der King Abdulaziz University in Saudi-Arabien ein Ansehen zu verschaffen, das dieser tatsächlich gar nicht zukommt.

Gingras beendet seine Ausführungen mit einer vielsagenden Anspielung auf Hans Christian Andersens bekanntes Märchen „Des Kaisers neue Kleider“. Demnach wurde das unschuldige Kind, das die nackten Universitäten nackt nennt, noch nicht gesehen. Doch der Vergleich hinkt, denn an Stimmen, die die Hochschulen auf die Unzulänglichkeit ihrer Gewandung hinweisen, mangelt es keineswegs. Sie finden nur kein Gehör. Die Nacktheit hat, wie es scheint, ihr Empörungspotenzial eingebüßt.

Kommen wir zum Resümee: Beiden Büchern ist eine breite Leserschaft zu wünschen, weil sie sich der Verbreitung bloßer Meinungen (weitestgehend) enthalten und stattdessen gleichermaßen informierte wie detaillierte Kritik an einem akuten akademischen Missstand üben. Um die Dringlichkeit des Anliegens zu veranschaulichen, ist am Ende vielleicht eine Anekdote hilfreich: Im Anschluss an einen Vortrag über „Verwendung und Missbrauch der Bibliometrie in der Forschungsevaluation“, den Gingras im Mai dieses Jahres an der Universität Graz hielt, fand eine Podiumsdiskussion statt, an der auch mehrere Universitätsfunktionäre teilnahmen. Keiner von ihnen widersprach Gingras̕ Kritik – nur um dann in der abschließenden Runde zu bemerken, dass wir am Ende halt doch (irgendwelche) Kennzahlen bräuchten, um Entscheidungen über Beförderungen, Berufungen, oder Finanzmittel etc. begründet vornehmen zu können.

Ein völliger Verzicht auf Metriken ist eine unrealistische Erwartung, bessere Metriken zeichnen sich allerdings auch nicht ab; bleibt also bloß die Hoffnung, dass die unter Entscheidungs-, Allokations- und Legitimationsdruck Stehenden sich stärker der Fußangeln ihres Tuns bewusst werden, wozu die Lektüre dieser beiden Bücher hilfreich sein kann.