NWO, Gender bias and Simpson’s paradox

This blog post is an abridged and translated version of  my blog post in Dutch. A version of this blog post, further abridged to fit within the 500 word limit, has been submitted to PNAS as comment to the paper Gender contributes to personal research funding success in The Netherlands.

In the early seventies, the University of California, Berkeley received sincere negative attention due to supposed gender bias in graduate admissions. The data for fall 1973 clearly seemed to point in this direction:

Nr. of applications admissions
Male 8442 44%
Female 4321 35%

Out of 8442 male applicants, 44% was admitted, whereas out of the 4321 female applicants, only 35% was admitted. The χ2-test on the 2×2 frequency table (or any other sensible test for 2×2 tables) will give a very significant result, with a p-value smaller than one in a billion. A scrutiny of the data in Science by Bickel, Hammel and O’Connel (1975) revealed that there was no evidence for gender bias. This apparent counterintuitive result was due to the interaction with an external variable. Not all departments at the university had the same admission rate, and there was a relation between the proportion of female applications and the admission rate.

Competitive departments such as English received relatively many female applications, whereas departments such as chemistry, with a surplus of male applications, where much less selective. When studying the male/female admissions on a departmental level, the supposed gender bias disappeared. (For the fall 1973 data, there even was evidence of bias in favour of women.) This paradox is termed spurious correlation or Simpson’s paradox, after the British statistician Edward Simpson. (For a recent open access paper on Simpson’s paradox in psychological science, see Kievit, Frankenhuis, Waldorp and Borsboom, 2013.)

The authors, correctly, point at another pitfall: although there seemed to be evidence of bias (in favour of women) for fall 1973, there is no such evidence for other years. A significant result once in a number of years, could just be coincidence.

In the analysis by Van der Lee and Ellemers the same two flaws occur in a setting not too dissimilar from the one discussed above. Based on the results of n = 2,823 grant applications to the “VENI programme” of the Netherlands Organisation for Scientific Research, NWO, in the years 2010, 2011 and 2012, the authors conclude that the data “provide compelling evidence of gender bias in personal grant applications to obtain research funding”. One of the main results this claim is based upon the following table:

applications Succesfull
Male 1635 17,7%
Female 1188 14,9%

When applying a standard χ2-test to the data, the authors find a just significant p-value of .045. It is not only questionable to denote a p-value this close to 0.05 as “compelling evidence”, due to Simpson’s paradox, this p-value simply is wrong.

In the supplementary table S1 (Van der Lee and Ellemers, 2015), available online without paywall, a breakdown of the 2,823 grant applications per discipline is presented. The proportion of female applicants varies from 11.8% (physics) to 51.4% (health sciences), and the total succes rate varies from 13.4% (social sciences) to 26.3% (chemical sciences).

Proportion of applications by female scientists vs total success rate. Size of the markers is proportional to number of applications within the discipline.
Proportion of applications by female scientists vs total success rate. Size of the markers is proportional to number of applications within the discipline.

The figure above visualises these data and immediately shows a clear negative relation between the proportion of female applicants and the total succes rate (i.e. the rate for men and women combined). In four out of the nine disciplines, women have a higher succes rate than men, and in five out of nine, men have a higher succesrate than women. When taking into account that multiple comparisons are performed, for none of the disciplines the gender bias – either in favour of women or in favour of men – is significant (at the α = .05 level). Thus, when taking into account the spurious correlation, the “compelling evidence” is lost.

Bickel et al. (1975) pointed at a second pitfall, concerning focussing on the year(s) where the difference was signicant and ignoring the other year(s) where it was not. Again, a similar situation occurs here. NWO publishes the results of all VENI rounds since its establishment in 2002 until 2015 (except for 2012) on its website. In some years, such as 2011, men received relatively more grants than women; and in other years, such as 2010 and 2015, the reverse was true. The z-test for log-odds ratio only provides a significant sign of gender bias in favour of men for the years 2010 (z = 2.002, p = .023) and 2011 (z = 1.752, p = .040) and a significant gender bias in favour of women for 2002 (z = 2.005, p = .022). When applying the Bonferroni correction for multiple comparisons none of these gender biases are significant.

Conclusion. Van der Lee and Ellemers failed to recognise the dependence of the results on the different NWO disciplines. Futhermore, they focused on results during a three-year, whereas the results of the other periods in which VENI-grants where provided did not confirm the just significant results for 2010-2012. As a consequence, the conclusion of “compelling evidence of gender bias” is inappropriate. In the data, there is no evidence for gender bias (which does not have to mean that there is no gender bias). In discussions on institutional sexual discrimination, it is important to stay factual.

Furthermore, I find it worrying that this analysis gets published.  Simpson’s paradox is one of statistics most well-know paradoxes (I teach it yearly to a new batch of psychology students in Groningen) and PNAS is a high-ranking journal with an impact factor of nearly ten. This paper – where conclusions are drawn on basis of flawed methodology – is not an exception. Apparently, the current peer-review system is inadequate in filtering out methodological flaws in papers. If a system doesn’t work, it should be changed.

Final note. The paper by Van der Lee and Ellemers focusses on more tests than just the one criticised by me here. However, these other tests make use of related data (e.g. the number of applicants that go through to the interview-stage) and it is not unlikely that Simpson’s paradox plays a role there too. (The data provided in the paper was insufficient for me to check this.) And even if it does not: the authors are providing interpretations to effects with tiny effect sizes (partial eta-squareds of 0.006(!))… Furthermore, the paper contains a section on “language use” in NWO documents. My comments do not apply to this section.

NWO, Discriminatie en de Simpsonparadox

Begin jaren ’70 was er ophef in de media: de Universiteit van Californië in Berkeley discrimineerde bij het toelaten van studenten. De toelatingscijfers van 1973 waren duidelijk:

Aantal kandidaten Toegelaten
Mannen 8442 44%
Vrouwen 4321 35%

Mannen worden vaker toegelaten dan vrouwen. Met een statistische toets is na te gaan of deze cijfers niet gewoon toeval hadden kunnen zijn. Er zijn verschillende toetsen die geschikt zijn voor dit soort analyses (de een wat geschikter dan de ander), zoals de chi-kwadraat toets (eventueel met continuïteitscorrectie) of de exacte toets van Fisher. Welke geschikte toets je ook neemt, het antwoord is duidelijk: de kans dat deze vrouwonvriendelijke resultaten het gevolg van toeval zijn is verwaarloosbaar klein: kleiner dan 1 op een miljard.

Een rechtzaak volgde vanwege dit overduidelijk geval van discriminatie. Een team van statistici uit Berkeley, onder leiding van Peter Bickel, besloot de data nader te bestuderen. Hun conclusie, beschreven in het paper “Sex Bias in Graduate Admissions: Data from Berkeley” (paywall) in Science, is duidelijk: er is helemaal geen sprake van discriminatie.

Wat was het geval? Vrouwen bleken zich, in het algemeen, aan te melden voor studies waarbij een lager toelatingspercentage gold vergeleken bij de studies die voor mannen populair waren. Zo was er een faculteit (faculteit ‘B’ noemt Wikipedia deze; ik kan de data van Bickel et al zelf ook niet inzien vanwege de paywall) waar bijna twee-derde van de aanmeldingen gehonoreerd werden, terwijl bij een andere faculteit (‘E’) slechts een kwart werd toegelaten. En wat bleek: de toegankelijke faculteit B was veel populairder bij mannen (560 aanmeldingen) dan bij vrouwen (25 aanmeldingen) terwijl de strenge faculteit E twee keer zo veel vrouwen (393 stuks) als mannen (191 stuks) moest beoordelen. Indien rekening gehouden werd met de verschillen in strengheid van de verschillende faculteiten, verdween de discriminatie volledig. (Sterker nog: bij vier van de zes faculteit lag het toelatingspercentage van vrouwen hoger dan dat van mannen).

Dit fenomeen staat bekend als de Simpsonparadox, vernoemd naar de Britse statisticus Edward Simpson die in 1951 een paper getiteld “The Interpretation of Interaction in Contingency Tables” publiceerde (semi-paywall). Dit femomeen is breed bekend.

Tot zo ver de jaren ’70. September 2015 was er ophef in de (sociale) media: NWO discrimineert bij het toekennen van onderzoeksbeurzen. In opdracht van NWO zelf, hebben Leidse psychologen Romy van der Lee en Naomi Ellemers zich verdiept in de door NWO toegekende subsidies van de rondes van het VENI-subsidieschema uit 2010-2012. Hun paper “Gender contributes to personal research funding success in The Netherlands” (paywall, maar het ‘supplementary material’ is dan weer wel gratis) verscheen onlangs in PNAS. De cijfers zijn duidelijk:

Aantal Beursaanvragen toegekend
Mannen 1635 17,7%
Vrouwen 1188 14,9%

De cijfers zijn wellicht niet zo overduidelijk als die van het voorbeeld uit Berkeley, maar mannen krijgen inderdaad relatief vaker een beurs toegekend. De auteurs zelf schrijven “The success rate was systematically lower for female applicants than for male applicants [14.9% vs. 17.7%; χ2(1) = 4.01, P = 0.045, Cramer’s V = 0.04]”. De p-waarde zit nèt onder de magische 5%-grens, dus het is significant, dus het is bewezen: NWO discrimineert! Althans, dat was de strekking van de krantenkoppen. Maar zo simpel ligt het niet. Op de hier gebruikte methodiek kom ik onderaan deze post nog terug, maar mijn hoofdbezwaar is dat hier ook duidelijk sprake is van de Simpsonparadox.

In de online tabel zijn de toekenningspercentages uitgesplitst naar de 9 verschillende onderzoeksprogramma’s van NWO. En wat blijkt: er is zowel een enorm verschil in het aandeel van vrouwen bij de aanvragen per programma (variërend van 11% tot 51%) als een enorm verschil in honoreringskans per programma (variërend van 13% tot 26%):

Relatie percentage vrouwelijke aanvragers (horizontaal) en honoreringskans (verticaal)
Relatie percentage vrouwelijke aanvragers (horizontaal) en totale honoreringskans (mannen & vrouwen gezamenlijk) (verticaal)

Het aandeel vrouwelijke aanvragers is het hoogst bij ZonMW (gezondheidswetenschappen) en MaGW (Maatschappij- en Gedragswetenschappen) en dit zijn precies de twee programma’s met de slechtste honoreringskans. Het aandeel vrouwelijke aanvragers is het laagst bij Natuurkunde (een bedroevende 11%), het programma met de hoogste honoreringskans.

Van de negen programma’s zijn er vier waarbij vrouwen een hoger honoreringspercentage hebben dan mannen: Exacte wetenschappen, Geesteswetenschappen, ‘Technologiestichting STW’ en ‘Gebiedsoverschreidend’. Bij de overige vijf programma’s, Scheikunde, Natuurkunde, Aard- en Levenswetenschappen, MaGW en ZonMW, halen mannen net betere resultaten.  In geen der gebieden is het verschil zodanig dat – ermee rekening houdend dat meervoudige toetsen worden uitgevoerd – het verschil significant genoemd kan worden.

Oftewel: het discriminatievermoeden wordt in dit geval niet zo extreem sterk onderuit gehaald als in het klassieke voorbeeld uit Berkeley, maar wel sterk genoeg om te zien dat er niet geconcludeerd kan worden, op basis van deze data, dat er sprake is van discriminatie. NB: het tegendeel – er is geen sprake van discriminatie – kan ook niet geconcludeerd worden. De enige conclusie is dat uit de cijfers geen solide conclusie te trekken valt.

Tot zover de Simpsonparadox bij de NWO-cijfers. Nog enkele andere opmerkingen:

1) De cijfers per NWO-programma duiden naar mijn mening wel op een vorm van geïnstitutionaliseerde discriminatie: in geen van de negen onderzoeksprogramma’s vormen vrouwen de duidelijke meerderheid terwijl er in vier van de negen programma’s minstens twee keer zo veel mannen een aanvraag doen als vrouwen. Dit zijn nog steeds de bètarichtingen als scheikunde, natuurkunde, exacte wetenschappen en technologie (STW). Maar die vorm van discriminatie valt NWO niet (direct) aan te rekenen: dat is een maatschappelijk probleem dat op alle niveaus aangepakt moet worden. Het land heeft meer Ionicas Smeets, Ashas ten Broeke, Hannahs Fry en genderneutraal voedsel nodig, maar de rol die NWO daarin kan spelen is beperkt.

2) Ik zou nog terugkomen op de zin “The success rate was systematically lower for female applicants than for male applicants [14.9% vs. 17.7%; χ2(1) = 4.01, P = 0.045, Cramer’s V = 0.04]”. Bij deze. De chi-kwadraattoets is niet de meest geschikte toets om toe te passen bij 2×2 tabellen met frequenties. Dit omdat de chi-kwadraat een zogenaamde asymptotische toets is: hoe kleiner de frequenties in de tabel, hoe onnauwkeuriger de data. Een veelgebruikte correctie die die onnauwkeurigheid deels weghaalt, is die van Yates. Als je die toepast, verandert de p-waarde minimaal (want we werken hier met best grote frequenties): van 0,045 naar 0,051. Het verschil is minimaal, maar het springt wel nèt over de magische 5%. Als je met grote stelligheid een p-waarde vlak onder 5% als een duidelijk effect presenteert, zou je met dezelfde stelligheid een p-waarde daar vlak boven als “geen effect gevonden” moeten afdoen. Een ander alternatief – en beter omdat het geen asymptotische benadering is – is de exacte toets van Fisher. Deze geeft p = 0,046 (hoera! net aan de significante kant!). Er is eigenlijk geen enkele reden om de Fishertoets niet te gebruiken. Het enige nadeel is dat deze computationeel veel zwaarder is dan de chi-kwadraat toets. Dat was een terecht nadeel in de jaren ’20, toen Fisher die test ontwikkelde en Turing de moderne computer nog niet had uitgevonden. Anno 2015, kost de Fishertoets op deze data mijn computer 3 milliseconden.

3) Niet alleen is de p-waarde net wel/net niet significant, de effectgrootte is minimaal: Cramer’s V was gelijk aan 0,04. Als er al een verschil zou zijn tussen toelatingskansen van mannen en vrouwen, dan zou dit verschil erg klein zijn. Een klein beetje discriminatie is natuurlijk nog steeds ongewenst, maar de combinatie van minieme effectgrootte en nauwelijks significante p-waarde vereisen een veel voorzichtigere conclusie dan de conclusie “The data reported herein provide compelling evidence of gender bias in personal grant applications to obtain research funding.” van Van der Lee en Ellemers. (Hierbij moet wel opgemerkt worden dat de auteurs nog andere zaken bekeken dan alleen de 2×2 tabel die ik hier besproken heb. Maar ook met die extra gegevens is er geen statistische aanleiding tot grootspraak.)

4) De auteurs hebben de VENI-data van 2010, 2011 en 2012 bekeken. We zijn inmiddels alweer even verder. Zo kregen in 2015 14,9% van de vrouwen en ‘slechts’ 13,9% van de mannen de door hun gewenste beurs. Zou dit jaar bij de analyse betrokken zijn dan was – zelfs met de oppervlakkige chi-kwadraattoets die Van der Lee en Ellemers hebben toegepast – er niks overgebleven van de significante resultaten.

5) Los van de discussie over discriminatie laten de cijfers wel een schokkend iets zien: zowel voor mannen als voor vrouwen is het honoreringspercentage extreem laag. Dit houdt in dat er jaarlijks honderden wetenschappers zijn die enkele maanden van hun academisch leven besteden aan het schrijven van een voorstel dat uiteindelijk de prullenbak in gaat. Daar gaan dus duizenden en duizenden manuren èn vrouwuren aan verloren. Inmiddels wijst onderzoek na onderzoek uit dat de huidige manier van wetenschappelijke subsidies mogelijk meer nadelen dan voordelen heeft.

6) Deze hele discussie kent wat nare kanten – zo komen er wéér twee sociaal psychologen in het nieuws vanwege rammelend statistisch onderzoek – maar kan mogelijk ook tot goede ontwikkelingen leiden: zoals Daniël Lakens en Rolf Hut vandaag al in de Volkskrant schreven: het is een goede zaak dat NWO de aanvraagprocedure gender-neutraal maakt.

7) Als iemand weet waarom beide Volkskrantartikelen hierover (1 en 2) vergezeld gaan van een foto onze Koningin, dan hoor ik het graag. Ik zie de link tussen discriminatie, wetenschap en Máxima niet zo…

Deze blogpost is mede tot stand gekomen dankzij discussies met o.a. Daniël LakensMenno de Guisepe, enkele andere twittergebruikers en wat mailwisselingen met collega’s binnen en buiten Groningen. Mijn dank hiervoor.