One more time: NWO, Gender Bias and Simpson’s Paradox

As an introduction, a summary of the history behind this blog post:

  1. On September 21st, Romy van der Lee and Naomi Ellemers published a paper in PNAS in which they claim to have found compelling evidence of gender bias against women in the allocation of NWO Veni-grants in the period 2010-2012.
  2. The day after, I posted a blog post in Dutch criticising this study (and they day after that an abridged version in English). In these posts, I explained how the significance of the result is due to Simpson’s paradox – thus a statistical artefact rather than true evidence for gender bias. This blog post sparked an amount of public interest which was new to me. I normally publish on linear algebra, (minor) improvements to statistical procedures and other topics that are generally regarded as boring. This time, I’ve been interviewed by Nature, Science and various Dutch academic newspapers. (Great evidence on how post-peer review and blog posts are Science 2.0 – but that’s another topic).
  3. Last week, an abbridged and updated version of my blog post appeared as a peer-review letter in PNAS.
  4. Independently, Beate Volker and Wouter Steenbeek had their letter published in PNAS a few days later.
  5. Van der Lee and Ellemers responded to both letters (response 1 and 2). In their response they misinterpret the consequences of the Simpson’s paradox. I wasn’t planning on responding again – my time is limited – but since they repeat this incorrect interpretation in multiple responses as well as in the newspaper, I find it important to outline why their statistical reasoning is flawed.

In this blog post I will outline that a correct interpretation of Simpson’s paradox results in insignificance of many p-values and not just the one I focussed on in my criticism. In their response to my letter, Van der Lee and Ellemers wrote:

“Further, Simpson’s paradox cannot explain that fewer women than men are selected for the next phase in each step of the review procedure”

In their response to Volker and Steenbeek, they phrased this as:

“Simpson’s paradox also cannot account for the observation that in every step of the review procedure women are less likely than men to be prioritized.”

With this response, they refer to Figure 1:

Figure 1 from Van der Lee and Ellemers (2015)
Figure 1 from Van der Lee and Ellemers (2015)

It is clear from this figure that the gender bias seems to increase in each step of the process. It is true that I, in my letter, focussed on gender bias in the final step – the number of awarded grants. This, however, was due to the word count limit that PNAS imposes and not because the other steps cannot be explained by Simpson’s paradox as well: they can.

It is easier to show this through a constructed example, rather than the true NWO data. Suppose that the setting is as follows. The funding agency has two research disciplines, A and B. Both receive 100 applications and through three stages (pre-selection, interviews, awards) it is decided who gets funded. In neither field A nor field B gender bias is present: gender is no issue in this example. However, the percentage of applications by women differs per field, and so does the amount of applications that receives funding.

Field A receives 100 applications: 75 by men and 25 by women. Finally, 40 applications will be funded. So 60 applicants receive bad news, which is equally distributed over the three steps: in each step, 20 scientists will be disappointed. In the case of total absence of gender bias (and coincidence), this leads to the following table:

 Field A # M # F % M % F
Step 0: Applications 75 25 75% 25%
Step 1: Pre-selection 60 20 75% 25%
Step 2: Interviews 45 15 75% 25%
Step 3: Funding 30 10 75% 25%

As you can see, in each step the gender ratio is 75%-25%. No gender bias at all.

Field B also receives 100 applications: 50 by men and 50 by women. Out of these 100, only 10 will be funded: in each step 30 applications lose out. This leads to the following table:

 Field B # M # F % M % F
Step 0: Applications 50 50 50% 50%
Step 1: Pre-selection 35 35 50% 50%
Step 2: Interviews 20 20 50% 50%
Step 3: Funding 5 5 50% 50%

Thus also no gender bias in Field B. If we combine the tables for fields A and B (by simply adding up the frequencies for each cell), we obtain:

 Field A + B combined # M # F % M % F
Step 0: Applications 125 75 62.5% 37.5%
Step 1: Pre-selection 95 55 63.3% 36.7%
Step 2: Interviews 65 35 65.0% 35.0%
Step 3: Funding 35 15 70.0% 30.0%

Converting these percentages into a graph similar to Van der Lee and Ellemers’ Figure 1 provides:

Figure 1 example

The pattern from the table and figure is very clear: in each step of the process men seem to be favoured at the cost of women. Although the percentages for this example are obvious different than those from the NWO-data, the type of pattern is the same. Since in my example there is no-gender bias whatsoever, Van der Lee and Ellemers’ claim that “Simpson’s paradox also cannot account for the observation that in every step of the review procedure women are less likely than men to be prioritized” evidently is false. The power of paradoxes should not be underestimated.

As a final note: as outlined above, the significant results claimed by Van der Lee and Ellemers is lost once correct statistical reasoning is applied. It is important though to realise that the absence of  significant gender bias does not imply that there is no gender bias. There could be and it is important to find out whether – and where! – this is the case or not. To conclude, I quote Volker and Steenbeek, who write:

More in-depth analyses with statistical techniques that overcome the above-mentioned issues are needed before jumping to conclusions about gender inequality in grant awards.

Vraagtekens bij LSVb-onderzoek dat vraagtekens bij Engelse vaardigheid van docenten zet

English summary: A Dutch Student Union did some research and complains about the stone coal english of university teachers. I complain about the quality of the research.

TL;DR: het onderzoek van de LSVb trekt duidelijke conclusies. Die hadden niet getrokken mogen worden omdat (i) de feitelijke steekproef te klein is en (ii) de steekproef niet representatief is.

De LSVb kwam vandaag in het nieuws met haar onderzoek naar taalvaardigheid van docenten bij hbo en universiteit. Dit onderzoek kan grote impact hebben – zo vindt morgen in de Tweede Kamer een hoorzitting over Engels in het Hoger Onderwijs plaats, waar iemand namens de LSVb dit onderzoek zal verdedigen. Het zou dus fijn zijn als de conclusies uit dit onderzoek hout snijden. En dat doen ze niet. Niet eens een beetje.

Qua gebruikte methodologie zitten er twee grote haken en ogen aan het onderzoek: de steekproefomvang en de representativiteit van de steekproef.

Steekproefomvang. Voor het onderzoek hebben n = 269 studenten enkele vragen beantwoord (p.5). Omdat het onderzoek grotendeels gaat over (de kwaliteit van) Engelstalig onderwijs, zijn studenten die alleen maar Nederlandstalig onderwijs krijgen niet zo relevant voor dit onderzoek.  Bijna een kwart van de deelnemers (24%, p.8) heeft geen enkel studie-onderdeel in het Engels. Dit zijn 64 of 65 studenten (ik ken alleen de afgeronde percentages), zodat er maar 204 a 205 relevante studenten overblijven (laat ik aardig zijn en van 205 uit gaan). Da’s niet veel (ongeveer 4 à 5 studenten per onderwijsinstelling). Vooral omdat een volgend kwart van de studenten (26%) minder dan de helft van de vakken in het Engels heeft. Zij moeten hun uitspraken dus baseren op misschien wel dat ene college dat ze ooit in het Engels hadden. Het spreekt voor zich dat zij daarmee een minder goed beeld van de algemene Engelse taalvaardigheid van docenten hebben dan van studenten die 60ECTS per jaar in het Engels doen. Het aantal studenten in de steekproef dat minimaal een halve studie in het Engels krijgt, is dus zo’n 135.

Wat is nu het probleem met een kleine steekproef? Onzekerheid. Je bent niet geïnteresseerd in de mening van de steekproef, maar in die van de populatie van alle duizenden studenten in het hoger onderwijs. Je gebruikt de steekproef enkel om daar iets over te kunnen zeggen. En hoe kleiner de steekproef, hoe minder je kan zeggen. Stel je gooit 4x met een dobbelsteen en werpt daarbij twee keer een zes. In je steekproef heb je bij 50% van de worpen zes gegooid, maar het zou niet bij je opkomen om daaruit te concluderen dat de dobbelsteen onzuiver is. Het kan gewoon toeval zijn.

Zo ook hier. Een van de hoofdconclusies in het rapport is dat de meerderheid van de studenten het niveau van Engels van docenten ondermaats vindt. (Althans, deze conclusie is de kern van de kop boven het bericht.) In de steekproef heeft namelijk 57% dit aangegeven. Maar dat betekent niet dat in de populatie ook precies 57% dit vindt: door toeval kan het zo zijn dat de steekproef wat te kritisch, of juist niet kritisch genoeg is. En hoe kleiner de steekproef, hoe groter de rol van het toeval.

Een veelgebruikte manier om die onzekerheid uit te drukken is via een betrouwbaarheidsinterval. Kort door de bocht gezegd neem je met zo’n interval een onzekerheidsmarge mee. Er zijn verschillende manieren om in deze context zo’n interval te maken (als je daar meer over wilt weten, Wikipedia is een goed startpunt) en een snelle, makkelijke manier is via de benadering met een normale verdeling. Een 95% betrouwbaarheidsinterval voor een geschatte proportie p wordt dan gegeven door de formule p ± √(p (1 – p) / n). In dit geval komt het er op neer dat het betrouwbaarheidsinterval gegeven wordt door (50%, 64%).  Waarschijnlijk wel een meerderheid, maar hoe sterk die meerderheid is, is niet goed te schatten. En zelfs “waarschijnlijk wel een meerderheid” is niet hard te maken vanwege het probleem met representativiteit.

Steenkool
Het obligate blogplaatje. Ditmaal: steenkolen

Representativiteit. De LSVb maakt gebruik van een eigen studentenpanel van 5000 studenten. Er wordt niet duidelijk gemaakt hoe dit panel is samengesteld. Mogelijk is het een mooie, representatieve afspiegeling van de Nederlandse studentenpopulatie. Maar het kan ook zijn dat dit 5000 studenten zijn die “ja” antwoordden op de vraag “wil je in het panel” van de LSVb. En dan kan het best een vertekend panel zijn: bij een vakbond zie je bovengemiddeld vaak van die aktivistiese (zo spellen ze dat), shag-rokende types. De bedrijfseconomiestudent die bij het corps zit omdat hij, net als z’n pa, later iets bij een bank wil doen, is wat ondervertegenwoordigd. Maar het representativiteitsprobleem houdt hier niet op – het begint juist: van die 5000 hebben er maar 269 meegedaan met deze enquête. Dat is 5,4%. Dat is weinig. Dat is een probleem. Met name omdat je niet weet welke vijf procent meegedaan heeft. Zijn het de vijf procent die best tevreden zijn, de vijf procent die graag hierover willen klagen, of een mooie willekeurige steekproef? Je weet het niet en je kan het ook niet te weten komen. Het minste dat de onderzoekers hadden moeten doen, is in de discussie van hun rapport hierop reflecteren, maar er staat geen letter over in. Ze zouden er goed aan doen om dit recente stuk van Sanne Blauw en Armen Hakhverdian te lezen: Sanne en Armen leggen haarfijn uit wat voor rare uitspraken je kan krijgen als je niet goed over de representativiteit nadenkt.

Ten slotte. De conclusies die het LSVb trekt, had zij niet op deze manier mogen trekken. Op basis van dit onderzoek zijn slechts twee open-deur-conclusies te trekken:

  • Uit het onderzoek blijkt dat een deel van de studenten tevreden is over de taalvaardigheid van hun docent.
  • Uit het onderzoek blijkt dat een deel van de studenten ontevreden is over de taalvaardigheid van hun docent.

Dat betekent niet dat er morgen in de Tweede Kamer geen debat hierover kan plaatsvinden. Er zijn goede inhoudelijke redenen om Engels in het hoger onderwijs toe te juichen en er zijn goede inhoudelijke redenen om Engels in het hoger onderwijs juist niet te willen. Een inhoudelijk debat kan gevoerd worden. Maar niet op basis van dit LSVb-rapport.