Er stond vandaag op de voorpagina (en pagina T4) een stukje in de Telegraaf over het rapport van de kinderombudsman over Zwarte Piet, geheel in thema voorzien van een kop in chocoladeletters (het eerste deel van het stuk is hier gratis te lezen, voor het tweede deel ben je 15 cent kwijt):
Het is leuk om op de voorpagina van de Telegraaf professor genoemd te worden (ik ben ‘slechts’ universitair hoofddocent), maar de inhoud van het stuk is wat minder leuk. De Telegraaf stelt dat de (wetenschappelijke) onderzoeksmethode van de Kinderombudsman Margritte Kalverboer “flut” is en baseert dat op uitspraken van twee personen: een middelbare-schooldocent en mij. Die middelbare-schooldocent komt met anekdotisch bewijs om te zeggen dat het anekdotisch bewijs van Kalverboer niet-wetenschappelijk is…
Mijn bijdrage aan het stuk is het volgende:
Dit heb ik inderdaad gezegd – het is dan ook een prima quote – maar dit is wel een kleine selectie uit een groter verhaal dat ik gehouden heb. En uit dat grote verhaal is absoluut niet de conclusie “Onderzoek Piet is flut” te halen (ook niet de conclusie dat ik het onderzoek goed vond, trouwens.) Ik heb geen fotografisch geheugen, maar weet nog wel wat ik gisteren aan de telefoon tegen de journalist gezegd heb and it goes a little something like this:
‘Ik heb het onderzoek van Margritte Kalverboer niet gelezen, alleen berichten erover in de media, dus ik kan niet beoordelen of de onderzoeksmethode correct was.
[Journalist: er is gebruik gemaakt van 4 groepsgesprekken met 10 kinderen. Wat vindt u daarvan?]
Ik: Dat ligt aan met welk doel het onderzoek gedaan is – en dat weet ik niet. Als het doel is om voorbeelden te vinden van kinderen die problemen ondervinden met Zwarte Piet, is het prima – en ik vermoed dat dat hier het doel was. Als je wilt laten zien dat een of ander verdrag geschonden wordt, heb je in principe genoeg aan n = 1: een enkel geval is al een schending. Of er sprake is van een schending van een verdrag, is een juridische discussie en daar kan ik niet bij helpen.
Is anderzijds het doel om op basis van het onderzoek iets te zeggen over de schaal waarop de Nederlandse jeugd problemen ondervindt met Zwarte Piet, dan is een steekproefgrootte van n = 40 zwaar onvoldoende. Dan heb je gewoon te veel onzekerheid door steekproeffluctuaties.’
In het stuk in de Telegraaf is de nuance die ik in eerste twee alinea’s uit genegeerd, waardoor mijn bijdrage uit z’n verband gerukt is. Jammer. Volgens mij is de Pietendiscussie juist niet gebaat bij gebrek aan nuance. Bij deze dan maar die nuance (ook al zal dit blog minder lezers trekken dan de Telegraaf).
PS: dank aan Onze Taal, want ik weet bij dit soort titels nooit of het een Zwarte Pietdebat, Zwarte-Pietdebat of Zwartepietdebat en welke letters hoofdletters moeten zijn. Geef mij maar wiskunde, daar zit tenminste consistente logica in.
De LSVb komt regelmatig in het nieuws met spraakmakende onderzoeksresultaten. Niet zelden leiden deze onderzoeken tot Kamervragen en debatten bij lokale medezeggenschapsorganen. Aan de hand van drie voorbeelden toon ik aan dat de onderzoeken echter structureel zó slecht zijn uitgevoerd, dat het fundament voor de getrokken conclusies vaak totaal ontbreekt. Hierdoor worden publieke middelen verspild aan maatregelen om onbewezen problemen op te lossen. Dit leidt de aandacht en het geld af van de échte problemen – die er helaas genoeg zijn in het onderwijs.
Elke universiteit heeft een Raad van Toezicht (bij “bijzondere instellingen voor wetenschappelijk onderwijs” zoals Tilburg University en Radboud Universiteit heet dit een stichtingsbestuur. Dat is weinig meer dan een andere naam voor hetzelfde ding). Deze raad houdt toezicht op het bestuur van een universiteit. (Vandaar de naam.) Universiteiten vallen onder het ministerie van OCW, maar de minister heeft geen tijd om zelf dergelijk toezicht te houden, dus worden er commissies voor aangesteld. En zoals elke commissie, heeft ook een RvT een voorzitter.
Het probleem van de opkomstdrempel is dat deze zorgt voor twee conflicterende strategieën waarop voorstanders van (in dit geval) het associatieverdag kunnen ‘winnen’ bij het referendum:
Niet stemmen – zodat de opkomst onder de 30% blijft;
Wel stemmen – zodat er meer voor- dan tegenstemmen zijn.
Het probleem is dat niemand weet wat de andere voorstanders doen. Als de voorstanders hun keuzes verdelen over strategie 1 en strategie 2, kan het zomaar zijn dat de opkomstdrempel toch gehaald wordt en dat het aantal tegenstemmen de meerderheid heeft. En dat lijkt precies te zijn wat er nu aan de hand is.
Wat cijfers (op basis van de voorlopige uitslagen zoals die op donderdagmorgen 08:00 in de media te lezen zijn):
Aantal stemgerechtigden: 12.838.934
Opkomst: 32,2%, dus ca. 4,134 miljoen
Tegenstemmen: 61,1% van 4,134 miljoen, dus 2,526 miljoen
Voorstemmen: 38,1% van 4,134 miljoen, dus 1,575 miljoen
(en iets meer dan 30 duizend blanco stemmen; ongeveer de kiesdrempel van de afgelopen TK-verkiezingen)
Tegen heeft dus duidelijk gewonnen (gefeliciteerd hoor), maar dat hoeft niet te betekenen dat er ook meer tegenstanders dan voorstanders zijn: we weten niet hoeveel voorstanders vanwege ‘strategie 1’ zijn thuisgebleven.
Wat hadden de voorstanders anders moeten doen om te winnen? Twee opties:
Meer Strategie 1 hanteren. De opkomst ligt 2,2 procentpunt boven de drempel. Waren 282 duizend van de anderhalf miljoen voorstemmers thuis gebleven, dan was de opkomst onder de 30% gebleven. Omdat de politiek heeft aangegeven de mening van 29,9% van de Nederlanders niet te boeien en de mening van 32,2% van de Nederlanders als bindend te beschouwen, zouden die extra thuisblijvers het referendum ‘ongeldig’ gemaakt hebben. Dit houdt in dat van elke vijf-en-een-halve voorstemmer gisteren, er eentje eigenlijk beter thuis had kunnen blijven.
Meer Strategie 2 hanteren. Nee had ongeveer een miljoen stemmen meer, dus als een miljoen extra voorstanders gestemd hadden, had voor gewonnen. Een miljoen is best veel; dit komt er op neer dat 37,6% van de voorstanders bewust thuisgebleven zou zijn vanwege Strategie 1.
We weten natuurlijk niet hoeveel voorstanders thuis zijn gebleven, en we weten niet of optie 1 of 2 hierboven realistisch is. Zoiets valt best te peilen, bv. door Maurice de Hond of een collega van hem; maar die had sowieso best kunnen peilen hoe Nederlanders over dat verdrag met Oekraïne denken. De Hond had dat ook een kleine 40 miljoen goedkoper kunnen doen. Het is tenslotte slechts een raadgevend referendum. Dat PvdA en CDA vooraf al zeiden het als een bindend referendum te zien, daarmee de “wil van het volk” (die ooit heeft vastgelegd dat voor zo’n referendum een grondwetswijziging nodig is) negerend, is erg jammer. Niet alleen heeft de politiek een weeffout in het referendum gestopt, ze stoppen ook een weeffout in de uitwerking. Op gebrek aan consistentie kan je ze tenminste niet betrappen…
NB: er zijn natuurlijk ook tegenstanders thuisgebleven, bijvoorbeeld omdat ze hun stempas kwijt waren of nooit stemmen. Dat soort mensen heb je ook bij de voorstanders en bij elke verkiezing. Het gaat mij in deze blogpost puur om de mensen die om strategische redenen thuis zijn gebleven: dat is een unicum, want elke andere verkiezing is zodanig opgezet dat een extra stem nooit ongunstig kan zijn.
Wat zou er nu moeten gebeuren?
De politiek moet over het verdrag praten. Hoe terecht de klacht over de weeffouten ook is, dat 2,5 miljoen mensen gisteren tegen gestemd hebben, is een duidelijk signaal. (Kleine nuance: nu heeft 0,6% van de EU-bevolking zich tegen het verdrag uitgesproken.) Of die tegenstem nu tegen het verdrag was, of tegen ‘Brussel’ of wat dan ook, doet daar niet aan af. Bij reguliere verkiezingen vragen we ook niet aan de stemmers of ze wel valide argumenten hebben gebruikt om een partij te kiezen.
De politiek moet razendsnel (want Baudet c.s. zinspeelt al op een volgend referendum; en ook aan de andere kant van het politieke spectrum staat men in de startblokken) die Referendumwet aanpassen. Hoe heb ik in mijn vorige blog al uitgelegd: of haal die opkomstdrempel weg (het is tenslotte slechts raadgevend), of zet de opkomstdrempel alleen op het aantal tegenstemmen. Het huidige systeem leidt tot chaos, zo is wel gebleken.
Hier in Groningen houden de beleidsmakers wel van een ranking waar Groningen goed in scoort. Zo zijn wij onlangs verkozen tot een van de top 12 Groenste universiteiten van de hele wereld en bij het overzicht van de beste universiteiten van minimaal vierhonderd jaar oud staan we zelfs in de top 8. Het aantal verschillende rankings groeit explosief en de Wet van de Grote Getallen dicteert dat er uiteindelijk wel een ranking moet komen waar Groningen niet gewoon goed scoort, maar het allerbeste van de hele wereld. Om het toeval een handje te helpen, presenteren we bij dezen een nieuwe ranking: die van de Meest Groningse Universiteiten™. Weinig verrassend staat de RUG fier bovenaan deze ranking. De opmars van Duitse universiteiten in de top van de lijst toont het internationale karakter van Groningen aan, hetgeen natuurlijk terugvloeit tot de in Greetsiel geboren Ubbo Emmius. Opvallende afwezige is de Hanze University of Applied Sciences. Hoewel er geografisch zeer goed gescoord werd door dit instituut, werd zij gediskwalificeerd omdat zij in het Nederlands geen universiteit is. Hetzelfde geldt voor de Martinitoren.
Kosten nog moeite: We hebben zelfs een logo geknutseld!
We houden je niet langer in spanning, hier is de top 10:
Universiteit Gent, België
Hoewel deze academie sinds 2003 anders heet, wordt hij nog steeds liefkozend “die andere RUG” genoemd. Nèt goed genoeg voor een plekje in de top 10!
University of Minnesota, Minneapolis & St. Paul, VS
Op een kleine anderhalf uur rijden van Groningen, Minnesota ligt de universiteit van Minnesota. Aangezien er in Groningen, Minnesota geen hogere onderwijsinstelling is, zijn de 30 inwoners van Groningen aanwezen op de University of Minnesota in de twin cities.
University of Tasmania, Australië
De enige universiteit ter wereld die (indirect) vernoemd is naar een Lutjegaster. Absoluut een +1 voor Abel, want dat zien we Arjen Lubach of Klaasje van K3 nog niet zo snel voor elkaar krijgen.
Universiteit van Basel, Zwitserland
Vloeistoffen zouden zich maar raar gedragen als ze zich niet zouden houden aan de Wet van Bernoulli. Bernoulli publiceerde hierover toen hij in Bazel werkte, maar de inspiratie kwam ongetwijfeld uit zijn jeugd in Groningen.
University of North Carolina, Chapel Hill, VS
Elke ranking heeft wel zo’n universiteit er tussen waarvan je denkt “wat doet die daar?” Om deze ranking zo echt mogelijk te laten lijken, is hier de wenkbrauwfrons-universiteit.
Universiteit Leiden, Nederland
Leiden teert qua reputatie graag op de Nobelprijs voor de Natuurkunde die haar werknemer Heike Kamerlingh Onnes ontving. (Dat mag, hier in Groningen vernoemen we hele stadsdelen naar Amsterdammer Frits Zernike.) HKO had die prijs natuurlijk nooit gewonnen, als hij niet eerst geboren en gepromoveerd was. Beiden in Groningen, waar anders.
University of Glasgow, Glasgow, Schotland, VK
Als je op “University of G” googlet, is deze universiteit de eerste suggestie na de RUG.
Carl von Ossietzky Universität Oldenburg, Duitsland
Dit is de enige universiteit buiten de provincie Groningen op minder dan een uur reisafstand per weg.
Georg-August-Universität Göttingen, Duitsland
Het begint met een ‘G’ en eindigt met ‘ingen’. Weinig universiteiten zijn zo dicht bij Groningen als deze.
It’s January. Exam time. And for the unfortunate ones, next month is resit-exam time. Each year I get the same complaints after the resit exam, so I’ve decided to write a blog post about it. From now on, complaining students will receive no more than the hyperlink to this blog.
Each year, I end my course with an exam. For those that have to miss the exam due to force majeure, a resit opportunity exists. Fortunately, it’s a relatively small number of students that have to miss the exam due to illness, bereavement, etc. The resit opportunity is also open to students that did participate in the first exam, but failed.
Most of the time, the pass rate of the resit exam is considerably lower than the pass rate on the first exam. Students – and especially those that failed the resit exam – see this as proof of some evil plan of mine: I made the resit much more difficult than the first opportunity. Why else would the pass rate be lower? Statistics don’t lie!
True, they don’t. But people – including students that fail a statistics course two times in a row – are prone to misinterpreting statistics. And they are misinterpreting the numbers here.
The grade a student receives at an exam depends on three aspects: (1) his/her proficiency (usually a combination of motivation and intelligence); (2) the difficulty level of the exam; (3) coincidence (being (un)lucky with guessing multiple choice questions, ‘not having a good day’, etc.).
Let’s make a thought experiment. Suppose that all students would participate in both the first opportunity as the resit exam. That way, you end up with two grades for everyone. Let’s keep things easy and only look at whether a student passes or fails the exam opportunity.
Let’s make up some numbers now (homework exercise: re-do this example with different numbers and observe that the conclusion still holds true). Suppose we’ve got 100 students (because 100 is easy to compute with). Here they are:
Opportunity 2
Pass
Fail
Opportunity 1
Pass
48
10
Fail
12
30
As you can see, the pass rates of Opportunity 1 (48% + 10% = 58%) and Opportunity 2 (48% + 12% = 60%) are comparable; the performance on the resit is actually even slightly better. Nearly half the students are able to pass twice, nearly a quarter of students passes once, and 30 students won’t pass this year.
This, however, is not data that you would observe in reality. The students that pass the first opportunity need not take the second one. (Even more so: if you pass the first and earn the course credits, you will lose these again by failing in the resit). Thus, we only observe the resit-results for those that failed the first opportunity:
Opportunity 2
Pass
Fail
Opportunity 1
Fail
12
30
Now the pass rate suddenly is 12/42 = 28.6%, much lower than the 58% pass rate of the first opportunity. Thus, the fact that the resit exam has a much lower pass rate than the first opportunity exam does not imply that the resit exam is more difficult. If you still believe it does, you don’t receive a passing grade on your statistics exam.
As an introduction, a summary of the history behind this blog post:
On September 21st, Romy van der Lee and Naomi Ellemers published a paper in PNAS in which they claim to have found compelling evidence of gender bias against women in the allocation of NWO Veni-grants in the period 2010-2012.
The day after, I posted a blog post in Dutch criticising this study (and they day after that an abridged version in English). In these posts, I explained how the significance of the result is due to Simpson’s paradox – thus a statistical artefact rather than true evidence for gender bias. This blog post sparked an amount of public interest which was new to me. I normally publish on linear algebra, (minor) improvements to statistical procedures and other topics that are generally regarded as boring. This time, I’ve been interviewed by Nature, Science and various Dutch academic newspapers. (Great evidence on how post-peer review and blog posts are Science 2.0 – but that’s another topic).
Last week, an abbridged and updated version of my blog post appeared as a peer-review letter in PNAS.
Independently, Beate Volker and Wouter Steenbeek had their letter published in PNAS a few days later.
Van der Lee and Ellemers responded to both letters (response 1 and 2). In their response they misinterpret the consequences of the Simpson’s paradox. I wasn’t planning on responding again – my time is limited – but since they repeat this incorrect interpretation in multiple responses as well as in the newspaper, I find it important to outline why their statistical reasoning is flawed.
In this blog post I will outline that a correct interpretation of Simpson’s paradox results in insignificance of many p-values and not just the one I focussed on in my criticism. In their response to my letter, Van der Lee and Ellemers wrote:
“Further, Simpson’s paradox cannot explain that fewer women than men are selected for the next phase in each step of the review procedure”.
In their response to Volker and Steenbeek, they phrased this as:
“Simpson’s paradox also cannot account for the observation that in every step of the review procedure women are less likely than men to be prioritized.”
It is clear from this figure that the gender bias seems to increase in each step of the process. It is true that I, in my letter, focussed on gender bias in the final step – the number of awarded grants. This, however, was due to the word count limit that PNAS imposes and not because the other steps cannot be explained by Simpson’s paradox as well: they can.
It is easier to show this through a constructed example, rather than the true NWO data. Suppose that the setting is as follows. The funding agency has two research disciplines, A and B. Both receive 100 applications and through three stages (pre-selection, interviews, awards) it is decided who gets funded. In neither field A nor field B gender bias is present: gender is no issue in this example. However, the percentage of applications by women differs per field, and so does the amount of applications that receives funding.
Field A receives 100 applications: 75 by men and 25 by women. Finally, 40 applications will be funded. So 60 applicants receive bad news, which is equally distributed over the three steps: in each step, 20 scientists will be disappointed. In the case of total absence of gender bias (and coincidence), this leads to the following table:
Field A
# M
# F
% M
% F
Step 0: Applications
75
25
75%
25%
Step 1: Pre-selection
60
20
75%
25%
Step 2: Interviews
45
15
75%
25%
Step 3: Funding
30
10
75%
25%
As you can see, in each step the gender ratio is 75%-25%. No gender bias at all.
Field B also receives 100 applications: 50 by men and 50 by women. Out of these 100, only 10 will be funded: in each step 30 applications lose out. This leads to the following table:
Field B
# M
# F
% M
% F
Step 0: Applications
50
50
50%
50%
Step 1: Pre-selection
35
35
50%
50%
Step 2: Interviews
20
20
50%
50%
Step 3: Funding
5
5
50%
50%
Thus also no gender bias in Field B. If we combine the tables for fields A and B (by simply adding up the frequencies for each cell), we obtain:
Field A + B combined
# M
# F
% M
% F
Step 0: Applications
125
75
62.5%
37.5%
Step 1: Pre-selection
95
55
63.3%
36.7%
Step 2: Interviews
65
35
65.0%
35.0%
Step 3: Funding
35
15
70.0%
30.0%
Converting these percentages into a graph similar to Van der Lee and Ellemers’ Figure 1 provides:
The pattern from the table and figure is very clear: in each step of the process men seem to be favoured at the cost of women. Although the percentages for this example are obvious different than those from the NWO-data, the type of pattern is the same. Since in my example there is no-gender bias whatsoever, Van der Lee and Ellemers’ claim that “Simpson’s paradox also cannot account for the observation that in every step of the review procedure women are less likely than men to be prioritized” evidently is false. The power of paradoxes should not be underestimated.
As a final note: as outlined above, the significant results claimed by Van der Lee and Ellemers is lost once correct statistical reasoning is applied. It is important though to realise that the absence of significant gender bias does not imply that there is no gender bias. There could be and it is important to find out whether – and where! – this is the case or not. To conclude, I quote Volker and Steenbeek, who write:
More in-depth analyses with statistical techniques that overcome the above-mentioned issues are needed before jumping to conclusions about gender inequality in grant awards.
English summary: A Dutch Student Union did some research and complains about the stone coal english of university teachers. I complain about the quality of the research.
TL;DR: het onderzoek van de LSVb trekt duidelijke conclusies. Die hadden niet getrokken mogen worden omdat (i) de feitelijke steekproef te klein is en (ii) de steekproef niet representatief is.
De LSVb kwam vandaag in het nieuws met haar onderzoek naar taalvaardigheid van docenten bij hbo en universiteit. Dit onderzoek kan grote impact hebben – zo vindt morgen in de Tweede Kamer een hoorzitting over Engels in het Hoger Onderwijs plaats, waar iemand namens de LSVb dit onderzoek zal verdedigen. Het zou dus fijn zijn als de conclusies uit dit onderzoek hout snijden. En dat doen ze niet. Niet eens een beetje.
Qua gebruikte methodologie zitten er twee grote haken en ogen aan het onderzoek: de steekproefomvang en de representativiteit van de steekproef.
Steekproefomvang. Voor het onderzoek hebben n = 269 studenten enkele vragen beantwoord (p.5). Omdat het onderzoek grotendeels gaat over (de kwaliteit van) Engelstalig onderwijs, zijn studenten die alleen maar Nederlandstalig onderwijs krijgen niet zo relevant voor dit onderzoek. Bijna een kwart van de deelnemers (24%, p.8) heeft geen enkel studie-onderdeel in het Engels. Dit zijn 64 of 65 studenten (ik ken alleen de afgeronde percentages), zodat er maar 204 a 205 relevante studenten overblijven (laat ik aardig zijn en van 205 uit gaan). Da’s niet veel (ongeveer 4 à 5 studenten per onderwijsinstelling). Vooral omdat een volgend kwart van de studenten (26%) minder dan de helft van de vakken in het Engels heeft. Zij moeten hun uitspraken dus baseren op misschien wel dat ene college dat ze ooit in het Engels hadden. Het spreekt voor zich dat zij daarmee een minder goed beeld van de algemene Engelse taalvaardigheid van docenten hebben dan van studenten die 60ECTS per jaar in het Engels doen. Het aantal studenten in de steekproef dat minimaal een halve studie in het Engels krijgt, is dus zo’n 135.
Wat is nu het probleem met een kleine steekproef? Onzekerheid. Je bent niet geïnteresseerd in de mening van de steekproef, maar in die van de populatie van alle duizenden studenten in het hoger onderwijs. Je gebruikt de steekproef enkel om daar iets over te kunnen zeggen. En hoe kleiner de steekproef, hoe minder je kan zeggen. Stel je gooit 4x met een dobbelsteen en werpt daarbij twee keer een zes. In je steekproef heb je bij 50% van de worpen zes gegooid, maar het zou niet bij je opkomen om daaruit te concluderen dat de dobbelsteen onzuiver is. Het kan gewoon toeval zijn.
Zo ook hier. Een van de hoofdconclusies in het rapport is dat de meerderheid van de studenten het niveau van Engels van docenten ondermaats vindt. (Althans, deze conclusie is de kern van de kop boven het bericht.) In de steekproef heeft namelijk 57% dit aangegeven. Maar dat betekent niet dat in de populatie ook precies 57% dit vindt: door toeval kan het zo zijn dat de steekproef wat te kritisch, of juist niet kritisch genoeg is. En hoe kleiner de steekproef, hoe groter de rol van het toeval.
Een veelgebruikte manier om die onzekerheid uit te drukken is via een betrouwbaarheidsinterval. Kort door de bocht gezegd neem je met zo’n interval een onzekerheidsmarge mee. Er zijn verschillende manieren om in deze context zo’n interval te maken (als je daar meer over wilt weten, Wikipedia is een goed startpunt) en een snelle, makkelijke manier is via de benadering met een normale verdeling. Een 95% betrouwbaarheidsinterval voor een geschatte proportie p wordt dan gegeven door de formule p ± √(p (1 – p) / n). In dit geval komt het er op neer dat het betrouwbaarheidsinterval gegeven wordt door (50%, 64%). Waarschijnlijk wel een meerderheid, maar hoe sterk die meerderheid is, is niet goed te schatten. En zelfs “waarschijnlijk wel een meerderheid” is niet hard te maken vanwege het probleem met representativiteit.
Het obligate blogplaatje. Ditmaal: steenkolen
Representativiteit. De LSVb maakt gebruik van een eigen studentenpanel van 5000 studenten. Er wordt niet duidelijk gemaakt hoe dit panel is samengesteld. Mogelijk is het een mooie, representatieve afspiegeling van de Nederlandse studentenpopulatie. Maar het kan ook zijn dat dit 5000 studenten zijn die “ja” antwoordden op de vraag “wil je in het panel” van de LSVb. En dan kan het best een vertekend panel zijn: bij een vakbond zie je bovengemiddeld vaak van die aktivistiese (zo spellen ze dat), shag-rokende types. De bedrijfseconomiestudent die bij het corps zit omdat hij, net als z’n pa, later iets bij een bank wil doen, is wat ondervertegenwoordigd. Maar het representativiteitsprobleem houdt hier niet op – het begint juist: van die 5000 hebben er maar 269 meegedaan met deze enquête. Dat is 5,4%. Dat is weinig. Dat is een probleem. Met name omdat je niet weet welke vijf procent meegedaan heeft. Zijn het de vijf procent die best tevreden zijn, de vijf procent die graag hierover willen klagen, of een mooie willekeurige steekproef? Je weet het niet en je kan het ook niet te weten komen. Het minste dat de onderzoekers hadden moeten doen, is in de discussie van hun rapport hierop reflecteren, maar er staat geen letter over in. Ze zouden er goed aan doen om dit recente stuk van Sanne Blauw en Armen Hakhverdian te lezen: Sanne en Armen leggen haarfijn uit wat voor rare uitspraken je kan krijgen als je niet goed over de representativiteit nadenkt.
Ten slotte. De conclusies die het LSVb trekt, had zij niet op deze manier mogen trekken. Op basis van dit onderzoek zijn slechts twee open-deur-conclusies te trekken:
Uit het onderzoek blijkt dat een deel van de studenten tevreden is over de taalvaardigheid van hun docent.
Uit het onderzoek blijkt dat een deel van de studenten ontevreden is over de taalvaardigheid van hun docent.
Dat betekent niet dat er morgen in de Tweede Kamer geen debat hierover kan plaatsvinden. Er zijn goede inhoudelijke redenen om Engels in het hoger onderwijs toe te juichen en er zijn goede inhoudelijke redenen om Engels in het hoger onderwijs juist niet te willen. Een inhoudelijk debat kan gevoerd worden. Maar niet op basis van dit LSVb-rapport.
Het is GeenPeil gelukt om genoeg handtekeningen te verzamelen om een raadgevend referendum over het associatieverdrag met Oekraïne af te dwingen. Er is van alles te vertellen over de inhoudelijke voor- en nadelen van zo’n verdrag maar dat laat ik aan anderen over.
Wat veel interessanter is, is dat er in de wettelijke constructie van het referendum een rare weeffout zit: het is voor voorstanders van dit verdrag vantevoren niet duidelijk of het nu verstandig is om wel of niet te stemmen. En dat is natuurlijk raar. Bij een gewone verkiezing weet je ook dat het verstandig is om op Partij A te stemmen als je wilt dat Partij A veel stemmen krijgt.
Spelregels
Hoe komt dit? De Tweede Kamer heeft ingestemd met het associatieverdrag dus zonder referendum zou het er komen. Het referendum kan dus alleen aan de rem trekken – niet op het gaspedaal drukken. Het referendum kent vervolgens drie spelregels:
Je kan voor of tegen stemmen, andere smaken zijn er niet. De optie met de meeste stemmen wint.
Het referendum is pas geldig als de opkomst minimaal 30% van de stemgerechtigde bevolking is.
Het staat de Tweede Kamer vrij om de uitkomst van het referendum te negeren en lekker te doen wat ze zelf wil.
Wiegel bij nacht (bron originele foto: npogeschiedenis.nl)
Spelregel 3 is natuurlijk vrij zot: waarom zou je het volk om haar mening vragen als je vervolgens die mening naast je neerlegt. Dit is een raar poldercompromis tussen de voor- en tegenstanders van een referendum. Een poging tot een normaal referendum is 16 jaar geleden gestrand omdat niet alle Eerste Kamerleden zich gebonden voelden aan coalitie-afspraken. Te verwachten valt dat partijen die de uitslag totaal negeren bij de komende verkiezing afgestraft worden en onder de cynische maar aardig realistische aanname dat de meeste partijen niet vanuit ideologisch standpunt maar vanuit angst voor de kiezer hun standpunten bepalen, kunnen we er enigszins vanuit gaan dat spelregel 3 niet de belangrijkste is.
Blijven dus twee spelregels over: haal een meerderheid voor je standpunt en haal voldoende opkomst. Die klinken niet zo raar. Maar ze zijn het toch. Voor tegenstanders van het associatieverdrag is het eenvoudig om de strategie te bepalen: ga stemmen en stem tegen. Gebeurt dit in voldoende mate dan is de uitslag van het referendum in het voordeel van de tegenstemmers.
Stemstrategie
Voor voorstanders van het associatieverdrag is het lastiger. Er zijn namelijk twee scenario’s waarin zij hun zin krijgen:
Minder dan 30% van de bevolking gaat stemmen en het referendum is niet geldig. De Kamer zal dan het oude voornemen om voor te stemmen handhaven en het verdrag wordt getekend.
De opkomst is voldoende en een meerderheid heeft voorgestemd. Het volk heeft gesproken, de Kamer luistert, en het verdrag wordt getekend.
Het zal de meeste voorstanders worst wezen of scenario 1 of scenario 2 werkelijkheid wordt: het gaat om de uitkomst. Echter, bij beide scenario’s is een tegengestelde strategie nodig: bij scenario 1 is het beter om niet te stemmen, want elke stem verhoogt de opkomst (iets dergelijks betoogden twee DWARSe jongeren in de Volkskrant). Bij scenario 2 is het beter om wel te stemmen (en dan ook voor te stemmen), want elke voorstem is een stapje richting meerderheid. De kiezer weet vantevoren niet welke strategie de beste is, want dit hangt af van de keuze die de andere kiezers maken. Dit lijkt op het Prisoner’s Dilemma (of, eigenlijk, van het n-player Prisoner’s Dilemma) en enkele andere speltheoretische klassiekers.
Dit dilemma was niet nodig geweest als de Kamer wat beter nagedacht had bij het vaststellen van de spelregels van het raadgevend referendum. Ten eerste kan je je sowieso afvragen waarom je een minimale opkomst wilt vermelden als het referendum toch slechts raadgevend is. Als slechts 2% van de bevolking komt stemmen, zal bijna niemand het de Kamer kwalijk nemen dat ze zich weinig van de raad aantrekt. (Omdat die 2% vanzelfsprekend geen willekeurige steekproef van de bevolking is.) Maar als je dan toch een eis rond minimale opkomst wilt vermelden, doe dit dan zonder dilemma’s voor de kiezer te introduceren. Je staat als politicus tenslotte in dienst van die kiezer. Een eis als “Het referendum is geldig als voor één van de twee stemopties gekozen is door minimaal x% van de stemgerechtigde kiezers” zou dit dilemma in een klap oplossen. Zet x% bijvoobeeld op 20% en dan is de strategie voor zowel de tegenstander als de voorstander duidelijk. De tegenstander stemt tegen en hoopt dat minimaal 19,99999% van het land dat ook doet en dat er meer tegen- dan voorstemmen zijn. De voorstander stemt voor, ook hopend dat er meer voor dan tegen is. De voorstander hoeft zich dan niet meer zorgen te maken over het opkomstpercentage: hij zal er niet per ongeluk voor zorgen dat een tegen-uitslag bij het referendum voldoende opkomst heeft.
Vanzelfsprekend kan het bij elk soort volksraadpleging (bv. een ‘gewone’ verkiezing), voorkomen dat een stem een ongewenst effect heeft. Iemand die bij het stemmen twijfelt tussen CDA en VVD en besluit toch maar VVD te stemmen, kan er voor zorgen dat door die ene stem een restzetel van het CDA naar GroenLinks gaat. Had die persoon dat geweten, dan was hij mogelijk liever thuis gebleven. Maar, bij reguliere verkiezingen zijn dit soort paradoxale situaties (extreme) uitzondering; bij het raadgevend referendum zit het er in het fundament in gebakken.
Maïs. Het nr. 1 exportprodukt van Oekraïne. Heeft verder weinig met het verhaal te maken, maar zo nu en dan een plaatje doet het goed in een blogpost.
Rekenvoorbeeld
Stel, dat bij het associatieverdrag 25% van het volk tegen en 40% voor is (en de overige 35% boeit het niet, die blijven thuis). Als alle voorstanders braaf gaan stemmen, wordt het associatieverdrag aangenomen. Als alle voorstanders demonstratief thuisblijven, wordt de opkomst niet gehaald en wordt het associatieverdrag aangenomen. Maar de voorstanders weten van elkaar niet wat ze gaan doen en moeten elk dus gokken wat de beste strategie is. Gevolg zal zijn dat ongeveer de helft thuisblijft en de andere helft voorstemt. Dan stemt dus 25% van het volk tegen, 20% voor, en is vervolgens het opkomstminimum behaald en heeft 56% van de stemmers aangegeven tegen het verdrag te zijn.
Er zitten 150 politici in de Tweede Kamer en nog eens 75 in de Eerste Kamer. Die hebben allemaal poppetjes rondlopen die hun advies geven. Was er bij die honderden mensen dan niemand die deze lacune even opgemerkt heeft? Of is dit allemaal strategie, zodat de politici bij een tegen-uitslag van het referendum straks kunnen zeggen “ja maar die opkomst-eis he, daarom bleven de voorstanders thuis. Deze uitslag bevestigt alleen maar dat wij op de goede koers zitten. Applaus voor onszelf.”. Hoe het ook zit, het referendum levert op deze manier in ieder geval één duidelijke verliezer op: de politiek.
In the early seventies, the University of California, Berkeley received sincere negative attention due to supposed gender bias in graduate admissions. The data for fall 1973 clearly seemed to point in this direction:
Nr. of applications
admissions
Male
8442
44%
Female
4321
35%
Out of 8442 male applicants, 44% was admitted, whereas out of the 4321 female applicants, only 35% was admitted. The χ2-test on the 2×2 frequency table (or any other sensible test for 2×2 tables) will give a very significant result, with a p-value smaller than one in a billion. A scrutiny of the data in Science by Bickel, Hammel and O’Connel (1975) revealed that there was no evidence for gender bias. This apparent counterintuitive result was due to the interaction with an external variable. Not all departments at the university had the same admission rate, and there was a relation between the proportion of female applications and the admission rate.
Competitive departments such as English received relatively many female applications, whereas departments such as chemistry, with a surplus of male applications, where much less selective. When studying the male/female admissions on a departmental level, the supposed gender bias disappeared. (For the fall 1973 data, there even was evidence of bias in favour of women.) This paradox is termed spurious correlation or Simpson’s paradox, after the British statistician Edward Simpson. (For a recent open access paper on Simpson’s paradox in psychological science, see Kievit, Frankenhuis, Waldorp and Borsboom, 2013.)
The authors, correctly, point at another pitfall: although there seemed to be evidence of bias (in favour of women) for fall 1973, there is no such evidence for other years. A significant result once in a number of years, could just be coincidence.
In the analysis by Van der Lee and Ellemers the same two flaws occur in a setting not too dissimilar from the one discussed above. Based on the results of n = 2,823 grant applications to the “VENI programme” of the Netherlands Organisation for Scientific Research, NWO, in the years 2010, 2011 and 2012, the authors conclude that the data “provide compelling evidence of gender bias in personal grant applications to obtain research funding”. One of the main results this claim is based upon the following table:
applications
Succesfull
Male
1635
17,7%
Female
1188
14,9%
When applying a standard χ2-test to the data, the authors find a just significant p-value of .045. It is not only questionable to denote a p-value this close to 0.05 as “compelling evidence”, due to Simpson’s paradox, this p-value simply is wrong.
In the supplementary table S1 (Van der Lee and Ellemers, 2015), available online without paywall, a breakdown of the 2,823 grant applications per discipline is presented. The proportion of female applicants varies from 11.8% (physics) to 51.4% (health sciences), and the total succes rate varies from 13.4% (social sciences) to 26.3% (chemical sciences).
Proportion of applications by female scientists vs total success rate. Size of the markers is proportional to number of applications within the discipline.
The figure above visualises these data and immediately shows a clear negative relation between the proportion of female applicants and the total succes rate (i.e. the rate for men and women combined). In four out of the nine disciplines, women have a higher succes rate than men, and in five out of nine, men have a higher succesrate than women. When taking into account that multiple comparisons are performed, for none of the disciplines the gender bias – either in favour of women or in favour of men – is significant (at the α = .05 level). Thus, when taking into account the spurious correlation, the “compelling evidence” is lost.
Bickel et al. (1975) pointed at a second pitfall, concerning focussing on the year(s) where the difference was signicant and ignoring the other year(s) where it was not. Again, a similar situation occurs here. NWO publishes the results of all VENI rounds since its establishment in 2002 until 2015 (except for 2012) on its website. In some years, such as 2011, men received relatively more grants than women; and in other years, such as 2010 and 2015, the reverse was true. The z-test for log-odds ratio only provides a significant sign of gender bias in favour of men for the years 2010 (z = 2.002, p = .023) and 2011 (z = 1.752, p = .040) and a significant gender bias in favour of women for 2002 (z = 2.005, p = .022). When applying the Bonferroni correction for multiple comparisons none of these gender biases are significant.
Conclusion. Van der Lee and Ellemers failed to recognise the dependence of the results on the different NWO disciplines. Futhermore, they focused on results during a three-year, whereas the results of the other periods in which VENI-grants where provided did not confirm the just significant results for 2010-2012. As a consequence, the conclusion of “compelling evidence of gender bias” is inappropriate. In the data, there is no evidence for gender bias (which does not have to mean that there is no gender bias). In discussions on institutional sexual discrimination, it is important to stay factual.
Furthermore, I find it worrying that this analysis gets published. Simpson’s paradox is one of statistics most well-know paradoxes (I teach it yearly to a new batch of psychology students in Groningen) and PNAS is a high-ranking journal with an impact factor of nearly ten. This paper – where conclusions are drawn on basis of flawed methodology – is not an exception. Apparently, the current peer-review system is inadequate in filtering out methodological flaws in papers. If a system doesn’t work, it should be changed.
Final note. The paper by Van der Lee and Ellemers focusses on more tests than just the one criticised by me here. However, these other tests make use of related data (e.g. the number of applicants that go through to the interview-stage) and it is not unlikely that Simpson’s paradox plays a role there too. (The data provided in the paper was insufficient for me to check this.) And even if it does not: the authors are providing interpretations to effects with tiny effect sizes (partial eta-squareds of 0.006(!))… Furthermore, the paper contains a section on “language use” in NWO documents. My comments do not apply to this section.