The problem of unadjusted sequential analyses

Yesterday, my attention was grabbed by a paper, published in Nature Communications, titled “Regulation of REM and non-REM sleep by periaqueductal GABAergic neurons“.  It seems to be a very complicated paper, where the authors put in a lot of hard work. In addition, the journal deserves praise for having an open peer review system (the reviews are available online), something which I strongly support.

The reason I looked at this paper – being so outside of my own field of work – is because of one of the last paragraphs, one sample size. Here, the authors write:

For optogenetic activation experiments, cell-type-specific ablation experiments, and in vivo recordings (optrode recordings and calcium imaging), we continuously increased the number of animals until statistical significance was reached to support our conclusions.

I was extremely surprised to read this, because of three reasons:

  1. This is not a correct way to decide upon the sample size. To be more precise: this is a very wrong way of doing so, kind of invalidating all the results;
  2. The authors were so open about this – usually questionable research practices are more hidden;
  3. None of the three reviewers, nor the editor, has spotted this blatant statistical mistake – even though it’s a textbook example of a QRP and the journal has an astronomical impact factor.

The second reason is reassuring to some extent: it is clear that there’s no ill intent from the authors. Without proper and thorough statistical training, it actually sounds like a good idea. Rather than collecting a sample of, say, size n = 50, let’s see step by step if we can work with a smaller sample. Especially when you are conducting animal studies (like these authors are), it’s your ethical obligation to select the sample size as efficient as possible.

My tweet about this yesterday received quite some attention: clearly I’m not the only one who was surprised to read this. Andrew Gelman wrote a blog post after seeing the tweet, in which he indicates that this type of sequential analysis doesn’t have to be problematic, if you steer away from null hypothesis significance testing (NHST). He makes some valid points but I think that in practice researchers often want to use NHST anyway. Below, I will outline (i) what the problem is with sequential analyses with unadjusted testing; (ii) what you could do to avoid this issue.

Unadjusted sequential testing

The story here holds true for all kinds of tests, but let’s stick to a straightforward independent t-test.  You begin with 2 mice in each group (with 1 mouse per group, you cannot compute the within-group-variance, thus cannot conduct a t-test). You put some electrodes in their brains, or whatever it is you have to do for your experiment, take your measurements and conduct your t-test. It gives a p-value above 0.05. It must be because of the small sample, let’s add another mouse per group. Again, non-significant. You go on, and on, and on, until you reach significance.

If there is no effect, a single statistical test will yield a false positive, so p < 0.05, in 5% of the times. This 5% is something we think is an acceptable percentage for the false discovery rate (although you can make a motivated choice for another rate – but that’s another discussion). If you would do two independent tests (and there is no effect), you would reach a significant result 1 – (1 – 0.05)2 = 90.25%, and with k tests, this is 1 – (1 – 0.05)k, which goes towards 1 pretty fast if k goes up. This is the basis behind the Bonferroni correction.

Here, the situation is slightly different: you’re not performing independent tests. The p-value for a t-test with 30 measurements will be not too dissimilar from a p-value for a t-test with those 30 measurements and 1 more. Still, the multiple testing issue remains – albeit not as severe as with independent tests. You can prove mathematically (don’t worry, I won’t do that here) that with this sequential approach it actually is guaranteed (i.e. probability of 1) that you will reach significance at some point. Even if there is no effect! This approach will give a guaranteerd false discovery rate of 1 – and that is as bad as it sounds…


We can use a computer simulation to see what happens. This is a situation in which H0 is true: there is no effect, i.e. both groups are not different. Rejecting H0 in this situation is an error (Type I error). In the picture below, I did just what I described: starting with n = 2, I kept on increasing n by 1. As you can see, the p-value ‘converged to significance’ at n = 42. But it also moved away from it! At n = 150, we’re kind of back where we started, with a very non-significant p-value.

Sequential p-values: at n = 42, we ‘dive under’ the 5% threshold.



So, in this instance it happened at n = 42. With a new simulation it might happen at some other point, but two things are for sure: you will reach significance and you will reach non-significance after that…

Let’s now study how bad the problem is. I simulated 1000 of these sequential strategies, and recorded at what value of n significance was reached for the first time. Sometimes you’re “lucky” and have it with a small n, sometimes you have to wait for ages. The simulation results are as follows:

False discovery rate for sequential strategy.
The blue curve indicates independent tests, the red one dependent tests.
Same picture as above, now zoomed in to the area with n < 25.

As you can see, the problem is huge. Even if you would apply some rule where you stop the strategy once n = 25, your False Discovery Rate exceeds 25%, more than five times what you want.

Note that this problem not only affects the p-values, but also the estimates. Using this strategy, the distance between the means of both groups will sometimes increase, sometimes decrease – just as a consequence of coincidence. If we continue sampling until the means of the experimental and control group are sufficiently far apart in order to call it significant, it means we overestimate the effects. Not only is the significance biased, so is the effect size.

So, in an attempt to ‘use’ as few animals as possible – something that should be applauded – the authors actually and accidentally invalidated their study, leading to more test animals that are used unnecessarily…

So, what can we do?

Hopefully, I’ve managed to explain that unadjusted sequential analysis is problematic. It is, however, possible to still apply this approach – increasing your sample size in small bits until you meet some threshold. The main difference is that the threshold should not be taken fixed at 5%, but should take the issue of multiple testing into account. The mathematical backbone to this approach was developed in the 1940’s by Abraham Wald, with a pivotal paper in 1945. Around the same time, and independent of Wald, British war hero and polymath Alan Turing derived a similar approach based on Bayesian reasoning. This sequential approach helped Turing to crack the German Enigma machines and thus saved millions of lives.

These sequential approaches are more technical than the standard t-test, and they are usually not included in easy to use software packages. Recently, several people have written accessible tutorial papers on how to perform such a sequential analysis. A good starting point is this paper by Daniel Lakens.


In their paper, Franz Weber and colleagues used an incorrect method to decide upon the sample size. As a consequence, all test results in this paper are invalid. How this passed peer review in a top journal, is difficult to understand, but these things happen. It’d be interesting to see how Nature Communications deals with the aftermath of this paper…

Amsterdam is geweldig (maar dat is toeval)

NWO heeft afgelopen week 35 Vici-beurzen uitgedeeld.  Er lopen nu zo’n 35 dolgelukkige onderzoekers rond die meer geld krijgen dan ze nodig hebben. (NWO had ook zo’n 250 onderzoekers met een kleinere beurs, goed voor een promovendus, blij kunnen maken, maar dit soort megabeurzen schijnen goed te zijn voor de rankings ofzo – dat verder geheel terzijde.)

Een opvallend iets aan die beurzenregen is dat de Universiteit van Amsterdam het verrassend goed doet: 11 van de 35 beurzen gaan naar de UvA. En dit is natuurlijk reden voor ophef op de sociale media.

Zelfs de Amerikaanse president bemoeit zich ermee (fake news alert).

Het Amsterdamse universiteitsblad Folia heeft geen verklaring hiervoor kunnen vinden. Een verklaring die dan overblijft, is dat het toeval is. Maar hoe uitzonderlijk is zoiets?

Laten we in de cijfers duiken. Landelijk zijn 233 aanvragen gedaan en zijn er 35 (15%) gehonoreerd. Bij de UvA zijn 11 van de 31 (35%) aanvragen gehonoreerd. Dus bij de rest van het land zijn 24 van de 202 (12%) aanvragen gehonoreerd. Omdat 35% best veel meer is dan 12% – bijna 3x zoveel – klinkt dit als een enorm verschil. Maar met kleine aantallen maakt een beursje meer of minder flink wat verschil: toeval kan een behoorlijke rol spelen. We kunnen toetsen hoe toevallig deze uitkomst is.

UvA Rest van Nederland




11 (35%)

24 (15%)

Een manier om dit te doen is via de exacte toets van Fisher. (Detail: er zijn verschillende manieren. In grote lijnen geven ze voor deze data dezelfde conclusies.) Er van uitgaande dat de honoreringskans bij de UvA niet afwijkt van die in de rest van het land, is de kans op minstens een zo opvallende uitkomst als nu 1,1%. Dat klinkt onwaarschijnlijk. Doorgaans gebruikt men een 5% kans als grens tussen ‘significant’ en ‘niet significant’ (ook al zijn er prima redenen niet altijd maar 5% te nemen) dus het klinkt zelfs significant onwaarschijnlijk.

Maar: er is een aantal maren in te brengen. Ten eerste zijn er meer universiteiten dan de UvA. De kans op zulk toeval precies bij de UvA gebeurde is dan wel slechts een op de 90, de kans op zulk toeval bij een van de 14 VSNU-universiteiten is een stuk groter: zo’n 14% (1 – (1 – 0,011)14). Ook keert de NWO elk jaar ongeveer dit aantal Vici’s uit. De kans, puur gebaseerd op toeval, dat het eens in de vijf jaar ergens zo opvallend goed gaat als nu bij de UvA, is al meer dan 50% (1 – (1 – 0,011)5*14 = 0,54).

Vergelijk het met een loterij. De kans dat jij bij de volgende trekking wint, is behoorlijk klein (tip: niet meedoen is, gemiddeld genomen, voordeliger). De kans dat iemand wint, is echter 100%. Maar ook die persoon had van tevoren een behoorlijk kleine kans. Zo ook hier. Had je van tevoren voorspeld dat de UvA het in 2017 onwaarschijnlijk goed had gedaan, dan was dat een knappe voorspelling geweest. Maar dat zoiets zo nu en dan ergens gebeurt, is niks geks aan. En ook wel zo leuk voor de UvA. Ze halen daar al ja-ren-lang geen Spinozapremies of Nobelprijzen, het dak waait van de gebouwen en je moet college volgen in een drijvende tent. Vanuit hun underdog-positie gun je ze ook wel eens een pleziertje. 😜

Een andere mogelijke verklaring zit hem o.a. in de scheve verdeling van toekenningen. Bèta-aanvragen doen het zo’n 1,5 tot 2x beter dan aanvragen uit de alfa- en gamma-hoek. Universiteiten die bovengemiddeld veel aanvragen van natuur- en scheikundigen hebben, geven zichzelf daarmee een mooie voorsprong.

Samengevat: het klinkt opvallend, maar eigenlijk valt dat dus wel mee. (Statistiek doet dat wel vaker, interessante feitjes verpesten met nuance.) Maar als NWO als gevolg van dit toeval volgend jaar bewust meer geld naar andere universiteiten wilt sturen (hint: Groningen), heb ik daar geen bezwaar tegen.

Stem Casper

(Link to the English version of this post.)

Van 15 tot 19 mei kan er gestemd worden voor de nieuwe Universiteitsraad.

Ik ben kandidaat voor een tweede termijn in de raad namens de Personeelsfractie (ik ben kandidaat #5) en hoop voldoende stemmen te krijgen om mij nog twee jaar te kunnen richten op het verbeteren van het werkklimaat aan de RUG.

In deze blog zal ik mezelf kort introduceren en – belangrijker – mijn motivatie en visie op de universiteit toelichten.

Korte biografie

Ik ben UHD Psychometrie en Statistiek aan de Faculteit Gedrags- en Maatschappijwetenschappen. Voordat ik in 2009 bij GMW kwam werken was ik onderzoeker aan de Open Universiteit in Engeland, post-doc bij het Groningen Bioinformatics Centre, promovendus bij wiskunde en student bij FEB en FSE. Ik ben nu twee jaar lid van de Universiteitsraad, daarvoor ben ik vier jaar Faculteitsraadslid geweest.

Mijn onderzoek richt zich op statistisch modelleren. Ik ontwikkel modellen voor dynamische processen in de environmentele en klinische psychology, alsmede modellen om de effectiviteit van onderwijsinterventies te modelleren.

Motivatie en visie

Twee jaar geleden schreef ik een soortgelijke blogpost. Er is sindsdien niet veel veranderd: ik vind nog steeds dat de universiteit geen bedrijf is maar een academisch instituut. Dit moet naar buiten komen in de manier waarop de universiteit geleid wordt. Het overdragen en vergaren van kennis zijn het doel.

Hieronder zal ik enkele zaken waar ik mij de afgelopen twee jaar in het bijzonder voor heb ingezet, en waar ik me voor wil blijven inzetten, toelichten.

Beleid moet gebaseerd zijn op wetenschappelijk inzicht

Er zijn veel flitsende plannen over hoe aan deze universiteit onderwijs gegeven moet worden en, in mindere mate, hoe het onderzoek vorm moet krijgen. Flipped classroom, international classrooms, 21st century skills, enz.: ideeën genoeg. Voordat zulke plannen grootschalig worden ingevoerd, dient bewezen te zijn dat deze ook daadwerkelijk de gewenste resultaten opleveren. Dit kan via een overzicht van wetenschappelijke literatuur, of via het uitvoeren van (pilot)studies. Grootschalige (onderwijs)interventies kunnen alleen op mijn steun rekenen als deze evidence based, dus gestoeld op wetenschappelijke kennis, zijn.

Ook reeds bestaand beleid dient evidence based te zijn en, wanneer dat niet het geval is, aangepast te worden. Afgelopen jaar heb ik een notitie over vakevaluaties geschreven: de correlatie tussen docentkwaliteit en score op de evaluaties is praktisch nul. Het huidige vakevaluatie-systeem is een verspilling van tijd en moeite. Er bestaan betere methoden om uit te vinden hoe studenten tegen het onderwijs aankomen.

Het mag als een open deur klinken dat aan een universiteit het beleid een wetenschappelijke onderbouwing kent, de praktijk is anders.

Diversiteit: niet alleen mooie woorden maar actie

De RUG kampt met een groot probleem op het gebied van diversiteit. Zo’n beetje alle Europese landen doen het beter dan Nederland wat betreft het aandeel vrouwelijke hoogleraren. Alle brede Nederlandse universiteiten doen het op dit gebied beter dan de RUG. Op die manier wordt waardevol talent niet benut.

Het enkel roepen dat het beter moet, het noemen van een streefgetal of het hopen op verandering is onvoldoende. Concrete maatregelen zijn nodig. Niet alleen om een meer gebalanceerde man/vrouw verhouding te krijgen, maar bijv. ook als het er om gaat dat getalenteerde onderzoekers die part-time willen werken, internationals, en alle anderen de kans krijgen het maximale uit zichzelf te halen.

Yantai: geen instemming met de huidige plannen

Dankzij de Personeelsfractie en Lijst Calimero heeft de Universiteitsraad instemmingsrecht verkregen op het uiteindelijke voorstel voor een branch campus in China.

Er zijn mogelijke voordelen aan activiteiten in Yantai maar er zijn ook veel risico’s. Risico’s voor de campus in China, maar ook risico’s voor de universiteit in Groningen en haar werknemers en studenten. De huidige plannen van het bestuur zijn nog zwaar onvoldoende. De plannen zijn te risicovol en veel belangrijke vragen blijven onbeantwoord.

Als het definitieve voorstel lijkt op de huidige plannen, zal ik er niet mee instemmen.

Verbeter de student/stafratio

De beste manier om het onderwijs en onderzoek te verbeteren ligt niet in innovatieve ideeën. Investeer in meer werknemers per student. Volgens de VSNU is de student/stafratio van 3.9 studenten per (full time) staflid in 2000 naar 5.6 in 2010 gegaan, en sindsdien nog verder gestegen. Deze ratio moet worden teruggebracht naar het niveau van rond de eeuwwisseling.

Dit levert vanzelfsprekend een flinke verbetering in de onderwijskwaliteit op. Een lagere onderwijslast per staflid is ook gunstig voor de onderzoeksoutput. De werkdruk – die het afgelopen decennium onacceptabel is gestegen – zal hier ook van verbeteren. De werkdruk voor wetenschappelijke staf kan ook verbeteren door te investeren in meer ondersteunend personeel.

Te vaal wil het College geld uitgeven aan nieuwe ‘innovatieve plannen’. Doe dat niet. Geef het uit aan de kern van de universiteit: onderwijs en onderzoek.

Een eigen werkkamer voor elke UD/UHD/hoogleraar

Er zijn veel verhuisplannen aan de RUG: de Rechtenfaculteit gaat verhuizen naar de Oude Boteringestraat, waarna het Harmoniegebouw aangepakt wordt wat Letteren zal raken. Daarnaast raakt de Faculteit Gedrags- en Maatschappijwetenschappen haar onderwijsruimtes aan de Bloemstraat kwijt: het plan van het CvB is dat deze ruimte gevonden wordt in de overige GMW-gebouwen.

De goedkoopste optie bij verhuizingen is te werken met kantoortuinen en/of personeelsleden (inclusief UDs, UHDs en hoogleraren) kamers te laten delen. Open plan kantoren zijn bewezen ongeschikt voor het bedrijven van wetenschap. Een wetenschapper moet zich kunnen concentreren om aan de grenzen van het weten te kunnen werken.  Gedeelde werkkamers en kantoortuinen klinken goedkoper, maar zullen leiden tot een lagere academische productie en minder werktevredenheid. Wetenschappelijk personeel met een vast contract (incl. tenure trackers) zouden elk een eigen werkkamer moeten hebben.

Meer weten?

Als je meer wilt weten over mijn standpunten, klop dan aan (kamer 181 van het Heymansgebouw) of stuur mij een mailtje.

Vote Casper

(Link naar de Nederlandse versie van deze post)

Between 15 and 19 May, voting for the new University Council will take place.

I’m candidate for a second term in the council on behalf of the Personnel Faction (#5) and hope to receive enough votes such that I can devote myself for a better working climate at the university.

Below, I shall introduce myself and – more importantly – my motivation to be a candidate and my vision for the university.

Short biography

I’m an associate professor at the Psychometrics & Statistics department at the Faculty of Behavioural and Social sciences and worked in this position since 2009. Before, I was research fellow at the Open University (UK), post-doc at the Groningen Bioinformatics Centre, PhD-student in Mathematical Statistics and undergraduate students at the faculties FEB and FSE. I’ve been a member of the University Council the past two years and before that I spent four years at the Faculty Council.

My research focuses on statistical modelling. Specifically, I develop models to understand dynamic processes in environmental and clinical psychology and models for assessing the effectiveness of educational interventions.

Motivation and vision

For the elections two years ago, I wrote a blog post outlining my motivation and vision. Not much has changed since then: I still believe that the university is not a business but an academic institution and this should be reflected in the way the university is governed. Rather than repeating the motivation of two years ago, I’d like to take this opportunity to highlight some of the areas which have been my key opinions in the past two years and will be again in the next two years.

Policies should be evidence based

Many buzzwords surround the developments around the way teaching is done at this university and, to a lesser extend, around research as well. Flipped classroom, international classrooms, 21st century skills, etc.: there are many new and interesting ideas. Ideas are great and academia should embrace them. However, before such plans are rolled out in a large scale, they should be tested in a small scale pilot setting and validated. Large scale innovations should only take place if they are evidence-based, i.e. have a solid scientific basis.

Similarly, standing policy that has scientifically proven to be not working, should be adapted. This year, I wrote a memorandum (in Dutch) on course evaluations: the correlation between quality of the teacher and score on the evaluation is virtually zero. The current system of evaluating courses is a waste of time and effort and better methods exist to find out how students feel about their education.

It sounds obvious that at a university policy has some scientific basis but I’ve learned that there’s still a lot to improve.

Diversity: we need action, not words

Diversity is a major problem at the RUG. Virtually all European countries do better than the Netherlands with repect to the proportion of professors that is female, and all classical Dutch universities do better than the RUG. This way, valuable talent is lost.

Simply stating the desire to improve and hoping for change is insufficient. Concrete actions are necessary. This not only involves a more balanced gender distribution but also e.g. making sure that talented researchers who wish to work part-time, internationals, and all other get the chance to maximise their potential.

Yantai: No to the current plans

Thanks to the Personnel Faction and Lijst Calimero, the University Council now has the right to consent with respect to the final proposal to start a branch campus in China.

There are potential advantages of a venture in Yantai but there are also many risks – risks for the campus in China, but also risks for the university, its staff and its students, in Groningen. The current plans by the Board are severely insufficient. In my opinion, the plans are too risky and leave too many important questions unanswered.

If the final proposal is similar to the current plans, I will not give my consent.

Improve the student/staff ratio

The best way to improve teaching and research does not lie in carrying out innovative ideas. Invest in more staff per student. According to the VSNU, the ratio has gone from 3.9 students per FTE staff member in 2000 to 5.6 students per FTE in 2010. Bring this ratio back to the level we had around 2000.

This will, obviously, be a boost the quality of teaching. A reduced workload per staff member will also be beneficial for the research output and will increase the quality of work and decrease work pressure, two things that have deteriorated in the past decade. The workload can also be reduced by increasing the support for academic staff.

Too often the Board wants to spend additional money to new, innovative ideas. Don’t. Spend it on the core of the university: teaching and research.

Staff needs private offices

There are many planned moving operations: the Faculty of Law will move to the Oude Boteringestraat, which means that the Faculty of Arts will ‘reshuffle’ in the Harmonie building, and the Faculty of Behavioural and Social Sciences will have to accomodate the loss of teaching facilities at the Bloemstraat.

The cheapest option in relocations is to work with open plan offices (‘kantoortuinen’) or having staff (including (assistant/associate) professors) share their offices. Open plan offices are proven to be inefficient for the type of work a scientist does. Scientists need to be able to concentrate to work on the limits of knowledge. Shared offices and, worse, open plan offices , sound cheaper but will lead to lower academic production and lower work satisfaction. Full-time and permanent scientific staff (including tenure trackers) should be able to get their own office.

Stemmen op een willekeurige vrouw helpt niet

Van de 150 Tweede Kamerleden die in 2012 verkozen zijn, waren er 58 vrouw (en de rest man) volgens  Dat is 39% vrouw, significant minder dan de helft (p = 0.003).  De tijden dat het percentage vrouwen onder de 10% lag, zijn van voor mijn (en misschien ook wel jouw) geboorte, maar het aantal vrouwen legt het structureel af tegen het aantal mannen en dat is best wel niet zo tof. Vrouwen zijn namelijk in de meerderheid in Nederland en je wilt dat je volkvertegenwoordiging het volk vertegenwoordigt.

De politiek zelf vindt dit ook niet zo tof, maar komt met slappe oplossingen. Zo zet men massaal een vrouw op nummer 2 van de kandidatenlijst, achter een man. (Dieren, Piraten, Art1kel en Lijst 27 zijn de uitzonderingen.) En van alle partijen die nu in de Kamer zitten, hebben alleen de PvdA en de PvdD minimaal 5 vrouwen in de top 10 van de kandidatenlijst.

Als de politiek zelf niet met de oplossing komt, moet de kiezer het maar doen. Michaël Amir, een Amsterdamse informatiekundestudent,  heeft een oplossing bedacht om meer vrouwen in de Kamer te krijgen. In essentie komt deze oplossing er op neer dat je op een vrouw moet stemmen, maar dan niet de vrouw op nummer 2 van de Kandidatenlijst, want die komt toch wel in de Kamer. Als iedereen op een willekeurige vrouw stemt, zit de Kamer straks vol met vrouwen. Zelfs als  de mannelijke kiezers als tegenoffensief op mannen gaan stemmen: omdat er meer vrouwelijke kiezers én minder vrouwelijke kandidaten zijn, krijgen die kandidaten vaker een voorkeurszetel.

Een origineel idee, allemaal mooi in de computer gestopt en door-gerekend. Daarmee heeft Michaël de afgelopen tijd onder andere de Volkskrant gehaald (waar ik het gelezen heb), maar ook tal van andere media. Een en ander is verzameld op de flitsende site

Angela Merkel. Tevens een vrouw. Maar op haar stemmen is een slechte strategie bij TK2017. (Foto van Wikimedia, Martin Rulsch)
Angela Merkel. Tevens een vrouw. Maar op haar stemmen is een slechte strategie bij TK2017. (Foto van Wikimedia, Martin Rulsch)

Er is echter één groot probleem met deze methode: hij werkt alleen als hij massaal gebruikt wordt. Zoals al in het Volkskrantartikel staat:

Er is één logistieke hindernis bij de methode-Amir. Hoe al die stemmen te coördineren, zodat vrouwen op de lijst maximaal profiteren? Daar moet iemand maar eens een handige app voor bouwen, concludeert hij. Zolang die er niet is: stem niet op de hoogst genoteerde vrouw, maar op een willekeurige vrouwelijke partijgenoot.

De app is er niet. En als een paarduizend mensen op een willekeurige vrouwelijke partijgenoot stemmen, gebeurt er niks. Je hebt namelijk best veel stemmen nodig om een voorkeurszetel te krijgen (in 2012: 15708 stemmen). Ik ben wat gaan rekenen aan de vraag: hoeveel mensen moeten deze strategie hanteren, wil deze effect hebben? (Voor de SGP-stemmer: u had allang kunnen stoppen met lezen: de strategie werkt nooit bij een all-male kandidatenlijst.)


Hoeveel mensen via deze strategie moeten stemmen, hangt ook af van welke strategie de rest stemt. Voor het gemak, identificeer ik drie strategieën:

  1. De stem op de lijsttrekker (bij zo’n 145 van de 150 gepeilde zetels is dit een stem op een man).
  2. De stem op een willekeurige vrouw, zoals voorgesteld in methode-Amir.
  3. De stem op een willekeurige persoon op de lijst (man of vrouw). Dit doet de kiezer die bijvoorbeeld graag stemt op de kandidaat uit zijn/haar regio, of met zijn/haar achtergrond.

(De realiteit is natuurlijk wat ingewikkelder, maar dit komt al vrij dicht in de buurt.) De cijfers uit 2012 leren ons dat het extreem overgrote deel van de kiezers voor strategie 1 kiest. Zo koos 93% van de PVV-stemmers op Wilders en 85% van de VVD’ers Rutte (Mark; Arno staat op 1%). Ook Samson, Roemer en Pechtold kregen meer dan driekwart van de stemmen van hun partij. (Van alle grote partijen was alleen Buma (65%) niet zo populair.) Als de overgrote meerderheid op de nr.1-man stemt, is het lastig om extra vrouwen in de Kamer te krijgen. Het is dus nodig dat veel mensen strategie 2 toepassen, maar hoeveel is veel? Dat rekenen we even uit.

Het Rekenmodel

Laat z het aantal zetels dat een partij gaat halen zijn, en m en v het aantal mannen en vrouwen op de kieslijst. Als een proportie a strategie 1 volgt (stemmen op de (mannelijke) lijsttrekker), en een proportie b strategie 2 (stemmen op willekeurige vrouw), dan stemt dus 1 – ab via de derde strategie (en we gaan er van uit dat 0 < a + b < 1). De vrouwen op de lijst krijgen gemiddeld genoeg genoeg stemmen voor een restzetel als

CaptureDit is niet de meest overzichtelijke formule, maar er zijn vast twee dingen te zien:

  • Hoe groter proportie a, hoe groter proportie b moet zijn. Dit is ook logisch: als bijna niemand op de lijsttrekker stemt, stemmen er automatisch al meer mensen op vrouwen.
  • Hoe meer vrouwen op de lijst (relatief ten opzichte van het aantal mannen), hoe lastiger. Dit is ook logisch: er zijn meer vrouwen om de stemmen over te verdelen.


Laten we het wat concreter maken. Ik heb voor een drietal partijen gekeken hoe proporties a en b samenhangen. Omdat de formule afhangt van het aantal zetels bij de verkiezingen, en ik geen glazen bol heb, heb ik gekeken naar de verkiezingen van 2012. Daarvan weten we de zetelverdeling. Ik heb gekeken naar de volgende drie partijen:

  • VVD: 51 mannelijke, 24 vrouwelijke kandidaten, 41 zetels
  • D66: 32 mannelijke, 18 vrouwelijke kandidaten, 12 zetels
  • GroenLinks: 24 mannelijke, 18 vrouwelijke kandidaten, 4 zetels.
Proportie a Minimale proportie b
0% 0% 2% 63%
20% 7% 13% 78%
40% 17% 25%
60% 26% 36%

We zien dat het bij GroenLinks een vrij hopeloze zaak is: zelfs als niemand op de lijsttrekker (toen wel een vrouw) gestemd had, had bijna twee-derde van de GL-kiezers methode-Amir moeten gebruiken. Reden is dat GL voor hun 18 vrouwen maar zo’n 220 duizend stemmen te verdelen heeft. Dan gaat dat bij D66 makkelijker: ook daar staan 18 vrouwen op de lijst, maar met 757 duizend stemmen is er meer te verdelen. Bij de VVD was nog niet een-derde van de kandidaten vrouw en de partij kreeg ruim twee-en-een-half-miljoen stemmen. (Ik ga geen waarde-oordeel hierover posten, want dan gaat Pieter Duisenberg weer Kamervragen stellen over de politieke kleur van wetenschappers.) Als te veel mensen op de lijststrekker stemmen – vanaf 40% bij GroenLinks, en ca. 80% bij VVD en D66 – is het gewoon onmogelijk om via methode-Amir tot extra gekozen vrouwen te komen.

Maar: die 7% bij de VVD klinkt misschien wel mooi weinig (al is het weinig realistisch om te denken dat slechts 20% van de VVD-stemmers op Mark Rutte stemt), maar het is wel 7% van veel stemmen: in absolute getallen – bijna 180 duizend stemmen – gaat het om meer dan die 78% van de GroenLinks stemmen.


Die methode-Amir is leuk bedacht, maar zal in de praktijk niet werken. Alleen als werkelijk honderd duizenden mensen deze strategie volgen, zal hij werken. Zo veel mensen gaan niet meedoen. En daarmee is het dus een onrealistisch plan. Aan de andere kant: het plan kan ook geen kwaad, en bij gebrek aan een strategie die wel werkt, is er niks op tegen om het te proberen en op een wonder te hopen.

Stop de vertekende beelden van de verkiezingsuitslagen

Op 15 maart zijn de verkiezingen. Wat de uitslag wordt, weet ik nog niet, maar wat ik wel weet is dat op de 16e de kranten volstaan met plaatjes zoals deze (bron):

Uitslagen 2010 en 2012. Gemaakt door Jesse de Voogd

De plaatjes zien er mooi uit, zeker als je twee verkiezingen op rij vergelijkt, en ze lijken makkelijk te interpreteren te zijn: in 2012 was de opkomst van de PVV voorbij en was de VVD aan het oprukken tot voorbij de IJssel. Spannend!

Er is echter een probleem met die plaatjes. Twee eigenlijk. En het zijn ook vrij evidente problemen – het vergt geen kennis van hogere wiskunde en statistiek om ze te zien. In de ijdele hoop dat de verkiezingsredacties van de kranten mijn blog lezen, ga ik ze hier beide benoemen. Wie weet zien de kranten de 16e er dan anders uit en hoef ik me niet te storen aan de verkiezingsuitslag én de visualisatie daarvan.

Probleem 1

Stemrecht wordt uitgedeeld per (stemgerechtigde) persoon, niet per vierkante meter Nederland. Stel, Nederland is onderstaande fruitschaal (bron) met (als ik goedgeteld heb) 17 vruchten: 16 druiven en 1 appel. Qua aantal hebben de druiven een overweldigende meerderheid (94%, goed voor 142 zetels in de Fruitkamer), maar qua aantal pixels in het plaatje zitten de druiven niet veel boven de 50%: een vertekend beeld. (Nu hebben vruchten geen stemrecht, maar ik schrijf dit tijdens lunchtijd en had zin in een etensgerelateerde metafoor. Voor de ongezondere lezer: denk aan een eierbal en zes bitterballen.)

Een appel, zestien druiven
Een appel, zestien druiven

Dit gaat bij de Nederlandse gemeenten ook op. In de dichtstbevolkte gemeente, Den Haag, wonen 6231 mensen op elke vierkante kilometer. In Schiermonnikoog, de dunstbevolkte gemeente, is dit nog geen 23: een Haagse pixel is dus zo’n 275 keer zo ‘belangrijk’ maar precies even groot als een op Schiermonnikoog. Dat is stom.

Een beter beeld krijg je door de kaart van Nederland zodanig te vertekenen dat overal elke pixel voor evenveel kiezers staat. Hieronder staan twee kaartjes van de afgelopen Amerikaanse presidentsverkiezingen (bron). (Geen idee waarom Alaska en Hawaï kwijt zijn). Het eerste kaartje is een ‘gewone’ kaart van de VS. Er zijn veel meer rode dan blauwe pixels: Trump wins bigly! Het tweede kaartje ziet mal uit, maar geeft wel een accurater beeld: Trump kreeg ongeveer drie-vijfde van alle kiesmannen.


Het vertekenen van de kaart van Nederland – zoals in mijn schetsje hieronder (schetsjes maken is niet een van mijn unique selling points) – zou dit probleem oplossen. Dat is mooi, maar dan zijn we er nog niet. Er waren namelijk twee problemen, en dit was pas probleem 1.

Soort van kaart van Nederland waarbij elk vierkantje ongeveer 400 duizend mensen representeert
Soort van kaart van Nederland waarbij elk vierkantje ongeveer 400 duizend mensen representeert

Probleem 2

Waren we in de Verenigde Staten, dan hadden we dit probleem niet gehad. Daar hebben ze een winner-takes-all systeem: de blauwe staten gaven al hun kiesmannen aan Clinton, de rode staten aan Trump. In Nederland verdelen we de zetels gewoon over de partijen (waarbij de grote partijen de restzetels krijgen: in de hierbovengenoemde Fruitkamer gaan alle 14 restzetels naar de Druiven). Het kaartje met de uitslag 2012 lijkt te beweren dat de VVD een supermeerderheid heeft: waar Noord-Nederland nog PvdA stemt, en enkel losse gemeentes op ‘Anders, namelijk…’ gestemd hebben, is de kaart verder zo goed als blauw. Dat is natuurlijk een enorm vertekend beeld: uiteindelijk had de VVD 41 zetels, de PvdA 38 en de rest 71. Dat zie je niet op de kaart he? Ook nuanceverschillen kan je op deze kaart niet zien. Zo was hier in Groningen de PvdA de duidelijke winnaar (36,5% van de stemmen, de nummer twee (VVD), bleef op 16,5% steken). Een paar kilometer naar het zuiden, Haren, won de PvdA ook, maar was het verschil met de VVD maar 0,4 procentpunt (27,8% vs 27,4%). De ene rode gemeente is de andere dus niet. Haren werd dus een rode gemeente met 27,4% VVD-steun. Een gemeente als Capelle aan de IJssel had relatief minder VVD-stemmers dan Haren (26,5%) maar werd toch blauw gekleurd omdat de VVD daar wel de grootste was.

Maar hoe dan wel?

Samengevat: je hebt eigenlijk geen ruk aan dit soort kaartjes, behalve een extreem oppervlakkige eerste indruk. En daar heb je niet van dit soort kaartjes bij nodig. “PvdA blijft grootste in Noord-Nederland, VVD grootste in meeste andere gemeenten” geeft net zo veel informatie en kost veel minder papier.

Hoe moet het dan wel? Simpel: geef detailinformatie in de vorm van tabellen. Kranten zijn tegenwoordig online en dus niet meer gebonden aan een maximum hoeveelheid informatie. Geef per (grote) partij aan hoeveel steun er is voor die partij. Uit de pdf waar ook de eerste plaatjes in stonden is voor elke partij ook een plaatje zoals deze te halen:

Steun aan 50Plus in 2012. Kaart gemaakt door Jesse de Voogd
Steun aan 50Plus in 2012. Kaart gemaakt door Jesse de Voogd

Dit plaatje is wel informatief: het laat zien dat klaagbejaarden met name in Noord-Holland, Noord-Brabant en Limburg wonen. De andere plaatjes laten bv. zien dat D66 voornamelijk in Utrecht en Gelderland goed scoort, en dat men in de Bible Belt op de SGP stemt (joh!). Het voordeel van een online krant, is dat een en ander ook interactief kan. Websites als laten zien hoe dat moet.

In de online-editie heeft de redactie dus echt geen enkel excuus om nog langer de ‘wie is de grootste’ plots te laten zien: er is plek zat voor een kaart per partij. Maar in de papieren editie heeft de redactie dit excuus ook niet: waarom moeite steken in een kaart waar je niks aan hebt? De lezer verdient beter.

(PS: Ik ben natuurlijk niet de eerste die dit bedenkt, als je wat rondgooglet vindt je meer blogs, artikelen en betogen die hetzelfde zeggen. Maar het kan nooit kwaad om vlak voor de verkiezingen een goede boodschap te herhalen.)

Nuance in het Zwarte Pietdebat

Er stond vandaag op de voorpagina (en pagina T4) een stukje in de Telegraaf over het rapport van de kinderombudsman over Zwarte Piet, geheel in thema voorzien van een kop in chocoladeletters (het eerste deel van het stuk is hier gratis te lezen, voor het tweede deel ben je 15 cent kwijt):

pietHet is leuk om op de voorpagina van de Telegraaf professor genoemd te worden (ik ben ‘slechts’ universitair hoofddocent), maar de inhoud van het stuk is wat minder leuk. De Telegraaf stelt dat de (wetenschappelijke) onderzoeksmethode van de Kinderombudsman Margritte Kalverboer “flut” is en baseert dat op uitspraken van twee personen: een middelbare-schooldocent en mij. Die middelbare-schooldocent komt met anekdotisch bewijs om te zeggen dat het anekdotisch bewijs van Kalverboer niet-wetenschappelijk is…

Mijn bijdrage aan het stuk is het volgende:

piet2Dit heb ik inderdaad gezegd – het is dan ook een prima quote – maar dit is wel een kleine selectie uit een groter verhaal dat ik gehouden heb. En uit dat grote verhaal is absoluut niet de conclusie “Onderzoek Piet is flut” te halen (ook niet de conclusie dat ik het onderzoek goed vond, trouwens.) Ik heb geen fotografisch geheugen, maar weet nog wel wat ik gisteren aan de telefoon tegen de journalist gezegd heb and it goes a little something like this:

‘Ik heb het onderzoek van Margritte Kalverboer niet gelezen, alleen berichten erover in de media, dus ik kan niet beoordelen of de onderzoeksmethode correct was.

[Journalist: er is gebruik gemaakt van 4 groepsgesprekken met 10 kinderen. Wat vindt u daarvan?]

Ik: Dat ligt aan met welk doel het onderzoek gedaan is – en dat weet ik niet. Als het doel is om voorbeelden te vinden van kinderen die problemen ondervinden met Zwarte Piet, is het prima – en ik vermoed dat dat hier het doel was. Als je wilt laten zien dat een of ander verdrag geschonden wordt, heb je in principe genoeg aan n = 1: een enkel geval is al een schending. Of er sprake is van een schending van een verdrag, is een juridische discussie en daar kan ik niet bij helpen.

Is anderzijds het doel om op basis van het onderzoek iets te zeggen over de schaal waarop de Nederlandse jeugd problemen ondervindt met Zwarte Piet, dan is een steekproefgrootte van n = 40 zwaar onvoldoende. Dan heb je gewoon te veel onzekerheid door steekproeffluctuaties.’

In het stuk in de Telegraaf is de nuance die ik in eerste twee alinea’s uit genegeerd, waardoor mijn bijdrage uit z’n verband gerukt is. Jammer. Volgens mij is de Pietendiscussie juist niet gebaat bij gebrek aan nuance. Bij deze dan maar die nuance (ook al zal dit blog minder lezers trekken dan de Telegraaf).

PS: dank aan Onze Taal, want ik weet bij dit soort titels nooit of het een Zwarte Pietdebat, Zwarte-Pietdebat of Zwartepietdebat en welke letters hoofdletters moeten zijn. Geef mij maar wiskunde, daar zit tenminste consistente logica in.

De LSVb verricht structureel slecht onderzoek – en dat is erg

De LSVb komt regelmatig in het nieuws met spraakmakende onderzoeksresultaten. Niet zelden leiden deze onderzoeken tot Kamervragen en debatten bij lokale medezeggenschapsorganen. Aan de hand van drie voorbeelden toon ik aan dat de onderzoeken echter structureel zó slecht zijn uitgevoerd, dat het fundament voor de getrokken conclusies vaak totaal ontbreekt. Hierdoor worden publieke middelen verspild aan maatregelen om onbewezen problemen op te lossen. Dit leidt de aandacht en het geld af van de échte problemen – die er helaas genoeg zijn in het onderwijs.

Continue reading De LSVb verricht structureel slecht onderzoek – en dat is erg

Politieke kleur voorzitters Raden van Toezicht

Elke universiteit heeft een Raad van Toezicht (bij “bijzondere instellingen voor wetenschappelijk onderwijs” zoals Tilburg University en Radboud Universiteit heet dit een stichtingsbestuur. Dat is weinig meer dan een andere naam voor hetzelfde ding). Deze raad houdt toezicht op het bestuur van een universiteit. (Vandaar de naam.) Universiteiten vallen onder het ministerie van OCW, maar de minister heeft geen tijd om zelf dergelijk toezicht te houden, dus worden er commissies voor aangesteld. En zoals elke commissie, heeft ook een RvT een voorzitter.

Continue reading Politieke kleur voorzitters Raden van Toezicht

Die opkomstdrempel dus. Die is stom.

I told you so. In oktober schreef ik hier over een systeemfout in het referendum. Ook schreven onder andere Tom Louwerse en Kristof Jacobs op, en Ionica Smeets (€) in de Volkskrant  hierover.

Het probleem van de opkomstdrempel is dat deze zorgt voor twee conflicterende strategieën waarop voorstanders van (in dit geval) het associatieverdag kunnen ‘winnen’ bij het referendum:

  1. Niet stemmen – zodat de opkomst onder de 30% blijft;
  2. Wel stemmen – zodat er meer voor- dan tegenstemmen zijn.

Het probleem is dat niemand weet wat de andere voorstanders doen. Als de voorstanders hun keuzes verdelen over strategie 1 en strategie 2, kan het zomaar zijn dat de opkomstdrempel toch gehaald wordt en dat het aantal tegenstemmen de meerderheid heeft. En dat lijkt precies te zijn wat er nu aan de hand is.

Wat cijfers (op basis van de voorlopige uitslagen zoals die op donderdagmorgen 08:00 in de media te lezen zijn):

  • Aantal stemgerechtigden: 12.838.934
  • Opkomst: 32,2%, dus ca. 4,134 miljoen
  • Tegenstemmen: 61,1% van 4,134 miljoen, dus 2,526 miljoen
  • Voorstemmen: 38,1% van 4,134 miljoen, dus 1,575 miljoen
  • (en iets meer dan 30 duizend blanco stemmen; ongeveer de kiesdrempel van de afgelopen TK-verkiezingen)

Tegen heeft dus duidelijk gewonnen (gefeliciteerd hoor), maar dat hoeft niet te betekenen dat er ook meer tegenstanders dan voorstanders zijn: we weten niet hoeveel voorstanders vanwege ‘strategie 1’ zijn thuisgebleven.

Wat hadden de voorstanders anders moeten doen om te winnen? Twee opties:

  1. Meer Strategie 1 hanteren. De opkomst ligt 2,2 procentpunt boven de drempel. Waren 282 duizend van de anderhalf miljoen voorstemmers thuis gebleven, dan was de opkomst onder de 30% gebleven. Omdat de politiek heeft aangegeven de mening van 29,9% van de Nederlanders niet te boeien en de mening van 32,2% van de Nederlanders als bindend te beschouwen, zouden die extra thuisblijvers het referendum ‘ongeldig’ gemaakt hebben. Dit houdt in dat van elke vijf-en-een-halve voorstemmer gisteren, er eentje eigenlijk beter thuis had kunnen blijven.
  2. Meer Strategie 2 hanteren. Nee had ongeveer een miljoen stemmen meer, dus als een miljoen extra voorstanders gestemd hadden, had voor gewonnen. Een miljoen is best veel; dit komt er op neer dat 37,6% van de voorstanders bewust thuisgebleven zou zijn vanwege Strategie 1.

We weten natuurlijk niet hoeveel voorstanders thuis zijn gebleven, en we weten niet of optie 1 of 2 hierboven realistisch is. Zoiets valt best te peilen, bv. door Maurice de Hond of een collega van hem; maar die had sowieso best kunnen peilen hoe Nederlanders over dat verdrag met Oekraïne denken. De Hond had dat ook een kleine 40 miljoen goedkoper kunnen doen. Het is tenslotte slechts een raadgevend referendum. Dat PvdA en CDA vooraf al zeiden het als een bindend referendum te zien, daarmee de “wil van het volk” (die ooit heeft vastgelegd dat voor zo’n referendum een grondwetswijziging nodig is) negerend, is erg jammer. Niet alleen heeft de politiek een weeffout in het referendum gestopt, ze stoppen ook een weeffout in de uitwerking. Op gebrek aan consistentie kan je ze tenminste niet betrappen…

NB: er zijn natuurlijk ook tegenstanders thuisgebleven, bijvoorbeeld omdat ze hun stempas kwijt waren of nooit  stemmen. Dat soort mensen heb je ook bij de voorstanders en bij elke verkiezing. Het gaat mij in deze blogpost puur om de mensen die om strategische redenen thuis zijn gebleven: dat is een unicum, want elke andere verkiezing is zodanig opgezet dat een extra stem nooit ongunstig kan zijn.

Wat zou er nu moeten gebeuren?

  1. De politiek moet over het verdrag praten. Hoe terecht de klacht over de weeffouten ook is, dat 2,5 miljoen mensen gisteren tegen gestemd hebben, is een duidelijk signaal. (Kleine nuance: nu heeft 0,6% van de EU-bevolking zich tegen het verdrag uitgesproken.) Of die tegenstem nu tegen het verdrag was, of tegen ‘Brussel’ of wat dan ook, doet daar niet aan af. Bij reguliere verkiezingen vragen we ook niet aan de stemmers of ze wel valide argumenten hebben gebruikt om een partij te kiezen.
  2. De politiek moet razendsnel (want Baudet c.s. zinspeelt al op een volgend referendum; en ook aan de andere kant van het politieke spectrum staat men in de startblokken) die Referendumwet aanpassen. Hoe heb ik in mijn vorige blog al uitgelegd: of haal die opkomstdrempel weg (het is tenslotte slechts raadgevend), of zet de opkomstdrempel alleen op het aantal tegenstemmen. Het huidige systeem leidt tot chaos, zo is wel gebleken.