Category Archives: science

Nieuwe Ranking: Meest Groningse Universiteiten

Hier in Groningen houden de beleidsmakers wel van een ranking waar Groningen goed in scoort. Zo zijn wij onlangs verkozen tot een van de top 12 Groenste universiteiten van de hele wereld en bij het overzicht van de beste universiteiten van minimaal vierhonderd jaar oud staan we zelfs in de top 8. Het aantal verschillende rankings groeit explosief en de Wet van de Grote Getallen dicteert dat er uiteindelijk wel een ranking moet komen waar Groningen niet gewoon goed scoort, maar het allerbeste van de hele wereld. Om het toeval een handje te helpen, presenteren we bij dezen een nieuwe ranking: die van de Meest Groningse Universiteiten™. Weinig verrassend staat de RUG fier bovenaan deze ranking. De opmars van Duitse universiteiten in de top van de lijst toont het internationale karakter van Groningen aan, hetgeen natuurlijk terugvloeit tot de in Greetsiel geboren Ubbo Emmius. Opvallende afwezige is de Hanze University of Applied Sciences. Hoewel er geografisch zeer goed gescoord werd door dit instituut, werd zij gediskwalificeerd omdat zij in het Nederlands geen universiteit is. Hetzelfde geldt voor de Martinitoren.

We hebben zelfs een logo geknutseld!
Kosten nog moeite: We hebben zelfs een logo geknutseld!

 

We houden je niet langer in spanning, hier is de top 10:

  1. Universiteit Gent, België

Hoewel deze academie sinds 2003 anders heet, wordt hij nog steeds liefkozend “die andere RUG” genoemd. Nèt goed genoeg voor een plekje in de top 10!

  1. University of Minnesota, Minneapolis & St. Paul, VS

Op een kleine anderhalf uur rijden van Groningen, Minnesota ligt de universiteit van Minnesota. Aangezien er in Groningen, Minnesota geen hogere onderwijsinstelling is, zijn de 30 inwoners van Groningen aanwezen op de University of Minnesota in de twin cities.

  1. University of Tasmania, Australië

De enige universiteit ter wereld die (indirect) vernoemd is naar een Lutjegaster. Absoluut een +1 voor Abel, want dat zien we Arjen Lubach of Klaasje van K3 nog niet zo snel voor elkaar krijgen.

  1. Universiteit van Basel, Zwitserland

Vloeistoffen zouden zich maar raar gedragen als ze zich niet zouden houden aan de Wet van Bernoulli. Bernoulli publiceerde hierover toen hij in Bazel werkte, maar de inspiratie kwam ongetwijfeld uit zijn jeugd in Groningen.

  1. University of North Carolina, Chapel Hill, VS

Elke ranking heeft wel zo’n universiteit er tussen waarvan je denkt “wat doet die daar?” Om deze ranking zo echt mogelijk te laten lijken, is hier de wenkbrauwfrons-universiteit.

  1. Universiteit Leiden, Nederland

Leiden teert qua reputatie graag op de Nobelprijs voor de Natuurkunde die haar werknemer Heike Kamerlingh Onnes ontving. (Dat mag, hier in Groningen vernoemen we hele stadsdelen naar Amsterdammer Frits Zernike.) HKO had die prijs natuurlijk nooit gewonnen, als hij niet eerst geboren en gepromoveerd was. Beiden in Groningen, waar anders.

  1. University of Glasgow, Glasgow, Schotland, VK

Als je op “University of G” googlet, is deze universiteit de eerste suggestie na de RUG.

  1. Carl von Ossietzky Universität Oldenburg, Duitsland

Dit is de enige universiteit buiten de provincie Groningen op minder dan een uur reisafstand per weg.

  1. Georg-August-Universität Göttingen, Duitsland

Het begint met een ‘G’ en eindigt met ‘ingen’. Weinig universiteiten zijn zo dicht bij Groningen als deze.

  1. Rijksuniversiteit Groningen, Nederland

Hashtag ergaatnietsbovengroningen.

No, the resit exam is not more difficult

It’s January. Exam time. And for the unfortunate ones, next month is resit-exam time. Each year I get the same complaints after the resit exam, so I’ve decided to write a blog post about it. From now on, complaining students will receive no more than the hyperlink to this blog.

Each year, I end my course with an exam. For those that have to miss the exam due to force majeure, a resit opportunity exists. Fortunately, it’s a relatively small number of students that have to miss the exam due to illness, bereavement, etc. The resit opportunity is also open to students that did participate in the first exam, but failed.

Most of the time, the pass rate of the resit exam is considerably lower than the pass rate on the first exam. Students – and especially those that failed the resit exam – see this as proof of some evil plan of mine: I made the resit much more difficult than the first opportunity. Why else would the pass rate be lower? Statistics don’t lie!

True, they don’t. But people – including students that fail a statistics course two times in a row – are prone to misinterpreting statistics. And they are misinterpreting the numbers here.

The grade a student receives at an exam depends on three aspects: (1) his/her proficiency (usually a combination of motivation and intelligence); (2) the difficulty level of the exam; (3) coincidence (being (un)lucky with guessing multiple choice questions, ‘not having a good day’, etc.).

Let’s make a thought experiment. Suppose that all students would participate in both the first opportunity as the resit exam. That way, you end up with two grades for everyone. Let’s keep things easy and only look at whether a student passes or fails the exam opportunity.

Let’s make up some numbers now (homework exercise: re-do this example with different numbers and observe that the conclusion still holds true). Suppose we’ve got 100 students  (because 100 is easy to compute with). Here they are:

Opportunity 2
Pass Fail
Opportunity 1 Pass 48 10
Fail 12 30

As you can see, the pass rates of Opportunity 1 (48% + 10% = 58%) and Opportunity 2 (48% + 12% = 60%) are comparable; the performance on the resit is actually even slightly better.  Nearly half the students are able to pass twice, nearly a quarter of students passes once, and 30 students won’t pass this year.

This, however, is not data that you would observe in reality. The students that pass the first opportunity need not take the second one. (Even more so: if you pass the first and earn the course credits, you will lose these again by failing in the resit). Thus, we only observe the resit-results for those that failed the first opportunity:

Opportunity 2
Pass Fail
Opportunity 1 Fail 12 30

Now the pass rate suddenly is 12/42 = 28.6%, much lower than the 58% pass rate of the first opportunity. Thus, the fact that the resit exam has a much lower pass rate than the first opportunity exam does not imply that the resit exam is more difficult. If you still believe it does, you don’t receive a passing grade on your statistics exam.

Thanks to Nynke for proofreading.

One more time: NWO, Gender Bias and Simpson’s Paradox

As an introduction, a summary of the history behind this blog post:

  1. On September 21st, Romy van der Lee and Naomi Ellemers published a paper in PNAS in which they claim to have found compelling evidence of gender bias against women in the allocation of NWO Veni-grants in the period 2010-2012.
  2. The day after, I posted a blog post in Dutch criticising this study (and they day after that an abridged version in English). In these posts, I explained how the significance of the result is due to Simpson’s paradox – thus a statistical artefact rather than true evidence for gender bias. This blog post sparked an amount of public interest which was new to me. I normally publish on linear algebra, (minor) improvements to statistical procedures and other topics that are generally regarded as boring. This time, I’ve been interviewed by Nature, Science and various Dutch academic newspapers. (Great evidence on how post-peer review and blog posts are Science 2.0 – but that’s another topic).
  3. Last week, an abbridged and updated version of my blog post appeared as a peer-review letter in PNAS.
  4. Independently, Beate Volker and Wouter Steenbeek had their letter published in PNAS a few days later.
  5. Van der Lee and Ellemers responded to both letters (response 1 and 2). In their response they misinterpret the consequences of the Simpson’s paradox. I wasn’t planning on responding again – my time is limited – but since they repeat this incorrect interpretation in multiple responses as well as in the newspaper, I find it important to outline why their statistical reasoning is flawed.

In this blog post I will outline that a correct interpretation of Simpson’s paradox results in insignificance of many p-values and not just the one I focussed on in my criticism. In their response to my letter, Van der Lee and Ellemers wrote:

“Further, Simpson’s paradox cannot explain that fewer women than men are selected for the next phase in each step of the review procedure”

In their response to Volker and Steenbeek, they phrased this as:

“Simpson’s paradox also cannot account for the observation that in every step of the review procedure women are less likely than men to be prioritized.”

With this response, they refer to Figure 1:

Figure 1 from Van der Lee and Ellemers (2015)
Figure 1 from Van der Lee and Ellemers (2015)

It is clear from this figure that the gender bias seems to increase in each step of the process. It is true that I, in my letter, focussed on gender bias in the final step – the number of awarded grants. This, however, was due to the word count limit that PNAS imposes and not because the other steps cannot be explained by Simpson’s paradox as well: they can.

It is easier to show this through a constructed example, rather than the true NWO data. Suppose that the setting is as follows. The funding agency has two research disciplines, A and B. Both receive 100 applications and through three stages (pre-selection, interviews, awards) it is decided who gets funded. In neither field A nor field B gender bias is present: gender is no issue in this example. However, the percentage of applications by women differs per field, and so does the amount of applications that receives funding.

Field A receives 100 applications: 75 by men and 25 by women. Finally, 40 applications will be funded. So 60 applicants receive bad news, which is equally distributed over the three steps: in each step, 20 scientists will be disappointed. In the case of total absence of gender bias (and coincidence), this leads to the following table:

 Field A # M # F % M % F
Step 0: Applications 75 25 75% 25%
Step 1: Pre-selection 60 20 75% 25%
Step 2: Interviews 45 15 75% 25%
Step 3: Funding 30 10 75% 25%

As you can see, in each step the gender ratio is 75%-25%. No gender bias at all.

Field B also receives 100 applications: 50 by men and 50 by women. Out of these 100, only 10 will be funded: in each step 30 applications lose out. This leads to the following table:

 Field B # M # F % M % F
Step 0: Applications 50 50 50% 50%
Step 1: Pre-selection 35 35 50% 50%
Step 2: Interviews 20 20 50% 50%
Step 3: Funding 5 5 50% 50%

Thus also no gender bias in Field B. If we combine the tables for fields A and B (by simply adding up the frequencies for each cell), we obtain:

 Field A + B combined # M # F % M % F
Step 0: Applications 125 75 62.5% 37.5%
Step 1: Pre-selection 95 55 63.3% 36.7%
Step 2: Interviews 65 35 65.0% 35.0%
Step 3: Funding 35 15 70.0% 30.0%

Converting these percentages into a graph similar to Van der Lee and Ellemers’ Figure 1 provides:

Figure 1 example

The pattern from the table and figure is very clear: in each step of the process men seem to be favoured at the cost of women. Although the percentages for this example are obvious different than those from the NWO-data, the type of pattern is the same. Since in my example there is no-gender bias whatsoever, Van der Lee and Ellemers’ claim that “Simpson’s paradox also cannot account for the observation that in every step of the review procedure women are less likely than men to be prioritized” evidently is false. The power of paradoxes should not be underestimated.

As a final note: as outlined above, the significant results claimed by Van der Lee and Ellemers is lost once correct statistical reasoning is applied. It is important though to realise that the absence of  significant gender bias does not imply that there is no gender bias. There could be and it is important to find out whether – and where! – this is the case or not. To conclude, I quote Volker and Steenbeek, who write:

More in-depth analyses with statistical techniques that overcome the above-mentioned issues are needed before jumping to conclusions about gender inequality in grant awards.

Vraagtekens bij LSVb-onderzoek dat vraagtekens bij Engelse vaardigheid van docenten zet

English summary: A Dutch Student Union did some research and complains about the stone coal english of university teachers. I complain about the quality of the research.

TL;DR: het onderzoek van de LSVb trekt duidelijke conclusies. Die hadden niet getrokken mogen worden omdat (i) de feitelijke steekproef te klein is en (ii) de steekproef niet representatief is.

De LSVb kwam vandaag in het nieuws met haar onderzoek naar taalvaardigheid van docenten bij hbo en universiteit. Dit onderzoek kan grote impact hebben – zo vindt morgen in de Tweede Kamer een hoorzitting over Engels in het Hoger Onderwijs plaats, waar iemand namens de LSVb dit onderzoek zal verdedigen. Het zou dus fijn zijn als de conclusies uit dit onderzoek hout snijden. En dat doen ze niet. Niet eens een beetje.

Qua gebruikte methodologie zitten er twee grote haken en ogen aan het onderzoek: de steekproefomvang en de representativiteit van de steekproef.

Steekproefomvang. Voor het onderzoek hebben n = 269 studenten enkele vragen beantwoord (p.5). Omdat het onderzoek grotendeels gaat over (de kwaliteit van) Engelstalig onderwijs, zijn studenten die alleen maar Nederlandstalig onderwijs krijgen niet zo relevant voor dit onderzoek.  Bijna een kwart van de deelnemers (24%, p.8) heeft geen enkel studie-onderdeel in het Engels. Dit zijn 64 of 65 studenten (ik ken alleen de afgeronde percentages), zodat er maar 204 a 205 relevante studenten overblijven (laat ik aardig zijn en van 205 uit gaan). Da’s niet veel (ongeveer 4 à 5 studenten per onderwijsinstelling). Vooral omdat een volgend kwart van de studenten (26%) minder dan de helft van de vakken in het Engels heeft. Zij moeten hun uitspraken dus baseren op misschien wel dat ene college dat ze ooit in het Engels hadden. Het spreekt voor zich dat zij daarmee een minder goed beeld van de algemene Engelse taalvaardigheid van docenten hebben dan van studenten die 60ECTS per jaar in het Engels doen. Het aantal studenten in de steekproef dat minimaal een halve studie in het Engels krijgt, is dus zo’n 135.

Wat is nu het probleem met een kleine steekproef? Onzekerheid. Je bent niet geïnteresseerd in de mening van de steekproef, maar in die van de populatie van alle duizenden studenten in het hoger onderwijs. Je gebruikt de steekproef enkel om daar iets over te kunnen zeggen. En hoe kleiner de steekproef, hoe minder je kan zeggen. Stel je gooit 4x met een dobbelsteen en werpt daarbij twee keer een zes. In je steekproef heb je bij 50% van de worpen zes gegooid, maar het zou niet bij je opkomen om daaruit te concluderen dat de dobbelsteen onzuiver is. Het kan gewoon toeval zijn.

Zo ook hier. Een van de hoofdconclusies in het rapport is dat de meerderheid van de studenten het niveau van Engels van docenten ondermaats vindt. (Althans, deze conclusie is de kern van de kop boven het bericht.) In de steekproef heeft namelijk 57% dit aangegeven. Maar dat betekent niet dat in de populatie ook precies 57% dit vindt: door toeval kan het zo zijn dat de steekproef wat te kritisch, of juist niet kritisch genoeg is. En hoe kleiner de steekproef, hoe groter de rol van het toeval.

Een veelgebruikte manier om die onzekerheid uit te drukken is via een betrouwbaarheidsinterval. Kort door de bocht gezegd neem je met zo’n interval een onzekerheidsmarge mee. Er zijn verschillende manieren om in deze context zo’n interval te maken (als je daar meer over wilt weten, Wikipedia is een goed startpunt) en een snelle, makkelijke manier is via de benadering met een normale verdeling. Een 95% betrouwbaarheidsinterval voor een geschatte proportie p wordt dan gegeven door de formule p ± √(p (1 – p) / n). In dit geval komt het er op neer dat het betrouwbaarheidsinterval gegeven wordt door (50%, 64%).  Waarschijnlijk wel een meerderheid, maar hoe sterk die meerderheid is, is niet goed te schatten. En zelfs “waarschijnlijk wel een meerderheid” is niet hard te maken vanwege het probleem met representativiteit.

Steenkool
Het obligate blogplaatje. Ditmaal: steenkolen

Representativiteit. De LSVb maakt gebruik van een eigen studentenpanel van 5000 studenten. Er wordt niet duidelijk gemaakt hoe dit panel is samengesteld. Mogelijk is het een mooie, representatieve afspiegeling van de Nederlandse studentenpopulatie. Maar het kan ook zijn dat dit 5000 studenten zijn die “ja” antwoordden op de vraag “wil je in het panel” van de LSVb. En dan kan het best een vertekend panel zijn: bij een vakbond zie je bovengemiddeld vaak van die aktivistiese (zo spellen ze dat), shag-rokende types. De bedrijfseconomiestudent die bij het corps zit omdat hij, net als z’n pa, later iets bij een bank wil doen, is wat ondervertegenwoordigd. Maar het representativiteitsprobleem houdt hier niet op – het begint juist: van die 5000 hebben er maar 269 meegedaan met deze enquête. Dat is 5,4%. Dat is weinig. Dat is een probleem. Met name omdat je niet weet welke vijf procent meegedaan heeft. Zijn het de vijf procent die best tevreden zijn, de vijf procent die graag hierover willen klagen, of een mooie willekeurige steekproef? Je weet het niet en je kan het ook niet te weten komen. Het minste dat de onderzoekers hadden moeten doen, is in de discussie van hun rapport hierop reflecteren, maar er staat geen letter over in. Ze zouden er goed aan doen om dit recente stuk van Sanne Blauw en Armen Hakhverdian te lezen: Sanne en Armen leggen haarfijn uit wat voor rare uitspraken je kan krijgen als je niet goed over de representativiteit nadenkt.

Ten slotte. De conclusies die het LSVb trekt, had zij niet op deze manier mogen trekken. Op basis van dit onderzoek zijn slechts twee open-deur-conclusies te trekken:

  • Uit het onderzoek blijkt dat een deel van de studenten tevreden is over de taalvaardigheid van hun docent.
  • Uit het onderzoek blijkt dat een deel van de studenten ontevreden is over de taalvaardigheid van hun docent.

Dat betekent niet dat er morgen in de Tweede Kamer geen debat hierover kan plaatsvinden. Er zijn goede inhoudelijke redenen om Engels in het hoger onderwijs toe te juichen en er zijn goede inhoudelijke redenen om Engels in het hoger onderwijs juist niet te willen. Een inhoudelijk debat kan gevoerd worden. Maar niet op basis van dit LSVb-rapport.

NWO, Gender bias and Simpson’s paradox

This blog post is an abridged and translated version of  my blog post in Dutch. A version of this blog post, further abridged to fit within the 500 word limit, has been submitted to PNAS as comment to the paper Gender contributes to personal research funding success in The Netherlands.

In the early seventies, the University of California, Berkeley received sincere negative attention due to supposed gender bias in graduate admissions. The data for fall 1973 clearly seemed to point in this direction:

Nr. of applications admissions
Male 8442 44%
Female 4321 35%

Out of 8442 male applicants, 44% was admitted, whereas out of the 4321 female applicants, only 35% was admitted. The χ2-test on the 2×2 frequency table (or any other sensible test for 2×2 tables) will give a very significant result, with a p-value smaller than one in a billion. A scrutiny of the data in Science by Bickel, Hammel and O’Connel (1975) revealed that there was no evidence for gender bias. This apparent counterintuitive result was due to the interaction with an external variable. Not all departments at the university had the same admission rate, and there was a relation between the proportion of female applications and the admission rate.

Competitive departments such as English received relatively many female applications, whereas departments such as chemistry, with a surplus of male applications, where much less selective. When studying the male/female admissions on a departmental level, the supposed gender bias disappeared. (For the fall 1973 data, there even was evidence of bias in favour of women.) This paradox is termed spurious correlation or Simpson’s paradox, after the British statistician Edward Simpson. (For a recent open access paper on Simpson’s paradox in psychological science, see Kievit, Frankenhuis, Waldorp and Borsboom, 2013.)

The authors, correctly, point at another pitfall: although there seemed to be evidence of bias (in favour of women) for fall 1973, there is no such evidence for other years. A significant result once in a number of years, could just be coincidence.

In the analysis by Van der Lee and Ellemers the same two flaws occur in a setting not too dissimilar from the one discussed above. Based on the results of n = 2,823 grant applications to the “VENI programme” of the Netherlands Organisation for Scientific Research, NWO, in the years 2010, 2011 and 2012, the authors conclude that the data “provide compelling evidence of gender bias in personal grant applications to obtain research funding”. One of the main results this claim is based upon the following table:

applications Succesfull
Male 1635 17,7%
Female 1188 14,9%

When applying a standard χ2-test to the data, the authors find a just significant p-value of .045. It is not only questionable to denote a p-value this close to 0.05 as “compelling evidence”, due to Simpson’s paradox, this p-value simply is wrong.

In the supplementary table S1 (Van der Lee and Ellemers, 2015), available online without paywall, a breakdown of the 2,823 grant applications per discipline is presented. The proportion of female applicants varies from 11.8% (physics) to 51.4% (health sciences), and the total succes rate varies from 13.4% (social sciences) to 26.3% (chemical sciences).

Proportion of applications by female scientists vs total success rate. Size of the markers is proportional to number of applications within the discipline.
Proportion of applications by female scientists vs total success rate. Size of the markers is proportional to number of applications within the discipline.

The figure above visualises these data and immediately shows a clear negative relation between the proportion of female applicants and the total succes rate (i.e. the rate for men and women combined). In four out of the nine disciplines, women have a higher succes rate than men, and in five out of nine, men have a higher succesrate than women. When taking into account that multiple comparisons are performed, for none of the disciplines the gender bias – either in favour of women or in favour of men – is significant (at the α = .05 level). Thus, when taking into account the spurious correlation, the “compelling evidence” is lost.

Bickel et al. (1975) pointed at a second pitfall, concerning focussing on the year(s) where the difference was signicant and ignoring the other year(s) where it was not. Again, a similar situation occurs here. NWO publishes the results of all VENI rounds since its establishment in 2002 until 2015 (except for 2012) on its website. In some years, such as 2011, men received relatively more grants than women; and in other years, such as 2010 and 2015, the reverse was true. The z-test for log-odds ratio only provides a significant sign of gender bias in favour of men for the years 2010 (z = 2.002, p = .023) and 2011 (z = 1.752, p = .040) and a significant gender bias in favour of women for 2002 (z = 2.005, p = .022). When applying the Bonferroni correction for multiple comparisons none of these gender biases are significant.

Conclusion. Van der Lee and Ellemers failed to recognise the dependence of the results on the different NWO disciplines. Futhermore, they focused on results during a three-year, whereas the results of the other periods in which VENI-grants where provided did not confirm the just significant results for 2010-2012. As a consequence, the conclusion of “compelling evidence of gender bias” is inappropriate. In the data, there is no evidence for gender bias (which does not have to mean that there is no gender bias). In discussions on institutional sexual discrimination, it is important to stay factual.

Furthermore, I find it worrying that this analysis gets published.  Simpson’s paradox is one of statistics most well-know paradoxes (I teach it yearly to a new batch of psychology students in Groningen) and PNAS is a high-ranking journal with an impact factor of nearly ten. This paper – where conclusions are drawn on basis of flawed methodology – is not an exception. Apparently, the current peer-review system is inadequate in filtering out methodological flaws in papers. If a system doesn’t work, it should be changed.

Final note. The paper by Van der Lee and Ellemers focusses on more tests than just the one criticised by me here. However, these other tests make use of related data (e.g. the number of applicants that go through to the interview-stage) and it is not unlikely that Simpson’s paradox plays a role there too. (The data provided in the paper was insufficient for me to check this.) And even if it does not: the authors are providing interpretations to effects with tiny effect sizes (partial eta-squareds of 0.006(!))… Furthermore, the paper contains a section on “language use” in NWO documents. My comments do not apply to this section.

NWO, Discriminatie en de Simpsonparadox

Begin jaren ’70 was er ophef in de media: de Universiteit van Californië in Berkeley discrimineerde bij het toelaten van studenten. De toelatingscijfers van 1973 waren duidelijk:

Aantal kandidaten Toegelaten
Mannen 8442 44%
Vrouwen 4321 35%

Mannen worden vaker toegelaten dan vrouwen. Met een statistische toets is na te gaan of deze cijfers niet gewoon toeval hadden kunnen zijn. Er zijn verschillende toetsen die geschikt zijn voor dit soort analyses (de een wat geschikter dan de ander), zoals de chi-kwadraat toets (eventueel met continuïteitscorrectie) of de exacte toets van Fisher. Welke geschikte toets je ook neemt, het antwoord is duidelijk: de kans dat deze vrouwonvriendelijke resultaten het gevolg van toeval zijn is verwaarloosbaar klein: kleiner dan 1 op een miljard.

Een rechtzaak volgde vanwege dit overduidelijk geval van discriminatie. Een team van statistici uit Berkeley, onder leiding van Peter Bickel, besloot de data nader te bestuderen. Hun conclusie, beschreven in het paper “Sex Bias in Graduate Admissions: Data from Berkeley” (paywall) in Science, is duidelijk: er is helemaal geen sprake van discriminatie.

Wat was het geval? Vrouwen bleken zich, in het algemeen, aan te melden voor studies waarbij een lager toelatingspercentage gold vergeleken bij de studies die voor mannen populair waren. Zo was er een faculteit (faculteit ‘B’ noemt Wikipedia deze; ik kan de data van Bickel et al zelf ook niet inzien vanwege de paywall) waar bijna twee-derde van de aanmeldingen gehonoreerd werden, terwijl bij een andere faculteit (‘E’) slechts een kwart werd toegelaten. En wat bleek: de toegankelijke faculteit B was veel populairder bij mannen (560 aanmeldingen) dan bij vrouwen (25 aanmeldingen) terwijl de strenge faculteit E twee keer zo veel vrouwen (393 stuks) als mannen (191 stuks) moest beoordelen. Indien rekening gehouden werd met de verschillen in strengheid van de verschillende faculteiten, verdween de discriminatie volledig. (Sterker nog: bij vier van de zes faculteit lag het toelatingspercentage van vrouwen hoger dan dat van mannen).

Dit fenomeen staat bekend als de Simpsonparadox, vernoemd naar de Britse statisticus Edward Simpson die in 1951 een paper getiteld “The Interpretation of Interaction in Contingency Tables” publiceerde (semi-paywall). Dit femomeen is breed bekend.

Tot zo ver de jaren ’70. September 2015 was er ophef in de (sociale) media: NWO discrimineert bij het toekennen van onderzoeksbeurzen. In opdracht van NWO zelf, hebben Leidse psychologen Romy van der Lee en Naomi Ellemers zich verdiept in de door NWO toegekende subsidies van de rondes van het VENI-subsidieschema uit 2010-2012. Hun paper “Gender contributes to personal research funding success in The Netherlands” (paywall, maar het ‘supplementary material’ is dan weer wel gratis) verscheen onlangs in PNAS. De cijfers zijn duidelijk:

Aantal Beursaanvragen toegekend
Mannen 1635 17,7%
Vrouwen 1188 14,9%

De cijfers zijn wellicht niet zo overduidelijk als die van het voorbeeld uit Berkeley, maar mannen krijgen inderdaad relatief vaker een beurs toegekend. De auteurs zelf schrijven “The success rate was systematically lower for female applicants than for male applicants [14.9% vs. 17.7%; χ2(1) = 4.01, P = 0.045, Cramer’s V = 0.04]”. De p-waarde zit nèt onder de magische 5%-grens, dus het is significant, dus het is bewezen: NWO discrimineert! Althans, dat was de strekking van de krantenkoppen. Maar zo simpel ligt het niet. Op de hier gebruikte methodiek kom ik onderaan deze post nog terug, maar mijn hoofdbezwaar is dat hier ook duidelijk sprake is van de Simpsonparadox.

In de online tabel zijn de toekenningspercentages uitgesplitst naar de 9 verschillende onderzoeksprogramma’s van NWO. En wat blijkt: er is zowel een enorm verschil in het aandeel van vrouwen bij de aanvragen per programma (variërend van 11% tot 51%) als een enorm verschil in honoreringskans per programma (variërend van 13% tot 26%):

Relatie percentage vrouwelijke aanvragers (horizontaal) en honoreringskans (verticaal)
Relatie percentage vrouwelijke aanvragers (horizontaal) en totale honoreringskans (mannen & vrouwen gezamenlijk) (verticaal)

Het aandeel vrouwelijke aanvragers is het hoogst bij ZonMW (gezondheidswetenschappen) en MaGW (Maatschappij- en Gedragswetenschappen) en dit zijn precies de twee programma’s met de slechtste honoreringskans. Het aandeel vrouwelijke aanvragers is het laagst bij Natuurkunde (een bedroevende 11%), het programma met de hoogste honoreringskans.

Van de negen programma’s zijn er vier waarbij vrouwen een hoger honoreringspercentage hebben dan mannen: Exacte wetenschappen, Geesteswetenschappen, ‘Technologiestichting STW’ en ‘Gebiedsoverschreidend’. Bij de overige vijf programma’s, Scheikunde, Natuurkunde, Aard- en Levenswetenschappen, MaGW en ZonMW, halen mannen net betere resultaten.  In geen der gebieden is het verschil zodanig dat – ermee rekening houdend dat meervoudige toetsen worden uitgevoerd – het verschil significant genoemd kan worden.

Oftewel: het discriminatievermoeden wordt in dit geval niet zo extreem sterk onderuit gehaald als in het klassieke voorbeeld uit Berkeley, maar wel sterk genoeg om te zien dat er niet geconcludeerd kan worden, op basis van deze data, dat er sprake is van discriminatie. NB: het tegendeel – er is geen sprake van discriminatie – kan ook niet geconcludeerd worden. De enige conclusie is dat uit de cijfers geen solide conclusie te trekken valt.

Tot zover de Simpsonparadox bij de NWO-cijfers. Nog enkele andere opmerkingen:

1) De cijfers per NWO-programma duiden naar mijn mening wel op een vorm van geïnstitutionaliseerde discriminatie: in geen van de negen onderzoeksprogramma’s vormen vrouwen de duidelijke meerderheid terwijl er in vier van de negen programma’s minstens twee keer zo veel mannen een aanvraag doen als vrouwen. Dit zijn nog steeds de bètarichtingen als scheikunde, natuurkunde, exacte wetenschappen en technologie (STW). Maar die vorm van discriminatie valt NWO niet (direct) aan te rekenen: dat is een maatschappelijk probleem dat op alle niveaus aangepakt moet worden. Het land heeft meer Ionicas Smeets, Ashas ten Broeke, Hannahs Fry en genderneutraal voedsel nodig, maar de rol die NWO daarin kan spelen is beperkt.

2) Ik zou nog terugkomen op de zin “The success rate was systematically lower for female applicants than for male applicants [14.9% vs. 17.7%; χ2(1) = 4.01, P = 0.045, Cramer’s V = 0.04]”. Bij deze. De chi-kwadraattoets is niet de meest geschikte toets om toe te passen bij 2×2 tabellen met frequenties. Dit omdat de chi-kwadraat een zogenaamde asymptotische toets is: hoe kleiner de frequenties in de tabel, hoe onnauwkeuriger de data. Een veelgebruikte correctie die die onnauwkeurigheid deels weghaalt, is die van Yates. Als je die toepast, verandert de p-waarde minimaal (want we werken hier met best grote frequenties): van 0,045 naar 0,051. Het verschil is minimaal, maar het springt wel nèt over de magische 5%. Als je met grote stelligheid een p-waarde vlak onder 5% als een duidelijk effect presenteert, zou je met dezelfde stelligheid een p-waarde daar vlak boven als “geen effect gevonden” moeten afdoen. Een ander alternatief – en beter omdat het geen asymptotische benadering is – is de exacte toets van Fisher. Deze geeft p = 0,046 (hoera! net aan de significante kant!). Er is eigenlijk geen enkele reden om de Fishertoets niet te gebruiken. Het enige nadeel is dat deze computationeel veel zwaarder is dan de chi-kwadraat toets. Dat was een terecht nadeel in de jaren ’20, toen Fisher die test ontwikkelde en Turing de moderne computer nog niet had uitgevonden. Anno 2015, kost de Fishertoets op deze data mijn computer 3 milliseconden.

3) Niet alleen is de p-waarde net wel/net niet significant, de effectgrootte is minimaal: Cramer’s V was gelijk aan 0,04. Als er al een verschil zou zijn tussen toelatingskansen van mannen en vrouwen, dan zou dit verschil erg klein zijn. Een klein beetje discriminatie is natuurlijk nog steeds ongewenst, maar de combinatie van minieme effectgrootte en nauwelijks significante p-waarde vereisen een veel voorzichtigere conclusie dan de conclusie “The data reported herein provide compelling evidence of gender bias in personal grant applications to obtain research funding.” van Van der Lee en Ellemers. (Hierbij moet wel opgemerkt worden dat de auteurs nog andere zaken bekeken dan alleen de 2×2 tabel die ik hier besproken heb. Maar ook met die extra gegevens is er geen statistische aanleiding tot grootspraak.)

4) De auteurs hebben de VENI-data van 2010, 2011 en 2012 bekeken. We zijn inmiddels alweer even verder. Zo kregen in 2015 14,9% van de vrouwen en ‘slechts’ 13,9% van de mannen de door hun gewenste beurs. Zou dit jaar bij de analyse betrokken zijn dan was – zelfs met de oppervlakkige chi-kwadraattoets die Van der Lee en Ellemers hebben toegepast – er niks overgebleven van de significante resultaten.

5) Los van de discussie over discriminatie laten de cijfers wel een schokkend iets zien: zowel voor mannen als voor vrouwen is het honoreringspercentage extreem laag. Dit houdt in dat er jaarlijks honderden wetenschappers zijn die enkele maanden van hun academisch leven besteden aan het schrijven van een voorstel dat uiteindelijk de prullenbak in gaat. Daar gaan dus duizenden en duizenden manuren èn vrouwuren aan verloren. Inmiddels wijst onderzoek na onderzoek uit dat de huidige manier van wetenschappelijke subsidies mogelijk meer nadelen dan voordelen heeft.

6) Deze hele discussie kent wat nare kanten – zo komen er wéér twee sociaal psychologen in het nieuws vanwege rammelend statistisch onderzoek – maar kan mogelijk ook tot goede ontwikkelingen leiden: zoals Daniël Lakens en Rolf Hut vandaag al in de Volkskrant schreven: het is een goede zaak dat NWO de aanvraagprocedure gender-neutraal maakt.

7) Als iemand weet waarom beide Volkskrantartikelen hierover (1 en 2) vergezeld gaan van een foto onze Koningin, dan hoor ik het graag. Ik zie de link tussen discriminatie, wetenschap en Máxima niet zo…

Deze blogpost is mede tot stand gekomen dankzij discussies met o.a. Daniël LakensMenno de Guisepe, enkele andere twittergebruikers en wat mailwisselingen met collega’s binnen en buiten Groningen. Mijn dank hiervoor.

Inference for correlations

I’m currently updating my course materials, aimed at undergraduate students in psychology, for next academic year.  Since the text book is lacking a (thorough) description on how to do inference (hypothesis testing and confidence interval construction) for the product-moment correlation coefficient, I’ve written something myself.

It might be useful for someone else who feels that the text books aimed at social sciences students are lacking this information (and the text books aimed at mathematics students are too technical for other students), so I’ve put a copy here. Feel free to use it.

Comment on “Why you should use omega² instead of eta²”

In a new blogpost, Daniël Lakens explains why using ω² is better than using η². Based on literature review and his own simulations, he shows convincingly that the bias of η² is much larger than that of ε² and ω². Or, in Daniël’s words, “Here’s how bad it is: If η² was a flight from New York to Amsterdam, you would end up in Berlin”.

I agree with Daniël that the flight doesn’t take you to Amsterdam, but things are less severe than he claims, as I will outline below. My post is a follow-up to his, so please read his post before you read mine.

Daniël clearly shows that η² clearly disqualifies itself as an estimator in terms of bias. However: bias is only part of the story. Obviously you do want the bias to be small (or, ideally, 0, i.e. an unbiased estimator). But wishes are not unidimensional. You also want a stable estimator, i.e. an estimator with small variance. And in that category, η² performs the worst out of the three estimators that Daniël studied.

I ran Daniel’s R-code (available at the bottom of his post; I’ve set nsim = 10000 for practical purposes, I’ve got to finish work before the kids get out of school) and the variance of ε² is about 1,5% (when n=100) to 17% (when n=10) larger than that of η². For ω² these variance ratios are 1,1% up to 13,4%.
(You can check it yourself by re-running Daniel’s code and then running “SDmat[,2]^2/SDmat[,1]^2” and “SDmat[,3]^2/SDmat[,1]^2”).

There is always a trade-off between bias and variance. It’s easy to make an estimator with zero-variance. Let’s make one now: casper² is defined as always being equal to 0.2. Always. Clearly, casper² has zero-variance, but it will usually have a large bias (unless the true effect size actually is 0.2, but we don’t know that value (otherwise we wouldn’t have to estimate it)). Thus, It might not have been a smart move to name this poor estimator after myself. Which is why I’ll redefine it as TimHunt². That’ll teach him!)

The convential way to deal with the trade-off is to compute the Mean Squared Error. The MSE is defined as the sum of squared differences between the estimate and the true value. The MSE can be computed as MSE = variance + bias².  Large values can have too much impact, which is why we often use the root of the mean squared error, conveniently called root mean squared error (RMSE).

If you look at the RMSE (which is easy; Daniel’s code already computes it for you (in the variable RMSEmat)), you see that ε² and ω² both do have lower RMSE’s than η², but that the difference is close to neglectible. (Credits for the visualisation go to Daniël; I’ve used his code and simple replaced “BIASmat” by “RMSEmat”).

Comparison of the RMSE

When n = 10, for instance, RMSE(η²) = 0.122, RMSE(ε²) = 0.112 and RMSE(ω²) =  0.110. When n = 100, the values are respectively 0.0316, 0.0311 and 0.0310. (With some uncertainty due to the fairly low number of replications). To take it back to the New York to Amsterdam-flight comparison: now you don’t land at Berlin anymore, but at Groningen International Airport, which is, according to the airport’s website “conveniently close”.

To summarise: η² does indeed perform worse than ω² and ε², but the difference in performance is not as extreme as Daniël suggests. The poor behaviour of η² in terms of bias is almost completely compensated by good behaviour of η² in terms of variance. This especially holds when n is larger than, say, 25.

Another often-mentioned advantage of η² is that it is easier to compute than ω². However, we are not living in the era where we do our computations manually. Decent software (such as R or JASP) computes ω² for you with a press of a button. Furthermore, ease of computation can never be an argument: if you want to do easy things, don’t do science…

Are two samples of size n/2 better than one of size n?

Today, on Twitter, I was involved in a discussion with statistical psychologist (or psychological statistician) Daniël Lakens on replication. Not to break the rule that any Twitter-discussion Daniël is involved in ends up in a blog-post, I’ve decided to write a blog-post on it myself.

Introduction

Essentially, our discussion was about the following. Data was collected with a certain sample size n and subsequently some type of standard (frequentist) statistical test, such as a t-test, ANOVA or linear regression test was performed (and for sake of simplicity we assume that all statistical assumptions are met). Is there any benefit the following approach of splitting the data into two equal parts, such that you have a smaller sample and a replication of the test? One might think so, given that replication and reproducibility are the new hypes in psychological methodology.

However, in my opinion, the main strength or replication lies in having an experiment that took place in Laboratory A  replicated in Laboratory B. Perhaps the most obvious benefit of performing a replication is that you increase the sample size. If Laboratory A performed a study with n = 40, and you performed one with n = 40, then in the end you have n = 80. Obviously, this benefit is lost when you don’t really replicate, but cut your sample in half and call one half the replication. With this type of replication, you can check whether the significant result in Laboratory A was not simply due to coincidence (which happens α = 5% of times when there is no true effect).

Some other benefits of “real” replication are concerned with checking whether the experiment is reproducible and generalisable at all. If the experimenter used n = 40 local undergraduate students for his experiment (because it is so easy to oblige your students to be participants), it is of course unclear whether this result is generalisible to the population of interest (e.g. “everyone”). It helps if someone re-does the study with undergraduate students from another university. It is still very unclear whether the study is generalisable to non-students, but at least you can sort of find out whether students at different universities are similar. Again, this benefit only is there for real replications.

Formalisation

Let’s formalise the setting a bit and let’s keep things simple (it’s too sunny to stay too long behind the computer) and it doesn’t get much simpler than the one-sample t-test. Given is a random sample X1, …, Xn from a N(μ, σ2) distribution. Required is the test for H0: μ = 0 versus two-sided alternative and, specifically, the p-value of this test. For sake of simplicity assume that we are in the ideal world: the sample is truly random and the population distribution is indeed truly normal. Also, we assume that n is even (otherwise we can’t split it in exact halves).

Standard Approach (SA). The standard-approach would be to perform the standard t-test on the data. Any textbook on statistics will tell you how to do this.

Replication Approach (RA). The “replication”-approach would be to perform two t-tests; one on observation 1 up to n/2 and one on observation (n/2 + 1)up to n. This way we obtain two p-values which we need to combine into one overall p-value. For this, we can simply use Fisher’s method, which boils down to the following. If H0 is true, then both p-values are independent and uniformly distributed on [0, 1]. Standard distribution theory then provides that X = -2(ln(p1) + ln(p2)) follows a χ2-distribution with 4 degrees of freedom and for this distribution we can compute the p-value given X.

Answer using mathematical statistics

Now we have both approaches, we can return to the fundamental question: is there a benefit in applying RA over SA? The direct answer is no, there is not. For the given setting, the t-test is the so-called Uniformly Most Powerful Unbiased (UMPU) test (see, e.g., Lehmann, 1959, Testing Statistical Hypotheses). This means that (i) the test is unbiased (when there is no effect – H0 is true – the test rejects α = 5% of times) and (ii) the test is uniformly most powerful: no other test has higher power, whatever the circumstances. In laymen terms: under the settings of the experiment, no other test can perform better. This is obviously quite a good property for a test to have.  Both in general as now: it automatically answers our question. The replication approach is another test based on the same data and can therefore not perform better than the standard approach (it can, at best, perform just as well). This answer also holds true when we move away from the super-simplified t-test setting to ANOVA or linear regression: also there the default tests are UMPU.

Answer using simulations

The theory behind most powerful tests does answer the question “is there a benefit in the replication approach” (with “no”) but it does not quantify the difference between both approaches.

To this end, I ran the following simulation. For given settings of sample size n (either 40 or 80) and true population mean μ (from 0 to 1 in steps of 0.125), I’ve simulated 10,000 data sets of size n from a N(μ, 1) distribution. For each data set, I’ve computed the corresponding p-value for SA and RA. Furthermore, I’ve dichotomised these p-values into “significant”/”not-significant” based on α = 5%. R-code is provided at the bottom of this post.

Mean p-value for n = 40Let’s focus first on n = 40. Above, a comparison of the average p-value (over the 10,000) replications for the SA (black) and the RA (red). (Please note that the uncertainty due to simulation error is really small, since I work with 10,000 repetitions. At first, I’ve created this plot including 95% CI, but this interval was so narrow, it was often only one or two pixels wide.)

When μ = 0, then H0 is true: the p-values are distributed according to a U(0, 1) distribution, thus should have mean 1/2 and variance 1/12. Both SA and RA yield values very close to this (SA: mean = 0.5005, var = 0.0834; RA mean = 0.5004, var = 0.0833). So, both methods have a Type I error rate of (about) 5%, which is what you want.  When μ > 0, the alternative hypothesis is true, thus you hope to reject the null and you want small p-values. As expected, the larger μ, and thus the larger the effect size, the smaller the average p-value. The figure shows that the Standard Approach beats the Replication Approach.

n = 40, proportion significant resultsNext, we look at the proportion of results that are flagged as significant (at a nominal level of 5%). For μ = 0, you expect this to be 5% (the Type I Error Rate), and it is 5% for both SA as RA. For μ > 0, this proportion is 1 – the Type II Error Rate, or the power, and you expect it to go up when μ goes up. And it does. Again, it is clear that the Standard Approach performs better than the Replication Approach, especially for smaller effect sizes. (When the effect size is huge, then also clearly sub-optimal procedures have no problems with classifying the result as ‘significant’. The difference in power between SA and RA certainly is non-neglectible; it goes up to 0.117 10.8% when μ = 0.375 (in which case SA has power 0.640 and RA has power 0.523).replication3replication4The last two images are concerned with the simulations for n = 80. They show a similar pattern: the standard approach is indeed the better approach. Now, the maximal difference in power is 0.108 when μ = 0.25 (in which case SA has power 0.600 and RA has power 0.492).

Conclusion

This type of replication is not useful, at least not in the current setting. It would be more useful if one for instance seriously doubts the distributional assumption underlying the one-sample t-test or doubts the independence of observations. In such cases, non-parametric approaches could be preferred over parametric ones, and the Replication Approach applied here is a basic version of split-half cross-validation, a commonly used non-parametric technique.In the above, I’ve limited myself to the frequentist setting. However, in a Bayesian setting under similar circumstances, the RA would also not be beneficial. Just as in the frequentist setting, the Bayesian version for the t-test is developed to be uniformly optimal in some (Bayesian) sense. Other approaches, based on the same data, therefore can never be more optimal.

R code

Below is the R-code. The first part runs the simulations, which could take some time, and the second part creates the figures.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
set.seed(31415)
X           <- (0:8)/8
n           <- 40  
mu          <- 0   
repetitions <- 10^5
p.all.40    <- matrix(NA, nrow=9, ncol=repetitions)
p.split.40  <- p.all.40
p.all.80    <- matrix(NA, nrow=9, ncol=repetitions)
p.split.80  <- p.all.80
 
for(i in 1:repetitions){
  basedata <- rnorm(n,0,1)
  for(j in 0:8){
    data  <- basedata + j/8
    dataA <- data[1:(n/2)]
    dataB <- data[(n/2 +1):n]
    p.all.40[j+1,i] <- t.test(data,var.equal=TRUE)$p.value
    p.split.40[j+1,i] <- pchisq(-2*(log(t.test(dataA,
         var.equal=TRUE)$p.value) + log(t.test(dataB,
         var.equal=TRUE)$p.value)), df=4, lower.tail=FALSE)
  }
}
set.seed(31415) 
n    <- 80  
for(i in 1:repetitions){
  basedata <- rnorm(n,0,1)
  for(j in 0:8){
    data  <- basedata + j/8
    dataA <- data[1:(n/2)]
    dataB <- data[(n/2 +1):n]
    p.all.80[j+1,i] <- t.test(data,var.equal=TRUE)$p.value
    p.split.80[j+1,i] <- pchisq(-2*(log(t.test(dataA,
         var.equal=TRUE)$p.value) + log(t.test(dataB,
         var.equal=TRUE)$p.value)), df=4, lower.tail=FALSE)
  }
}
 
p.all       <- p.all.40 # or p.split.80; manually change
p.split     <- p.split.40 # same comment
issig.all   <- (p.all < .05)
issig.split <- (p.split < .05)
 
plot(X,apply(p.all,1,mean),type="b", ylab="mean p-value", 
  xlab=expression(mu), ylim=c(0,.5),main="n = ...",pch=19, 
  col=rgb(0,.5,.5,.8))
lines(X,apply(p.split,1,mean), col=rgb(.5,0,0,.8),
  type="b",pch=19)
legend("topright",c("Standard approach","Replication 
  approach"), col=c(rgb(0,.5,.5,.8), rgb(.5,0,0,.8)), 
  lty=c(1,1),pch=c(19,19))
 
plot(X,apply(issig.all,1,sum)/repetitions,type="b",
  ylab="% significant results (alpha = 5%)",xlab="mu", 
  ylim=c(0,1.02), pch=19, yaxs="i", col=rgb(0,.5,.5,.8), 
  main = "n = ...")
lines(X,apply(issig.split,1,sum)/repetitions,type="b", 
  col=rgb(.5,0,0,.8),pch=19)
lines(c(-1,2),c(.05,.05),lty=2)
legend("bottomright",c("Standard approach","Replication 
  approach"), col=c(rgb(0,.5,.5,.8), rgb(.5,0,0,.8)), 
  lty=c(1,1),pch=c(19,19))

Using statistics for truly understanding psychological processes

This blogpost appeared earlier (09/09/20140) on Mindwise, the blog of the Heymans Institute for Psychological Research.

In 1892 Gerard Heymans founded the Psychological Institute in Groningen and, with that, empirical psychology in the Netherlands. By conducting experiments in his laboratory, he gained valuable insights into a wide range of psychological problems. Over a century later, we teach our students essentially the same approach for empirical research: develop a test or a questionnaire, randomly assign your “random sample” (read: fellow students) into treatment groups, let them take the test or complete the questionnaire, and perform adequate statistical analyses. Sometimes a follow-up measurement several months later is performed to study the longer-term effects of treatment.

All this is extremely useful in finding inter-invididual patterns: differences between (groups of) persons. However, these methods are not helpful when you are interested in intra-individual patterns: differences (over time) within a single person.

Why would you want to study intra-individual patterns? Suppose you are interested in (long-term patterns in) Positive Affect (PA) and study two persons, Red and Blue. You measure their PA scores on day 1 and a few days and 1, 2, and 3 months later. The first plot below, based on virtual data, shows that their PA scores at these respective time points (indicated by the dots) are very similar: in your sample you did not find evidence that Red and Blue behave differently with respect to PA. Further, the measured PA scores are fairly stable; there are no steep increases or decreases in scores.

Plot 1
Plot 1. Both subjects are measured just five times in a 100-day-period and their data look very similar (virtual data).

However, suppose you didn’t measure Red and Blue just five times, but daily for a 100-day period. Now it is clear, from the second plot, that Red and Blue are actually quite different. For (nearly) every day, Red’s PA score is quite similar to the day before, whereas for Blue, a positive day is usually followed by a negative day and vice versa. The extent to which two subsequent days are similar is called inertia. It is known that inertia in PA is related to a wide range of psychological traits, such as depression, neuroticism, and rumination. Thus, based on the inertia-differences between Red and Blue, psychologists might infer something about their personalities.

Plot 2
Plot 2. Now that same subjects as in Plot 1 are measured a hundred times in a 100-day-period, their data look quite different (virtual data).

Static psychological experiments are useful for understanding between-person differences in psychological outcomes. Measurement-intensive longitudinal studies such as above are essential for understanding within-person psychological processes. Up to a decade or two ago, it was very difficult to conduct such studies: you can’t expect your study participants to go to the basement of the Heymans building 100 days in a row, to complete a questionnaire. Thanks to advances in computing and Internet technology, however, nowadays you can measure variables highly intensively with relatively little effort: answering a short online questionnaire is easy, and applying smart apps to automatically measure how much people walk, sleep, or consume electricity is even easier.

When collecting these non-conventional type of data, you also need a non-conventional method for analysing them. The Bayesian Dynamic Linear Model (DLM) is extremely suitable here. This model can be used to both accurately estimate parameters of longitudinal data and accurately forecast the value(s) of the next measurement(s). The DLM gained popularity after Mike West and Jeff Harrison published a book on it in 1989, but it was mainly applied in economics and biology. Applying the DLM in psychology has been rare up till now.

The above example about Red and Blue is obviously an oversimplification of the type of data the modern psychologist might consider. More realistic examples would include some of the following ingredients: multiple dependent variables (e.g. both Positive and Negative Affect); multiple predictors (age, gender, personality scores); latent variables (i.e. variables that cannot be observed directly); many more than two persons in a possibly hierarchical setting (such as a multilevel model); strange patterns of missing data (due to non-response, drop-out, faulty apps, etc.), sudden changes in measurement due to therapeutic intervention, etc. In the past decades, there have been many additions to the theory of DLM that accommodate its use in these types of situation. The DLM is comparable to a box of LEGO bricks: once you know how it works, you can build whatever you like.

Thanks to two grants from NWO, our research group is now extending the DLM for application into psychological practice, with promising results so far.