Tag Archives: data analysis

Vraagtekens bij LSVb-onderzoek dat vraagtekens bij Engelse vaardigheid van docenten zet

English summary: A Dutch Student Union did some research and complains about the stone coal english of university teachers. I complain about the quality of the research.

TL;DR: het onderzoek van de LSVb trekt duidelijke conclusies. Die hadden niet getrokken mogen worden omdat (i) de feitelijke steekproef te klein is en (ii) de steekproef niet representatief is.

De LSVb kwam vandaag in het nieuws met haar onderzoek naar taalvaardigheid van docenten bij hbo en universiteit. Dit onderzoek kan grote impact hebben – zo vindt morgen in de Tweede Kamer een hoorzitting over Engels in het Hoger Onderwijs plaats, waar iemand namens de LSVb dit onderzoek zal verdedigen. Het zou dus fijn zijn als de conclusies uit dit onderzoek hout snijden. En dat doen ze niet. Niet eens een beetje.

Qua gebruikte methodologie zitten er twee grote haken en ogen aan het onderzoek: de steekproefomvang en de representativiteit van de steekproef.

Steekproefomvang. Voor het onderzoek hebben n = 269 studenten enkele vragen beantwoord (p.5). Omdat het onderzoek grotendeels gaat over (de kwaliteit van) Engelstalig onderwijs, zijn studenten die alleen maar Nederlandstalig onderwijs krijgen niet zo relevant voor dit onderzoek.  Bijna een kwart van de deelnemers (24%, p.8) heeft geen enkel studie-onderdeel in het Engels. Dit zijn 64 of 65 studenten (ik ken alleen de afgeronde percentages), zodat er maar 204 a 205 relevante studenten overblijven (laat ik aardig zijn en van 205 uit gaan). Da’s niet veel (ongeveer 4 à 5 studenten per onderwijsinstelling). Vooral omdat een volgend kwart van de studenten (26%) minder dan de helft van de vakken in het Engels heeft. Zij moeten hun uitspraken dus baseren op misschien wel dat ene college dat ze ooit in het Engels hadden. Het spreekt voor zich dat zij daarmee een minder goed beeld van de algemene Engelse taalvaardigheid van docenten hebben dan van studenten die 60ECTS per jaar in het Engels doen. Het aantal studenten in de steekproef dat minimaal een halve studie in het Engels krijgt, is dus zo’n 135.

Wat is nu het probleem met een kleine steekproef? Onzekerheid. Je bent niet geïnteresseerd in de mening van de steekproef, maar in die van de populatie van alle duizenden studenten in het hoger onderwijs. Je gebruikt de steekproef enkel om daar iets over te kunnen zeggen. En hoe kleiner de steekproef, hoe minder je kan zeggen. Stel je gooit 4x met een dobbelsteen en werpt daarbij twee keer een zes. In je steekproef heb je bij 50% van de worpen zes gegooid, maar het zou niet bij je opkomen om daaruit te concluderen dat de dobbelsteen onzuiver is. Het kan gewoon toeval zijn.

Zo ook hier. Een van de hoofdconclusies in het rapport is dat de meerderheid van de studenten het niveau van Engels van docenten ondermaats vindt. (Althans, deze conclusie is de kern van de kop boven het bericht.) In de steekproef heeft namelijk 57% dit aangegeven. Maar dat betekent niet dat in de populatie ook precies 57% dit vindt: door toeval kan het zo zijn dat de steekproef wat te kritisch, of juist niet kritisch genoeg is. En hoe kleiner de steekproef, hoe groter de rol van het toeval.

Een veelgebruikte manier om die onzekerheid uit te drukken is via een betrouwbaarheidsinterval. Kort door de bocht gezegd neem je met zo’n interval een onzekerheidsmarge mee. Er zijn verschillende manieren om in deze context zo’n interval te maken (als je daar meer over wilt weten, Wikipedia is een goed startpunt) en een snelle, makkelijke manier is via de benadering met een normale verdeling. Een 95% betrouwbaarheidsinterval voor een geschatte proportie p wordt dan gegeven door de formule p ± √(p (1 – p) / n). In dit geval komt het er op neer dat het betrouwbaarheidsinterval gegeven wordt door (50%, 64%).  Waarschijnlijk wel een meerderheid, maar hoe sterk die meerderheid is, is niet goed te schatten. En zelfs “waarschijnlijk wel een meerderheid” is niet hard te maken vanwege het probleem met representativiteit.

Steenkool
Het obligate blogplaatje. Ditmaal: steenkolen

Representativiteit. De LSVb maakt gebruik van een eigen studentenpanel van 5000 studenten. Er wordt niet duidelijk gemaakt hoe dit panel is samengesteld. Mogelijk is het een mooie, representatieve afspiegeling van de Nederlandse studentenpopulatie. Maar het kan ook zijn dat dit 5000 studenten zijn die “ja” antwoordden op de vraag “wil je in het panel” van de LSVb. En dan kan het best een vertekend panel zijn: bij een vakbond zie je bovengemiddeld vaak van die aktivistiese (zo spellen ze dat), shag-rokende types. De bedrijfseconomiestudent die bij het corps zit omdat hij, net als z’n pa, later iets bij een bank wil doen, is wat ondervertegenwoordigd. Maar het representativiteitsprobleem houdt hier niet op – het begint juist: van die 5000 hebben er maar 269 meegedaan met deze enquête. Dat is 5,4%. Dat is weinig. Dat is een probleem. Met name omdat je niet weet welke vijf procent meegedaan heeft. Zijn het de vijf procent die best tevreden zijn, de vijf procent die graag hierover willen klagen, of een mooie willekeurige steekproef? Je weet het niet en je kan het ook niet te weten komen. Het minste dat de onderzoekers hadden moeten doen, is in de discussie van hun rapport hierop reflecteren, maar er staat geen letter over in. Ze zouden er goed aan doen om dit recente stuk van Sanne Blauw en Armen Hakhverdian te lezen: Sanne en Armen leggen haarfijn uit wat voor rare uitspraken je kan krijgen als je niet goed over de representativiteit nadenkt.

Ten slotte. De conclusies die het LSVb trekt, had zij niet op deze manier mogen trekken. Op basis van dit onderzoek zijn slechts twee open-deur-conclusies te trekken:

  • Uit het onderzoek blijkt dat een deel van de studenten tevreden is over de taalvaardigheid van hun docent.
  • Uit het onderzoek blijkt dat een deel van de studenten ontevreden is over de taalvaardigheid van hun docent.

Dat betekent niet dat er morgen in de Tweede Kamer geen debat hierover kan plaatsvinden. Er zijn goede inhoudelijke redenen om Engels in het hoger onderwijs toe te juichen en er zijn goede inhoudelijke redenen om Engels in het hoger onderwijs juist niet te willen. Een inhoudelijk debat kan gevoerd worden. Maar niet op basis van dit LSVb-rapport.

Using statistics for truly understanding psychological processes

This blogpost appeared earlier (09/09/20140) on Mindwise, the blog of the Heymans Institute for Psychological Research.

In 1892 Gerard Heymans founded the Psychological Institute in Groningen and, with that, empirical psychology in the Netherlands. By conducting experiments in his laboratory, he gained valuable insights into a wide range of psychological problems. Over a century later, we teach our students essentially the same approach for empirical research: develop a test or a questionnaire, randomly assign your “random sample” (read: fellow students) into treatment groups, let them take the test or complete the questionnaire, and perform adequate statistical analyses. Sometimes a follow-up measurement several months later is performed to study the longer-term effects of treatment.

All this is extremely useful in finding inter-invididual patterns: differences between (groups of) persons. However, these methods are not helpful when you are interested in intra-individual patterns: differences (over time) within a single person.

Why would you want to study intra-individual patterns? Suppose you are interested in (long-term patterns in) Positive Affect (PA) and study two persons, Red and Blue. You measure their PA scores on day 1 and a few days and 1, 2, and 3 months later. The first plot below, based on virtual data, shows that their PA scores at these respective time points (indicated by the dots) are very similar: in your sample you did not find evidence that Red and Blue behave differently with respect to PA. Further, the measured PA scores are fairly stable; there are no steep increases or decreases in scores.

Plot 1
Plot 1. Both subjects are measured just five times in a 100-day-period and their data look very similar (virtual data).

However, suppose you didn’t measure Red and Blue just five times, but daily for a 100-day period. Now it is clear, from the second plot, that Red and Blue are actually quite different. For (nearly) every day, Red’s PA score is quite similar to the day before, whereas for Blue, a positive day is usually followed by a negative day and vice versa. The extent to which two subsequent days are similar is called inertia. It is known that inertia in PA is related to a wide range of psychological traits, such as depression, neuroticism, and rumination. Thus, based on the inertia-differences between Red and Blue, psychologists might infer something about their personalities.

Plot 2
Plot 2. Now that same subjects as in Plot 1 are measured a hundred times in a 100-day-period, their data look quite different (virtual data).

Static psychological experiments are useful for understanding between-person differences in psychological outcomes. Measurement-intensive longitudinal studies such as above are essential for understanding within-person psychological processes. Up to a decade or two ago, it was very difficult to conduct such studies: you can’t expect your study participants to go to the basement of the Heymans building 100 days in a row, to complete a questionnaire. Thanks to advances in computing and Internet technology, however, nowadays you can measure variables highly intensively with relatively little effort: answering a short online questionnaire is easy, and applying smart apps to automatically measure how much people walk, sleep, or consume electricity is even easier.

When collecting these non-conventional type of data, you also need a non-conventional method for analysing them. The Bayesian Dynamic Linear Model (DLM) is extremely suitable here. This model can be used to both accurately estimate parameters of longitudinal data and accurately forecast the value(s) of the next measurement(s). The DLM gained popularity after Mike West and Jeff Harrison published a book on it in 1989, but it was mainly applied in economics and biology. Applying the DLM in psychology has been rare up till now.

The above example about Red and Blue is obviously an oversimplification of the type of data the modern psychologist might consider. More realistic examples would include some of the following ingredients: multiple dependent variables (e.g. both Positive and Negative Affect); multiple predictors (age, gender, personality scores); latent variables (i.e. variables that cannot be observed directly); many more than two persons in a possibly hierarchical setting (such as a multilevel model); strange patterns of missing data (due to non-response, drop-out, faulty apps, etc.), sudden changes in measurement due to therapeutic intervention, etc. In the past decades, there have been many additions to the theory of DLM that accommodate its use in these types of situation. The DLM is comparable to a box of LEGO bricks: once you know how it works, you can build whatever you like.

Thanks to two grants from NWO, our research group is now extending the DLM for application into psychological practice, with promising results so far.