Goud

Ook deze column is verbonden met mijn eerdere column Evidentie. Nu wordt er gerefereerd naar het begrip Causale evidentie. Wat kunnen Randomized Controlled Trials (RCTs) betekenen in evaluaties?

Sommigen zeggen veel, anderen hebben twijfels. Of is er een tussenweg?

“Dat nieuwe zaaigoed heeft de oogst toch aardig verbeterd”, zei de agronoom. “De boeren zijn echt enthousiast. Ze willen er wel meer van”, vervolgde hij.

“Ja, maar het weer zat ook echt mee. Vergeet dat niet”, bracht de financier van het project in het midden. “Laten we niet overhaaste conclusies trekken”.

“Hoe komt u daarbij?” vroeg de boerenvertegenwoordiger. “Ik heb in alle dorpen in de omgeving mijn licht opgestoken en daar kreeg ik veel positieve reacties”.

Dat zinde de financier niet: “Ik vind u nogal optimistisch. Wie zegt me dat het nieuwe zaaigoed de doorslaggevende factor is?”

“Let maar eens op”, was de reactie van de agronoom. “Ik denk dat dit zaaigoed ook op andere plekken succes zal hebben”.

“De boeren waren juist gemotiveerd door het project”, antwoordde de boerenvertegenwoordiger hierop.

Dit soort uitwisseling tussen project stakeholders, betrokken bij het realiseren van een hogere productie, vindt regelmatig plaats. Welk van de gegeven factoren – nieuw zaaigoed, het weer, de plaatsen waar nieuw zaaigoed is gebruikt, de respons van de boeren, of de rol van het project – is de belangrijkste om de hogere productie te verklaren? Het antwoord op deze vraag maakt het mogelijk om een oordeel te vellen over de gevolgde landbouwstrategie.

Een evaluator heeft de taak projecten op hun resultaten te analyseren en te beoordelen. Hun rapportages moeten idealiter bijdragen aan een relevante body of knowledge voor verwante projecten. Onder evaluatieprofessionals wordt sinds lange tijd gedebatteerd over de uiteenlopende manieren waarop het vaststellen van causale relaties zou moeten plaatsvinden en welke van deze kunnen worden beschouwd als de meeste ‘harde’. Er is een duidelijke tendens waarneembaar om wetenschappelijke verklaringsmethoden te hanteren, waarin statistische analyses samengaan met een rigoureuze onderzoeksopzet. De groeiende belangstelling voor de Randomized Controlled Trial (RCT) binnen de empirische economie is hier een voorbeeld van.

Het gerandomiseerd onderzoek met controlegroep (de Nederlandse benaming voor een RCT) kent vooral in de gezondheidszorg zijn toepassing, maar ook steeds meer in binnen het onderwijs, microkrediet, voedselproductie, technologie-adoptie en institutionele hervorming. In een RCT wordt getracht wordt de vraag te beantwoorden of een bepaalde behandeling (interventie) werkzaam is. Zo wordt de uitkomst van de te testen behandeling voor een probleem bij proefpersonen van een interventiegroep vergeleken met die van de controlegroep, een overeenkomende groep van proefpersonen met hetzelfde probleem, maar dan met toediening van een nepmiddel. De toewijzing van de proefpersonen aan genoemde groepen moet aselect (gerandomiseerd) worden gedaan om te vermijden dat de geselecteerden zich laten leiden door onbewuste factoren: voordat je het weet hebben de verwachtingen van proefpersonen een therapeutisch effect of kunnen onderzoekers bevooroordeeld zijn en dit kan een zuivere vergelijking tussen de uitkomsten van de interventiegroep en die van de controlegroep negatief beïnvloeden. Niet alleen de proefpersonen van beide groepen moeten ‘blanco’ zijn, maar ook de onderzoekers: niemand mag weten wie welke behandeling krijgt. Men spreekt dan van double-blind onderzoek.

Mits goed uitgevoerd, moeten dit soort exercities harde causale verbanden kunnen openbaren. Het hoogste niveau van evidentie, dat van de causale evidentie, ligt dan binnen handbereik. Dat is een aanlokkelijk perspectief voor die evaluatoren die het minder hebben voorzien op het trekken van conclusies op basis van een kortstondig rondkijken, bronnenstudie en gesprekken met sleutelpersonen. Al snel kan de evaluator zich verliezen in een te zonnige kijk en optimistische conclusies, of juist het tegendeel. Vandaar dat RCTs worden beschouwd als de Gouden Standaard voor evaluaties: een betere fundering voor geconstateerde verbanden is er niet.

Is een dergelijke claim wel gerechtvaardigd? Daar wordt verschillend over gedacht: randomistas spijkeren het liefst menige evaluatie dicht met een serie RCTs; anderen vinden de exclusieve claim van zulke voorstanders veel te ver gaan.

Bedacht moet worden dat RCTs binnen de gezondheidszorg vaak plaatsvinden onder strikte double-blind condities, maar binnen het onderzoeksgebied van economische ontwikkeling is dit vaak niet mogelijk. Het opvoeren van schijn-microkredietgroepen of nep-klinieken als sociaal-wetenschappelijke ‘controlegroepen’ bij het analyseren van interventies binnen microfinanciering of gezondheidszorg is wel erg gekunsteld. Belangrijker is nog dat de ‘proefpersonen’ (respondenten) weten dat zij deel uitmaken van een ontwikkelingsinterventie. Bij het bepalen van de welvaartsimpact van een projectinterventie bijvoorbeeld, kunnen respondenten al een verhoogde welvaart ervaren doordat hun zorgen serieus worden genomen, naast eventuele andere welvaartsfactoren als meer productie of meer inkomen bijvoorbeeld. Dat komt omdat die respondenten bewust participeren in die projectinterventie. Iets soortgelijks is reeds lange tijd geleden ook geconstateerd in de Hawthorne Studies (1924-1927), waarin werd gekeken naar de vraag of beter verlichte werkplekken een hogere productiviteit teweeg zouden brengen. Niet de verlichting echter bleek belangrijk, maar het feit dat arbeiders aandacht kregen tijdens het onderzoek. Kortom: met groot gemak kun je de toegenomen welvaart of verhoogde productiviteit te veel toeschrijven aan de verkeerde factoren.

In hoeverre is het mogelijk om een hogere landbouwproductie toe te schrijven aan de betere eigenschappen van het nieuwe zaaigoed uit ons voorbeeld? De agronoom mag daarvan overtuigd zijn, maar dit is eerder een sterk vermoeden dan een hard bewijs. En dat zit de projectfinancier dwars, zeker wanneer er wordt geclaimd dat ook in andere projectgebieden het nieuwe zaaigoed in de toekomst succesvol zal zijn. De boerenvertegenwoordiger heeft het juist over de reactie van de boeren op de introductie van het nieuwe zaaigoed. Boeren kunnen zich bijvoorbeeld door het project gestimuleerd voelen om ook het gebruik van andere inputs te veranderen: ze kunnen het land dieper gaan ploegen of intensiever bemesten. De kwaliteit van het nieuwe zaaigoed verklaart dus niet alleen een stijging in de productie.

De claim dat RCTs als de Gouden Standaard voor alle evaluaties moet worden beschouwd lijkt niet gerechtvaardigd. Is dat erg? Integendeel. Beter is het je te concentreren op het combineren van RCTs met andere evaluatie-instrumenten, zoals observeren, interviewen, of het gebruik van expert kennis. Is een dergelijke combinatie kostbaarder? Dat valt nog te bezien. Weliswaar worden RCTs alleen vaak als te kostbaar beschouwd, maar wanneer zij minder uitbundig worden gebruikt, ontstaat er ruimte voor een combinatie met andere methoden, zonder de financier op kosten te jagen. Deze partij zal dan tevens meer begrip krijgen voor de kansen en onzekerheden die elk project kenmerkt. Daar spinnen ook de andere project stakeholders garen bij.

Het is dus niet alles goud wat er blinkt. We doen het graag met soliede zilver. 

Eric Kamphuis  (30/11/2018)

Share

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Wilt u mij een persoonlijk bericht sturen? Mail naar s.debeter@gmail.com

Wilt u zich op mijn blog abonneren (wat ik zeer waardeer), dan hoeft u alleen uw emailadres in te vullen en daaronder op 'Abonneren' te klikken.

Laatste berichten