Is sociale wetenschap moeilijker?

Mijn vorige blog – waar blijft de psychosociale Corona-test? – heeft in kleine kring enige kritiek gekregen.

S. de Beter (28/4/2020)

Sommigen vinden mij veel te cynisch over sociale wetenschappers. Omdat ik mij als econoom ook hiertoe reken, ben ik dus cynisch – eerder sceptisch met een scherpe pen – over mijn eigen beroepsgroep, en dit lijkt mij geoorloofd. Bovendien spaar ik economen als subcategorie nog minder, zie hier en hier.

Een ander punt van kritiek kwam van mijzelf en achteraf: is het eigenlijk wel eerlijk om sociale wetenschappers te verwijten dat zij weinig tot niets te melden hebben over de Corona-crisis? In vergelijking met virologen, epidemiologen en andere beta-onderzoekers lijkt het voor hen veel lastiger om geschikte testen op te stellen, en vooral om te bewijzen dat hun test betrouwbare informatie oplevert. Oftewel: is het niet moeilijker een psychosociale Corona-test te maken dan een moleculaire test (“heb ik het Corona-virus onder de leden”) of een serologische (“was ik zonder iets te merken besmet met het Corona-virus, en heb ik daardoor anti-stoffen ontwikkeld?”)?

Deze ‘zelfkritiek’ welde op naar aanleiding van het commentaar dat ik mocht ontvangen op een heel ander stuk. In deze Engelstalige tekst, bedoeld voor mijn Bachelor-studenten, vergelijk ik het sociale en het medische vakgebied wat betreft de mogelijkheden om de effectiviteit van test of ingreep te bewijzen. U kunt hieronder eerst deze tekst lezen, daarna mijn korte weergave van enkele commentaren, gevolgd door enkele overpeinzingen.

How to distinguish between bad and good management tools?

Business research, like most social sciences, has two categories. One is empirical science, which has a clear methodology. You have some kind of an idea – often called a theory because that sounds more academic– about what is going on in some specific part of the (business) world, and why is it going on. You derive some hypotheses from this theory, and test them on new data. Depending on the results, you reject the theory or maintain it – for the time being. Or you adapt the original version, and do the empirical cycle again.

In business research the other category is bigger and has more methodological problems. Business scholars want to understand and explain current business practices and patterns but they are more eager to develop management tools and models to change existing practices. Business research in this category looks like a market for management tools where scholars and consultants compete with each other: “take my model, because you are getting better results than using other’s”.

At first sight, in this category too the methodology looks simple. In principle it is possible to compare two groups of firms, or compare two groups of decision makers (e.g. CFOs, if financial tools are the focus). One group is implementing the new tool or model, for the other group it is business as usual (or they take an alternative tool). After some period of time you compare these two groups, in terms of higher productivity, more profits, lower cost of capital or some other result that advocates of the new tool want to emphasize. After some period of time you compare these two groups, in terms of productivity, profits, cost of capital or some other result the advocates of the new tool promised would occur when using their tool.

Such a methodology is also used in medical research, when the objective is to find out whether a new medicine is effective (curing a specific illness, or in general terms: solving some medical problem). Two groups are compared that are identical on all relevant variables (age, gender, family background, et cetera) except for the variable under investigation: one group gets the new medicine, the other a placebo. If such an experiment is well designed, you get a clear answer: the medicine (X) did solve (or not) a specific medical problem (Y).

In business research we also want such a straightforward answer: implementing a new management model or tool – for diagnostics or for intervention – has a positive, negative or no effect on solving a specific business problem. In practice, however, applying this methodology to business research gives a lot of complications. Apart from the fact that is much more difficult to get groups of firms or managers that are ‘identical’, and large enough to use regression analyses or other conventional statistical methods.

Measuring X is quite easy in medical research: you take the pills or not (in the control group) and all pills are identical (although different dosages can be used, to find out which dosages is most effective). In business research it is not so easy to measure the independent variable. What does it mean if managers in the selected group say they have implemented the specific management tool (and the managers in the control group say they didn’t)? Maybe they had a different interpretation of the tool, or implemented it just partly or badly (can you take a pill badly?)

And what about the placebo effect? In medical research the patients don’t know whether they get the medicine or only a placebo. In other words: each patient doesn’t know if she/he is in the control group or not. In a double-blind experiment also the medical staff doesn’t know whether they give the medicine or a placebo. So in medical research (at least for medicines) it is easier to measure the placebo-effect.

In social science there is a somewhat similar effect, the Hawthorne-effect. Elton Mayo and others found that productivity went up, not only because of the changes they had implemented at the Hawthorne-factory but also as a (temporary) result of the research and intervention process itself: paying attention to the overall workers needs. Filtering out the Hawthorne-effect is not easy. Making a distinction between temporal and structural effect seems the only solution, but where exactly is the dividing line between temporal and not temporal?

Other problems of measuring the impact of implementing a new management tool on solving management problems are in abundance. How do you measure to what degree the specific management problems are solved? Which success indicators are appropriate: raising (labor) productivity, more profits or higher shareholders value (most favorite among finance scholars).

Even harder is measuring the separate effect of X (implementing the management tool) on Y (less business problems) . There are a lot of confounding and intermediary variables, most of them hard to measure. The problem is even worse: most of the time we don’t even know which variables play a role.

The moral of this little story: Be very, very sceptical if scholars claim that their model is proven, or even the best there is (the ‘Trump-argument’)

Een valse vergelijking?

De commentaren die ik op deze versie mocht ontvangen, kan ik als volgt samenvatten:

  1. Randomized Control Trials (RCT’s) zijn niet geschikt om causale mechanismen op te sporen, zie ook deze column. Want met een RCT weet je alleen ‘dat het ergens werkt’ maar onbekend blijft (1) waarom het werkt, en evenmin (2) of het ook in andere omstandigheden gaat werken. Hetzelfde geldt trouwens voor regressie-analyses, die in het gamma-onderzoek zo populair zijn geworden. RCT’s kunnen alleen worden ingezet om de werking van een reeds ontwikkeld medicijn te testen: hebben ze inderdaad het gewenste effect, en niet teveel bijeffecten. Voor de ontwikkeling van het medicijn heb je andere onderzoeksmethoden nodig.

  2. RCT’s zijn dus niet de enige en zelfs niet de belangrijkste onderzoeksmethode (want niet geschikt om causale verbanden te ontdekken). Niet dat ik dit expliciet beweerde maar mijn stuk wekt wel gemakkelijk die indruk, aangezien mijn vergelijking tussen medisch en organisatie-onderzoek alleen betrekking heeft op de mogelijkheden van RCT-toepassingen.

  3. Er zijn enkele belangrijke redenen die een RCT bij organisatie-onderzoek bij voorbaat lastig of zelfs onmogelijk maken, naast de redenen die ik hierboven noem. Een medische RCT kan dubbelblind worden uitgevoerd, wat betekent dat ook degene die het medicijn toedient en het effect beoordeelt, niet weet of hij/zij het echte medicijn heeft toegediend of een placebo. Bij een RCT in het sociale domein is dit vrijwel uitgesloten. Met als gevolg dat de betrokken partijen (‘toedieners’, proefpersonen, beoordelaars) zich een beeld kunnen vormen van wat er gaande is en op basis daarvan zich anders kunnen gaan gedragen (ook wel aangeduid als ‘dubbele hermeneutiek’, die volgens mij bij elke sociaalwetenschappelijke onderzoeksmethode van toepassing is). Een ander belangrijk (maar niet principieel) verschil: omdat het daar meestal om hele grote aantallen gaat, is het bij een medische RCT veel makkelijker om te randomiseren (voor het bepalen van een experimentele en een controlegroep).

Twee overpeinzingen

Als het in de sociale wetenschappen zo moeilijk is om iets te bewijzen (bijvoorbeeld met een RCT), waarom is er in de betreffende opleidingen zo weinig aandacht voor onderzoeksmethodologie? Ik heb het dan niet over allerlei statistische technieken; bij psychologie in het eerste jaar onderwezen om flink te selecteren, maar dan op verkeerde gronden (want in de beroepsuitoefening heeft de psycholoog eerder empathie dan statistiek nodig). Evenmin over de behandeling van allerlei wetenschapsfilosofische vraagstukken (“wat is waarheid”). Volgens mij moeten studenten leren antwoord te geven op de kernvraag: in hoeverre en waarom klopt mijn (of andermans) bewering? De essentie van wetenschap is immers niet het doen van beweringen over de werkelijkheid of over de effectiviteit van medicijnen, testen en andere tools (dat kan iedereen) maar over het bewijzen van beweringen (waarbij mathematische bewijzen niet tellen). En juist dergelijke kwesties krijgen in de gamma-opleidingen veel te weinig aandacht, zo is mijn voorlopige indruk (maar ik laat mij graag corrigeren).

Was dit wél het geval, dan zouden sociale wetenschappers (in ieder geval hun methodologen) een heel nuttige rol kunnen vervullen in het Corona-debat. Niet zozeer door een psychosociale test te ontwerpen (bijvoorbeeld: welke vorm van quarantaine past het beste bij jouw persoonlijkheid en levenssituatie?) want dat is een hele lastige klus, maar door kritische vragen te stellen bij de rare uitspraken die virologen en epidemiologen zich soms veroorloven. Zo zei de hoogste baas van de GGD dat het geen zin heeft om mensen te testen die nog geen symptomen hebben. Of de stelling dat iemand die besmet is momenteel gemiddeld één andere besmet; dit weet je toch alleen als je voldoende test? Ook besteden zij weinig aandacht aan de vraag welke manier van testen op welke vraag antwoord zou kunnen geven.

Er duiken dus tal van methodologische vraagstukken op in de Corona-crisis en wie kunnen deze beter oppakken dan de sociale wetenschappers die het veel moeilijker hebben (dan de bèta’s) om iets te bewijzen? Ik doel op wat we ‘de wet van de stimulerende achterstand’ kunnen noemen: hoe moeilijker de omstandigheden, hoe groter de mogelijkheden om meer successen te boeken (in vergelijking met de ‘concurrenten’ die in makkelijker omstandigheden verkeren) 1

Een andere overpeinzing heeft betrekking op het volgende fenomeen. Veel middelbare scholieren kiezen voor gamma-studies, vooral bedrijfskunde en psychologie, omdat deze zoveel makkelijker zouden zijn dan medische, natuurwetenschappelijke of ingenieurs-opleidingen. Naarmate zij vaker voor de makkelijke optie kiezen (zodat zij meer tijd hebben voor de kroeg en ander geneugten van hun studentenleven) treedt er in het universitaire onderzoek eveneens een verschuiving op van bèta naar gamma. Vanwege het principe dat hoogleraren en de meeste andere universitaire docenten zich zowel aan onderzoek als aan onderwijs mogen wijden. Bovenop hun basisonderzoeksruimte krijgen ze in de regel meer onderzoekstijd naarmate ze vaker publiceren, bij voorkeur in vaktijdschriften die concullega’s als ‘top’ aanmerken. Geen wonder dat deze output in de laatste decennia enorm is gestegen (en wetenschappers zich nauwelijks bezighouden met onderwerpen die niet ‘publicabel’ zijn). Maar hoe zit het met de meeropbrengst van deze stortvloed aan gamma-publicaties?

Ook hier lijkt de eerste wet van Gossen van toepassing: naarmate er meer sociaalwetenschappelijk onderzoek plaatsvindt, zal de extra opbrengst voor de gebruikers van de daarmee verworven kennis eerst toenemen, daarna dalen en vervolgens zelfs negatief worden (zodat per saldo de bruikbare kennis afneemt). Verloopt deze curve bij gamma anders dan bij bèta?

Ik vrees dat de meeste sociale wetenschappen inmiddels in de negatieve fase zijn beland. Vergelijk de standaardleerboeken met die van vroeger. Ik heb de indruk dat deze in omvang ongeveer zijn verdubbeld maar dit heeft er niet toe geleid dat de hedendaagse student beter wordt opgeleid (laat staan twee keer beter) in het beschrijven, verklaren en beoordelen van sociale vraagstukken. Integendeel, durf ik te beweren. Less is better!

Ik pleit ervoor dat sociale wetenschappers (incl. economen!) zich veel meer moeten bezighouden met replicatie-onderzoek en andere methoden om het kaf van het koren te scheiden. Wat veel moeilijker is dan het zoveelste experiment of regressie-analyse om de zoveelste theorie of model ‘bewezen’ te krijgen. Kortom, we hebben niet méér maar betere gamma-onderzoekers nodig. Niet alleen vanwege de negatieve meeropbrengsten maar ook omdat sociale wetenschap moeilijker is dan bèta-onderzoek. Om het scherp te stellen: bij bèta doen zelfs ‘de mindere goden’ nuttig werk door eindeloos proefjes uit te voeren die later tot een grote doorbraak kunnen leiden, terwijl de ‘mindere’ gamma-onderzoekers vooral bezig zijn om bestaande theorieën voor wéér een nieuw toepassingsgebied te ‘bevestigen’ of meehelpen aan de wildgroei van goedklinkende maar ‘onbewijsbare’ modelletjes.

Een inkrimping van het bestand aan universitaire gamma-onderzoekers kan op drie manieren worden gerealiseerd. Ten eerste door een zware numerus fixus in te stellen voor gamma-opleidingen, want minder studenteninstroom zorgt voor een kleinere universitaire onderzoekscapaciteit. In de tweede optie kan de instroom op peil blijven maar de gemiddelde gamma-docent krijgt veel minder onderzoekstijd dan de gemiddelde bèta-docent. Ten derde kan de regering onderzoeksgelden overhevelen van de gamma- (en alfa-) naar de bèta-faculteiten.

De laatste oplossing lijkt mij de slechtste, maar juist deze is gekozen door de cie. Van Rijn – en vervolgens door de regering overgenomen. Met als belangrijkste argument dat de capaciteitsproblemen bij bètatechniek moeten worden opgelost. Dus niet met de argumenten die ik hier heb behandeld. Wat natuurlijk geen verbazing wekt.

 

1 Neem Japan en Duitsland. Na WO II hadden ze als verliezende en zwaar gebombardeerde landen een enorme achterstand in productiecapaciteit. Bovendien hadden beide landen relatief weinig grond- en delfstoffen. Juist door deze achterstand zijn zij economische grootmachten geworden. Of kijk naar Nederland: geen ander Westers land moest zo zwaar investeren in dijkaanleg en bemaling. Juist dit nadeel heeft ervoor gezorgd dat ons land wereldleider is geworden in waterbeheersing. Overal in de wereld waar grootscheepse overstromingen plaatsvinden of dreigen, wordt Nederlandse bedrijven en experts ingeschakeld. Denk aan de Nederlandse (goedbetaalde) hulp aan New Orleans, om te voorkomen dat een Katrina-achtige orkaan wederom de halve stad onder water zet. Idem dito met de Nederlandse glastuinbouw. Zijn succes is grotendeels te danken aan het Nederlandse klimaat (niet geschikt voor veel groenten zodat de tuinders kassen gingen gebruiken) en de hoge grondprijzen bijvoorbeeld in het Westland (die tuinders dwong tot intensivering van de teelt).

Deze wet van de stimulerende achterstand is in strijd met de neoklassieke economische theorie, die immers beweert dat landen of regio’s zich specialiseren in producten die gebruik maken van overvloedige productiefactoren (dus van nationale en regionale voordelen). Bijvoorbeeld in arbeidsintensieve producten wanneer arbeid overvloedig en dus goedkoop is. Hoewel deze wetmatigheid zeker vaak opgaat, geldt dit tevens voor de wet van stimulerende achterstand.

Share

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Wilt u mij een persoonlijk bericht sturen? Mail naar s.debeter@gmail.com

Wilt u zich op mijn blog abonneren (wat ik zeer waardeer), dan hoeft u alleen uw emailadres in te vullen en daaronder op 'Abonneren' te klikken.

Laatste berichten