"Beschermt het drinken van halfvolle melk tegen depressie?"
Tsunami waardeloze artikels op basis van gezondheidsdata
Data uit open access gezondheidsdatabanken worden steeds vaker gebruikt om wetenschappelijke artikelen van lage kwaliteit te genereren, zeggen onderzoekers. Ze vermoeden dat hierbij generatieve A.I. wordt ingezet.

De studie, die als preprint op medRxiv werd gepubliceerd, signaleert een forse toename van studies gebaseerd op data uit 34 open access databanken met gezondheidsdata, waaronder de Britse UK Biobank en het Adverse Event Reporting System (FAERS) van de Amerikaanse Food and Drug Administration.
Tussen 2021 en 2024 steeg het aantal gepubliceerde artikels dat gebruikmaakte van gezondheidsdata uit deze databanken van ongeveer 4.000 naar 11.500. Het aantal artikels afkomstig uit China groeide in deze periode met een factor 9,5.
Homogene titels
De titels van artikels worden ook homogener, stelden de onderzoekers vast. De term ‘Mendeliaanse randomisatie’ - een techniek die helpt bepalen of een specifieke risicofactor een ziekte veroorzaakt - duikt 25% vaker op, de term ‘associatie’ wordt dubbel zo vaak in titels gebruikt.
Eén artikel onderzocht via Mendeliaanse randomisatie of het drinken van halfvolle melk beschermt tegen depressie.
De onderzoekers ontdekten ook dubieuze artikels, die complexe gezondheidsproblemen aan één variabele uit de gezondheidsdata koppelen. Een artikel onderzocht via Mendeliaanse randomisatie of het drinken van halfvolle melk beschermt tegen depressie. Een ander artikel onderzocht de correlatie tussen opleidingsniveau en de kans op een hernia na een operatie.
De auteurs van de studie waarschuwen dat een groot aantal van deze artikelen “waarschijnlijk van lage kwaliteit” zijn.
Meer regulering
Ze concluderen dat de ongereguleerde open access tot deze databanken een uitnodiging is om generatieve A.I. - de bekende 'large language models' zoals ChatGPT - massaal artikels te laten produceren. Ze pleiten voor meer toezicht op het gebruik van gezondheidsdata, bijvoorbeeld via preregistratie van onderzoeksprotocollen, zoals al gebruikelijk in genomica, maar met respect voor de open access filosofie.
Dat deze artikels gepubliceerd geraken in wetenschappelijke tijdschriften is een andere bron van ongerustheid - niet alleen omdat wetenschappers of het publiek de conclusies zouden overnemen, maar ook omdat veel GenAI-modellen worden getraind op wetenschappelijke literatuur. Als de input voor dat leren vervuild geraakt door waardeloze of misleidende artikels, zullen deze modellen slechte wetenschap leren en reproduceren.