dinsdag 28 april 2015

De wetenschap moet nu echt eens met zijn tijd mee gaan!

over publiceren, samenwerken en open access in de wetenschap



Grootse wetenschappelijke ontdekkingen zijn waardeloos als ze niet gedeeld worden. Kennis kan namelijk niet worden gebruikt als het zit opgesloten in het hoofd van de wetenschapper. Wetenschappers moeten hun ontdekkingen dus delen met de wereld. Gelukkig zijn er voor het delen van informatie tegenwoordig ontzettend veel mogelijkheden doordat zo'n beetje alles en iedereen verbonden is met het internet.

Maar hoewel het internet van origine is ontwikkeld door wetenschappers om informatie-uitwisseling tussen wetenschappers efficiënter te maken, hebben wetenschappers er in hun communicatie nog maar beperkt gebruik van gemaakt (zeker als je het vergelijkt met hoe de rest van de wereld het internet voor communicatie gebruikt). Nee, de belangrijkste vorm van communicatie tussen wetenschappers is eigenlijk al bijna 400 jaar niet veranderd. Toegegeven: het zit nu in een digitaal jasje als PDFje en de verspreiding gaat grotendeels via het internet, maar feitelijk zijn het nog steeds wat onveranderbare papiertjes met basale tekst, platte grafieken en statische tabellen. Dé manier dat wetenschappers informatie delen is namelijk nog steeds via wetenschappelijke artikelen in wetenschappelijke tijdschriften.

Het wordt dus tijd dat de wetenschap met zijn tijd mee gaat! Nu kun je denken: waarom iets veranderen wat al eeuwen prima werkt? Nou: omdat het inmiddels niet meer prima werkt. Sterker nog: deze 'ouderwetse' manier van communiceren houdt vooruitgang in de wetenschap nu zelfs tegen!

Waarom werkt het publicatiesysteem van de wetenschap niet meer?

Net als de wereld is de wetenschap is inmiddels erg veel veranderd. Waar een wetenschapper vroeger in z'n eentje nieuwe ontdekkingen kon doen, is tegenwoordig een simpele samenwerking niet eens meer afdoende. De vragen die de wetenschap tegenwoordig moet oplossen zijn veel te complex geworden voor iemand in z'n eentje: zelfs als dat een wetenschappelijk genie is. Dat werd ook duidelijk uit een praatje van Dr. Sascha Friesike tijdens de APROVE Science Night, die leider is van de 'Open Science' onderzoeksgroep van het Alexander von Humboldt Instituut voor Internet en Samenleving. Hij liet een simpele grafiek zien die dit mooi in beeld bracht (hieronder mijn vertaalde versie daarvan):


Er was een tijd waar de wetenschap vooruit ging door "eenzame genieën" als Albert Einstein, Marie Curie en Charles Darwin. Die tijd is voorbij. Niet omdat er tegenwoordig geen genieën meer bestaan, maar omdat zelfs zij de wetenschappelijke vragen van vandaag niet meer alleen aankunnen.
Het minste wat nu dus echt nodig is, is samenwerking. En je ziet inderdaad al een paar decennia nauwelijks meer wetenschappelijke artikelen met slechts één auteur. Die samenwerking gaat tegenwoordig al een stuk verder dan de grenzen van één universiteit of zelfs land.

Toch zal die grens nog verder moeten opschuiven. Eén reden daarvoor is dat de productie van onderzoeksdata tegenwoordig een stuk sneller gaat. Sneller nog dan dat die data verwerkt kan worden, waardoor zelfs alle wetenschappers uit één vakgebied het niet meer aankunnen. Dat vraagt dus om participatie van niet-wetenschappers: gewone burgers die helpen met wetenschappelijk problemen (zie ook mijn eerdere stuk over 'citizen science').
Participatie is ook belangrijk bij zeer moeilijke wetenschappelijke vragen die online worden besproken met wetenschappers over de hele wereld. Zo kunnen dus de krachten gebundeld worden van alle wetenschappers binnen een vakgebied, die zo stukje bij beetje een heel moeilijk wetenschappelijk probleem oplossen (soort crowd-sourcing dus). Het bij elkaar brengen van al die wetenschappers zou anders nooit lukken, zelfs niet op een groot internationaal congres.

Maar ook dat is al bijna niet meer genoeg. Aan de ene kant worden wetenschappers namelijk steeds meer gespecialiseerd (door de complexer wordende vakgebieden), maar aan de andere kant worden de wetenschappelijke problemen juist steeds meer multidisciplinair. Er zal dus een soort samenwerking moeten komen tussen meerdere vakgebieden. Maar een samenwerking organiseren tussen zoveel verschillende en zeer gespecialiseerde vakgebieden is zo lastig, dat het bijna net zo complex is als het wetenschappelijke probleem dat ze moeten oplossen. Dat valt dus eigenlijk niet te hanteren.
De enige oplossing zit dan in openheid. Als elk vakgebied zijn onderzoeksdata volledig openbaar maakt, kunnen wetenschappers van elke discipline (maar ook burgers en beleidsmakers) overal op de wereld die data bekijken, analyseren en hergebruiken. Zo kan genetische data vanuit diabetesonderzoek een kankeronderzoeker vooruit helpen, of kan de data van een econoom vragen in de gedragswetenschappen beantwoorden. Op die manier kunnen alle verschillende vakgebieden elk een klein puzzelstukje van grote problemen oplossen en zullen deze puzzelstukjes uiteindelijk ook veel makkelijker op elkaar passen.
Bovendien kan die open data kan niet alleen door mensen worden gebruikt, maar ook door computers. Op elk wetenschappelijk onderwerp zijn (en worden) inmiddels zoveel wetenschappelijke artikelen gepubliceerd, dat een mens dat nooit zou kunnen bijlezen. Een computer kan dat wel ('text / data mining' wordt dat genoemd, zie ook hier), maar dan moet die informatie natuurlijk wel open toegankelijk zijn.

Wat is het probleem en wat kunnen we eraan doen?

Het probleem met het huidige systeem van wetenschappelijke ontdekkingen delen is dat het nog steeds is afgestemd op eenzame genieën. Voor de carrière van een wetenschapper is namelijk het enige dat telt auteurschap op een wetenschappelijk artikel. En dan telt zelfs alleen de eerste auteur (en soms de laatste auteur) van zo'n artikel: alle auteurs daar tussenin doen er nauwelijks toe. Vanuit een carrière oogpunt is er dus geen enkele prikkel om samen te werken. Sterker nog: de prikkel is om NIET samen te werken, want samenwerking maakt de kans kleiner dat je eerste auteur bent. Voor participatie en openheid zijn al helemaal nauwelijks prikkels: dat kost namelijk tijd en moeite om te regelen en bovendien bestaat de kans dat iemand met jouw hard-verdiende data aan de haal gaat. Er zijn nog geen mogelijkheden om de data van een wetenschapper te citeren, tenzij er ook een wetenschappelijk artikel bij gepubliceerd is. Dat zorgt er dus voor dat wetenschappers liever de data voor henzelf houden en het eventueel pas openbaar maken als ze het helemaal hebben uitgemolken in wetenschappelijke artikelen. Je krijgt voor data namelijk geen erkenning; alleen voor publicaties. Dat is een groot probleem voor de vooruitgang van de wetenschap. Maar goed: als je met problemen komt, moet je ook met oplossingen komen. Dus wat kunnen we eraan doen?


Misschien wel het belangrijkste is erkenning geven aan data in plaats van alleen aan wetenschappelijke artikelen. Dat betekent dat wetenschappers die data van andere wetenschappers gebruiken dat moeten kunnen citeren, zelfs als het net nieuwe data is waar nog nooit iets over is gepubliceerd. En als we daar mee gaan beginnen kunnen we beter ook meteen onderzoeksmethodes en computer-codes (scripts) voor analyses citeerbaar maken. Zo loont het om een bijdrage te leveren aan de wetenschap zonder dat er eerst een volledig verhaal over geschreven hoeft te worden. Door meteen data, methodes en codes openbaar te maken, zal de wetenschap veel sneller vooruit gaan. Elke wetenschapper kan namelijk meteen gebruik maken van jouw bijdragen, er op voortbouwen of er zelfs dingen mee ontdekken waar je zelf nooit aan had gedacht. Niemand hoeft meer te wachten tot je er een artikel van gemaakt hebt. Als dat zelfs ooit zou gebeuren, want veel wetenschappers houden data op de plank liggen als ze niet goed weten hoe ze het in een artikel moeten verwerken. Dat is enorm zonde, want dat zou zomaar de data kunnen zijn die een andere wetenschapper nodig heeft om verder te kunnen.

Maar die erkenning zal er niet zomaar komen. Hoewel de wetenschap aan het begin staat van vooruitgang, is de wetenschap zelf totaal niet progressief. Nee, de wetenschap is zelfs ernstig traditioneel en conservatief. Daar komt bij dat de wetenschap steeds competitiever wordt en wetenschappers onder steeds grotere druk staan (zie ook hier). Daardoor zullen ze niet snel iets gaan doen wat tijd en moeite kost, terwijl het niet hun eigen carrière ten goede komt; ook al weten ze dat het wel erg belangrijk is voor de wetenschap als geheel.
Het zal dus van bovenaf opgelegd moeten worden. Zoals toen bijna 20 jaar geleden genetici werden verplicht om hun data in een openbare database te stoppen voor ze het wetenschappelijke artikel erover mochten publiceren. Tegenwoordig is het gevolg daarvan een enorme schat aan informatie die de moleculaire en medische biologie gigantisch veel vooruit heeft geholpen. Een streng beleid is dus essentieel en zal moeten komen vanuit de financierders: overheden, fondsen en goede doelen. Zij zullen in hun toekenning van onderzoeksgeld veel meer nadruk moeten leggen op de bijdrage van wetenschappers in de vorm van data, methodes en codes. Die bijdragen moeten net zoveel waarde krijgen als nu aan wetenschappelijke publicaties wordt gegeven: dan komt de verandering vanzelf. Wie weet wordt de wetenschap dan eindelijk eens net zo modern als de wereld die het er buiten zelf heeft mogelijk gemaakt...

2 opmerkingen:

  1. Dank voor dit terechte pleidooi voor erkenning voor onderzoeksdata, en natuurlijk voor de onderzoekers, analisten, programmeurs en anderen die de data tot stand hebben gebracht.

    De uitspraak "Er zijn nog geen mogelijkheden om de data van een wetenschapper te citeren, tenzij er ook een wetenschappelijk artikel bij gepubliceerd is." klopt echter niet geheel: er zijn immers ook zogenoemde "data journals", die de data centraal stellen. Het publicatiebeleid van deze tijdschriften verschilt, maar doorgaans is net als bij “traditionele” wetenschappelijke tijdschriften sprake van peer review. Data papers krijgen net als andere artikelen een duurzame identifier waarmee ze geciteerd kunnen worden, en in het algemeen onderschrijven data journals de principes van Open Science, Open Access, Open Data.

    Zie bijvoorbeeld de FAQ van het Biodiversity Journal op http://biodiversitydatajournal.com/about#Frequently-Asked-Questions-%28FAQ%29

    BeantwoordenVerwijderen
    Reacties
    1. Bedankt voor je comment, Anoniem. Je hebt gelijk dat er zeker in bepaalde vakgebieden mogelijkheden zijn om data te publiceren (en dus vervolgens te citeren) in data-journals. Hoewel data-journals al een klein stapje in de goede richting zijn, zitten er (in mijn ogen) ook zeker nadelen aan:

      - Data-journals vragen namelijk alsnog om een volledig artikel rond de data, terwijl in principe een korte uitleg van de methode en monsters voldoende zou moeten zijn. Dat vertraagt dus de publicatie van de data en zal in veel gevallen de wetenschapper zelfs ontmoedigen om zijn data te submitten (want dat kun je er beter een volledig onderzoeksartikel van maken).
      - Een ander nadeel is de beperkte standaardisatie, oftewel: de data-formats verschillen vaak tussen verschillende data-tijdschriften (zelfs in hetzelfde vakgebied). Dit maakt zowel het re-analyseren van de data als het samenvoegen van verschillende datasets een stuk lastiger.
      - Ook is er (zoals je terecht opmerkt) in veel gevallen sprake van peer-review. Voor data zie ik dat eerder als beperkend (of op z'n minst onnodig vertragend), tenzij de peer-review puur gaat over format-standaardisatie.
      - Daar komt bij dat met data-journals vergelijkbare data verspreid is over verschillende tijdschriften, wat het verzamelen van data bemoeilijkt.
      - Als laatste speelt ook een belangrijke rol hoe er naar data-journals wordt gekeken door wetenschappers. Omdat het niet vanzelfsprekend is om je data te publiceren, wordt er (zeker in mijn vakgebied) vaak gedacht bij publicaties in data-journals: "die onderzoekers hadden zeker zelf niets interessants uit de data kunnen halen, dus publiceerde ze maar gewoon hun dataset".

      Idealiter zou je dus een database hebben waar de data direct openbaar, toegankelijk en analyseerbaar is op het moment dat een wetenschapper ze zelf binnen krijgt. Vergelijkbare data moet op een gestandaardiseerde manier meteen geopload kunnen worden met minimale beschrijving (puur wat nodig is om de dataset te begrijpen en analyseren). Omdat alle data op zo'n database hetzelfde format heeft en ook nog eens bij elkaar staat, kun je direct analyses en vergelijkingen maken vanaf de database. Dergelijke databases bestaan ook al, maar citeren hieruit gebeurd alleen nog maar door het gerelateerde onderzoeksartikel aan te halen.

      Verwijderen