In de komende twee blogs bespreek ik twee voorbeelden van publieke organisaties die data science inzetten om te voorspellen. In deze eerste blog bespreek ik het voorbeeld van Orionis, een gemeenschappelijke organisatie van de gemeenten Middelburg, Veere en Vlissingen. Zij zet software in om bijstandsfraude op te sporen. In de tweede blog zijn de politiekorpsen aan de beurt. Zij zetten ProKid in als instrument om jeugdcriminaliteit vroegtijdig te signaleren. Waar liepen deze organisaties tegenaan bij het toepassen van data science in de praktijk? Deze voorbeelden worden vaak als succes bestempeld maar er zijn ook enkele kritische punten. Het is goed om bij deze punten stil te staan zodat we ervan kunnen leren. Want met data science kun je toegevoegde waarde creëren. Maar het is ook belangrijk om realistische verwachtingen te hebben en rekening te houden met noodzakelijke randvoorwaarden voor succes. Laten we eerst stil staan bij de motivatie van Orionis om in te zetten op data science.

Foto bij blog over voorspellen met data science - Van Dam & Oosterbaan

Waarom kiest Orionis ervoor om te investeren in data science?

Publieke organisaties, zoals gemeenten, hebben de beschikking over data die betrekking hebben op zijn of haar inwoners. Door met machine learning technieken patronen uit deze data te destilleren kunnen tools worden gebouwd die voorspellingen doen. Orionis heeft geïnvesteerd in het ontwikkelen van een hulpmiddel die voorspelt, met behulp van algoritmes, hoe groot de kans is dat een inwoner bijstandsfraude pleegt. Dit heeft tot gevolg dat sociale rechercheurs een focus kunnen aanbrengen in hun werk. Ze besteden hun tijd vooral aan het onderzoeken van mensen met een groot risico op fraude. Bijkomend voordeel is dat mensen die een kleine kans hebben op het plegen van fraude minder (onnodig) lastig worden gevallen.

Bijstandsfraude opsporen met behulp van een algoritme

Hoewel het opsporen van bijstandsfraude met een data scientist en big data een veelbelovende aanpak lijkt, zijn er enkele aandachtspunten. Het is bijvoorbeeld een onrealistische wens om van een voorspellingsmodel te verwachten dat het altijd een goede voorspelling doet. Je zult te maken hebben met onjuiste voorspellingen. Orionis kan bij ongeveer 50% van de gevallen die door het algoritme worden aangemerkt als fraude ook daadwerkelijk fraude aantonen. Het is aannemelijk dat een (groot) gedeelte van de overige 50% geen fraude heeft gepleegd. Dit zijn “false positives”: er wordt fraude voorspeld en in de feitelijke situatie is geen sprake van fraude. De fraudeurs die niet zijn aangemerkt als fraude blijven bovendien uit het zicht, dit zijn “false negatives”.

 Feitelijke situatieFeitelijke situatie
VoorspellingJaNee
JaJuistOnjuist; false positive
NeeOnjuist; false negativeJuist

Om het optimaal te benutten kun je het voorspellingsmodel steeds verder finetunen om ervoor te zorgen dat de precisie zal verbeteren. Maar wees je ervan bewust dat het een onrealistisch doel is om het proces van het detecteren van fraude volledig te automatiseren. De rol van sociale rechercheur kun je met data science niet overbodig maken. Het elimineren van een sociaal rechercheur uit het proces is overigens ook bij wet verboden. De Europese privacywet verbiedt dat mensen geprofileerd worden door een computer indien hier ingrijpende rechtsgevolgen aan verbonden zijn. De wet schrijft voor dat bij een dergelijk proces ten allen tijde een menselijke beoordelaar betrokken moet zijn.

Ook goed om te weten: het algoritme geeft (nog) geen handvatten als het gaat om de vraag op welke manier er fraude wordt gepleegd. Sociale rechercheurs zijn nog steeds veel tijd kwijt met het onderzoeken van de gevallen die worden aangemerkt als fraude. Het is daarom onduidelijk of (op dit moment) een efficiencywinst wordt behaald. Dit is in het algemeen een zwak punt van veel voorspellingsmodellen die worden gebouwd door middel van data science. Er wordt in de data gespeurd naar patronen van samenhang, maar niet (per definitie) van causale relaties. Dat betekent dat voorspellingsmodellen aangeven hoe groot de kans is dat een gebeurtenis zich voordoet, maar niets zeggen over het waarom.

Wat is belangrijk om te onthouden?

Data science kan gemeenten ondersteunen bij het inzetten van de juiste middelen, op het juiste moment, bij de juiste doelgroep. Maar het finetunen van voorspellingsmodellen kost tijd en je hebt altijd te maken met onjuiste voorspellingen. Bovendien weet je op basis van een voorspelling vaak nog steeds niet precies hoe de vork in de steel zit. Het werk van menselijke beoordelaars blijft daarom essentieel. Zij mogen volgens de wet in veel processen van publieke organisaties ook niet worden geëlimineerd.

Meer lezen over Orionis en het algoritme dat wordt ingezet om bijstandsfraude op te sporen? Lees hier en hier twee artikelen in het NRC Handelsblad. In de blog van volgende week vertel ik wat we kunnen leren van de toepassing van data science door politiekorpsen.

Meer weten?

Ben je geïnteresseerd en wil je meer weten? Neem dan telefonisch of per e-mail contact op met Sanne Arts via 06 18 24 32 62 of sanne.arts@vandamoosterbaan.nl.

Deel via
Auteur

Sanne Arts