Een onstilbare honger naar data

13 september 2017

Big data wordt wel de olie van de 21e eeuw genoemd, maar hoe kun je geld verdienen met data? Het is een prangende vraag die niet alleen René van Erk, maar ook klanten van Qhuba bezighoudt. Na een boeiende carrière bij onder meer Microsoft en Wolters Kluwer richtte Van Erk zijn eigen onderneming op, waarmee hij de wereldwijde softwaremarkt minutieus in kaart bracht. ISVWorld beschikt inmiddels over een database waarin maar liefst 119.055 softwareleveranciers zijn opgenomen. Toch is zijn honger naar data nog lang niet gestild: “Een beetje data nerd ben ik inderdaad wel.”

Van Erk heeft niet alleen een verfrissende, maar vooral nuchtere visie op data science die hij graag wil delen met Qhuba klanten aan de hand van voorbeeldprojecten. “Iedereen heeft het tegenwoordig over artificial intelligence, machine learning en deep learning”, maar als je kritisch kijkt waar de meeste bedrijven werkelijk mee bezig zijn, zou ik dat eerder kwalificeren als business intelligence, business analytics en applied mathematics, of in gewoon Nederlands toegepaste wiskunde en statistiek.” Dat geldt voor een deel ook voor zijn eigen onderneming ISVWorld, dat bijvoorbeeld op basis van openbare bronnen schattingen maakt over onder meer de bedrijfsomvang van softwarebedrijven.

Deep learning

“Het verzamelen, prepareren, opschonen en converteren van externe data is één ding, maar het wordt pas echt interessant als je algoritmes inzet om bepaalde patronen te ontdekken.” Van machine learning is volgens Van Erk pas sprake als je de algoritmes zelf laat trainen. De algoritmes kunnen vervolgens zelfstandig op zoek gaan naar informatiebronnen op het internet om vervolgens op basis van consistente waarnemingen betrouwbare voorspellingen te kunnen doen. Volgens een gangbare definitie is machine learning het vakgebied dat computers in staat stelt om te leren zonder hiervoor expliciet geprogrammeerd te zijn. Deep learning is een doorontwikkeling hiervan. Deep learning-algoritmes kunnen namelijk zelfstandig nieuwe vaardigheden leren.

Spotify algoritmes

Bij ISVWorld heeft Van Erk softwareontwerpers in dienst die zelf algoritmes ontwikkelen. Daarnaast maakt hij gebruik van Luigi, een open source workflow engine die oorspronkelijk ontwikkeld is door Spotify en gebouwd is om machine learning data flows te faciliteren. Luigi is binnen de programmeertaal Python een module die in staat is om een grote complexe pijplijn op te bouwen waarbinnen duizenden verschillende onderling afhankelijke taken met verschillende seriegroottes dagelijks worden uitgevoerd. Bij Spotify zorgt het algoritme er bijvoorbeeld voor dat de aanbevelingen voor de muziekliefhebbers, hitlijsten, A/B test analyses, externe rapporten en interne dashboards relevant en up-to-date zijn.

Het begin

Hoewel Van Erk geen echte bètawetenschapper is, beschikt hij wel degelijk over een wiskundeknobbel. Met gevoel voor nostalgie blikt hij terug op de periode direct na het behalen van zijn VWO-diploma. In opdracht van De Amersfoortse berekende hij ooit aan de hand van sterftetabellen de pensioenverplichtingen voor deze inkomensverzekeraar. Handmatig wel te verstaan, van automatisering was toen nog nauwelijks sprake. Gek genoeg beleefde hij aan deze op het eerste gezicht nogal saaie rekenexercities veel plezier. De voedingsbodem voor een loopbaan in de data science was hiermee gelegd, zonder dat Van Erk zich er toen waarschijnlijk bewust van was.  Van Erk maakte carrière en pendelde regelmatig op en neer tussen San Francisco, Seattle, Singapore, Italië en Nederland. Bij Wolters Kluwer was hij onder meer mede verantwoordelijk voor de in totaal meer dan 100 fusies en overnames die het uitgeefconcern in Europa pleegde en leidde daar de succesvolle transformatie in Europa die de traditionele uitgever doormaakte van een aanbieder van papieren uitgaven naar digitale softwareoplossingen en databanken. In die periode werd zijn interesse voor data, zoektechnologieën en Natural Language Processing (NLP), de wetenschap die zich bezighoudt met verwerking van mensentaal door computers, nog verder aangewakkerd. Search engines en NLP zijn de basis van machine learning.

Ontwikkelingen in Sillicon Valley

Door zijn recente verblijf in Silicon Valley verwierf Van Erk een goed inzicht in de technologiesector. Hij is ervan overtuigd dat Google met zijn dataverzamelingen en algoritmes een enorme voorsprong heeft opgebouwd die door Apple, Facebook of Amazon nog maar moeilijk is in te halen. Apple’s Siri zal het uiteindelijk afleggen tegen Google Now als we beide digitale persoonlijke assistenten met elkaar vergelijken op basis van de hoeveelheid en kwaliteit van data waarover ze kunnen beschikken. “Google is een databedrijf van origine en heeft zoveel meer datahistorie.” Op het internet is Google Translate inmiddels in staat meer dan 100 talen te begrijpen, waardoor deze veelvuldig geraadpleegde dienst 99 procent van alle internetgebruikers bedient. Google heeft vanaf de oprichting de focus gericht op data en alles wat daarmee te maken heeft. De zoekmachines, algoritmes en NLP zitten in de haarvaten van het bedrijf. Apple daarentegen heeft eerst als hardwareleverancier een prominente positie opgebouwd. Het is vooral een designbedrijf. De software en data werden pas later belangrijk met de introductie van iTunes en iCloud.

Unieke data

“Venture capitalists die willen investeren in veelbelovende softwarebedrijven, maar ook business development managers en marketingmanagers van grote softwareleveranciers zoals IBM, RedHat, SalesForce, Dell en Microsoft, hebben behoefte aan objectieve informatie over die softwarebedrijven waarmee ze eventueel zaken willen doen. Hoeveel bedrijven maken bijvoorbeeld wereldwijd gebruik van opensourcesoftware? Welke softwarebedrijven hebben applicaties in de cloud draaien? Hoe groot is de CRM-markt? Dit zijn allemaal relevante vragen waarop onze database antwoord geeft. Voor dit soort unieke data, data die een bepaalde waarde vertegenwoordigt, zijn klanten volgens mij altijd bereid te betalen, zo is mijn overtuiging en ervaring. Het gaat namelijk om data die managementbeslissingen ondersteunt. In die zin is data inderdaad het nieuwe goud, of de olie van de 21e eeuw. Van de belangrijkste beursgenoteerde bedrijven is de bedrijfsinformatie meestal wel bekend, maar van de grote groep bedrijven zonder beursnotering is het vaak een heel gedoe om alle relevante bedrijfsinformatie handmatig op te snorren. Computers uitgerust met een zelflerend algoritme kunnen dat tegenwoordig veel sneller, goedkoper en nauwkeuriger dan een mens van vlees en bloed.”

Data-verslaving

Dit inzicht, in combinatie met Van Erk’s heilige geloof in bigdatatechnologieën, zijn “data-verslaving” en zijn affiniteit met zoektechnologieën en computertalen, liggen ten grondslag aan de oprichting van ISVWorld. Het idee ontstond in 2008 tijdens een vakantie op een eiland voor de kust van Sicilië. Van Erk was bij Kluwer enigszins gefrustreerd geraakt over de ondoorzichtigheid van de wereldwijde softwaremarkt. Voor zijn werk als business developer bij het fusies en acquisitietraject dat Wolters Kluwer had ingezet, miste hij heel vaak relevante basisinformatie, waardoor hij de noodzakelijke inzichten over bedrijven ontbeerde. Zo is het idee voor ISVWorld geboren. Toch duurde het nog tot 2013 voordat de eerste bètaversie van de applicatie beschikbaar kwam. Het kostte Van Erk dus veel bloed, zweet en tranen (lees: euro’s) om het productidee te vercommercialiseren en om te zetten in een valide verdienmodel. Inmiddels struinen zijn computers duizenden internetsites af op zoek naar relevante content en signaleren zij interessante patronen. Aan de door computers verzamelde bedrijfsinformatie zijn inmiddels ook financiële benchmarkgegevens en andere statistieken over (innovatieve) softwarebedrijven toegevoegd. ISVWorld maakt nadrukkelijk geen gebruik van zogenoemde user generated content. “Dat zou ten koste gaan van de betrouwbaarheid van de bedrijfsinformatie. Ondernemingen zijn heel snel geneigd zich groter voor te doen dan ze in werkelijkheid zijn, of bijvoorbeeld hun expertise op bepaalde terreinen te overdrijven.”

Machine learning

Op basis van machine learning is inmiddels van 119.055 software vendors bedrijfsinformatie verzameld. Daarnaast zijn 252.979 softwareproducten en 923.841 sleutelfunctionarissen uit de wereldwijde softwareindustrie in kaart gebracht. Desondanks is de datahonger van Van Erk en zijn tien collega’s nog niet gestild. “Op de achtergrond worden zo’n 550.000 tot 600.000 bedrijven wereldwijd gemonitord door onze systemen. Wat is de bedrijfsomvang, waar staat het hoofdkantoor, welke softwarebedrijven met meer dan 5 miljoen omzet zijn actief in de automotive sector? De computers geven desgewenst het antwoord op deze specifieke vragen. Er zijn bovendien filtermogelijkheden om de zoekopdracht verder te verfijnen. “Wij leveren die gefilterde bedrijfsinformatie op abonnementsbasis. Afhankelijk van het aantal gebruikers en het aantal exports en downloads dat deze afnemen, betalen klanten een jaarlijkse fee.”

Monetization van data

Van Erk is enkele maanden geleden teruggekeerd uit Silicon Valley. Daar heeft hij een aantal bedrijven geadviseerd over de vraag hoe ze hun data te gelde kunnen maken. Veel bedrijven hebben volgens hem moeite om een verdienmodel te bouwen rondom hun verzamelde data. Men is vooral bezig met interne dataverwerking. De zogenoemde ‘monetization van data’ schiet er dan vaak bij in. Door zijn verblijf in Silicon Valley is Van Erk niet alleen geïnspireerd geraakt om fundamenteel over data na te denken, maar heeft hij ook een realistischer beeld gekregen van welke rol deze beroemde regio nu werkelijk speelt op het wereldtoneel. “De sfeer in Silicon Valley nodigt sowieso altijd uit om te filosoferen over nieuwe businessmodellen en ondernemerschap. Gesprekken op de terrassen en in restaurants gaan steevast over het werk. Die carrousel draait maar door, 24 x 7.” Toch is er volgens Van Erk sprake van zowel over- als onderschatting van bepaalde karakteristieken van Silicon Valley. Zo beschikt Silicon Valley sinds jaar en dag nog steeds over het beste ecosysteem voor start-ups. De cijfers spreken volgens hem vaak boekdelen. “In deze regio wordt tien keer meer geïnvesteerd in innovatie, technologie en data dan in New York, Boston, Chicago en Seattle gezamenlijk. De schaduwkant is echter dat de schaarste aan kwalitatieve goede data scientists in de Bay Area ertoe leidt dat de salarissen en huizenprijzen de pan uitrijzen. In die zin is Silicon Valley ‘the place to be’, maar tegelijkertijd ook een onmogelijke plek. Het is wrang om te moeten vaststellen dat in Europa data innovatie nauwelijks van de grond komt, terwijl de studies econometrie en toegepaste wiskunde in Duitsland, Scandinavië, maar ook in Nederland, goed staan aangeschreven en een prima voedingsbodem zouden kunnen zijn voor een toekomstige glansrijke carrière in data science. Maar niet iedere Europeaan wil in Amerika werken”, zo concludeert Van Erk.

Volwassenheidsmodel van Gartner

Het volwassenheidsmodel van Gartner beschrijft de evolutie van data via analytics naar AI aan de hand van vier verschillende fasen. In dit classificatiemodel staan respectievelijk de beschrijvende fase (wat is er gebeurd?), diagnosticerende fase (waarom gebeurde dit?), voorspellende (wat gaat er gebeuren?) en de voorschrijvende analytics (hoe kunnen wij het laten gebeuren?) centraal. De meeste organisaties verkeren nog in de beschrijvende fase. Dit betekent dat ze vooral bezig zijn met het kijken in de achteruitkijkspiegel en het verwerven van inzichten (‘hindsight’ en ‘insight’) op basis van traditionele BI-systemen. “Juist in deze fase kunnen wij ondernemingen uitstekend helpen om na te denken hoe ze hun data science-strategie het beste kunnen vormgeven. Concreet hebben we het dan over de vraagstukken hoe je geld kan verdienen met data, hoe je data kunt gebruiken om de interne processen te optimaliseren en hoe je AI kunt gebruiken om tijdig te anticiperen op inmiddels voorspelbare incidenten in de bedrijfsvoering.”

René van Erk is voornemens om samen met Qhuba-partners een aantal voorbeeld- en speerprojecten te definiëren die de huidige en toekomstige klanten van Qhuba in staat moeten stellen om ook stappen te zetten op het gebied van data science. Concreet is het idee om bestaande initiatieven van bedrijven op het gebied van business intelligence en data analytics met behulp van machine learning naar een hoger plan te tillen.

Voor meer informatie neem contact met ons op.