BLOG

Sådan bruger Vækstfonden data til at give investorer overblik over lovende startups

Hænder på laptop

26. september, 2019

Som investor kan det være svært at få overblik over, hvilke startups der findes på tværs af landet – og på en effektiv måde finde frem til de få, som man reelt vil investere i. På samme måde kan det som iværksætter være svært at få overblik over relevante investorer, som kan bidrage både med kapital og rette kompetencer. Vækstfonden har udviklet en scouting model, der kan hjælpe investorer og startups til at finde hinanden på en effektiv måde.

Af Morten Kloster Pedersen, Data Scientist i Vækstfonden

Investorerne får typisk rigtig mange ansøgninger, som de reaktivt screener, samtidig med at de proaktivt forsøger at identificere nye startups igennem netværk, konferencer og events. Men der er visse begrænsninger til denne proces; et døgn har kun 24 timer, og analytikerne er blot mennesker.

Derfor har Vækstfonden – med input fra relevante samarbejdspartnere – udarbejdet et bud på en løsning til gavn for hele økosystemet baseret på dataindsamling og machine learning; en scouting-model.

I et tidligere blogindlæg på vf.dk er Vækstfondens brug af machine learning beskrevet, herunder vores mantra om, at machine learning-modeller skal bruges til at gøre vores medarbejdere klogere – og vice versa. Netop det kan scounting-modellen medvirke til, idet den kan gøre det lettere for investorer – både indenlandske og udenlandske – at finde relevant dealflow i det danske marked.

Datagrundlag – hvordan virker scouting-modellen?

Scouting modellens datagrundlag består af stamdata hentet fra det Centrale Virksomhedsregister offentliggjort af Erhvervsstyrelsen, og som efterfølgende er beriget af intern data. Stamdata benyttes i henhold til vilkår for brug af danske offentlige data. Deres data er lagret i ElasticSearch og kan således tilgås via et RESTful-interface som opdateres i nær realtid og leveres i et JSON-format.

Opbygningen af scouting-modellen

Scouting-modellens styrke er, at den kan indsamle og processere enorme mængder data på meget kort tid, og præsentere det i et letforståeligt format.

Hele formålet er at kunne validere startups’ potentiale ud fra en række parametre, som samtidig kan afspejle og differentieres i forhold til investorernes præferencer. Ud fra en individuel vægtning sat af brugeren selv, scores hver startup for hvert datapunkt, og herefter rangeres virksomhederne ud fra deres totale score. Vægtningen er et centralt element, idet graden af hvor vigtigt et givent datapunkt er, er forskellig alt efter hvilken vertikal, man anskuer. En forsimplet, konceptuel visualisering af front-enden er vist nedenfor.

Scouting modellen er indtil videre baseret på variable såsom:

  • Industri(opererer de i en vertikal, der trender/vækster/tiltrækker venture kapital)
  • Lokation(Virksomhedens lokation: kontorfællesskaber, acceleratorer eller kompetence klynge)
  • Team(tidligere iværksætter-erfaring eller tidligere skabt succesfulde virksomheder)
  • Kapital(modtaget kapital fra Business Angel(s) eller Venture Capital)

Ud fra ovenstående står det klart, at datapunkterne af natur er meget kvalitative. For startups på de helt tidlige stadier giver det nemlig ikke mening at vurdere deres potentiale ud fra den finansielle performance. I stedet stilles der skarpt på andre parametre, som fx om der er andre personer eller tidlig fase-investorer, som har foretaget en eller anden form for validering af selskabet – eller om teamet har særlige kompetencer.

Hele arkitekturen laves således, at der kan tilkobles nye datakilder og/eller nye datapunkter kontinuerligt, og modellen er fortsat under udvikling.

Vertikalinddeling via tekst-klassificering

I scouting-modellen bruges en machine learning-teknik ved navn natural language processing (NLP) til at kategorisere startups ved hjælp af vertikaler såsom agritech, edtech og biotek. Ved at have en kategorisering af startups kan slutbrugerne filtrere på vertikaler og således få et bedre overblik over én eller flere specifikke vertikaler.

Den officielle brancheinddeling i Danmark kaldes for dansk branchekode (DB), og den gældende branchekode er i dag DB07. Men fra en analytikers synspunkt er denne brancheinddeling ikke særligt sigende i forhold til de mange nye segmenter (vertikaler), der hele tiden opstår. Via brugen af machine learning, kan scouting-modellen hjælpe med at identificere startups med potentiale ud for en given vertikal.

Intentionen er at træne én model for hver vertikal. Dette gøres ved at indsamle virksomhedsbeskrivelser (dokumenter) af Danmarks virksomheder for hver vertikal, konvertere disse tekstdokumenter til et numerisk format, som ML-modeller kan processere for derefter at foretage en probabilistisk tekst-klassifikation. Denne form for tekst-processering udgør NLP-elementet, hvorimod selve prædikteringen udgør machine learning-delen.

Probabilistisk klassifikation består i, at en classifier’s output er en sandsynlighed i stedet for en label. Ved hjælp af et threshold, kan vi ud fra sandsynligheden for den enkelte prædiktering afgøre, om en startup tilhører en given vertikal eller ej. Dette setup er visualiseret nedenfor.

Ovenstående framework kan mere teknisk karakteriseres som en form for multi-label klassifikation, idet én virksomhed i teorien kan tilhøre flere vertikaler. For eksempel kan en virksomhed i teorien godt være inden for både edtech og govtech.

Fordelen ved at digitalisere adgangen til dealflowet er, at man kan lave et feedback-loop mellem brugerne og scouting-modellen således, at modellen over tid kontinuerligt bliver bedre til at foreslå nye, relevante startups. På den måde kan scouting-modellen være med til at sikre en mere effektiv due dilligence i økosystemet, så investorerne lettere kan finde relevante startups – og vice versa.

Scouting modellen er endnu ikke offentlig tilgængelig – men alle input er meget velkomne. Vi er hele tiden på udkig efter nye API'er og/eller data, der kan tilføre værdi til scouting modellens samlede datagrundlag. Ræk gerne ud til en af vores data scientists, Morten (mkp@vf.dk).

Seneste nyt

Ditte Rude Moncur
16-09-2019
BLOG

Hvordan vi arbejder med machine learning i Vækstfonden

Vækstfonden har i løbet af de seneste år arbejdet strategisk og fokuseret med at anvende machine learning til det, som er vores kerneforretning; at sikre at iværksættere og vækstvirksomheder har adgang til den rigtige type af risikovillig kapital på det rigtige tidspunkt. Af Ditte Runde Moncur, digitaliserings- og analysechef, Vækstfonden

Nordic Makers
05-09-2019

Danske topiværksættere indgår partnerskab med Vækstfonden

En gruppe af Danmarks stærkeste iværksættere og business angels har indgået samarbejde med Vækstfonden og Den Europæiske Investeringsfond, EIF, som nu vil matche gruppens investeringer for at understøtte jagten på næste store tech-succes.

Vindmøller ved havet
03-09-2019

Verdens største testcenter for fremtidens vindmøller etableres på Lindø

Danmark tager nu for alvor kampen op om førerpositionen i verdensmesterskabet i vindenergi. Med etab-leringen af et gigantisk testcenter bliver det muligt at udføre test af fremtidens naceller, som er vindmøl-lens ”maskinhus”, på havvindmøller med en effekt på op til 20 MW. Det er den dobbelte effekt i forhold til, hvad de største havvindmøller er ved at nå op på i dag.