Met Text Mining maak je het verschil

dinsdag 09 maart 202109:50
null
Categorie
#innovatie
Data, data, data. Kwantitatief weten we er vaak wel raad mee. Het is snel te analyseren en we vertalen het gemakkelijk in grafieken.

Met Text Mining maak je het verschil

Data, data, data. Kwantitatief weten we er vaak wel raad mee. Het is snel te analyseren en we vertalen het gemakkelijk in grafieken. Maar kwalitatief is het een ander verhaal, terwijl hier juist de meest waardevolle informatie te ontdekken is. Informatie waarmee je in projectontwikkeling verschil kan maken, vindt Mariska van Brussel als data marketeer bij Blauwhoed.

Het belang van data is ondertussen algemeen bekend en iets waar je – ook in de vastgoed wereld –  niet meer omheen kunt. In mijn rol als data marketeer ben ik dan ook veel bezig met cijfers, want dat is toch het eerste waar mensen aan denken bij het begrip data. Marktrapportages opstellen, prijsanalyses uitvoeren, woonwensen van bewoners toetsen en dit alles wordt weergegeven in duidelijke dashboards en rapportages. Een groot deel van deze data is kwantitatief. Ook in enquêtes wordt vaak de voorkeur gegeven aan het stellen van gesloten vragen. Deze data is namelijk snel te analyseren en geeft meteen duidelijke uitkomsten. Maar er is nog een belangrijke bron van data die veel waardevolle informatie bezit: kwalitatieve data, zoals de open enquêtevragen die we zeker niet moeten vergeten. Hier zit namelijk een schat aan waardevolle informatie in die vaak diepere inzichten geeft in achterliggende motieven. Ook in lappen tekst kunnen we trends waarnemen. En met behulp van innovatieve tools zoals Text Mining, hoeft het analyseren van deze kwalitatieve data geen grote klus te zijn.

Wat is Text Mining?

 Text Mining is een methode om grote lappen tekst gestandaardiseerd en geautomatiseerd te analyseren. Tekstuele data bestaat natuurlijk al net zo lang als numerieke data, maar de meeste algoritmes kunnen alleen numerieke data verwerken. Dit komt omdat hier duidelijke wiskundige regels voor bestaan (denk aan optellen, aftrekken, vermenigvuldigen, etc.). Woorden kun je natuurlijk niet makkelijk bij elkaar optellen of van elkaar aftrekken. Gelukkig zijn de laatste jaren innovatieve algoritmes ontwikkeld en grote databases in verschillende talen ontwikkeld, waardoor nieuwe manieren ontstaan om lange teksten automatisch te kunnen verwerken. Text Mining is eigenlijk de verzamelnaam voor alle algoritmes die dit mogelijk maken.

Welke vormen zijn er, en hoe werken deze?

Een van de belangrijkste methoden is de sentimentanalyse. Bij een sentimentanalyse wordt gebruik gemaakt van een database waarin heel veel woorden in een bepaalde taal staan. Aan die woorden worden scores gehangen, die bijvoorbeeld de polariteit (is het een positief of een negatief woord) of de subjectiviteit (is het een mening of een feit) vertegenwoordigen. Een woord als ‘fantastisch’ heeft een positieve polariteitsscore en ook een hoge subjectiviteitsscore, want het gaat naar alle waarschijnlijkheid om een positieve mening. Tegelijkertijd krijgt een woord als ‘ziekte’ een negatieve polariteitsscore, maar ook een lage subjectiviteitsscore. Wanneer iemand een ziekte noemt wordt vaak een feitelijke diagnose omschreven, maar wel eentje die bijzonder vervelend is. Deze databases worden bijgehouden door taalkundigen van over de hele wereld en zijn vaak open-source. Door teksten tegen deze databases aan te leggen, kunnen we het sentiment meten. Dit kan bijvoorbeeld iets zeggen over hoe tevreden bewoners zijn met de woon- en leefomgeving. En als we weten van welke (type) mensen de teksten afkomstig zijn (bijvoorbeeld in een enquête), kunnen we het verschil in sentiment onder groepen mensen meten.

null

Een andere analysevorm is topic modelling. Dat is ook weer een verzamelnaam voor verschillende analyses, maar vaak probeer je met deze analyses kernwoorden te onttrekken die aan het onderwerp van de tekst raken. Als we bijvoorbeeld tien teksten tegen elkaar aanleggen, kun je met een topic modelling-algoritme bepalen welke woorden uniek gebruikt worden in een bepaalde tekst. Hierdoor ontdek je vaak, zonder de tekst te lezen, waar een tekst over gaat. Stel de tien teksten zijn allemaal omschreven ervaringen van bewoners in tien verschillende buurten. En we kijken vervolgens welke woorden elke bewoner het vaakst gebruikt heeft. Dan valt  waarschijnlijk op dat elke bewoner generieke woorden zoals ‘buurt’, ‘lawaai’ en ‘rotzooi’ gebruikt. Dat is wel interessant, maar het laat niet de unieke problematiek van een buurt zien. Met topic modelling kan je daarentegen ontdekken dat het in één bepaalde buurt juist vooral om de sociale cohesie (of het gebrek daaraan) gaat. De computer merkt namelijk dat de bewoner van deze buurt zich relatief veel opwindt over ‘mensen’ en ‘buren’, terwijl dit bij bewoners in andere buurten minder het geval is.

Wat levert dit bijvoorbeeld op?

Een praktijkvoorbeeld. Hiervoor heeft Springco Urban Analytics, een datagedreven adviesbureau in de woon- en leefomgeving, een Text Mining-analyse gedaan op resultaten uit De Grote Omgevingstest (DGOT). Respondenten hebben veel open antwoorden gegeven op enquêtevragen, zoals het door hen ervaren woonmilieu, hun positieve en negatieve associaties met de buurt en voorgestelde verbeteringen voor hun woning. Deze teksten kunnen we bovendien goed onderscheiden naar persoonskenmerken (leefstijl, levensfase, inkomen, etc.). Het zou interessant zijn om tot nieuwe hypotheses rondom het thema woongeluk en welzijn te kunnen komen.

null

Neem bijvoorbeeld het verband tussen iemands reistijd naar werk en de mate van tevredenheid met de woning volgens onze sentimentanalyse. Hierin is duidelijk te zien dat de mensen die een relatief korte reistijd hebben gemiddeld een stuk tevredener zijn. Een interessante kanttekening is echter dat dit verband op een gegeven moment ophoudt. Mensen die een reistijd van meer dan een uur hebben zijn gemiddeld juist bijna even tevreden als de mensen met een reistijd van tussen de vijftien en dertig minuten.

null

Als we vervolgens kijken naar community beleving, zien we dat inzet voor de buurt en contact met buurtbewoners gepaard gaat met een positievere woonbeleving. Mensen die weinig contact hebben met buurtbewoners zijn negatiever over hun woonsituatie dan mensen die af en toe of veel contact hebben met hun buurtbewoners. Er zijn ook mensen die aangeven weinig contact te hebben en dat ook prima vinden, maar zij hebben waarschijnlijk ook weinig affiniteit met hun buren en daarom ook niet met de buurt. Dat de meeste mensen die meer contact hebben ook tevredener zijn is een interessant inzicht waar zeker wat mee gedaan kan worden in het ontwerpen van de stad. We zouden onze steden bijvoorbeeld meer kunnen toespitsen op ontmoeting in plaats van efficiëntie.

Dit zijn wat tips van de sluier die een idee geven, maar je kan je al voorstellen dat de mogelijkheden eindeloos zijn. Dankzij Text Mining kan je veel gerichter de motieven van bewoners achterhalen. Techbedrijven gebruiken deze methodieken al om hun positionering beter te kunnen bepalen. Zij vinden tienduizend vijfsterrenwaarderingen lang niet zo waardevol als een paar honderd geschreven uitleggen, omdat hier veel meer inhoudelijke informatie over sterktes, zwaktes, kansen en uitdagingen kan worden geput. Kwalitatieve data vertegenwoordigt werkelijk een schat aan informatie. Tijd om deze zo snel mogelijk te ontginnen en op deze manier gerichter de motieven van bewoners te achterhalen. Een mooie gelegenheid om in te zetten bij co-creatie sessies tijdens de ontwikkeling van je plan!

Wil je meer weten over Text Mining, meld je dan aan voor de kennissessie op donderdag 18 maart!

Mariska van Brussel

Mariska van Brussel, data marketeer bij Blauwhoed