Showcase: Huizenprijzen voorspellen

Controleren of de vraagprijs van een huis marktconform is? In Summa heeft een online webapplicatie ontwikkeld waarmee dit kan. Op basis van verscheidene informatiebronnen die samenkomen in de applicatie worden huizenprijzen voorspeld.

Tools

Om de webapplicatie te ontwikkelen zijn er verschillende tools ingezet. De combinatie van deze tools heeft gezorgd voor een uitstekend werkende, mooie visuele webapplicatie. Het project is ontwikkeld in Azure Machine Learning Studio (AML Studio). Dit is een onderdeel van de Cortana Intelligence Suite. Om de data uit verschillende bronnen te bewerken en samen te voegen is gebruik gemaakt van de managementstudio van SQL-server, de AML Studio, en diverse Python en R scripts. De data wordt op een mooie, visuele wijze gepresenteerd in Power BI, een tool van Microsoft welke goed aansluit op Azure databases.

Databronnen

Om tot de benodigde data te komen wordt huizendata, zoals verkoopprijs, woonoppervlakte en aantal kamers, van een online vastgoedplatform dagelijks opgehaald. Daarnaast zijn alle adressen in Nederland via Kadaster opgehaald uit een openbare PostGIS database, wat voor aanvullende kenmerken zorgt zoals bouwjaar en pandstatus. Ten slotte wordt er data over woonplaatsen verzameld, zoals het aantal inwoners en de leeftijdsverdeling, uit een openbare CSV van het CBS.

Machine Learning

Op basis van de data uit de verschillende informatiebronnen worden Machine Learning algoritmen getraind in het voorspellen van huizenprijzen. De samengevoegde data wordt in de AML Studio gesplitst in één dataset om de Machine Learning algoritmen mee te trainen (80%) en één dataset om ze vervolgens mee te testen (20%). In de trainingsfase worden combinaties van huizenkenmerken gerelateerd aan bijbehorende reeds bekende huizenprijzen. In de testfase wordt gekeken hoe nauwkeurig een getraind algoritme de bekende vraagprijzen kan voorspellen op basis van de huizenkenmerken.

Verschillende Machine Learning algoritmen zijn getraind en geëvalueerd op de data. Uiteindelijk behaalde het zogenoemde ‘Boosted Decision Tree Regression’ algoritme de hoogste evaluatiescore welke vervolgens is geoptimaliseerd door verschillende parameters te finetunen.

Resultaat

Het uiteindelijke model verklaart 88% van de variatie in de Nederlandse vraagprijzen wat een sterk verband weerspiegelt tussen de verklarende kenmerken (zoals woonoppervlakte, aantal kamers, etc) en de vraagprijs. De gemiddelde afwijking tussen de geschatte vraagprijs en de daadwerkelijke vraagprijs is met 40.000 euro (ofwel 30%) vrij hoog. Dit laat zien dat a) veel huizen niet marktconform zijn geprijsd of b) dat belangrijke kenmerken nog niet in het model zijn opgenomen. Het model kon bijvoorbeeld geen rekening houden met de staat van een huis omdat deze informatie niet in de data aanwezig was. Door meer databronnen te koppelen aan deze applicatie kan de voorspellende kracht van dit model verder geoptimaliseerd worden en kunnen vraagprijzen nog beter worden ingeschat en beoordeeld.

visualisatie data analytics

Visualisatie van de resultaten in Power BI. De grafiek toont de vraagprijzen van de huizen in Nederland uitgezet tegen de geschatte vraagprijzen van het geoptimaliseerde model. Op de kaart staat rood voor huizen met een vraagprijs boven de geschatte vraagprijs, en groen voor vraagprijzen onder de geschatte vraagprijs. De kolom met adresgegevens is voor deze demo verborgen om privacy te waarborgen.

  • Google maps

  • Maatwerk oplossingen voor uw organisatie

  • BI - werk efficiënter en effectiever