Cómo los científicos de datos encontraron un vínculo entre las inspecciones de restaurantes y el salvaje mercado inmobiliario de Nueva York.
Por William Watts
Los investigadores encuentran que los datos disponibles públicamente sobre las inspecciones y las estadísticas de delitos ayudan a mejorar las predicciones de los precios de los apartamentos en Nueva York
¿Quiere conocer el dinámico mercado de apartamentos de la ciudad de Nueva York? Resulta que las estadísticas de delitos y, quizás más sorprendentemente, las inspecciones de salud en restaurantes pueden ser una guía útil.
En un artículo publicado recientemente , el profesor de informática de la Universidad de Nueva York Anasse Bari y los estudiantes de posgrado Rafael Moraes y Jiachen Zhu descubrieron que los modelos tradicionales de pronóstico de precios pueden mejorarse agregando conjuntos de datos disponibles a través del proyecto de "Datos abiertos" de la ciudad de Nueva York, que hace que una gama de datos publicados por agencias de la ciudad y sus socios disponibles para el público.
En particular, las estadísticas de delitos y las inspecciones de salud en restaurantes ofrecieron la guía más perspicaz. Y en el caso de los datos del restaurante, eso fue un poco sorprendente, dijo Bari a MarketWatch, en una entrevista.
Está claro que buenos restaurantes y vecindarios agradables a menudo van de la mano.
"La intuición surgió del hecho de que en Nueva York, en muchos lugares donde tenemos buenos restaurantes, parece que de alguna manera afecta las rentas o los precios de la vivienda", dijo Bari.
Pero los investigadores inicialmente pensaron que las mejores ideas potenciales podrían provenir de las revisiones de las redes sociales. Sin embargo, un problema fue el tema bien documentado de las revisiones falsas. Los dueños de negocios, después de todo, tienen un incentivo para publicar comentarios positivos en línea que pueden distorsionar las calificaciones.
En contraste, los resultados de la inspección de salud no pueden ser falsificados. Y cada restaurante en Nueva York está sujeto a al menos una inspección no anunciada al año. Entonces, al final, las altas calificaciones de salud ofrecen una perspectiva más limpia y proporcionan una señal más útil que las revisiones, dijo Bari.
Dicho esto, hacer que el modelo funcione no fue tan fácil como ir a Datos abiertos y conectar las cifras. Bari explicó que también se requirieron esfuerzos sustanciales de limpieza y mapeo de datos.
Para crear el conjunto de datos final, los investigadores filtraron solo los apartamentos que aparecieron al menos dos veces en los datos y almacenaron sus precios y fechas de venta, lo que les permitió calcular el crecimiento promedio mensual de los precios de los apartamentos en cada código postal.
En una prueba retrospectiva, los investigadores reunieron datos hasta 2017, luego utilizaron análisis predictivos para fusionar las fuentes de datos alternativas con precios históricos para hacer predicciones para 2018. Compararon sus hallazgos con modelos de pronóstico tradicionales basados únicamente en datos de precios históricos. Los resultados indicaron que tanto los datos de las inspecciones como las estadísticas del crimen condujeron a mejores predicciones y una tasa de error más baja en comparación con depender únicamente de los precios históricos, explicó Bari.
“La idea es que los otros dos conjuntos de datos son mucho más ruidosos, pero aún contienen una señal débil que puede mejorar nuestras predicciones. Esto es posiblemente plausible dada la complejidad de las grandes ciudades, donde muchos factores medibles están interconectados y pueden reforzarse entre sí con ciertos retrasos ", escribieron los investigadores, en el documento.
El documento también sirve para subrayar por qué los inversores deben ser disuadidos de pensar que simplemente pueden conectarse a un solo conjunto de datos y esperar que brinde información que supere al mercado.
Bari y otros expertos en datos alternativos advierten contra la exageración que ha acompañado la explosión de nuevos conjuntos de datos disponibles para los inversores que buscan una ventaja en los mercados. Una economía cada vez más digitalizada, la caída de los precios de almacenamiento de datos y el enorme poder de cómputo y otros avances tecnológicos han puesto a disposición una gama de conjuntos de datos no tradicionales, desde imágenes satelitales hasta datos de tarjetas de crédito y servicios de raspado web, y generaron una industria en rápido crecimiento.
Para los inversores, se debería esperar que los conjuntos de datos alternativos individuales por sí mismos entreguen resultados similares a los conjuntos de datos tradicionales, dicen estos expertos. La ventaja potencial es que una gama más diversa de conjuntos de datos combinados con análisis predictivos, un término que cubre el uso de datos históricos, técnicas estadísticas y aprendizaje automático para hacer pronósticos, puede proporcionar predicciones más precisas que los datos tradicionales solos.
"Este proyecto de investigación es una prueba de concepto del uso de dos nuevos conjuntos de datos para hacer predicciones de los mercados inmobiliarios", dijo Bari. Una empresa de inversión podría usar otros conjuntos de datos y utilizar el mismo enfoque de ciencia de datos descrito en el documento en un esfuerzo por mejorar sus predicciones inmobiliarias, dijo.
"Requiere varios experimentos de datos y paciencia", dijo. "Es como si estuviéramos corriendo una larga maratón".