Artículo: Generación y Estudio de una Población Sintética Española mediante Ingeniería de Datos
Archivos
Fecha
Editor
Publicado en
Licencia Creative Commons
Resumen
La generación de datos sintéticos poblacionales emerge como solución para estudios que requieren gran volumen de información personal, evitando riesgos de privacidad, como en la generación sintética de documentos nacionales de identidad. Este trabajo propone tres metodologías para crear una población sintética española, integrando datos del Instituto Nacional de Estadística (INE) sobre nombres, apellidos, distribución geográfica, ingresos y estructura de hogares. La primera aproximación emplea selección aleatoria simple, la segunda utiliza distribuciones ponderadas por frecuencias poblacionales, mientras la tercera incorpora distribuciones estadísticas y relaciones entre hogares. Los datos se almacenaron en Neo4j, permitiendo análisis de redes entre individuos, municipios y hogares. La validación, realizada sobre 100.000 personas, demostró que la tercera experiencia replica con mayor precisión la distribución real de edad, género, ingresos y tamaño de hogares, ajustándose a la estadística nacional española. Los resultados destacan la capacidad de estos datos sintéticos para simular fenómenos como movimientos migratorios, dinámicas epidemiológicas o estudios socioeconómicos, con un coste computacional aceptable sobre cualquier equipo. Este enfoque ofrece una herramienta versátil para investigaciones que requieren datos anónimos y escalables, respetando patrones demográficos reales.


