Artículo:
Arquitectura de un Framework para la Generación Automatizada de Datasets Temporales en Data Lakes

Fecha

2023-09-12

Editor

Sistedes

Publicado en

Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023)

Licencia Creative Commons

Resumen

En los últimos años, los data lakes se han popularizado como solución para el almacenamiento centralizado de grandes volúmenes de datos heterogéneos procedentes de fuentes dispares. Estos datos suelen tener un marcado carácter temporal, ya que los datos suelen extraerse periódicamente de diversas fuentes a diferentes frecuencias y se almacenan directamente en crudo. Por tanto, estos datos deben ser adecuadamente preprocesados antes de ser consumidos por las aplicaciones que los explotan. Esta tarea de preprocesamiento se realiza actualmente de manera manual, mediante la escritura de scripts en lenguajes de transformación de datos. Este proceso es laborioso, costoso y, por lo general, propenso a errores. Para tratar de aliviar este problema, este artículo presenta la arquitectura inicial de Hannah, un framework que busca automatizar la generación de datasets para la minería de series temporales a partir de datos en bruto provenientes de data lakes. El objetivo es que, utilizando la menor cantidad de información posible como entrada, el framework sea capaz de recuperar los datos requeridos del data lake y procesarlos para que encajen adecuadamente dentro de un dataset.

Descripción

Acerca de Sal, Brian

Palabras clave

Data Lake, Ingeniería De Datos, Ciencia De Datos, Series Temporales
Página completa del ítem
Notificar un error en este artículo
Mostrar cita
Mostrar cita en BibTeX
Descargar cita en BibTeX