Resumen:
A model-driven approach for systematic reproducibility and replicability of data science projects

Fecha

2023-09-12

Editor

Sistedes

Publicado en

Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023)

Licencia Creative Commons

Resumen

En los últimos años se ha producido un importante incremento en el número de herramientas y enfoques para la definición de pipelines que permiten el desarrollo de proyectos de ciencia de datos. Estas herramientas permiten tanto la definición del pipeline como la generación del código necesario para ejecutar el proyecto, proporcionando una forma sencilla de realizar estos proyectos incluso para usuarios no expertos. Sin embargo, todavía existen algunos retos que estas herramientas no abordan. Por ejemplo, la posibilidad de ejecutar pipelines en entornos tecnológicos diferentes a los de su definición (reproducibilidad y replicabilidad), o la identificación de operaciones inconsistentes (intencionalidad). Para paliar estos problemas, este trabajo presenta un framework basado en modelos para la definición de pipelines de ciencia de datos independientes de la plataforma de ejecución y de las herramientas concretas. Este framework se basa en la separación de la definición del pipeline en dos capas de modelado diferentes: conceptual, en el que el científico de datos puede especificar todas las operaciones de datos que conforman el pipeline; operacional, en el que el ingeniero de datos puede describir los detalles concretos del entorno de ejecución donde se implementarán las operaciones finalmente. Basado en esta definición abstracta y en la separación en capas, nuestra propuesta permite: el uso de diferentes herramientas mejorando, así, la replicabilidad del proceso; la automatización de la ejecución del proceso, mejorando la reproducibilidad del proceso; y la definición de reglas de verificación del modelo, proporcionando restricciones de intencionalidad.

Descripción

Acerca de González, Francisco Javier Melchor

Palabras clave

Reproducibility, Replicability, Process, Data Science, Model-driven Engineering
Página completa del ítem
Notificar un error en este resumen
Mostrar cita
Mostrar cita en BibTeX
Descargar cita en BibTeX