Gestión de Datos
URI permanente para esta colección:
Artículos en la categoría Gestión de Datos publicados en las Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019).
Notificar un error en esta colección
Examinar
Envíos recientes
Artículo Preprocesado de flujos de datos para aprendizaje automático mediante reglas CEPRamírez, Aurora; Moreno, Nathalie; Bertoa, Manuel F.; Vallecillo, Antonio. Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019), 2019-09-02.El procesamiento de flujos de información constituye un área de gran relevancia dentro de la gestión de datos, pues sus métodos deben ser ágiles y eficientes para soportar el volumen y la velocidad con la que los datos se generan actualmente. Las técnicas de minería de datos han necesitado adaptarse a estas circunstancias, que no solo afectan al modo en el que se aprende de los datos, sino también a la preparación de los mismos. En este contexto, los sistemas de procesamiento de eventos complejos (CEP) pueden facilitar el tratamiento de los datos en tiempo real. Este trabajo propone abordar el preprocesamiento de flujos de datos mediante CEP. El estudio experimental revela que los datos, convenientemente transformados y enriquecidos con información temporal, mejoran la predicción de los algoritmos de aprendizaje automático.Resumen Efficient Large-scale Distance-Based Join Queries in SpatialHadoopCorral, Antonio; García-García, Francisco; Iribarne, Luis; Vassilakopoulos, Michael; Manolopoulos, Yannis. Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019), 2019-09-02.Efficient processing of Distance-Based Join Queries (DBJQs) in spatial databases is of paramount importance in many application domains (e.g. image processing, location-based systems, geographical information systems (GIS), continuous monitoring in streaming data settings, road network systems, etc.). The most representative and known DBJQs are the K Closest Pairs Query (KCPQ) and the e Distance Join Query (eDJQ). These types of join queries are characterized by a number of desired pairs (K) or a distance threshold (e) between the components of the pairs in the nal result, over two spatial datasets. Both are expensive operations, since two spatial datasets are combined with additional constraints, and they become even more costly operations for large-scale data. Given the increasing volume of spatial data originating from multiple sources and stored in distributed servers, it is not always efficient to perform DBJQs on a centralized server. For this reason, this paper addresses the problem of computing DBJQs on big spatial datasets in SpatialHadoop, an extension of Hadoop-MapReduce that supports efficient processing of spatial queries in a cloud-based setting. SpatialHadoop injects spatial data awareness in each Hadoop layer, i.e. language, storage, MapReduce and operations layers.We propose novel algorithms, based on plane-sweep, to perform efficient parallel DBJQs on large-scale spatial datasets in SpatialHadoop. In addition to the plane-sweep base technique, we present a methodology for improving the performance of the KCPQ algorithms by the computation of an upper bound of the distance of the K-th closest pair. To demonstrate the benets of our proposed methodologies, we present the results of the execution of an extensive set of experiments that demonstrate the efficiency and scalability of our proposals using big synthetic and real-world points datasets.Artículo Modelado Conceptual basado en Objetivos para la definición de VisualizacionesLavalle, Ana; Maté, Alejandro; Trujillo, Juan. Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019), 2019-09-02.Cada vez son más las cantidades de datos que necesitan ser analizadas e interpretadas y la visualización de la información juega un papel clave para ello. Definir una visualización correcta y sin errores es crucial para comprender e interpretar los patrones y resultados obtenidos por los algoritmos de análisis, ya que una incorrecta interpretación o resultados incorrectos podría suponer pérdidas significativas a la empresa. Sin embargo, la definición de visualizaciones es una tarea difícil para los usuarios de negocio, ya que en la mayoría de ocasiones no son expertos en la visualización de información y no conocen exactamente las herramientas o tipos de visualización mas adecuados para medir sus objetivos. El principal problema que se encuentra es la falta de herramientas y metodologías que ayuden a usuarios no expertos a definir sus objetivos de visualización y análisis de datos en términos de negocio. Es por ello, que para afrontar este problema, presentamos un modelo basado en el lenguaje i* para la especificación de visualización de datos. Nuestra propuesta permite seleccionar de forma objetiva las técnicas de visualización más adecuadas, con la gran ventaja de proporcionar a los usuarios no expertos, las visualizaciones más adecuadas según sus necesidades y sus datos con poco esfuerzo y sin requerir experiencia en la visualización de información.Resumen GeoHbbTV: A framework for the development and evaluation of geographic interactive TV contentsLuaces Cachaza, David; Ríos Viqueira, José Ramón; Gamallo, Pablo; Mera Pérez, David; Flores, Julian. Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019), 2019-09-02.Synchronizing TV contents with applications is a topic that has gained much interest during the last years. Reaching the viewers through various channels (TV, web, mobile devices, etc.) has shown to be a means for increasing the audience. Related to the above, the hybrid TV standard HbbTV (Hybrid Broadcast Broadband TV) synchronizes the broadcast of video and audio with applications that may be delivered through either the broadcast channel or a broadband network. Thus, HbbTV applications may be developed to provide contextual information for emitted TV shows and advertisements. This paper reports on the integration of the automatic generation of geographic focus of text content with interactive TV. In particular it describes a framework for the incorporation of geographic context to TV shows and its visualization through HbbTV. To achieve this, geographic named entities are rst extracted from the available subtitles and next the spatial extension of those entities is used for the production of context maps. An evaluation strategy has been devised and used to test alternative prototype implementations for TV newscast in Spanish language. Finally, to go beyond the initial solution proposed, some challenges for future research are also discussed.Resumen Compact Representations of Event SequencesVarela Rodeiro, Tirso; Rodríguez Brisaboa, Nieves; Navarro, Gonzalo; Seco, Diego; de Bernardo Roca, Guillermo. Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019), 2019-09-02.Brisaboa, N. R.; de Bernardo, Guillermo; Navarro, G.; Varela Rodeiro, T.; Seco, D.: "Compact Representations of Event Sequences", en Proceedings of the 2018 Data Compression Conference (DCC 2018), IEEE Computer Society, Snowbird, Utah (Estados Unidos), 2018, pp. 237-246. GGS Class: 2 DOI: 10.1109/DCC.2018.00032 We introduce a new technique for the efficient management of large sequences of multidimensional data, which takes advantage of regularities that arise in real-world datasets and supports different types of aggregation queries. More importantly, our representation is flexible in the sense that the relevant dimensions and queries may be used to guide the construction process, easily providing a space-time tradeoff depending on the relevant queries in the domain. We provide two alternative representations for sequences of multidimensional data and describe the techniques to efficiently store the datasets and to perform aggregation queries over the compressed representation. We perform experimental evaluation on realistic datasets, showing the space efficiency and query capabilities of our proposal.Resumen Agricultural recommendation system for crop protectionLacasta, Javier; López-Pellicer, Francisco Javier; Espejo García, Borja; Nogueras Iso, Javier; Zarazaga-Soria, Francisco Javier. Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019), 2019-09-02.(Tipo contribución: Artículo relevante) Las plagas en los cultivos producen importantes pérdidas económicas en todo el mundo. Para lidiar con ellos sin dañar a las personas o al medio ambiente, los gobiernos han establecido leyes y normas estrictas que describen los productos y procedimientos de uso. Sin embargo, dado que estas normas cambian con frecuencia para reflejar los avances científicos y tecnológicos, es necesario realizar una revisión frecuente de las normas afectadas para actualizar los sistemas de información relacionados con las plagas. Para facilitar el uso de esta información, este trabajo propone la construcción de un sistema de recomendaciones que facilite la identificación de plagas y la selección de tratamientos adecuados. El núcleo de este sistema es una ontología que modela las interacciones entre cultivos, plagas y tratamientos.Resumen Two-Dimensional Block TreesRodríguez Brisaboa, Nieves; Gagie, Travis; Gómez Brandón, Adrián; Navarro, Gonzalo. Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019), 2019-09-02.Brisaboa, N. R.; Gagie, T.; Gomez Brandon, A.; Navarro, G.: "Two-Dimensional Block Trees", en Proceedings of the 2018 Data Compression Conference (DCC 2018), IEEE Computer Society, Snowbird, Utah (Estados Unidos), 2018, pp. 227-236. GGS Class: 2 DOI: 10.1109/DCC.2018.00031 The Block Tree (BT) is a novel compact data structure designed to compress sequence collections. It obtains compression ratios close to Lempel-Ziv and supports efficient direct access to any substring. The BT divides the text recursively into fixed-size blocks and those appearing earlier are represented with pointers. On repetitive collections, a few blocks can represent all the others, and thus the BT reduces the size by orders of magnitude. In this paper we extend the BT to two dimensions, to exploit repetitiveness in collections of images, graphs, and maps. This two-dimensional Block Tree divides the image regularly into subimages and replaces some of them by pointers to other occurrences thereof. We develop a specific variant aimed at compressing the adjacency matrices of Web graphs, obtaining space reductions of up to 50% compared with the k2-tree, which is the best alternative supporting direct and reverse navigation in the graph.Artículo Neuralizador: Patrón de Seguridad para el Derecho al Olvido en Ecosistemas Big DataMoreno, Julio; Fernandez, Eduardo B.; Serrano Martín, Manuel Ángel; Fernandez-Medina, Eduardo. Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019), 2019-09-02.Los ecosistemas Big Data son cada vez más usados por compañías de cualquier ámbito. Big Data permite la obtención de información valiosa a partir del análisis de grandes cantitades de datos. Normalmente, este tipo de entornos suele tener una alta complejidad lo que hace que sean difíciles de gestionar. Además, en los últimos años han surgido diferentes legislaciones que tratan de controlar el uso y análisis de los datos, lo cual, puede afectar de forma directa a este tipo de ecosistemas. Una de la normativas que más debate está generando es el derecho al olvido, gracias a la cual, se intenta que los usuarios tengan un mayor control sobre dónde se encuentran sus datos y cómo se utilizan. Por ello, sin una correcta adaptación de los entornos Big Data a las nuevas normativas, las empresas pueden no solo recibir graves sanciones económicas sino que les puede ocasionar una pérdida de reputación entre sus clientes. En este artículo proponemos un patrón de seguridad específico para ayudar a los administradores de Big Data a implementr el derecho al olvido en sus ecosistemas Big Data definiendo diferentes escenarios y los elementos que lo conforman.Artículo Utilización de Neo4j para consultar esquemas de bases de datos NoSQLFernández Candel, Carlos Javier; Sevilla Ruiz, Diego; García Molina, Jesús Joaquín. Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019), 2019-09-02.Debido a la ausencia de un esquema formalmente definido, en las bases de datos NoSQL pueden existir variaciones estructurales pa- ra una misma entidad. Dado que el número de variaciones puede llegar a varios miles, la visualización de esquemas NoSQL que muestren todas las variaciones no es factible y conviene utilizar lenguajes de consulta para extraer información sobre el esquema. En este trabajo presentamos una alternativa a la creación de un lenguaje para ese propósito. Se propone transformar los esquemas extraídos de la base de datos en una base de datos de grafos Neo4j con el fin de aprovechar las utilidades de visuali- zación y el lenguaje de consultas Cypher. Se describe la estrategia y se aplica a un caso de estudio de un dataset Stackoverflow almacenado en MongoDB, y se muestran un conjunto de consultas Cypher representati- vas. Los esquemas se infieren con una estrategia ideada en nuestro grupo, la cual se diferencia del resto de propuestas publicadas en la extracción de todas las variaciones de entidades y relaciones existentes, en vez de obtener sólo el esquema formado por entidades que son resultado de la union de todas sus variaciones.Resumen Tactical Business-Process-Decision Support based on KPIs Monitoring and ValidationPérez-Álvarez, José Miguel; Maté, Alejandro; Gómez-López, María Teresa; Trujillo, Juan. Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019), 2019-09-02.Key Performance Indicators (KPIs) can be used to evaluate the success of an organization, facilitating the detection of the deviations and unexpected evolution of the behaviour of a company. The difficulty for enterprises is to ascertain what to do when a deviation is detected. In this paper, we propose a modelling approach to improve the operational business-level and to ascertain the possible actions that can be executed to maintain the right direction in a company. For business process-oriented companies, it entails knowing how KPIs can be affected by the business processes. It implies not only pointing out that a system malfunction exists, but also to know what to do when a deviation is detected. Our proposal presents a methodology that covers: (1) an extension of the existing models in order to combine KPIs, goals of the companies, and the decision variables together with business processes; (2) a methodology based on data mining analysis to verify the correctness of the enriched proposed model according to the data stored during business evolution, and; (3) a framework to simulate the evolution of the business according to the decisions taken in the governance process, thereby supporting governance activities to achieve the defined objectives by exploiting goals and KPIs from the proposed model.Artículo Análisis de esquemas NoSQL para el procesamiento de variaciones de entidad atípicasHernández Chillón, Alberto; Sevilla Ruiz, Diego; García Molina, Jesús Joaquín. Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019), 2019-09-02.Las variaciones estructurales de una entidad pueden darse en la mayoría de bases de datos NoSQL debido a que no requieren la definición formal de un esquema. Estas variaciones existen debido, por ejemplo, a la existencia de propiedades opcionales o tipos de datos no uniformes. La detección de estas variaciones es crucial en las estrategias de extracción del esquema de la base de datos a partir de los datos almacenados. Hasta ahora, las estrategias propuestas no han abordado la detección de variaciones atípicas procedentes de datos erróneos u obsoletos. Este trabajo corto plantea un enfoque para la detección de variaciones atípicas y su conversión a variaciones no atípicas. Para ello, se extenderá el proceso de inferencia basado en modelos desarrollado en nuestro grupo. Se mostrará su aplicación al dataset real Reddit.Artículo Un marco de certificación de calidad de datos basado en estándares internacionalesGualo, Fernando; Piattini Velthuis, Mario Gerardo; Caballero Muñoz-Reja, Ismael. Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019), 2019-09-02.Cada vez más organizaciones son conscientes de la necesidad de cuidar la ca-lidad de sus activos de datos y de realizar esfuerzos para asegurar la calidad de sus repositorios de datos. Estos esfuerzos se han acentuado incluso más con la adopción de tecnologías como Big Data, Analytics y Deep Learning, o IoT, y se han orientado en dos direcciones: asegurar el valor de los datos de repositorios organizacionales, y mejorar la madurez de los procesos de gobierno, gestión y calidad de datos. En DQTeam, spin-off de la UCLM ofrecemos a las organizacio-nes servicios de consultoría para mejorar sus datos en las dos aproximaciones usando como referencia estándares abiertos internacionales con la posibilidad de certificación internacional por parte de AENOR tanto los niveles de calidad de sus productos de datos como la madurez organizacional de sus procesos relacio-nados.Resumen The largest empty circle in Spatial DatabasesGutiérrez, Gilberto; López, Juan R.; Paramá, José R.; Penabad, Miguel R.. Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019), 2019-09-02.Given a set S of points in the two-dimensional space, which are stored in a spatial database, this work presents an efficient algorithm to find the empty circle, in the area delimited by those points, with thelargest area and containing only a query point q. Our algorithm adapts previous work in the field of computational geometry to be used in spatial databases, which require to manage large amounts of data. To achieve this objective, the basic idea is to discard a large part of the points of $S$, in such a way that the problem can be solved providing only the remaining points to a classical computational geometry algorithm that, by processing a smaller collection of points, saves main memory resources and computation time. The correctness of our algorithm is formally proven. In addition, we empirically show its efficiency and scalability by running a set of experiments using both synthetic and real data.Resumen Towards a Fast and Accurate EIT Inverse Problem Solver: A Machine Learning ApproachFernández-Fuentes, Xosé; Mera Pérez, David; Gómez, Andrés; Vidal-Franco, Ignacio. Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019), 2019-09-02.Different industrial and medical situations require the non-invasive extraction of information from the inside of bodies. This is usually done through tomographic methods that generate images based on internal body properties. However, the image reconstruction involves a mathematical inverse problem, which accurate resolution demands large computation time and capacity. In this paper we explore the use of Machine Learning to develop an accurate solver for reconstructing Electrical Impedance Tomography images on real-time. We compare the results with the Iterative Gauss-Newton and the Primal Dual Interior Point Method, which are both largely used and well-validated solvers. The approaches were compared from the qualitative as well as the quantitative viewpoints. The former was focused on correctly detecting the internal body features. The latter was based on accurately predicting internal property distributions. Experiments revealed that our approach achieved better accuracy and Cohen’s kappa coefficient (97.57% and 94.60% respectively) from the qualitative viewpoint. Moreover, it also obtained better quantitative metrics with a Mean Absolute Percentage Error of 18.28%. Experiments confirmed that Neural Networks algorithms can reconstruct internal body properties with high accuracy, so they would be able to replace more complex and slower alternatives.Artículo Proyecto TRAFAIR: Generación y publicación de datos de calidad del aire en las ciudades de Zaragoza y Santiago de CompostelaRíos Viqueira, José Ramón; Trillo-Lado, Raquel; Villarroya Fernández, Sebastián; Marrodán, Lorena; Cotos Yáñez, José Manuel; Ilarri, Sergio; Taboada González, Jose A.; Torres-Moreno, Enrique. Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019), 2019-09-02.En este artículo se describen brevemente los trabajos en marcha relacionados con la generación y publicación de datos acerca de la calidad del aire en el ámbito del proyecto Europeo TRAFAIR. En concreto, se describe la solución adoptada para la adquisición de datos de sensores, los estándares utilizados para la publicación de datos en abierto y las aplicaciones de usuario final que serán desarrolladas, concluyendo el artículo con la identificación de retos técnicos relacionados con la heterogeneidad de los datos y con la generalización de soluciones basada en la asunción de modelos de datos estandarizados.Resumen TAPON: a two-phase machine learning approach for semantic labellingAyala, Daniel; Hernandez, Inma; Ruiz, David; Toro, Miguel. Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019), 2019-09-02.Through semantic labelling we enrich structured information from sources such as HTML pages, tables, or JSON files, with labels to integrate it into a local ontology. This process involves measuring some features of the information and then finding the classes that best describe it. The problem with current techniques is that they do not model relationships between classes. Their features fall short when some classes have very similar structures or textual formats. In order to deal with this problem, we have devised TAPON: a new semantic labelling technique that computes novel features that take into account the relationships. TAPON computes these features by means of a two-phase approach. In the first phase, we compute simple features and obtain a preliminary set of labels (hints). In the second phase, we inject our novel features and obtain a refined set of labels. Our experimental results show that our technique, thanks to our rich feature catalogue and novel modelling, achieves higher accuracy than other state-of-the-art techniques.Artículo AYNEC-DataGen: a tool for generating evaluation datasets for Knowledge Graphs completionAyala, Daniel; Borrego, Agustin; Hernandez, Inma; Rivero, Carlos R.; Ruiz, David. Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019), 2019-09-02.In the context of knowledge graphs, the task of completion of relations consists in adding missing triples to a knowledge graph, usually by classifying potential candidates as true of false. Creating an evaluation dataset for these techniques is not trivial, since there is a large amount of variables to consider which, if not taken into account, may cause misleading results. So far, there is not a well defined workflow that identifies the variation points when creating a dataset, and what are the possible strategies that can be followed in each step. Furthermore, there are no tools that help create such datasets in an easy way. To address this need, we have created AYNEC-DataGen, a customisable tool for the generation of datasets with multiple variation points related to the preprocessing of the original knowledge graph, the splitting of triples into training and testing sets, and the generation of negative examples. The output of our tool includes the evaluation dataset, an optional export in an open format for its visualisation, and additional files with metadata. Our tool is freely available online.Resumen A compact representation for trips over networks built on self-indexesRodríguez Brisaboa, Nieves; Fariña, Antonio; Galaktionov, Daniil; Rodríguez, M. Andrea. Actas de las XXIV Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2019), 2019-09-02.This work has been previously published in Information Systems (ISSN: 0306-4379) vol. 28 (November 2018), pages 1-28 and DOI https://doi.org/10.1016/j.is.2018.06.010. The last measured impact factor of that journal is 2.551. Representing the movements of objects (trips) over a network in a compact way while retaining the capability of exploiting such data effectively is an important challenge of real applications. We present a new Compact Trip Representation (CTR) that handles the spatio-temporal data associated with users’ trips over transportation networks. Depending on the network and types of queries, nodes in the network can represent intersections, stops, or even street segments. CTR represents separately sequences of nodes and the time instants when users traverse these nodes. The spatial component is handled with a data structure based on the well-known Compressed Suffix Array, which provides both a compact representation and interesting indexing capabilities. The temporal component is self-indexed with either a Hu–Tucker-shaped Wavelet-Tree or a Wavelet Matrix that solve range-interval queries efficiently. We show how CTR can solve relevant counting-based spatial, temporal, and spatio-temporal queries over large sets of trips. Experimental results show the space requirements (around 50-70% of the space needed by a compact non-indexed baseline) and query efficiency (most queries are solved in <1 ms) of CTR.