Gestión de Datos

URI permanente para esta colección:

Artículos en la categoría Gestión de Datos publicados en las Actas de las XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2016).
Notificar un error en esta colección

Examinar

Envíos recientes

Mostrando 1 - 11 de 11
  • Artículo
    Aproximación a la búsqueda basada en términos sobre conjuntos de datos medioambientales
    Álvarez-Castro, David; Viqueira, José R.R.; Bugarín-Diz, Alberto. Actas de las XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2016), 2016-09-13.
    En este artículo se discuten los trabajos, actualmente en curso, de diseño e implementación de un sistema de búsqueda por términos sobre fuentes de datos medioambientales, entre las que se incluyen fuentes de entidades geográficas y arrays que almacenan la variación espacio-temporal de distintas variables geo-físicas. Este tipo de sistemas facilitan el descubrimiento y el acceso a fuentes de datos de naturaleza científica a usuarios no expertos, que pueden utilizarlas en aplicaciones de muy diverso tipo.
  • Artículo
    Procesamiento paralelo de datos medioambientales con Apache Spark
    Ferrón, Diego; Villarroya, Sebastián; Viqueira, José R.R.; Pena, Tomás F.. Actas de las XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2016), 2016-09-13.
    En la actualidad existen enormes volúmenes de datos de tipo medioambiental que son resultado o bien de campañas de recolección de datos de campo en las que se involucran muchos expertos o bien del procesamiento de datos generados por dispositivos de sensorización. En general, los primeros se modelan y gestionan con tecnologías de bases de datos, mientras que los segundos pueden requerir de formatos de array de tipo científico más específicos. El procesamiento declarativo de cualquiera de los tipos de datos está resuelto, con tecnologías de almacenes de datos tradicionales o con bases de datos de arrays. Sin embargo el procesamiento declarativo integrado de ambos tipos de dato todavía demanda soluciones ad-hoc. En este artículo se proporciona una descripción breve de los primeros pasos hacia la implementación de un sistema de procesamiento paralelo integrado de datos relacionales y de arrrays.
  • Artículo
    RecSim: Hacia la Evaluación de Sistemas de Recomendación Utilizando un Simulador
    Ilarri, Sergio; Ivanov, Slavcho. Actas de las XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2016), 2016-09-13.
    Los sistemas de recomendación ofrecen recomendaciones personalizadas a usuarios acerca de ítems de distinto tipo (películas, libros, restaurantes, hoteles, lugares a visitar, etc.), aliviando así la sobrecarga de datos que estos experimentan cuando tienen que tomar decisiones al elegir entre diversas alternativas. Debido a su interés tanto para usuarios finales como para empresas, este tipo de sistemas han atraído una intensa actividad investigadora. En concreto, en los últimos años ha crecido el interés por los sistemas de recomendación dependientes del contexto y por su aplicación en escenarios de computación móvil. Sin embargo, existen dificultades para evaluar las propuestas existentes debido a la carencia de conjuntos de datos apropiados para evaluación. En este artículo motivamos el interés de evaluar sistemas de recomendación mediante la realización de simulaciones para recoger datos y opiniones de usuarios reales. Asimismo, describimos las ideas principales detrás de la herramienta RecSim que hemos desarrollado.
  • Artículo
    TINTIN: comprobación incremental de aserciones SQL
    Oriol, Xavier; Teniente, Ernest; Rull, Guillem. Actas de las XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2016), 2016-09-13.
    Ninguno de los SGBD más populares del momento implementa aserciones SQL, obligando así a implementar manualmente su comprobación. Por ello, presentamos TINTIN: una aplicación que genera automáticamente el código SQL para comprobar aserciones. Dicho código captura las tuplas insertadas/borradas en una transacción, comprueba que ninguna de ellas viole ninguna aserción mediante consultas SQL, y materializa los cambios en caso que sean satisfechas. La eficiencia del código se basa en la comprobación incremental de las aserciones.
  • Artículo
    Un Repositorio RDF para la Integración de Flujos de Datos de Analítica Web y Comercio Electrónico
    Roldan-Garcia, Maria Del Mar; García-Nieto, José Manuel; Aldana Montes, José Francisco. Actas de las XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2016), 2016-09-13.
    La Analítica Web supone hoy en día una tarea ineludible para las empresas de comercio electrónico, ya que les permite analizar el comportamiento de sus clientes. El proyecto Europeo SME-Ecompass tiene como objetivo desarrollar herramientas avanzadas de análitica web accesibles para las PYMES. Con esta motivación, proponemos servicio de integración de datos basado en ontologías para recopilar, integrar y almacenar información de traza web procedente de distintas fuentes. Estas se consolidan en un Repositorio RDF diseñado para proporcionar semántica común a los datos de análisis y dar servicio homogéneo a algoritmos de Minería de Datos. El servicio propuesto se ha validado mediante traza digital real (Google Analitics y Piwik) de 15 tiendas virtuales de diferentes sectores y países europeos (UK, España, Grecia y Alemania) durante varios meses de actividad.
  • Artículo
    v-RDFCSA: Compresión e Indexación de Colecciones de Versiones RDF
    Cerdeira-Pena, Ana; Fariña, Antonio; Fernández, Javier D.; Martínez-Prieto, Miguel A.. Actas de las XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2016), 2016-09-13.
    La compresión, la indexación y la consulta de colecciones RDF son tópicos emergentes en la conocida como Web de Datos. Sin embargo, las técnicas más relevantes en el estado del arte no van más allá de la visión estática de los datos y obvian el cómo estos archivos RDF evolucionan a lo largo del tiempo, generando múltiples versiones de la colección que precisan ser preservadas para su explotación en diferentes tipos de aplicaciones. En este artículo presentamos una nueva solución para la compresión de archivos RDF. Nuestra propuesta, referida como v-RDFCSA, extiende el auto-índice RDFCSA con estructuras de bits que implementan la codificación de la información de versionado. De esta manera, conseguimos preservar los triples RDF en espacio comprimido y, sobre ellos, resolver tanto patrones SPARQL como operaciones temporales de consulta basadas en dichos patrones. Los experimentos realizados, sobre el benchmark BEAR, muestran que v-RDFCSA reduce los requisitos de almacenamiento entre 35 y 60 veces respecto al estado del arte y consigue más de un orden magnitud de ventaja en la resolución de consultas.
  • Artículo
    Compresión de Big Semantic Data basada en HDT y MapReduce
    Giménez-García, José M.; Fernández, Javier D.; Martínez-Prieto, Miguel A.. Actas de las XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2016), 2016-09-13.
    HDT es un formato binario diseñado para la serialización de grandes colecciones RDF que surgió con el objetivo de reducir los requisitos de almacenamiento que presentaban otros formatos RDF. Además de su capacidad para la compresión, la estructura interna de los ficheros HDT permite acceder a los datos comprimidos y, con ello, resolver algunas consultas interés en el ámbito de la Web Semántica. Existen diferentes aplicaciones basadas en HDT, como la exitosa Linked Data Fragments, que sacan provecha de sus particularidades para propósitos de publicación intercambio y consumo de colecciones RDF. Sin embargo, la obtención de estas representaciones está gravada por un proceso de compresión que resulta muy exigente en el consumo de memoria principal. Este hecho, limita la adopción de HDT en aplicaciones basadas en la explotación de Big Semantic Data. En este artículo presentamos HDT-MR, una revisión del algoritmo de construcción de HDT basada en tecnología MapReduce. Esta nueva propuesta plantea configuraciones optimizadas de jobs MapReduce que permiten i) identificar los vocabularios de URIs y literales, necesarios para la construcción del diccionario HDT y ii) codificar los triples utilizando los diccionarios ya comprimidos. Nuestra experimentación muestra que el rendimiento de HDT-MR es lineal con el volumen de los datos de la entrada y que el despliegue actual, realizado sobre un cluster Hadoop, es capaz de serializar colecciones RDF que contienen miles de millones de triples.
  • Artículo
    Distance Range Queries in SpatialHadoop
    Corral, Antonio; García-García, Francisco; Iribarne, Luis; Vassilakopoulos, Michael. Actas de las XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2016), 2016-09-13.
    Efficient processing of Distance Range Queries (DRQs) is of great importance in spatial databases due to the wide area of applications. This type of spatial query is characterized by a distance range over one or two datasets. The most representative and known DRQs are the eDistance Range Query (eDRQ) and the eDistance Range Join Query (eDRJQ). Given the increasing volume of spatial data, it is difficult to perform a DRQ on a centralized machine efficiently. Moreover, the eDRJQ is an expensive spatial operation, since it can be considered a combination of the eDR and the spatial join queries. For this reason, this paper addresses the problem of computing DRQs on big spatial datasets in SpatialHadoop, an extension of Hadoop that supports spatial operations efficiently, and proposes new algorithms in SpatialHadoop to perform efficient parallel DRQs on large-scale spatial datasets. We have evaluated the performance of the proposed algorithms in several situations with big synthetic and real-world datasets. The experiments have demonstrated the efficiency (in terms of total execution time and number of distance computations) and scalability (in terms of epsilon values, sizes of datasets and number of computing nodes) of our proposal.
  • Artículo
    WikInfoboxer: A Tool to Create Wikipedia Infoboxes Using DBpedia
    Rodríguez-Hernández, Ismael; Trillo-Lado, Raquel; Yus, Roberto. Actas de las XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2016), 2016-09-13.
    Wikipedia infoboxes present a summary, in a semistructured format, of the articles they are associated to. Therefore, they have become the main information source used by projects to leverage the knowledge in Wikipedia, such as DBpedia. However, creating quality infoboxes is complicated as current mechanisms are based on simple templates which, for example, do not check whether the information provided is semantically correct. In this paper, we present WikInfoboxer, a tool to help Wikipedia editors to create rich and accurate infoboxes. WikInfoboxer computes attributes that might be interesting for an article and suggests possible values for them after analyzing similar articles from DBpedia. To make the process easier for editors, WikInfoboxer presents this information in a friendly user interface.
  • Artículo
    A Federated Approach for Array and Entity Environmental Linked Data
    Almobydeen, Shahed Bassam; Viqueira, José R.R.; Lama Penin, Manuel. Actas de las XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2016), 2016-09-13.
    Available environmental and spatial data is increasing in size and every time new application domains take advantage of this fact. The need for accessing them through linked data paradigm is also increased, due to the interest of their combination with already available linked data repositories. Entity based environmental data fits perfectly to the graph data model of RDF, however, much environmental data are array-based, and such data are clearly not efficiently represented with RDF. In fact, transforming array environmental data to RDF triples in some datasets will generate huge RDF datasets. Querying these datasets through SPARQL will lead to low performance solutions. In this paper, we propose a federated architecture that integrates entity and array-based repositories into a single SPARQL-based framework, where SPARQL queries are translated into SQL and array-based queries. New operations will be added to SPARQL algebra in order to embed those relational and array-based queries into SPARQL query plans. This will make SPARQL able to access two different database paradigms (entity and array) in one query to answer questions like “What is the predicted average of temperature of each municipality of Spain for the next week?”
  • Artículo
    Arquitectura software basada en tecnologías Smart para agricultura de precisión
    Sánchez Cabrera, Miguel; Barrena, Manuel; Bustos, Pablo; Campillo, Carlos; García Rodríguez, Pablo. Actas de las XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2016), 2016-09-13.
    Este artículo describe la arquitectura de un sistema de información en el contexto de la agricultura de precisión. Una red de sensores instalados sobre las zonas de cultivo se encarga de monitorizar las variables que finalmente alimentan el modelo de riego y fertilización implementado. Las mediciones obtenidas se almacenan de manera autónoma y continua sobre una base de datos MongoDB, cuyo diseño prevé la variabilidad espacio-temporal de los diversos componentes de la aplicación (zonas, cultivos, sectores de irrigación, etc.). Datos obtenidos de otras fuentes, tales como servicios meteorológicos o análisis de suelo completan el modelo, cuyo objetivo final es el de mejorar la eficiencia en la gestión de la explotación agraria. Los procesos que combinan toda esta información y ponen en marcha el modelo se implantan mediante el uso del framework de edición de flujos Node-RED, con el desarrollo de flujos de datos para establecer la conexión con la red de sensores y servicios meteorológicos y proveer de datos al sistema, consiguiendo al integrar estas tecnologías una infraestructura digital para la explotación rentable de recursos agrarios.