Gestión de Datos

URI permanente para esta colección:

Artículos en la categoría Gestión de Datos publicados en las Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017).
Notificar un error en esta colección

Examinar

Envíos recientes

Mostrando 1 - 16 de 16
  • Artículo
    Framework for modelling and implementing secure NoSQL document databases
    Blanco Bueno, Carlos; Peral, Jesus; Trujillo, Juan; Fernandez-Medina, Eduardo. Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017), 2017-07-19.
    The great amount of data managed by Big Data technologies have to be correctly assured in order to protect critical enterprise and personal information. Nevertheless, current security solutions for Big Data technologies such as NoSQL databases do not take into account the special characteristics of these technologies. In this paper, we focus on assuring NoSQL document databases proposing a framework composed of three stages: (1) the source data set is analysed by using Natural Language Processing techniques and ontological resources in order to detect sensitive data. (2) we define a metamodel for document NoSQL databases that allows designer to specify both structural and security aspects. (3) this model is implemented into a specific document database tool, MongoDB. Finally, we apply the framework proposed to a case study with a dataset of medical domain.
  • Artículo
    tESA: using semantics of scientific articles to approximate semantic relatedness
    Rybinski, Maciej; Aldana-Montes, José F.. Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017), 2017-07-19.
    Short abstract Semantic relatedness is a measure that quantifies the strength of a semantic link between two concepts. Often, it can be efficiently approximated with methods that operate on words, which represent these concepts. Approximating semantic relatedness between texts is an important part of many text and knowledge processing tasks of crucial importance in the ever growing domain of biomedical informatics. In this paper we present tESA, an extension to a well known Explicit Semantic Relatedness (ESA) method, which leverages the semantics of a corpus of scientific documents to improve the quality of the relatedness approximation for biomedical domain. In our extension we use two separate sets of vectors, corresponding to different sections of the articles from the underlying corpus of documents, as opposed to the original method, which only uses a single vector space. Our findings suggest that extending the original ESA methodology with the use of title vectors of the documents of scientific corpora may be used to enhance the performance of a distributional semantic relatedness measures. Background Semantic relatedness is a measure that quantifies the strength of a semantic link between two concepts. Often, it can be efficiently approximated with methods that operate on words, which represent these concepts. Approximating semantic relatedness between texts and concepts represented by these texts is an important part of many text and knowledge processing tasks of crucial importance in the ever growing domain of biomedical informatics. The problem of most state-of-the-art methods for calculating semantic relatedness is their dependence on highly specialized, structured knowledge resources, which makes these methods poorly adaptable for many usage scenarios. On the other hand, the domain knowledge in the Life Sciences has become more and more accessible, but mostly in its unstructured form - as texts in large document collections, which makes its use more challenging for automated processing. In this paper we present tESA, an extension to a well known Explicit Semantic Relatedness (ESA) method. Results In our extension we use two separate sets of vectors, corresponding to different sections of the articles from the underlying corpus of documents, as opposed to the original method, which only uses a single vector space. We present an evaluation of Life Sciences domain-focused applicability of both tESA and domain-adapted Explicit Semantic Analysis. The methods are tested against a set of standard benchmarks established for the evaluation of biomedical semantic relatedness quality. Our experiments show that the propsed method achieves results comparable with or superior to the current state-of-the-art methods. Additionally, a comparative discussion of the results obtained with tESA and ESA is presented, together with a study of the adaptability of the methods to different corpora and their performance with different input parameters. Conclusions Our findings suggest that combined use of the semantics from different sections (i.e. extending the original ESA methodology with the use of title vectors) of the documents of scientific corpora may be used to enhance the performance of a distributional semantic relatedness measures, which can be observed in the largest reference datasets. We also present the impact of the proposed extension on the size of distributional representations. Publication details The original paper tESA: a distributional measure for calculating semantic relatedness (DOI: 10.1186/s13326-016-0109-6), authored by Maciej Rybinski and José Francisco Aldana-Montes, was published online in the Journal of Biomedical Semantics on 28th of December 2016. The Journal of Biomedical Semantics currently holds (according to the latest JCR for 2015) an impact factor of 1.62, with a five-year impact factor of 2.511. The main impact factor places the Journal in the second cuartile (Q2) of its JCR-SCI category MATHEMATICAL & COMPUTATIONAL BIOLOGY. Acknowledgments Work presented here was partially supported by grants TIN2014-58304-R (Ministerio de Ciencia e Innovación), P11-TIC-7529 and P12-TIC-1519 (Plan Andaluz de Investigación, Desarrollo e Innovación) and EU FP7-KBBE-289126 (the EU 7th Framework Programme, BIOLEDGE).
  • Artículo
    iHDT++: un Autoíndice Semántico para la Resolución de Patrones de Consulta SPARQL
    Hernández Illera, Antonio; Martínez-Prieto, Miguel A.; Fernández, Javier D.. Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017), 2017-07-19.
    La publicación de colecciones RDF, y el volumen de las mismas, ha crecido exponencialmente en los últimos años, abriendo nuevos retos de investigación relacionados con el almacenamiento, el procesamiento y la consulta de Big Semantic Data. Los auto-índices RDF son una de las soluciones más innovadoras en este escenario, ya que no sólo comprimen las colecciones, sino que además proveen acceso eficiente a los datos sin descomprimirlos previamente. En este escenario, HDT es una de las soluciones de referencia y su uso ha sido validado por diferentes herramientas semánticas. Sin embargo, la efectividad de HDT está limitada por la sencillez de su diseño y sus ratios de compresión han sido recientemente mejorados por HDT++. Sin embargo, HDT++ no soporta directamente la resolución de consultas SPARQL. En este artículo extendemos HDT++ para dar soporte a la resolución de todos los triple patterns SPARQL. Esta nueva propuesta (iHDT++) mejora los resultados de compresión obtenidos por HDT y garantiza un rendimiento comparable para la resolución de consultas.
  • Artículo
    Definiendo un Caso de Estudio para Recomendaciones Dinámicas Móviles
    Rodríguez Hernández, María Del Carmen; Ilarri, Sergio; Hermoso, Ramon; Trillo-Lado, Raquel. Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017), 2017-07-19.
    Los denominados sistemas de recomendación permiten aliviar la sobrecarga de información de los usuarios, al ofrecer sugerencias específicas acerca de ítems concretos (películas, libros, actividades, puntos de interés, etc.) que pueden resultar de interés para el usuario. En los últimos años se está realizando una intensa investigación en el desarrollo de sistemas de recomendación sensibles al contexto, ya que tener en cuenta el contexto del usuario (posición geográfica, tiempo atmosférico, estado de ánimo, etc.) permite ofrecer recomendaciones más apropiadas. En entornos de computación móvil uno de los elementos clave del contexto del usuario es su localización, siendo relevante ofrecer sugerencias al usuario de forma proactiva (sin peticiones expresas por parte del usuario) y teniendo en cuenta su trayectoria. En este artículo, describimos nuestro trabajo en progreso relacionado con las recomendaciones dinámicas sensibles al contexto en entornos móviles. Debido a la dificultad de evaluación de estos sistemas de recomendación en el mundo real, nos centramos en el desarrollo de un caso de estudio que simulará un escenario para recomendaciones dinámicas para los visitantes de un museo.
  • Artículo
    A workflow management system to feed digital libraries: proposal and case study
    Saavedra Places, Ángeles; Fariña, Antonio; Rodríguez Luaces, Miguel; Pedreira, Oscar; Seco, Diego. Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017), 2017-07-19.
    Articulo publicado en: Multimedia Tools and Applications, 75(7), Springer US, Estados Unidos, 2016, pp. 3843-3877. DOI: 10.1007/s11042-014-2155-3 Multimedia Tools and Applications tiene factor de impacto 1.331, y está clasificada como Q2 en COMPUTER SCIENCE, INFORMATION SYSTEMS
  • Artículo
    Visualización de Esquemas en Bases de Datos NoSQL basadas en documentos
    Hernández Chillón, Alberto; Morales, Severino Feliciano; García Molina, Jesús Joaquín; Sevilla Ruiz, Diego. Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017), 2017-07-19.
    La ausencia de esquema (schemaless) es una de las características más atractivas de las bases de datos NoSQL debido a la flexibilidad que ofrece. Por ejemplo, datos no uniformes pueden ser almacenados y se facilita la evolución. Sin embargo, los desarrolladores siempre tienen en mente un esquema cuando escriben código para bases de datos NoSQL y muchas utilidades de bases de datos también requieren el conocimiento del esquema para implementar su funcionalidad. Por esta razón, recientemente se han propuesto diferentes enfoques para inferir el esquema ímplicito en los datos NoSQL almacenados. En este trabajo se presenta una herramienta para la visualización de esquemas NoSQL representados como modelos que son obtenidos por medio de un proceso de ingeniería inversa definido por los autores en un trabajo previo. Estos modelos conforman a un metamodelo Ecore que representa esquemas versionados NoSQL. La herramienta es capaz de mostrar diferentes vistas o diagramas de los esquemas que han sido ideados para favorecer la comprensión de algún aspecto del esquema, por ejemplo mostrar un esquema global con todas las versiones de entidades y las relaciones entre ellas. Se trata de una de las primeras soluciones de visualización de esquemas NoSQL.
  • Artículo
    Propuesta de Marco para el Gobierno de la Seguridad en Entornos Big Data
    Moreno, Julio; Serrano Martín, Manuel Ángel; Fernandez-Medina, Eduardo. Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017), 2017-07-19.
    Big Data ya es una realidad en el día a día de muchas compañías. Cuando se implanta un entorno Big Data en una organización, este se debe adaptar a las características de la misma. Para poder alcanzar una garantía de seguridad mientras se respetan las características inherentes de la organización se re-quiere una adecuada función de gobierno. Para lograr este objetivo hemos creado una propuesta de marco para el gobierno de la seguridad en entornos Big Data denominada marco GSB. Este marco de gobierno toma como base los estándares internacionales relacionados con el gobierno de las TI, como por ejemplo COBIT, y lo adapta a las necesidades específicas de un entorno de Big Data. El objetivo final del marco GSB es cubrir todo su ciclo de vida de forma segura.
  • Artículo
    FABIOLA: Arquitectura para la Optimización de Problemas en entornos de Big Data
    Parody, Luisa; Varela Vaca, Ángel Jesús; Gasca, Rafael M.. Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017), 2017-07-19.
    Dentro de las organizaciones, los problemas de optimización pueden encontrarse en numerosos ejemplos, tales como minimizar los costes de producción, los errores producidos, o maximizar la fidelidad de los clientes. La resolución de estos problemas es un reto que conlleva un esfuerzo extra. Hoy en día, los problemas de Big Data se suman a estos problems de optimización en dichas empresas. Desafortunadamente, afrontar estos problemas en la pequeña y mediana empresa es extremadamente difícil o incluso imposible. En este artículo, proponemos la arquitectura llamada Fabiola, que permite describir los datos distribuidos y estructurados en problemas de optimización que pueden ser paralelizados. Además, Fabiola aplica las técnicas de Programación con Restricciones para poder devolver la solución a dichos problemas de optimización.
  • Artículo
    Compact and queryable representation of raster datasets
    Ladra, Susana; Paramá, José R.; Silva-Coira, Fernando. Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017), 2017-07-19.
    Titulo: Compact and queryable representation of raster datasets Autores: Susana Ladra, José R. Paramá, Fernando Silva-Coira Congreso: INTERNATIONAL CONFERENCE ON SCIENTIFIC AND STATISTICAL DATA BASE MANAGEMENT (SSDBM) 2016 Clasificación Ranking SCIE. Clase 2 (A-) Clasidicación CORE: A Citas: 2 DOI: http://dx.doi.org/10.1145/2949689.2949710
  • Artículo
    Incremental Consolidation of Data-Intensive Multi-Flows
    Jovanovic, Petar; Romero, Oscar; Simitsis, Alkis; Abello, Alberto. Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017), 2017-07-19.
    En Transactions on Knowledge and Data Engineering, 28(5). IEEE Press, May 2016. Páginas 1203-1216. ISSN: 1041-4347. DOI: 10.1109/TKDE.2016.2515609 Ã?ndice de impacto: JCR-Science Edition 2015, 2.476 Quartil i área: Q1, COMPUTER SCIENCE, INFORMATION SYSTEMS, 17/143 Business intelligence (BI) systems depend on efficient integration of disparate and often heterogeneous data. The integration of data is governed by data-intensive flows and is driven by a set of information requirements. Designing such flows is in general a complex process, which due to the complexity of business environments is hard to be done manually. In this paper, we deal with the challenge of efficient design and maintenance of data-intensive flows and propose an incremental approach, namely CoAl , for semi-automatically consolidating data-intensive flows satisfying a given set of information requirements. CoAl works at the logical level and consolidates data flows from either high-level information requirements or platform-specific programs. As CoAl integrates a new data flow, it opts for maximal reuse of existing flows and applies a customizable cost model tuned for minimizing the overall cost of a unified solution. We demonstrate the efficiency and effectiveness of our approach through an experimental evaluation using our implemented prototype.
  • Artículo
    SmartPoliTech: un experimento en inmótica social
    Sánchez, Agustín; Barrena, Manuel; García Rodríguez, Pablo; Montalbán, Beatriz; Bustos, Pablo. Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017), 2017-07-19.
    La optimización energética en edificios públicos terciarios en España es un reto insoslayable. La realidad actual de despilfarro energético, falta de confort, infrautilización de los espacios o deficiente disposición de los mismos respecto a los usos sobre los que fueron proyectados, es un hecho que repercute directamente en la eficiencia de las actividades realizadas en ellos, así como en las emisiones de $CO_{2}$ que se generan actualmente y que suponen una seria amenaza para la sostenibilidad de estos edificios. La inmótica, como disciplina que apunta a la automatización de los procesos y actividades que se generan en el edificio, surge como elemento capaz de proporcionar soluciones a este grave problema de optimización energética. En este artículo se describen las generalidades del proyecto SmartPolitech, una iniciativa experimental de bajo coste que utiliza la inmótica como medio para abordar una problemática generalizada de ineficiencia energética en la inmensa mayoría de edificios públicos españoles.
  • Artículo
    Identificadores Persistentes para Objetos Espaciales
    López-Pellicer, Francisco Javier; Béjar, Rubén; Latre, Miguel Ángel; Nogueras Iso, Javier; Zarazaga-Soria, Francisco Javier. Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017), 2017-07-19.
    Resumen. Un gran volumen de la información almacenada en los sistemas de información está georreferenciada mediante direcciones, códigos y conjuntos de coordenadas. Un mecanismo para garantizar un uso consistente es asignar identificadores persistentes y resolubles a la información espacial. Dada la explosión en el volumen de la información espacial es necesario que exista una arquitectura que provea y resuelva dichos identificadores persistentes de la forma más automática posible. Este artículo propone una arquitectura para la recolección, registro, resolución, catalogación y difusión de identificadores persistentes de datos espaciales. También propone un algoritmo para facilitar la recolección de identificadores persistentes mediante la automatización de la extracción de datos espaciales publicados en servicios geoespaciales estándar con recursos limitados. Esta arquitectura ha sido llevada a la práctica para dar soporte a la implementación de la Directiva Europea INSPIRE.
  • Artículo
    Actualización reactiva de bases de datos usando cadenas de procesadores de flujo de datos
    Algorri, Miguel; Drake, José María; Zorrilla, Marta Elena. Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017), 2017-07-19.
    Este trabajo en curso explora el uso de cadenas de procesadores de flujos de datos como medio para proporcionar a aplicaciones con requisitos de tiempo real (TR) un acceso a la información del entorno bajo una perspectiva de base de datos (consultas continuas consistentes). En este trabajo se formulan las características que han de ofrecer las cadenas de procesadores de flujos de datos para este caso de uso, se define la arquitectura de procesado a utilizar y se asig-nan responsabilidades a cada uno de los elementos de la arquitectura.
  • Artículo
    Generación, almacenamiento y consulta de datos espaciales masivos
    Cortiñas, Alejandro; Rodríguez Luaces, Miguel. Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017), 2017-07-19.
    En este artículo presentamos resultados preliminares para dos problemas que surgen en el ámbito del almacenamiento, consulta y visualización de conjuntos masivos de objetos móviles: una herramienta para la generación de conjuntos de datos masivos de objetos móviles en una red de carreteras y su posterior almacenamiento en diferentes sistemas de almacenamiento, y una serie de experimentos de visualización de 40 millones de datos geolocalizados en los que enfrentamos una solución tradicional con una alternativa Big Data actual.
  • Artículo
    Universal indexes for highly repetitive document collections
    Claude, Francisco; Fariña, Antonio; Martínez-Prieto, Miguel A.; Navarro, Gonzalo. Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017), 2017-07-19.
    Abstract ======== Indexing highly repetitive collections has become a relevant problem with the emergence of large repositories of versioned documents, among other applications. These collections may reach huge sizes, but are formed mostly of documents that are near-copies of others. Traditional techniques for indexing these collections fail to properly exploit their regularities in order to reduce space. We introduce new techniques for compressing inverted indexes that exploit this near-copy regularity. They are based on run-length, Lempel-Ziv, or grammar compression of the differential inverted lists, instead of the usual practice of gap-encoding them. We show that, in this highly repetitive setting, our compression methods significantly reduce the space obtained with classical techniques, at the price of moderate slowdowns. Moreover, our best methods are universal, that is, they do not need to know the versioning structure of the collection, nor that a clear versioning structure even exists. We also introduce compressed self-indexes in the comparison. These are designed for general strings (not only natural language texts) and represent the text collection plus the index structure (not an inverted index) in integrated form. We show that these techniques can compress much further, using a small fraction of the space required by our new inverted indexes. Yet, they are orders of magnitude slower. Publication Details =================== Francisco Claude, Antonio Fariña, Miguel A. Martínez-Prieto, Gonzalo Navarro. Universal indexes for highly repetitive document collections Information Systems, 61, pp. 1-23, 2016, DOI: http://dx.doi.org/10.1016/j.is.2016.04.002 Citations Google Scholar: 3 (2 self-citations)
  • Artículo
    Trayectorias semánticas en aplicaciones de Mobile Workforce Management
    Rodríguez Brisaboa, Nieves; Rodríguez Luaces, Miguel; Martínez Pérez, Cristina; Saavedra Places, Ángeles. Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017), 2017-07-19.
    Los smartphones actuales presentan continuamente mejoras en sus características y en la actualidad incluyen diversos sensores que capturan información de muy diversos tipos (localización, aceleración lineal, etc.). Un proceso industrial que podría beneficiarse mucho de esta información es el de Mobile Workforce Management (MWM). Sin embargo, existen varios problemas que lo impiden: i) hoy en día el nivel de abstracción de las actividades que son identificadas es demasiado bajo (por ejemplo, moviéndose en vez de realizando una inspección en un cliente, o parado en vez de cargando un camión en la instalación de un cliente), ii) los trabajos de investigación se centran en el uso de algoritmos que contrastan la información geográfica con los datos del GPS, o en algoritmos de aprendizaje aplicados a los datos de los sensores, pero existen pocos resultados de investigación que combinen ambos tipos de datos, y iii) la información contextual procedente de los repositorios de información geográfica o del software MWM es raramente usada. En este artículo se presenta una nueva metodología que convierte los datos crudos capturados por los sensores de los dispositivos móviles en trayectorias anotadas con actividades semánticas en un alto nivel de abstracción. La metodología está basada en la definición de taxonomías de actividades que pueden ser adaptadas fácilmente a las necesidades de cualquier empresa. Estas taxonomías describen los valores esperados para cada una de las variables que son recogidas en el sistema usando predicados definidos mediante un lenguaje de especificación de patrones.