Navegación

Búsqueda

Búsqueda avanzada

El autor Miguel A. Martínez-Prieto ha publicado 6 artículo(s):

1 - SOLID: una Arquitectura para la Gestión de Big Semantic Data en Tiempo Real

La gestión de grandes colecciones de datos (Big Data) es un proceso crítico en entornos de explotación en tiempo real ya que las arquitecturas batch, que garantizan un comportamiento escalable, ofrecen unos tiempos de respuesta insuficientes para los requisitos de rendimiento que se presentan en dichos entornos. En este artículo se estudia esta problemática, de acuerdo a las necesidades planteadas por aquellos sistemas de información en los que se forman y exponen grandes colecciones de RDF (Big Semantic Data) en tiempo real. Nuestra propuesta es una nueva arquitectura (SOLID) que áisla la complejidad de almacenar grandes colecciones de datos y las necesidades específicas de insertar y consultar Big Semantic Data en tiempo real. La base tecnológica de SOLID comprende el uso de RDF/HDT para el almacenamiento auto-indexado de los datos y tecnología NoSQL para su gestión en tiempo real. Nuestros resultados experimentales muestran la eficiencia de cada una de las capas de datos y su integración mediante dos capas software adicionales que garantizan la escalabilidad de SOLID.

Autores: Mario Arias / Carlos E. Cuesta / Javier D. Fernández / Miguel A. Martínez-Prieto / 
Palabras Clave:

2 - Aplicaciones Semánticas basadas en RDF/HDT

La utilización de RDF, como modelo lógico de datos, ha crecido en los últimos años gracias a proyectos relacionados con la Web Semántica y Open Data. A pesar del volumen de estas colecciones, la serialización de RDF se ha seguido realizando con formatos textuales concebidos para su propósito original: describir pequeños conjuntos de metadatos. Esto supone un gasto innecesario en recursos de almacenamiento y ancho de banda, aparte de hacer más complejos los procesos de procesamiento e indexación. RDF/HDT (Header, Dictionary, Triples) es un formato binario que serializa RDF en espacio comprimido y provee soporte nativo para la búsqueda y navegación de los datos a través de una configuración específica de estructuras de datos compactas. Este artículo analiza el alcance de RDF/HDT desde una perspectiva práctica, en la se que presenta el proyecto rdfhdt.org y se revisan las herramientas que hemos desarrollado para la gestión, consulta y visualización de RDF, utilizando RDF/HDT en escenarios tradicionales junto con algunos resultados iniciales en dispositivos móviles.

Autores: Mario Arias / Javier D. Fernández / Miguel A. Martínez-Prieto / 
Palabras Clave:

4 - Universal indexes for highly repetitive document collections

Abstract ======== Indexing highly repetitive collections has become a relevant problem with the emergence of large repositories of versioned documents, among other applications. These collections may reach huge sizes, but are formed mostly of documents that are near-copies of others. Traditional techniques for indexing these collections fail to properly exploit their regularities in order to reduce space. We introduce new techniques for compressing inverted indexes that exploit this near-copy regularity. They are based on run-length, Lempel-Ziv, or grammar compression of the differential inverted lists, instead of the usual practice of gap-encoding them. We show that, in this highly repetitive setting, our compression methods significantly reduce the space obtained with classical techniques, at the price of moderate slowdowns. Moreover, our best methods are universal, that is, they do not need to know the versioning structure of the collection, nor that a clear versioning structure even exists. We also introduce compressed self-indexes in the comparison. These are designed for general strings (not only natural language texts) and represent the text collection plus the index structure (not an inverted index) in integrated form. We show that these techniques can compress much further, using a small fraction of the space required by our new inverted indexes. Yet, they are orders of magnitude slower. Publication Details =================== Francisco Claude, Antonio Fariña, Miguel A. Martínez-Prieto, Gonzalo Navarro. Universal indexes for highly repetitive document collections Information Systems, 61, pp. 1-23, 2016, DOI: http://dx.doi.org/10.1016/j.is.2016.04.002 Citations Google Scholar: 3 (2 self-citations)

Autores: Francisco Claude / Antonio Fariña / Miguel A. Martinez-Prieto / Gonzalo Navarro / 
Palabras Clave: Inverted index - Repetitive collections - Self-index

5 - iHDT++: un Autoíndice Semántico para la Resolución de Patrones de Consulta SPARQL

La publicación de colecciones RDF, y el volumen de las mismas, ha crecido exponencialmente en los últimos años, abriendo nuevos retos de investigación relacionados con el almacenamiento, el procesamiento y la consulta de Big Semantic Data. Los auto-índices RDF son una de las soluciones más innovadoras en este escenario, ya que no sólo comprimen las colecciones, sino que además proveen acceso eficiente a los datos sin descomprimirlos previamente. En este escenario, HDT es una de las soluciones de referencia y su uso ha sido validado por diferentes herramientas semánticas. Sin embargo, la efectividad de HDT está limitada por la sencillez de su diseño y sus ratios de compresión han sido recientemente mejorados por HDT++. Sin embargo, HDT++ no soporta directamente la resolución de consultas SPARQL. En este artículo extendemos HDT++ para dar soporte a la resolución de todos los triple patterns SPARQL. Esta nueva propuesta (iHDT++) mejora los resultados de compresión obtenidos por HDT y garantiza un rendimiento comparable para la resolución de consultas.

Autores: Antonio Hernández Illera / Miguel A. Martinez-Prieto / Javier D. Fernández / 
Palabras Clave: Compresión - HDT - RDF - SPARQL

6 - AIRPORTS: Análisis de Eficiencia Operacional basado en Trayectorias de Vuelo

AIRPORTS es un proyecto liderado por Boeing Research & Technology Europe (BR&T-E) en el que se coordinan varias líneas de investigación centradas en mejorar la eficiencia del sistema de transporte aéreo futuro. En particular, nuestro trabajo en AIRPORTS aborda la explotación de los datos que describen las trayectorias de vuelo para caracterizar la eficiencia de las operaciones realizadas en el entorno aeroportuario. Este documento introduce las particularidades básicas del contexto en el que estamos desarrollando nuestra investigación y presenta, brevemente, tanto el entorno tecnológico en el que se está realizando el proyecto, como los resultados que se esperan del mismo.

Autores: Álvaro Alonso-Isla / Pedro C. Álvarez-Esteban / Aníbal Bregón / Luís D'Alto / Fernando Díaz / Iván García-Miranda / Paula Gordaliza / Javier López-Leonés / Miguel A. Martinez-Prieto / David Scarlatti / Miguel Vilaplana / 
Palabras Clave: ADS-B - big data - Integración de datos