Autor:
Martínez-Prieto, Miguel A.

Cargando...
Foto de perfil

E-mails conocidos

migumar2@infor.uva.es

Fecha de nacimiento

Proyectos de investigación

Unidades organizativas

Puesto de trabajo

Apellidos

Martínez-Prieto

Nombre de pila

Miguel A.

Nombre

Nombres alternativos

Martinez-Prieto, Miguel A.

Afiliaciones conocidas

DataWeb Research, Department of Computer Science, University of Valladolid
DataWeb Research, Department of Computer Science, University of Valladolid, Spain
DataWeb Research, Universidad de Valladolid

Páginas web conocidas

Página completa del ítem
Notificar un error en este autor

Resultados de la búsqueda

Mostrando 1 - 4 de 4
  • Artículo
    iHDT++: un Autoíndice Semántico para la Resolución de Patrones de Consulta SPARQL
    Hernández Illera, Antonio; Martínez-Prieto, Miguel A.; Fernández, Javier D.. Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017), 2017-07-19.
    La publicación de colecciones RDF, y el volumen de las mismas, ha crecido exponencialmente en los últimos años, abriendo nuevos retos de investigación relacionados con el almacenamiento, el procesamiento y la consulta de Big Semantic Data. Los auto-índices RDF son una de las soluciones más innovadoras en este escenario, ya que no sólo comprimen las colecciones, sino que además proveen acceso eficiente a los datos sin descomprimirlos previamente. En este escenario, HDT es una de las soluciones de referencia y su uso ha sido validado por diferentes herramientas semánticas. Sin embargo, la efectividad de HDT está limitada por la sencillez de su diseño y sus ratios de compresión han sido recientemente mejorados por HDT++. Sin embargo, HDT++ no soporta directamente la resolución de consultas SPARQL. En este artículo extendemos HDT++ para dar soporte a la resolución de todos los triple patterns SPARQL. Esta nueva propuesta (iHDT++) mejora los resultados de compresión obtenidos por HDT y garantiza un rendimiento comparable para la resolución de consultas.
  • Artículo
    Compresión de Big Semantic Data basada en HDT y MapReduce
    Giménez-García, José M.; Fernández, Javier D.; Martínez-Prieto, Miguel A.. Actas de las XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2016), 2016-09-13.
    HDT es un formato binario diseñado para la serialización de grandes colecciones RDF que surgió con el objetivo de reducir los requisitos de almacenamiento que presentaban otros formatos RDF. Además de su capacidad para la compresión, la estructura interna de los ficheros HDT permite acceder a los datos comprimidos y, con ello, resolver algunas consultas interés en el ámbito de la Web Semántica. Existen diferentes aplicaciones basadas en HDT, como la exitosa Linked Data Fragments, que sacan provecha de sus particularidades para propósitos de publicación intercambio y consumo de colecciones RDF. Sin embargo, la obtención de estas representaciones está gravada por un proceso de compresión que resulta muy exigente en el consumo de memoria principal. Este hecho, limita la adopción de HDT en aplicaciones basadas en la explotación de Big Semantic Data. En este artículo presentamos HDT-MR, una revisión del algoritmo de construcción de HDT basada en tecnología MapReduce. Esta nueva propuesta plantea configuraciones optimizadas de jobs MapReduce que permiten i) identificar los vocabularios de URIs y literales, necesarios para la construcción del diccionario HDT y ii) codificar los triples utilizando los diccionarios ya comprimidos. Nuestra experimentación muestra que el rendimiento de HDT-MR es lineal con el volumen de los datos de la entrada y que el despliegue actual, realizado sobre un cluster Hadoop, es capaz de serializar colecciones RDF que contienen miles de millones de triples.
  • Artículo
    Universal indexes for highly repetitive document collections
    Claude, Francisco; Fariña, Antonio; Martínez-Prieto, Miguel A.; Navarro, Gonzalo. Actas de las XXII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2017), 2017-07-19.
    Abstract ======== Indexing highly repetitive collections has become a relevant problem with the emergence of large repositories of versioned documents, among other applications. These collections may reach huge sizes, but are formed mostly of documents that are near-copies of others. Traditional techniques for indexing these collections fail to properly exploit their regularities in order to reduce space. We introduce new techniques for compressing inverted indexes that exploit this near-copy regularity. They are based on run-length, Lempel-Ziv, or grammar compression of the differential inverted lists, instead of the usual practice of gap-encoding them. We show that, in this highly repetitive setting, our compression methods significantly reduce the space obtained with classical techniques, at the price of moderate slowdowns. Moreover, our best methods are universal, that is, they do not need to know the versioning structure of the collection, nor that a clear versioning structure even exists. We also introduce compressed self-indexes in the comparison. These are designed for general strings (not only natural language texts) and represent the text collection plus the index structure (not an inverted index) in integrated form. We show that these techniques can compress much further, using a small fraction of the space required by our new inverted indexes. Yet, they are orders of magnitude slower. Publication Details =================== Francisco Claude, Antonio Fariña, Miguel A. Martínez-Prieto, Gonzalo Navarro. Universal indexes for highly repetitive document collections Information Systems, 61, pp. 1-23, 2016, DOI: http://dx.doi.org/10.1016/j.is.2016.04.002 Citations Google Scholar: 3 (2 self-citations)
  • Artículo
    v-RDFCSA: Compresión e Indexación de Colecciones de Versiones RDF
    Cerdeira-Pena, Ana; Fariña, Antonio; Fernández, Javier D.; Martínez-Prieto, Miguel A.. Actas de las XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2016), 2016-09-13.
    La compresión, la indexación y la consulta de colecciones RDF son tópicos emergentes en la conocida como Web de Datos. Sin embargo, las técnicas más relevantes en el estado del arte no van más allá de la visión estática de los datos y obvian el cómo estos archivos RDF evolucionan a lo largo del tiempo, generando múltiples versiones de la colección que precisan ser preservadas para su explotación en diferentes tipos de aplicaciones. En este artículo presentamos una nueva solución para la compresión de archivos RDF. Nuestra propuesta, referida como v-RDFCSA, extiende el auto-índice RDFCSA con estructuras de bits que implementan la codificación de la información de versionado. De esta manera, conseguimos preservar los triples RDF en espacio comprimido y, sobre ellos, resolver tanto patrones SPARQL como operaciones temporales de consulta basadas en dichos patrones. Los experimentos realizados, sobre el benchmark BEAR, muestran que v-RDFCSA reduce los requisitos de almacenamiento entre 35 y 60 veces respecto al estado del arte y consigue más de un orden magnitud de ventaja en la resolución de consultas.