Autor:
Giménez-García, José M.

Cargando...
Foto de perfil

E-mails conocidos

jose.gimenez.garcia@univ-st-etienne.fr

Fecha de nacimiento

Proyectos de investigación

Unidades organizativas

Puesto de trabajo

Apellidos

Giménez-García

Nombre de pila

José M.

Nombre

Nombres alternativos

Afiliaciones conocidas

Univ Lyon, UJM-Saint-Etienne, CNRS, Laboratoire Hubert Curien, France

Páginas web conocidas

Página completa del ítem
Notificar un error en este autor

Resultados de la búsqueda

Mostrando 1 - 1 de 1
  • Artículo
    Compresión de Big Semantic Data basada en HDT y MapReduce
    Giménez-García, José M.; Fernández, Javier D.; Martínez-Prieto, Miguel A.. Actas de las XXI Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2016), 2016-09-13.
    HDT es un formato binario diseñado para la serialización de grandes colecciones RDF que surgió con el objetivo de reducir los requisitos de almacenamiento que presentaban otros formatos RDF. Además de su capacidad para la compresión, la estructura interna de los ficheros HDT permite acceder a los datos comprimidos y, con ello, resolver algunas consultas interés en el ámbito de la Web Semántica. Existen diferentes aplicaciones basadas en HDT, como la exitosa Linked Data Fragments, que sacan provecha de sus particularidades para propósitos de publicación intercambio y consumo de colecciones RDF. Sin embargo, la obtención de estas representaciones está gravada por un proceso de compresión que resulta muy exigente en el consumo de memoria principal. Este hecho, limita la adopción de HDT en aplicaciones basadas en la explotación de Big Semantic Data. En este artículo presentamos HDT-MR, una revisión del algoritmo de construcción de HDT basada en tecnología MapReduce. Esta nueva propuesta plantea configuraciones optimizadas de jobs MapReduce que permiten i) identificar los vocabularios de URIs y literales, necesarios para la construcción del diccionario HDT y ii) codificar los triples utilizando los diccionarios ya comprimidos. Nuestra experimentación muestra que el rendimiento de HDT-MR es lineal con el volumen de los datos de la entrada y que el despliegue actual, realizado sobre un cluster Hadoop, es capaz de serializar colecciones RDF que contienen miles de millones de triples.