Navegación

Búsqueda

Búsqueda avanzada

Compresión de Big Semantic Data basada en HDT y MapReduce

Resumen:

HDT es un formato binario diseñado para la serialización de grandes colecciones RDF que surgió con el objetivo de reducir los requisitos de almacenamiento que presentaban otros formatos RDF. Además de su capacidad para la compresión, la estructura interna de los ficheros HDT permite acceder a los datos comprimidos y, con ello, resolver algunas consultas interés en el ámbito de la Web Semántica. Existen diferentes aplicaciones basadas en HDT, como la exitosa Linked Data Fragments, que sacan provecha de sus particularidades para propósitos de publicación intercambio y consumo de colecciones RDF. Sin embargo, la obtención de estas representaciones está gravada por un proceso de compresión que resulta muy exigente en el consumo de memoria principal. Este hecho, limita la adopción de HDT en aplicaciones basadas en la explotación de Big Semantic Data. En este artículo presentamos HDT-MR, una revisión del algoritmo de construcción de HDT basada en tecnología MapReduce. Esta nueva propuesta plantea configuraciones optimizadas de jobs MapReduce que permiten i) identificar los vocabularios de URIs y literales, necesarios para la construcción del diccionario HDT y ii) codificar los triples utilizando los diccionarios ya comprimidos. Nuestra experimentación muestra que el rendimiento de HDT-MR es lineal con el volumen de los datos de la entrada y que el despliegue actual, realizado sobre un cluster Hadoop, es capaz de serializar colecciones RDF que contienen miles de millones de triples.

Palabras Clave:

Web Semántica, Compresión, RDF, HDT, MapReduce, Hadoop

Autor(es):

Handle:

11705/JISBD/2016/029

Descargas:

Este artículo tiene una licencia de uso CreativeCommons Reconocimiento (by)

Descarga el artículo haciendo click aquí.