Navegación

Búsqueda

Búsqueda avanzada

Resultados de búsqueda para big data

Desarrollo dirigido por modelos de políticas de seguridad en bases de datos orientadas a grafos

La importancia de la seguridad de los datos está aumentando actualmente en todo el mundo debido al enorme número de transacciones de información que se producen continuamente. Cantidades cada vez mayores de datos, incluyendo información sensible y personal, se cargan en NoSQL y otras tecnologías de Big Data para su análisis y procesamiento. Sin embargo, los enfoques de seguridad actuales no tienen en cuenta las características especiales de estas tecnologías, dejando los datos sensibles y personales sin protección y arriesgándose así a sufrir graves pérdidas monetarias y daños a la marca. En este artículo, nos centramos en garantizar la seguridad de las bases de datos NoSQL orientadas a grafos siguiendo paradigmas como la «seguridad por diseño» y la «ingeniería dirigida por modelos». Para ello, proponemos un metamodelo que permite al diseñador modelar las políticas de seguridad sobre las estructuras específicas de las bases de datos orientadas a grafos y una serie de transformaciones que permiten obtener de forma automatizada su correspondiente implementación en un gestor de bases de datos orientadas a grafos concreto, Neo4J. Por último, aplicamos el marco propuesto a un caso de estudio del ámbito sanitario.

Autores: Carlos Blanco Bueno / David G. Rosado / Eduardo Fernandez-Medina / 
Palabras Clave: Bases de datos orientadas a grafos - big data - Modelado conceptual - seguridad

Unleashing Constraint Optimisation Problem solving in Big Data environments

The use of optimisation problems helps organisations manage their resources, time, and costs of their processes. The increase in the amount of consumable data, as well as the emergence of more sophisticated use cases, lead to a high number of variables and input data. Consequently, the resolution of huge quantities of Constraint Optimisation Problems (hereinafter, COPs), and the complexity of them, takes an extra effort to model and solve. In this paper, we aim at helping stakeholders model their COPs and integrate different data sources with the COP variables and input data, and solving the COPs in a distributed environment by means of Big Data techniques.In order to face these challenges, we developed FABIOLA (Fast Big Constraint Laboratory). It allows solving COPs from large datasets in a systematic way. It relies on several modern Big Data technologies, and we provide a user-friendly interface to facilitate the COP modelling, the execution of them, and the analysis of the results.The approach is applied to an industrial scenario, in which several electricity wholesale companies employ constraint optimisation techniques to optimise the tariff which their customers might hire. By means of asymptotic analysis, we evaluate the performance of our proposal, determining the degree to which the distribution of COPs improves the execution time with respect to the sequential execution as the complexity of the dataset increases. Promising results are obtained.FABIOLA isolates the resolution of COPs from where the data is located. Our systematic framework facilitates the integration of different data sources, the selection of the inputs of the COPs, the definition of optimisation models, their execution, and querying the results.

Autores: Álvaro Valencia-Parra / Angel Jesus Varela-Vaca / Luisa Parody / Maria Teresa Gómez-López / 
Palabras Clave: big data - Constraint programming - Distributed data - Heterogeneous data format - Optimisation problem

BIGOWL: Knowledge Centered Big Data Analytics

En las últimas décadas el aumento de fuentes de información en diferentes campos de la sociedad desde la salud hasta las redes sociales ha puesto de manifiesto la necesidad de nuevas técnicas para su análisis, lo que se ha venido a llamar el Big Data. Los problemas clásicos de optimización no son ajenos a este cambio de paradigma, como por ejemplo el problema del viajante de comercio (TSP), ya que se puede beneficiar de los datos que proporciona los diferentes sensores que se encuentran en las ciudades y que podemos acceder a ellos gracias a los portales de Open Data. Cuando estamos realizando análisis, ya sea de optimización o machine learning en Big Data, una de las formas más usada de abordarlo es mediante workflows de análisis. Estos están formados por componentes que hacen cada paso del análisis. El flujo de información en workflows puede ser anotada y almacenada usando herramientas de la Web Semántica para facilitar la reutilización de dichos componentes o incluso el workflow completo en futuros análisis, facilitando as+AO0, su reutilización y a su vez, mejorando el proceso de creación de estos. Para ello se ha creado la ontología BIGOWL, que permite trazar la cadena de valor de los datos de los workflows mediante semántica y además ayuda al analista en la creación de workflow gracias a que va guiando su composición con la información que contiene por la anotación de algoritmos, datos, componentes y workflows. La problemática que ha abordado y resuelto BIGOWL se encuentra en dar estructura a esta información para poder ser integrada en los componentes. Para para validar el modelo semántico, se presentan una serie de consultas SPARQL y reglas de razonamiento para guiar el proceso de creación y validación de dos casos de estudio, que consisten en: primero, el procesamiento en streaming de datos de tráfico real con Spark para la optimización de rutas en el entorno urbano de la ciudad de Nueva York+ADs y segundo, clasificación usando algoritmos de minería de datos de un conjunto de datos académicos como son los de la flor de Iris.

Autores: Cristóbal Barba-González / José García-Nieto / Maria Del Mar Roldan-Garcia / Ismael Navas-Delgado / Antonio J. Nebro / Jose F Aldana Montes / 
Palabras Clave: big data - Machine Learning - Optimización - Web Semantic

Neuralizador: Patrón de Seguridad para el Derecho al Olvido en Ecosistemas Big Data

Los ecosistemas Big Data son cada vez más usados por compañías de cualquier ámbito. Big Data permite la obtención de información valiosa a partir del análisis de grandes cantitades de datos. Normalmente, este tipo de entornos suele tener una alta complejidad lo que hace que sean difíciles de gestionar. Además, en los últimos años han surgido diferentes legislaciones que tratan de controlar el uso y análisis de los datos, lo cual, puede afectar de forma directa a este tipo de ecosistemas. Una de la normativas que más debate está generando es el derecho al olvido, gracias a la cual, se intenta que los usuarios tengan un mayor control sobre dónde se encuentran sus datos y cómo se utilizan. Por ello, sin una correcta adaptación de los entornos Big Data a las nuevas normativas, las empresas pueden no solo recibir graves sanciones económicas sino que les puede ocasionar una pérdida de reputación entre sus clientes. En este artículo proponemos un patrón de seguridad específico para ayudar a los administradores de Big Data a implementr el derecho al olvido en sus ecosistemas Big Data definiendo diferentes escenarios y los elementos que lo conforman.

Autores: Julio Moreno / Eduardo B. Fernandez / Manuel Serrano / Eduardo Fernandez-Medina / 
Palabras Clave: big data - Derecho al olvido - Patrones de Seguridad - Seguridad de la información

Automatic Testing of Design Faults in MapReduce Applications

New processing models are being adopted in Big Data engineering to overcome the limitations of traditional technology. Among them, MapReduce stands out by allowing for the processing of large volumes of data over a distributed infrastructure that can change during runtime. The developer only designs the functionality of the program and its execution is managed by a distributed system. As a consequence, a program can behave differently at each execution because it is automatically adapted to the resources available at each moment. Therefore, when the program has a design fault, this could be revealed in some executions and masked in others. However, during testing, these faults are usually masked because the test infrastructure is stable, and they are only revealed in production because the environment is more aggressive with infrastructure failures, among other reasons. This paper proposes new testing techniques that aimed to detect these design faults by simulating different infrastructure configurations. The testing techniques generate a representative set of infrastructure configurations that as whole are more likely to reveal failures using random testing, and partition testing together with combinatorial testing. The techniques are automated by using a test execution engine called MRTest that is able to detect these faults using only the test input data, regardless of the expected output. Our empirical evaluation shows that MRTest can automatically detect these design faults within a reasonable time.

Autores: Jesús Morán / Antonia Bertolino / Claudio De La Riva / Javier Tuya / 
Palabras Clave: big data - Combinatorial Testing - MapReduce - metamorphic testing - partition testing - random testing - Software Testing

Un Recorrido por los Principales Proveedores de Servicios de Machine Learning y Predicción en la Nube

Los medios tecnológicos para el consumo, producción e intercambio de información no hacen más que aumentar cada día que pasa. Nos encontramos envueltos en el fenómeno Big Data, donde ser capaces de analizar esta informa- ción con el objetivo de poder inferir situaciones del futuro basándonos en datos del pasado y del presente, nos puede reportar una ventaja competitiva que nos distinga claramente de otras opciones. Dentro de las múltiples disciplinas exis- tentes para el análisis de grandes cantidades información encontramos el Ma- chine Learning y, a su vez, dentro de este podemos destacar la capacidad predic- tiva que nos proporcionan muchas de las opciones existentes actualmente en el mercado. En este trabajo realizamos un análisis de estas principales opciones de APIs predictivas en la nube, las comparamos entre sí, y finalmente llevamos a cabo una experimentación con datos reales de la Red de Vigilancia y Control de la Calidad del Aire de la Junta de Andalucía. Los resultados demuestran que estas herramientas son una opción muy interesante a considerar a la hora de tratar de predecir valores de contaminantes que pueden afectar a nuestra salud seriamente, pudiéndose llevar a cabo acciones preventivas sobre la población afectada.

Autores: David Corral-Plaza / Juan Boubeta-Puig / Manuel Resinas, / 
Palabras Clave: API - big data - Cloud - Machine Learning - Predicción - Software as a Service

Descripción de pruebas de benchmark para plataformas de tercera generación

La irrupción del big data y la computación en la nube ha impulsado un cambio de paradigma en la construcción de nuevos sistemas basados en plataformas distribuidas escalables y orientadas al dato como servicio. La existencia de diversas tecnologías y la necesidad de evaluar el rendimiento de las aplicaciones construidas con ellas tanto en fase de prototipo como ya una vez implementadas y desplegadas en el entorno operativo, nos ha llevado a proponer un modelo de datos para describir pruebas de benchmark destinadas a la comparación de estas plataformas de tercera generación. El modelo incorpora información sobre todos los aspectos de la prueba: recursos, fuentes de datos, cargas de trabajo y métricas; cubre varios casos de uso y permite adaptar la información que contiene a las diferentes fases del ciclo de desarrollo del sistema. En las fases iniciales de desarrollo de prototipos, el modelo describe estimaciones de la carga de trabajo, de las prestaciones previstas para los recursos y componentes del sistema y de las métricas que se quieren valorar; mientras que en las fases finales de validación, el modelo sólo ha de incluir la identificación de las fuentes que generan las cargas de trabajo, de los recursos utilizados y de los componente desplegados, a fin de evaluar las métricas de interés.

Autores: Luis Martin de La Rubia / Miguel Algorri / Marta Elena Zorrilla / José María Drake / 
Palabras Clave: Benchmark - big data - Distributed System - Performance Metric

AIRPORTS: Análisis de Eficiencia Operacional basado en Trayectorias de Vuelo

AIRPORTS es un proyecto liderado por Boeing Research & Technology Europe (BR&T-E) en el que se coordinan varias líneas de investigación centradas en mejorar la eficiencia del sistema de transporte aéreo futuro. En particular, nuestro trabajo en AIRPORTS aborda la explotación de los datos que describen las trayectorias de vuelo para caracterizar la eficiencia de las operaciones realizadas en el entorno aeroportuario. Este documento introduce las particularidades básicas del contexto en el que estamos desarrollando nuestra investigación y presenta, brevemente, tanto el entorno tecnológico en el que se está realizando el proyecto, como los resultados que se esperan del mismo.

Autores: Álvaro Alonso-Isla / Pedro C. Álvarez-Esteban / Aníbal Bregón / Luís D'Alto / Fernando Díaz / Iván García-Miranda / Paula Gordaliza / Javier López-Leonés / Miguel A. Martinez-Prieto / David Scarlatti / Miguel Vilaplana / 
Palabras Clave: ADS-B - big data - Integración de datos

Application of Data Mining techniques to identify relevant Key Performance Indicators

Datos:Revista: Computer Standards & Interfaces (CSI)Volumen, páginas y fecha: Vol. 54(2), pp 76-85, Noviembre de 2017DOI: https://doi.org/10.1016/j.csi.2016.11.006Indicios de calidad:- Revista en Ranking: Q2, 40/106 COMPUTER SCIENCE, SOFTWARE ENGINEERING- Factor de Impacto: 1.633- Citas: 2 (Scopus)

Autores: Jesus Peral / Alejandro Maté / Manolo Marco / 
Palabras Clave: big data - Data Mining - KPIs - Open Data

Benchmarking real-time vehicle data streaming models for a smart city

Artículo ya publicadoInformation Systems, Volume 72, December 2017, Pages 62-76https://doi.org/10.1016/j.is.2017.09.002Q2, (COMPUTER SCIENCE, INFORMATION SYSTEMS)—The information systems of smart cities offer project developers, institutions, industry and experts the possibility to handle massive incoming data from diverse information sources in order to produce new information services for citizens. Much of this information has to be processed as it arrives because a real-time response is often needed. Stream processing architectures solve this kind of problems, but sometimes it is not easy to benchmark the load capacity or the efficiency of a proposed architecture. This work presents a real case project in which an infrastructure was needed for gathering information from drivers in a big city, analyzing that information and sending real-time recommendations to improve driving efficiency and safety on roads. The challenge was to support the real-time recommendation service in a city with thousands of simultaneous drivers at the lowest possible cost. In addition, in order to estimate the ability of an infrastructure to handle load, a simulator that emulates the data produced by a given amount of simultaneous drivers was also developed. Experiments with the simulator show how recent stream processing platforms like Apache Kafka could replace custom-made streaming servers in a smart city to achieve a higher scalability and faster responses, together with cost reduction.

Autores: Jorge Y. Fernández-Rodríguez / Juan A. Álvarez-García / Jesús Arias Fisteus / Miguel R. Luaces / Víctor Corcoba Magaña / 
Palabras Clave: big data - Data streaming - Distributed Systems - Simulator - Smart city

No encuentra los resultados que busca? Prueba nuestra Búsqueda avanzada