Navegación

Búsqueda

Búsqueda avanzada

Neuralizador: Patrón de Seguridad para el Derecho al Olvido en Ecosistemas Big Data

Los ecosistemas Big Data son cada vez más usados por compañías de cualquier ámbito. Big Data permite la obtención de información valiosa a partir del análisis de grandes cantitades de datos. Normalmente, este tipo de entornos suele tener una alta complejidad lo que hace que sean difíciles de gestionar. Además, en los últimos años han surgido diferentes legislaciones que tratan de controlar el uso y análisis de los datos, lo cual, puede afectar de forma directa a este tipo de ecosistemas. Una de la normativas que más debate está generando es el derecho al olvido, gracias a la cual, se intenta que los usuarios tengan un mayor control sobre dónde se encuentran sus datos y cómo se utilizan. Por ello, sin una correcta adaptación de los entornos Big Data a las nuevas normativas, las empresas pueden no solo recibir graves sanciones económicas sino que les puede ocasionar una pérdida de reputación entre sus clientes. En este artículo proponemos un patrón de seguridad específico para ayudar a los administradores de Big Data a implementr el derecho al olvido en sus ecosistemas Big Data definiendo diferentes escenarios y los elementos que lo conforman.

Automatic Testing of Design Faults in MapReduce Applications

New processing models are being adopted in Big Data engineering to overcome the limitations of traditional technology. Among them, MapReduce stands out by allowing for the processing of large volumes of data over a distributed infrastructure that can change during runtime. The developer only designs the functionality of the program and its execution is managed by a distributed system. As a consequence, a program can behave differently at each execution because it is automatically adapted to the resources available at each moment. Therefore, when the program has a design fault, this could be revealed in some executions and masked in others. However, during testing, these faults are usually masked because the test infrastructure is stable, and they are only revealed in production because the environment is more aggressive with infrastructure failures, among other reasons. This paper proposes new testing techniques that aimed to detect these design faults by simulating different infrastructure configurations. The testing techniques generate a representative set of infrastructure configurations that as whole are more likely to reveal failures using random testing, and partition testing together with combinatorial testing. The techniques are automated by using a test execution engine called MRTest that is able to detect these faults using only the test input data, regardless of the expected output. Our empirical evaluation shows that MRTest can automatically detect these design faults within a reasonable time.

Un Recorrido por los Principales Proveedores de Servicios de Machine Learning y Predicción en la Nube

Los medios tecnológicos para el consumo, producción e intercambio de información no hacen más que aumentar cada día que pasa. Nos encontramos envueltos en el fenómeno Big Data, donde ser capaces de analizar esta informa- ción con el objetivo de poder inferir situaciones del futuro basándonos en datos del pasado y del presente, nos puede reportar una ventaja competitiva que nos distinga claramente de otras opciones. Dentro de las múltiples disciplinas exis- tentes para el análisis de grandes cantidades información encontramos el Ma- chine Learning y, a su vez, dentro de este podemos destacar la capacidad predic- tiva que nos proporcionan muchas de las opciones existentes actualmente en el mercado. En este trabajo realizamos un análisis de estas principales opciones de APIs predictivas en la nube, las comparamos entre sí, y finalmente llevamos a cabo una experimentación con datos reales de la Red de Vigilancia y Control de la Calidad del Aire de la Junta de Andalucía. Los resultados demuestran que estas herramientas son una opción muy interesante a considerar a la hora de tratar de predecir valores de contaminantes que pueden afectar a nuestra salud seriamente, pudiéndose llevar a cabo acciones preventivas sobre la población afectada.

Descripción de pruebas de benchmark para plataformas de tercera generación

La irrupción del big data y la computación en la nube ha impulsado un cambio de paradigma en la construcción de nuevos sistemas basados en plataformas distribuidas escalables y orientadas al dato como servicio. La existencia de diversas tecnologías y la necesidad de evaluar el rendimiento de las aplicaciones construidas con ellas tanto en fase de prototipo como ya una vez implementadas y desplegadas en el entorno operativo, nos ha llevado a proponer un modelo de datos para describir pruebas de benchmark destinadas a la comparación de estas plataformas de tercera generación. El modelo incorpora información sobre todos los aspectos de la prueba: recursos, fuentes de datos, cargas de trabajo y métricas; cubre varios casos de uso y permite adaptar la información que contiene a las diferentes fases del ciclo de desarrollo del sistema. En las fases iniciales de desarrollo de prototipos, el modelo describe estimaciones de la carga de trabajo, de las prestaciones previstas para los recursos y componentes del sistema y de las métricas que se quieren valorar; mientras que en las fases finales de validación, el modelo sólo ha de incluir la identificación de las fuentes que generan las cargas de trabajo, de los recursos utilizados y de los componente desplegados, a fin de evaluar las métricas de interés.

AIRPORTS: Análisis de Eficiencia Operacional basado en Trayectorias de Vuelo

AIRPORTS es un proyecto liderado por Boeing Research & Technology Europe (BR&T-E) en el que se coordinan varias líneas de investigación centradas en mejorar la eficiencia del sistema de transporte aéreo futuro. En particular, nuestro trabajo en AIRPORTS aborda la explotación de los datos que describen las trayectorias de vuelo para caracterizar la eficiencia de las operaciones realizadas en el entorno aeroportuario. Este documento introduce las particularidades básicas del contexto en el que estamos desarrollando nuestra investigación y presenta, brevemente, tanto el entorno tecnológico en el que se está realizando el proyecto, como los resultados que se esperan del mismo.

Application of Data Mining techniques to identify relevant Key Performance Indicators

Datos:Revista: Computer Standards & Interfaces (CSI)Volumen, páginas y fecha: Vol. 54(2), pp 76-85, Noviembre de 2017DOI: https://doi.org/10.1016/j.csi.2016.11.006Indicios de calidad:- Revista en Ranking: Q2, 40/106 COMPUTER SCIENCE, SOFTWARE ENGINEERING- Factor de Impacto: 1.633- Citas: 2 (Scopus)

Benchmarking real-time vehicle data streaming models for a smart city

Artículo ya publicadoInformation Systems, Volume 72, December 2017, Pages 62-76https://doi.org/10.1016/j.is.2017.09.002Q2, (COMPUTER SCIENCE, INFORMATION SYSTEMS)—The information systems of smart cities offer project developers, institutions, industry and experts the possibility to handle massive incoming data from diverse information sources in order to produce new information services for citizens. Much of this information has to be processed as it arrives because a real-time response is often needed. Stream processing architectures solve this kind of problems, but sometimes it is not easy to benchmark the load capacity or the efficiency of a proposed architecture. This work presents a real case project in which an infrastructure was needed for gathering information from drivers in a big city, analyzing that information and sending real-time recommendations to improve driving efficiency and safety on roads. The challenge was to support the real-time recommendation service in a city with thousands of simultaneous drivers at the lowest possible cost. In addition, in order to estimate the ability of an infrastructure to handle load, a simulator that emulates the data produced by a given amount of simultaneous drivers was also developed. Experiments with the simulator show how recent stream processing platforms like Apache Kafka could replace custom-made streaming servers in a smart city to achieve a higher scalability and faster responses, together with cost reduction.

A software reference architecture for semantic-aware Big Data systems

Information & Software Technology 90: 75-92 (2017)Impact Factor JCR 2017: 2.694https://doi.org/10.1016/j.infsof.2017.06.001Citas recibidas en 2017 (Google Scholar, 2-3-2018): 3https://scholar.google.es/scholar?oi=bibs&hl=en&cites=13041754256225380312&as_sdt=5———————————- Abstract ————————————–Context: Big Data systems are a class of software systems that ingest, store, process and serve massive amounts of heterogeneous data, from multiple sources. Despite their undisputed impact in current society, their engineering is still in its infancy and companies find it difficult to adopt them due to their inherent complexity. Existing attempts to provide architectural guidelines for their engineering fail to take into account important Big Data characteristics, such as the management, evolution and quality of the data.Objective: In this paper, we follow software engineering principles to refine the ?-architecture, a reference model for Big Data systems, and use it as seed to create Bolster, a software reference architecture (SRA) for semantic-aware Big Data systems.Method: By including a new layer into the ?-architecture, the Semantic Layer, Bolster is capable of handling the most representative Big Data characteristics (i.e., Volume, Velocity, Variety, Variability and Veracity).Results: We present the successful implementation of Bolster in three industrial projects, involving five organizations. The validation results show high level of agreement among practitioners from all organizations with respect to standard quality factors.Conclusion: As an SRA, Bolster allows organizations to design concrete architectures tailored to their specific needs. A distinguishing feature is that it provides semantic-awareness in Big Data Systems. These are Big Data system implementations that have components to simplify data definition and exploitation. In particular, they leverage metadata (i.e., data describing data) to enable (partial) automation of data exploitation and to aid the user in their decision making processes. This simplification supports the differentiation of responsibilities into cohesive roles enhancing data governance.

Consulta eficiente de datos moleculares: Situación actual y retos futuros

En los últimos años, sectores industriales como el químico o elfarmacéutico vienen demandando la gestión eficiente de datos analíticostales como espectros NMR, o estructuras moleculares. En la actualidadexisten varias bibliotecas quimioinformáticas que pueden ser incorporadasdentro de los SGBDs relacionales. Sin embargo, estas soluciones noson eficaces para todos los tipos de consultas necesarias (datos espectroscópicosy cromatográficos por ejemplo) y no son eficientes para trabajarcon el volumen de datos requerido en la actualidad. En este artículo sedescribe el problema de la búsqueda de datos moleculares y se proporcionauna breve introducción a las soluciones iniciales y retos futuros eneste campo dentro del marco del proyecto NEXTCHROM.

FABIOLA: Arquitectura para la Optimización de Problemas en entornos de Big Data

Dentro de las organizaciones, los problemas de optimización pueden encontrarse en numerosos ejemplos, tales como minimizar los costes de producción, los errores producidos, o maximizar la fidelidad de los clientes. La resolución de estos problemas es un reto que conlleva un esfuerzo extra. Hoy en día, los problemas de Big Data se suman a estos problems de optimización en dichas empresas. Desafortunadamente, afrontar estos problemas en la pequeña y mediana empresa es extremadamente difícil o incluso imposible. En este artículo, proponemos la arquitectura llamada Fabiola, que permite describir los datos distribuidos y estructurados en problemas de optimización que pueden ser paralelizados. Además, Fabiola aplica las técnicas de Programación con Restricciones para poder devolver la solución a dichos problemas de optimización.