Navegación

Búsqueda

Búsqueda avanzada

Resultados de búsqueda para big data

A big data-centric architecture metamodel for Industry 4.0

The effective implementation of Industry 4.0 requires the reformula-tion of industrial processes in order to achieve the vertical and horizontal digi-talization of the value chain. For this purpose, it is necessary to provide tools that enable their successful implementation. This paper therefore proposes a da-ta-centric, distributed, dynamically scalable reference architecture that inte-grates cutting-edge technologies being aware of the existence of legacy tech-nology typically present in these environments. In order to make its implemen-tation easier, we have designed a metamodel that collects the description of all the elements involved in a digital platform (data, resources, applications and monitoring metrics) as well as the necessary information to configure, deploy and execute applications on it. Likewise, we provide a tool compliant to the metamodel that automates the generation of configuration, deployment and launch files and their corresponding transference and execution in the nodes of the platform. We show the flexibility, extensibility and validity of our software artefacts through their application in two case studies, one addressed to prepro-cess and store pollution data and the other one, more complex, which simulates the management of an electric power distribution of a smart city.

Autores: Patricia López Martínez / Ricardo Dintén / Marta Zorrilla / Jose M. Drake / 
Palabras Clave: big data - Data-centric architecture - Data-intensive applications - Industry 4.0 - Metamodel - Model-based development

Minería de flujos de datos en entornos heterogéneos y distribuidos: aplicación en la Industria 4.0

Uno de los principales objetivos de la Industria 4.0 es lograr la necesaria integración horizontal y vertical del sistema de producción. Para ello es necesario desplegar una plataforma digital que integre y procese la ingente cantidad de datos generados en el entorno. Mucha de esta información procede del IoT, y, en concreto, corresponde a sensores que emiten flujos continuos de datos cuyo análisis mediante técnicas de minería de datos permitiría mejorar los procesos industriales, como por ejemplo construyendo modelos dirigidos al mantenimiento preventivo y predictivo de los sistemas físicos, donde aún hay retos abiertos. El objeto de este artículo es describir el punto de partida de esta investigación que es el resultado de un proyecto del plan nacional y discutir su extensión señalando las líneas de trabajo que se pretenden abordar y los resultados que se persigue conseguir para contribuir al avance de la I4.0.

Autores: Ricardo Dintén / Patricia López Martínez / Juan Yebenes / Marta Zorrilla / 
Palabras Clave: Arquitecturas intensivas en datos - big data - Cloud Computing - Inteligencia Artificial - IoT

Desarrollo dirigido por modelos de políticas de seguridad en bases de datos orientadas a grafos

La importancia de la seguridad de los datos está aumentando actualmente en todo el mundo debido al enorme número de transacciones de información que se producen continuamente. Cantidades cada vez mayores de datos, incluyendo información sensible y personal, se cargan en NoSQL y otras tecnologías de Big Data para su análisis y procesamiento. Sin embargo, los enfoques de seguridad actuales no tienen en cuenta las características especiales de estas tecnologías, dejando los datos sensibles y personales sin protección y arriesgándose así a sufrir graves pérdidas monetarias y daños a la marca. En este artículo, nos centramos en garantizar la seguridad de las bases de datos NoSQL orientadas a grafos siguiendo paradigmas como la «seguridad por diseño» y la «ingeniería dirigida por modelos». Para ello, proponemos un metamodelo que permite al diseñador modelar las políticas de seguridad sobre las estructuras específicas de las bases de datos orientadas a grafos y una serie de transformaciones que permiten obtener de forma automatizada su correspondiente implementación en un gestor de bases de datos orientadas a grafos concreto, Neo4J. Por último, aplicamos el marco propuesto a un caso de estudio del ámbito sanitario.

Autores: Carlos Blanco Bueno / David G. Rosado / Eduardo Fernandez-Medina / 
Palabras Clave: Bases de datos orientadas a grafos - big data - Modelado conceptual - seguridad

Unleashing Constraint Optimisation Problem solving in Big Data environments

The use of optimisation problems helps organisations manage their resources, time, and costs of their processes. The increase in the amount of consumable data, as well as the emergence of more sophisticated use cases, lead to a high number of variables and input data. Consequently, the resolution of huge quantities of Constraint Optimisation Problems (hereinafter, COPs), and the complexity of them, takes an extra effort to model and solve. In this paper, we aim at helping stakeholders model their COPs and integrate different data sources with the COP variables and input data, and solving the COPs in a distributed environment by means of Big Data techniques.In order to face these challenges, we developed FABIOLA (Fast Big Constraint Laboratory). It allows solving COPs from large datasets in a systematic way. It relies on several modern Big Data technologies, and we provide a user-friendly interface to facilitate the COP modelling, the execution of them, and the analysis of the results.The approach is applied to an industrial scenario, in which several electricity wholesale companies employ constraint optimisation techniques to optimise the tariff which their customers might hire. By means of asymptotic analysis, we evaluate the performance of our proposal, determining the degree to which the distribution of COPs improves the execution time with respect to the sequential execution as the complexity of the dataset increases. Promising results are obtained.FABIOLA isolates the resolution of COPs from where the data is located. Our systematic framework facilitates the integration of different data sources, the selection of the inputs of the COPs, the definition of optimisation models, their execution, and querying the results.

Autores: Álvaro Valencia-Parra / Angel Jesus Varela-Vaca / Luisa Parody / Maria Teresa Gómez-López / 
Palabras Clave: big data - Constraint programming - Distributed data - Heterogeneous data format - Optimisation problem

BIGOWL: Knowledge Centered Big Data Analytics

En las últimas décadas el aumento de fuentes de información en diferentes campos de la sociedad desde la salud hasta las redes sociales ha puesto de manifiesto la necesidad de nuevas técnicas para su análisis, lo que se ha venido a llamar el Big Data. Los problemas clásicos de optimización no son ajenos a este cambio de paradigma, como por ejemplo el problema del viajante de comercio (TSP), ya que se puede beneficiar de los datos que proporciona los diferentes sensores que se encuentran en las ciudades y que podemos acceder a ellos gracias a los portales de Open Data. Cuando estamos realizando análisis, ya sea de optimización o machine learning en Big Data, una de las formas más usada de abordarlo es mediante workflows de análisis. Estos están formados por componentes que hacen cada paso del análisis. El flujo de información en workflows puede ser anotada y almacenada usando herramientas de la Web Semántica para facilitar la reutilización de dichos componentes o incluso el workflow completo en futuros análisis, facilitando as+AO0, su reutilización y a su vez, mejorando el proceso de creación de estos. Para ello se ha creado la ontología BIGOWL, que permite trazar la cadena de valor de los datos de los workflows mediante semántica y además ayuda al analista en la creación de workflow gracias a que va guiando su composición con la información que contiene por la anotación de algoritmos, datos, componentes y workflows. La problemática que ha abordado y resuelto BIGOWL se encuentra en dar estructura a esta información para poder ser integrada en los componentes. Para para validar el modelo semántico, se presentan una serie de consultas SPARQL y reglas de razonamiento para guiar el proceso de creación y validación de dos casos de estudio, que consisten en: primero, el procesamiento en streaming de datos de tráfico real con Spark para la optimización de rutas en el entorno urbano de la ciudad de Nueva York+ADs y segundo, clasificación usando algoritmos de minería de datos de un conjunto de datos académicos como son los de la flor de Iris.

Autores: Cristóbal Barba-González / José García-Nieto / Maria Del Mar Roldan-Garcia / Ismael Navas-Delgado / Antonio J. Nebro / Jose F Aldana Montes / 
Palabras Clave: big data - Machine Learning - Optimización - Web Semantic

Neuralizador: Patrón de Seguridad para el Derecho al Olvido en Ecosistemas Big Data

Los ecosistemas Big Data son cada vez más usados por compañías de cualquier ámbito. Big Data permite la obtención de información valiosa a partir del análisis de grandes cantitades de datos. Normalmente, este tipo de entornos suele tener una alta complejidad lo que hace que sean difíciles de gestionar. Además, en los últimos años han surgido diferentes legislaciones que tratan de controlar el uso y análisis de los datos, lo cual, puede afectar de forma directa a este tipo de ecosistemas. Una de la normativas que más debate está generando es el derecho al olvido, gracias a la cual, se intenta que los usuarios tengan un mayor control sobre dónde se encuentran sus datos y cómo se utilizan. Por ello, sin una correcta adaptación de los entornos Big Data a las nuevas normativas, las empresas pueden no solo recibir graves sanciones económicas sino que les puede ocasionar una pérdida de reputación entre sus clientes. En este artículo proponemos un patrón de seguridad específico para ayudar a los administradores de Big Data a implementr el derecho al olvido en sus ecosistemas Big Data definiendo diferentes escenarios y los elementos que lo conforman.

Autores: Julio Moreno / Eduardo B. Fernandez / Manuel Serrano / Eduardo Fernandez-Medina / 
Palabras Clave: big data - Derecho al olvido - Patrones de Seguridad - Seguridad de la información

Automatic Testing of Design Faults in MapReduce Applications

New processing models are being adopted in Big Data engineering to overcome the limitations of traditional technology. Among them, MapReduce stands out by allowing for the processing of large volumes of data over a distributed infrastructure that can change during runtime. The developer only designs the functionality of the program and its execution is managed by a distributed system. As a consequence, a program can behave differently at each execution because it is automatically adapted to the resources available at each moment. Therefore, when the program has a design fault, this could be revealed in some executions and masked in others. However, during testing, these faults are usually masked because the test infrastructure is stable, and they are only revealed in production because the environment is more aggressive with infrastructure failures, among other reasons. This paper proposes new testing techniques that aimed to detect these design faults by simulating different infrastructure configurations. The testing techniques generate a representative set of infrastructure configurations that as whole are more likely to reveal failures using random testing, and partition testing together with combinatorial testing. The techniques are automated by using a test execution engine called MRTest that is able to detect these faults using only the test input data, regardless of the expected output. Our empirical evaluation shows that MRTest can automatically detect these design faults within a reasonable time.

Autores: Jesús Morán / Antonia Bertolino / Claudio De La Riva / Javier Tuya / 
Palabras Clave: big data - Combinatorial Testing - MapReduce - metamorphic testing - partition testing - random testing - Software Testing

Un Recorrido por los Principales Proveedores de Servicios de Machine Learning y Predicción en la Nube

Los medios tecnológicos para el consumo, producción e intercambio de información no hacen más que aumentar cada día que pasa. Nos encontramos envueltos en el fenómeno Big Data, donde ser capaces de analizar esta informa- ción con el objetivo de poder inferir situaciones del futuro basándonos en datos del pasado y del presente, nos puede reportar una ventaja competitiva que nos distinga claramente de otras opciones. Dentro de las múltiples disciplinas exis- tentes para el análisis de grandes cantidades información encontramos el Ma- chine Learning y, a su vez, dentro de este podemos destacar la capacidad predic- tiva que nos proporcionan muchas de las opciones existentes actualmente en el mercado. En este trabajo realizamos un análisis de estas principales opciones de APIs predictivas en la nube, las comparamos entre sí, y finalmente llevamos a cabo una experimentación con datos reales de la Red de Vigilancia y Control de la Calidad del Aire de la Junta de Andalucía. Los resultados demuestran que estas herramientas son una opción muy interesante a considerar a la hora de tratar de predecir valores de contaminantes que pueden afectar a nuestra salud seriamente, pudiéndose llevar a cabo acciones preventivas sobre la población afectada.

Autores: David Corral-Plaza / Juan Boubeta-Puig / Manuel Resinas / 
Palabras Clave: API - big data - Cloud - Machine Learning - Predicción - Software as a Service

Descripción de pruebas de benchmark para plataformas de tercera generación

La irrupción del big data y la computación en la nube ha impulsado un cambio de paradigma en la construcción de nuevos sistemas basados en plataformas distribuidas escalables y orientadas al dato como servicio. La existencia de diversas tecnologías y la necesidad de evaluar el rendimiento de las aplicaciones construidas con ellas tanto en fase de prototipo como ya una vez implementadas y desplegadas en el entorno operativo, nos ha llevado a proponer un modelo de datos para describir pruebas de benchmark destinadas a la comparación de estas plataformas de tercera generación. El modelo incorpora información sobre todos los aspectos de la prueba: recursos, fuentes de datos, cargas de trabajo y métricas; cubre varios casos de uso y permite adaptar la información que contiene a las diferentes fases del ciclo de desarrollo del sistema. En las fases iniciales de desarrollo de prototipos, el modelo describe estimaciones de la carga de trabajo, de las prestaciones previstas para los recursos y componentes del sistema y de las métricas que se quieren valorar; mientras que en las fases finales de validación, el modelo sólo ha de incluir la identificación de las fuentes que generan las cargas de trabajo, de los recursos utilizados y de los componente desplegados, a fin de evaluar las métricas de interés.

Autores: Luis Martin de La Rubia / Miguel Algorri / Marta Elena Zorrilla / José María Drake / 
Palabras Clave: Benchmark - big data - Distributed System - Performance Metric

No encuentra los resultados que busca? Prueba nuestra Búsqueda avanzada