Ingeniería y Ciencia de Datos

URI permanente para esta colección:

Artículos en la categoría Ingeniería y Ciencia de Datos publicados en las Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023).
Notificar un error en esta colección

Examinar

Envíos recientes

Mostrando 1 - 20 de 29
  • Artículo
    Evolución eficiente de bases de datos en la reingeniería de bibliotecas digitales
    Ramos-Vidal, Delfina; Rodríguez Brisaboa, Nieves. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    A principios de los años 2000, hubo un gran esfuerzo mundial por desarrollar bibliotecas digitales que facilitasen el acceso a documentos digitalizados a través de Internet, dando lugar a grandes sistemas de información que permiten gestionar y consultar el contenido de estas bibliotecas. Dos décadas después, estos sistemas han ido quedando obsoletos y se quieren completar. En este artículo proponemos una herramienta para faciliar la evolución de grandes bases de datos documentales.
  • Resumen
    Efficient distributed algorithms for distance join queries in spark-based spatial analytics systems
    García-García, Francisco; Corral, Antonio; Iribarne, Luis; Vassilakopoulos, Michael. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    Apache Sedona (formerly GeoSpark) is a new in-memory cluster computing system for processing large-scale spatial data, which extends the core of Apache Spark to support spatial datatypes, spatial partitioning techniques, spatial indexes, and spatial operations (e.g., spatial range, nearest neighbor, and spatial join queries). It is actively under development by the Apache Software Foundation, and it has been recently graduated to as Apache Top Level Project. Other Spark-based spatial analytics systems have been also proposed in the literature, like Simba and LocationSpark, but currently they are not updated for long time. Distance-based Join Queries (DJQs), like nearest neighbor join (kNNJQ) or closest pairs queries (kCPQ), are used in numerous spatial applications (e.g., GIS, location-based systems, continuous monitoring streaming systems, etc.), but they are not supported by Apache Sedona. Therefore, in this paper, we investigate how to design and implement efficient DJQ distributed algorithms in Apache Sedona, using the most appropriate spatial partitioning, spatial indexing, and other optimization techniques (e.g., repartitioning and less data). The results of an extensive set of experiments with real-world datasets are presented, demonstrating that the proposed kNNJQ and kCPQ distributed algorithms are efficient (in terms of total execution time and memory requirements), scalable (varying k values, sizes of datasets and number of executors), and robust in Apache Sedona. Moreover, we have also experimentally compared Apache Sedona, LocationSpark and Simba, showing Apache Sedona the best performance for kCPQ in all cases, and for kNNJQ when the joined datasets are medium-sized, whereas LocationSpark is the winner for kNNJQ when the combined datasets are large-sized, and Simba shows the lowest performance in all considered cases. Finally, we can conclude that Apache Sedona shows the best performance for kCPQ and competitive results for kNNJQ.
  • Resumen
    Diagnosis and Prognosis of Mental Disorders by means of EEG and Deep Learning: A Systematic Mapping Study
    Rivera, Manuel J.; Teruel, Miguel A.; Maté, Alejandro; Trujillo, Juan. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    Electroencephalography (EEG) is used in the diagnosis and prognosis of mental disorders because it provides brain biomarkers. However, only high-ly trained doctors can interpret EEG signals due to its complexity. Machine learning has been successfully trained with EEG signals for classifying mental disorders, but a time consuming and disorder-dependant feature en-gineering (FE) and subsampling process is required over raw EEG data. Deep Learning (DL) is positioned as a prominent research field to process EEG data because (i) it features automated FE by taking advantage of raw EEG signals improving results and (ii) it can be trained over the vast amount of data generated by EEG. In this work, a systematic mapping study has been performed with 46 carefully selected primary studies. Our goals were (i) to provide a clear view of which are the most prominent study top-ics in diagnosis and prognosis of mental disorders by using EEG with DL, and (ii) to give some recommendations for future works. Some results are: epilepsy was the predominant mental disorder present in around half of the studies, convolutional neural networks also appear in approximate 50% of the works. The main conclusions are (i) processing EEG with DL to detect mental disorders is a promising research field and (ii) to objectively com-pare performance between studies: public datasets, intra-subject validation, and standard metrics should be used. Additionally, we suggest to pay more attention to ease the reproducibility, and to use (when possible) an availa-ble framework to explain the results of the created DL models.
  • Artículo
    Onto-CARMEN: un enfoque basado en ontologías para el razonamiento y el metamodelado de requisitos de seguridad de los sistemas ciberfísicos
    Blanco, Carlos; G.Rosado, David; Varela Vaca, Angel Jesus; Gómez López, Maria Teresa; Fernandez-Medina, Eduardo. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    En los últimos años, los sistemas ciberfísicos (CPS) están atrayendo una gran atención, especialmente en el sector industrial, ya que se han convertido en el foco de los ciberataques. Los CPS son sistemas complejos que engloban una gran variedad de componentes de hardware y software con un número incontable de configuraciones y características. Un requisito de seguridad no válido puede producir una configuración parcial o incompleta, incluso errónea, con las consiguientes consecuencias catastróficas. Por lo tanto, es crucial garantizar la validación en la especificación de los requisitos de seguridad desde las primeras etapas de diseño. Con este fin, se propone Onto-CARMEN, un enfoque semántico que proporciona un mecanismo para la especificación de los requisitos de seguridad en la parte superior de las ontologías, y el diagnóstico automático a través de axiomas semánticos y reglas SPARL. El enfoque se ha validado utilizando los requisitos de seguridad de un caso de estudio real.
  • Artículo
    Laredo: democratización de análisis de flujos de datos para el mantenimiento predictivo
    Dintén, Ricardo; Zorrilla, Marta Elena. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    La llegada del IoT y la IA a las fábricas permitirá optimizar sus procesos productivos. Pero la complejidad del proceso de minería de datos, la escasez de profesionales cualificados y la falta de herramientas dirigidas a no expertos, frena su despliegue en el sector industrial. Por ello, en este trabajo se analiza la literatura científica relacionada con herramientas para el análisis de flujos de datos y se plantea una propuesta de servicio, dirigido a usuarios no expertos (no científicos de datos), que permita acercar la construcción de workflows científicos escalables y distribuidos enfocados al mantenimiento predictivo y prescriptivo para su despliegue sobre la arquitectura industrial RAI4.0.
  • Artículo
    PL4DC: Parameterizable Library for Data Cleaning
    Barchino, Gregorio; Gualo, Fernando; Caballero, Ismael; Piattini Velthuis, Mario Gerardo. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    La capacidad de recopilar, analizar e interpretar datos ha revolucionado la forma que la sociedad tiene de entender e interactuar con el mundo que nos rodea. Esto ha llevado a que los datos sean la base de todo tipo de decisiones a nivel personal, empresarial, e incluso gubernamental. Para poder tener de-cisiones confiables, la calidad de los datos usados es fundamental. La mejora de calidad de los datos es la parte de la gestión de la calidad de los datos que asegura niveles adecuados de calidad para los datos en un contexto de uso. La limpieza de datos es una tarea fundamental de la mejora de datos. En este artículo se presenta PL4DC, una biblioteca de R desarrollada para implemen-tar operaciones de limpieza de datos basada en ISO/IEC 25024. Estas opera-ciones formarán parte de los parámetros de las primitivas producidas por la investigación desarrollada. Finalmente, se describe cómo se usó PL4DC para el caso concreto de un conjunto de datos de un portal inmobiliario.
  • Artículo
    Herramienta SIG para la consulta y gestión de datos de transporte público masivos
    Rodríguez Brisaboa, Nieves; Gutiérrez-Asorey, Pablo; Letelier, Benjamín; Varela Rodeiro, Tirso. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    En este proyecto presentamos una herramienta para los administradores del transporte público orientada a facilitar el análisis y la explotación de información de los movimientos de la ciudadanía en la red de transportes. Esta línea de investigación es especialmente relevante en vista de los cambios que la movilidad urbana está experimentando en los últimos años, incluyendo aquellos propiciados por la implantación de tarjetas de viajero para validar el acceso al transporte público. La solución que proponemos combina tecnologías SIG con estructuras de datos compactas para el almacenamiento y consulta de datos de movilidad en redes de transporte. En este artículo nos centraremos en detallar nuestra estrategia para almacenar e indexar los datos de movilidad.
  • Artículo
    Metodología para identificar reglas de negocio de calidad de datos basada en ISO 25012
    Galera, Ramón; Gualo, Fernando; Caballero, Ismael; Rodríguez Monje, Moisés. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    En la actualidad, las organizaciones generan y manejan extensas cantidades de datos de forma continua con un fin particular, como puede ser la toma de decisiones adecuadas o la monitorización de ciertos parámetros. No solo es importante obtener los datos; el cómo se obtienen y el cómo se almacenan y mantienen tiene tanto o incluso más valor. La calidad de los datos es un factor clave para cualquier organización ya que, si sus datos no presentan un nivel de calidad adecuado, su uso no permitirá obtener los mejores resultados. Para mantener niveles de calidad adecuados es necesario que las organizaciones identifiquen los requisitos de datos o reglas de negocio que sus datos deben cumplir para el fin que se les va a dar. En esta línea, existe un modelo basado en ISO/IEC 25012 que permite realizar una evaluación de la calidad de datos a partir de los requisitos de una organización. En este artículo se presenta una metodología para facilitar la identificación y clasificación de las reglas de negocio para una organización, así como su asociación a cada una de las características de calidad de datos respecto al estándar ISO/IEC 25012.
  • Artículo
    Hacia el descubrimiento de datos geoespaciales y medioambientales basado en palabras clave
    Rey, Andrea; Viqueira, José R.R.; Martinez Casas, David; Luaces Cachaza, David. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    En este artículo se introduce la motivación y los objetivos de una línea de investigación sobre descubrimiento de datos espacio-temporales basado en palabras clave, que se está iniciando en el grupo de investigación COGRADE de la Universidade de Santiago de Compostela. Los retos principales tienen que ver con la mejora de los métodos actuales de acceso para poder utilizarse durante el filtrado basado en palabras clave sobre propiedades no textuales y con conjuntos de gran volumen.
  • Artículo
    Arquitectura de un Framework para la Generación Automatizada de Datasets Temporales en Data Lakes
    Sal, Brian; de La Vega, Alfonso; López Martínez, Patricia; García-Saiz, Diego; Grande, Alicia; López, David; Sánchez Barreiro, Pablo. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    En los últimos años, los data lakes se han popularizado como solución para el almacenamiento centralizado de grandes volúmenes de datos heterogéneos procedentes de fuentes dispares. Estos datos suelen tener un marcado carácter temporal, ya que los datos suelen extraerse periódicamente de diversas fuentes a diferentes frecuencias y se almacenan directamente en crudo. Por tanto, estos datos deben ser adecuadamente preprocesados antes de ser consumidos por las aplicaciones que los explotan. Esta tarea de preprocesamiento se realiza actualmente de manera manual, mediante la escritura de scripts en lenguajes de transformación de datos. Este proceso es laborioso, costoso y, por lo general, propenso a errores. Para tratar de aliviar este problema, este artículo presenta la arquitectura inicial de Hannah, un framework que busca automatizar la generación de datasets para la minería de series temporales a partir de datos en bruto provenientes de data lakes. El objetivo es que, utilizando la menor cantidad de información posible como entrada, el framework sea capaz de recuperar los datos requeridos del data lake y procesarlos para que encajen adecuadamente dentro de un dataset.
  • Resumen
    CompareML: A Novel Approach to Supporting Preliminary Data Analysis Decision Making
    Fernández-García, Antonio Jesús; Preciado, Juan Carlos; Prieto Ramos, Álvaro E.; Sánchez-Figueroa, Fernando; Gutiérrez Gallardo, Juan Diego. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    There are a large number of machine learning algorithms as well as a wide range of libraries and services that allow one to create predictive models. With machine learning and artificial intelligence playing a major role in dealing with engineering problems, practising engineers often come to the machine learning field so overwhelmed with the multitude of possibilities that they find themselves needing to address difficulties before actually starting on carrying out any work. Datasets have intrinsic properties that make it hard to select the algorithm that is best suited to some specific objective, and the ever-increasing number of providers together make this selection even harder. These were the reasons underlying the design of CompareML, an approach to supporting the evaluation and comparison of machine learning libraries and services without deep machine learning knowledge. CompareML makes it easy to compare the performance of different models by using well-known classification and regression algorithms already made available by some of the most widely used providers. It facilitates the practical application of methods and techniques of artificial intelligence that let a practising engineer decide whether they might be used to resolve hitherto intractable problems. Thus, researchers and engineering practitioners can uncover the potential of their datasets for the inference of new knowledge by selecting the most appropriate machine learning algorithm and determining the provider best suited to their data.
  • Artículo
    Propuesta metodológica para integrar la Privacidad en OWASP MAS
    Lavín, Irene; Aparicio, Amador; Martínez, M. Mercedes. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    Las dos principales vías por las que los usuarios acceden a los servicios en Internet son a través de la Web y a través de las aplicaciones instaladas en los dispositivos móviles. El uso masivo de dispositivos móviles los convierte en una de las principales fuentes de vulnerabilidades para la privacidad de sus usuarios. Es interesante pues preguntarse cuál es el nivel de privacidad que estas herramientas proporcionan a los usuarios y a sus datos personales. OWASP Mobile Application Security (MAS) es una metodología estándar específica para aplicaciones móviles, que permite detectar y corregir vulnerabilidades de seguridad. La privacidad no forma parte de su diseño por defecto. Por ello, es necesario cuestionar si sus pruebas son suficientes y adecuadas para garantizar la privacidad de los usuarios de dispositivos móviles. Este trabajo presenta una propuesta metodológica para integrar la privacidad en OWASP MAS.
  • Resumen
    Security policies by design in NoSQL document databases
    Blanco, Carlos; García-Saiz, Diego; G.Rosado, David; Santos-Olmo, Antonio; Peral, Jesus; Maté, Alejandro; Trujillo, Juan; Fernandez-Medina, Eduardo. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    La importancia de la seguridad de los datos está tomando cada vez más relevancia debido al gran número de transacciones de datos que se producen continuamente. Cada segundo se generan, almacenan, modifican y transfieren grandes cantidades de datos, lo cuál provoca que las bases de datos requieran de una capacidad, un control y una protección adecuadas que les permitan mantener un entorno seguro para ese gran volumen de datos. El uso de entornos Big Data son una tendencia destacada en nuestra sociedad, almacenando cada vez más cantidades de datos, muchos de los cuales representan información sensible y personal. Estos entornos hacen uso de numerosas tecnologías para su análisis y procesamiento, entre las que se encuentran las bases de datos NoSQL. Sin embargo, los enfoques de seguridad actuales no tienen en cuenta las características específicas de estas tecnologías, dejando desprotegidos los datos sensibles y personales y, en consecuencia, arriesgándose a sufrir considerables pérdidas económicas, daños a la propia imagen de las compañías, etc. En primer lugar, seguimos el concepto de seguridad por diseño para establecer los requisitos de seguridad desde una etapa temprana de desarrollo y de forma independiente a la herramienta final que se utilice para su implementación. Para ello proponemos un metamodelo que permite especificar tanto la estructura de la base de datos documental como las políticas de seguridad necesarias. También definimos un modelo de implementación analizando las características que proporciona un sistema específico de gestión de bases de datos de documentos NoSQL (MongoDB). Una vez obtenidos los modelos de diseño e implementación, seguimos la filosofía de desarrollo dirigido por modelos y proponemos un conjunto de reglas de transformación que, dado un modelo de diseño, permiten generar automáticamente la implementación final de las políticas de seguridad. Adicionalmente, proporcionamos una solución tecnológica en la que se emplea el entorno Eclipse Modelling Framework para implementar tanto el metamodelo de diseño (Emfatic) como las transformaciones (Epsilon, EGL). Por último, aplicamos el marco propuesto a un caso de estudio sobre aeropuertos, en el que se considera información sobre pasajeros, equipajes, aviones, vuelos concretos, etc. y un conjunto de requisitos de seguridad que permiten evaluar la aplicabilidad de nuestra propuesta. En este artículo, nos centramos en las bases de datos NoSQL de tipo documental y presentamos una propuesta para el diseño y la implementación de políticas de seguridad en este tipo de bases de datos. Como beneficios de nuestra propuesta, además del ahorro de tiempo y coste de desarrollo, podemos destacar que genera soluciones más robustas al considerar la seguridad desde el diseño. Al realizar el diseñador un modelo del sistema a alto nivel, se abstrae tanto de conocer aspectos específicos de la herramienta de destino como de tener que elegir las mejores estrategias para la aplicación de las políticas de seguridad. Ambos son aspectos que pueden ser fuente de errores y que mitigamos al generar la implementación de las políticas de seguridad de forma automatizada partiendo del modelo de diseño.
  • Artículo
    Chatbot based on clinical literature for decision support
    Sanchez-Montejo, Irene; Telleria-Orriols, Carlos; Trillo-Lado, Raquel. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    Clinical practice guidelines try to provide the state-of-the-art in diagnostic and treatment methods for each disease, by a systematic review of the scientific evidence, but it can be difficult to keep up to date in a context of healthcare in constant evolution. Improvements in Deep Learning and Natural Language Processing have allowed to perform multiple applications, such as conversational agents (chatbots or virtual assistants), that are designed to simulate a human conversation. Language models behind these systems are able to analyze a huge collection of documents with unstructured data and extract the essential information from each one, easing the fast consultation of guidelines by practitioners and patients. This article provide an approach of a thesis plan to analyze different techniques and language models, and develop a chatbot able to answer according to clinical practice guidelines and other high-quality biomedical literature in a real-time decision support system for healthcare professionals, patients, and caregivers.
  • Resumen
    Human Activity Recognition From Sensorised Patient´s Data in Healthcare: A Streaming Deep Learning-Based Approach
    Hurtado, Sandro; García-Nieto, José Manuel; Popov, Anton; Navas Delgado, Ismael. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    Physical inactivity is one of the main risk factors for mortality, and its relationship with the main chronic diseases has experienced intensive medical research. A well-known method for assessing people’s activity is the use of accelerometers implanted in wearables and mobile phones. However, a series of main critical issues arise in the healthcare context related to the limited amount of available labeled data to build a classification model. Moreover, the discrimination ability of activities is often challenging to capture since the variety of movement patterns in a particular group of patients (e.g. obesity or geriatric patients) is limited over time. Consequently, the proposed work presents a novel approach for Human Activity Recognition (HAR) in healthcare to avoid this problem. This proposal is based on semi-supervised classification with Encoder-Decoder Convolutional Neural Networks (CNNs) using a combination strategy of public labeled and private unlabeled raw sensor data. In this sense, the model will be able to take advantage of the large amount of unlabeled data available by extracting relevant characteristics in these data, which will increase the knowledge in the innermost layers. Hence, the trained model can generalize well when used in real-world use cases. Additionally, real-time patient monitoring is provided by Apache Spark streaming processing with sliding windows. For testing purposes, a real-world case study is conducted with a group of overweight patients in the healthcare system of Andalusia (Spain), classifying close to 30 TBs of accelerometer sensor-based data. The proposed HAR streaming deep-learning approach properly classifies movement patterns in real-time conditions, crucial for long-term daily patient monitoring.
  • Resumen
    GeoSPARQL Query Support for Scientific Raster Array Data
    Almobydeen, Shahed Bassam; Viqueira, José R.R.; Lama Penin, Manuel. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    Este artículo describe el diseño de una solución de procesamiento de consultas GeoSPARQL, llamada GeoLD, para datos raster científicos. La solución permite la implementación de endpoints SPARQL sobre servicios web que siguen el estándar Web Coverage Processing Service (WCPS) del OGC. Así, no será necesario incorporar funciones específicas de arrays raster en el lenguaje de consulta para habilitar la consulta semántica de este tipo de datos. Para lograr esto, en primer lugar se definen soluciones de mapeado entre coberturas raster y RDF, basadas en estándares bien conocidos de mapeado relacional-RDF del W3C. A continuación, el álgebra SPARQL se extiende con un nuevo operador que permite delegar parte de la consulta GeoSPARQL en el servicio WCPS. La optimización de consultas reemplaza las partes del plan de consulta SPARQL que pueden delegarse en el servicio WCPS por instancias de este nuevo operador WCPS. La implementación de un primer prototipo se ha realizado extendiendo el motor de consultas ARQ de Apache Jena. El componente Petascope proporciona la implementación del servicio WCPS sobre la base de datos de arrays raster Rasdaman. Una evaluación inicial con datos reales de tipo meteorológico muestra, como era de esperar, que GeoLD tiene un rendimiento mejor que una implementación de referencia GeoSPARQL basada en una base de datos espacial.
  • Artículo
    Towards a Framework Driven by Use Cases in Data-heterogeneous Environments
    Molina, Ginés; Caralt, Oriol; Martínez, Jose A.; Cánovas Izquierdo, Javier Luis. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    Most organizations base their strategic decisions on the analysis of business performance data. With the emergence of artificial intelligence, this analysis also includes the application of machine learning techniques, among others, which help to discover and predict patterns in data. Although there are a number of tools to perform data analysis, they require a considerable effort to be adapted to each company's use case. Companies need to consider the cost associated with the infrastructure or the commitment to profiles responsible for building and maintaining these tools. Furthermore, the return on investment is hampered by the lack of skills, leadership or policies for using these tools. This paper proposes a framework to address this situation by facilitating the process to consume and analyze data over time. Our proposal emphasizes the definition of data use cases, which drive the data enablement, consumption, discovery and storage phases. The proposed framework is being developed and put into practice through an industrial PhD within some companies evolving to be data-driven, thus allowing real-world validation.
  • Resumen
    Wrapper Methods for Multi-Objective Feature Selection
    Njoku, Uchechukwu; Abello, Alberto; Bilalli, Besim; Bontempi, Gianluca. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    The ongoing data boom has democratized the use of data for improved decision-making. Beyond gathering voluminous data, preprocessing the data is crucial to ensure that their most relevant aspects are considered during the analysis. Feature Selection (FS) is one integral step in data preprocessing for reducing data dimensionality and preserving the most relevant features of the data. FS can be done by inspecting inherent associations among the features in the data (filter methods) or using the model performance of a concrete learning algorithm (wrapper methods). In this work, we extensively evaluate a set of FS methods on 32 datasets and measure their effect on model performance, stability, scalability and memory usage. The results re-establish the superiority of wrapper methods over filter methods in model performance. We further investigate the unique role of wrapper methods in multi-objective FS with a focus on two traditional metrics - accuracy and Area Under the ROC Curve (AUC). On model performance, our experiments showed that optimizing for both metrics simultaneously, rather than using a single metric, led to improvements in the accuracy and AUC trade-off up to 5% and 10%, respectively.
  • Resumen
    SALON ontology for the formal description of Sequence Alignments
    Benítez Hidalgo, Antonio; Aldana Montes, José Francisco; Navas Delgado, Ismael; Roldan-Garcia, Maria Del Mar. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    Background. Information provided by high-throughput sequencing platforms allows the collection of content-rich data about biological sequences and their context. Sequence alignment is a bioinformatics approach to identifying regions of similarity in DNA, RNA, or protein sequences. However, there is no consensus about the specific common terminology and representation for sequence alignments. Thus, automatically linking the wide existing knowledge about the sequences with the alignments is challenging. Results. The Sequence Alignment Ontology (SALON) defines a helpful vocabulary for representing and semantically annotating pairwise and multiple sequence alignments. SALON is an OWL 2 ontology that supports automated reasoning for alignments validation and retrieving complementary information from public databases under the Open Linked Data approach. This will reduce the effort needed by scientists to interpret the sequence alignment results. Conclusions. SALON defines a full range of controlled terminology in the domain of sequence alignments. It can be used as a mediated schema to integrate data from different sources and validate acquired knowledge.
  • Artículo
    Distributed algorithms for big spatial and spatio-textual query processing
    Garcia-Muñoz, Raul; García-García, Francisco; Corral, Antonio. Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023), 2023-09-12.
    A vast amount of geo-referenced data is generated daily by mobile devices, GPS-enabled devices, and other sensors, increasing the importance of spatio-textual analyses of such data. Big Spatio-Textual Data requires new distributed processing technologies for managing, storing, analyzing, and visualizing large-scale spatio-textual data. Distributed Spatio-Textual Data Management Systems (DSTDMSs) consist of shared nothing clusters of computers specifically designed for distributed processing of large-scale spatio-textual data. This paper presents our emerging work on designing new storage methods and query processing algorithms for Apache Sedona (a recent open-source in-memory cluster computing system for spatial data processing) to support batch and streaming spatio-textual data processing. Our research aims to incorporate new partitioning methods and indexing mechanisms that will help to implement new (static and continuous) spatio-textual queries, especially distance-based spatio-textual joins. Finally, we will evaluate the new proposals with exhaustive experiments over Apache Sedona as a DSTDMS, analyzing and drawing conclusions from the experimental result.