Artículo: Estudio Comparativo de Modelos de Lenguaje para la Elicitación de Requisitos de Software
Archivos
Fecha
Editor
Publicado en
Licencia Creative Commons
Resumen
La elicitación de requisitos de software constituye una fase crítica del proceso de desarrollo, cuya automatización mediante Modelos de Lenguaje de Gran Escala (LLM) ofrece el potencial de optimizar la trazabilidad y reducir los tiempos de ingeniería. No obstante, la decisión entre adoptar modelos de pesos abiertos o soluciones comerciales sigue siendo compleja, especialmente cuando el uso de LLMs comerciales implica riesgos asociados a la confidencialidad de la información durante la fase de elicitación. Este estudio presenta una evaluación comparativa de cinco LLMs de pesos abiertos ejecutados en un entorno local (DeepSeek, Gemma, gpt-oss, Llama y Qwen3), empleando un corpus de 69 requisitos extraídos de proyectos reales. Se analizaron distintas estrategias de prompting, y se identificó la técnica Few-Shot como destacada en términos de equilibrio entre precisión semántica y nivel de granularidad. Los resultados, evaluados frente a un Ground Truth validado por expertos, sitúan a DeepSeek como el modelo con mejor desempeño global (54 % de Precision y 62 % de Recall ), mientras que gpt-oss destaca por su mayor exhaustividad, alcanzando un 67 % de Recall. Si bien los niveles de precisión obtenidos destacan la necesidad de supervisión experta, los resultados demuestran el potencial de los modelos locales como herramientas de apoyo que garantizan la confidencialidad de los datos, constituyendo un punto de partida para la automatización segura en ingeniería de requisitos.


