Seminario: "Tenemos que hablarlo": Técnicas de prueba para chatbots orientados a tareas
Fecha
Autores
Editor
Publicado en
Licencia Creative Commons
Resumen
Los avances en inteligencia artificial generativa, especialmente en los Modelos de Lenguaje de Gran Tamaño (LLM, por sus siglas en inglés), han impulsado la proliferación de agentes conversacionales (o chatbots). Estos pueden ser de propósito general (como ChatGPT) o estar adaptados a tareas específicas (como la compra de entradas o la obtención de soporte al cliente). Aunque los chatbots desempeñan un papel significativo en el ecosistema software actual, son difíciles de probar: definir pruebas relevantes y exhaustivas requiere gran esfuerzo, y establecer un oráculo flexible que se adapte a las variaciones conversacionales resulta complejo. Esto se agrava al probar chatbots basados en LLMs, ya que sus conversaciones son naturales pero impredecibles.
Para aliviar este problema, esta charla presentará un enfoque de pruebas para agentes conversacionales, que consta de dos componentes principales. En primer lugar, un simulador de usuarios altamente personalizable que genera conversaciones significativas con el chatbot bajo prueba, para los objetivos dados. En segundo lugar, un lenguaje específico de dominio para especificar y comprobar condiciones de corrección (aserciones y relaciones metamórficas) sobre las conversaciones generadas. En la charla, se discutirán aspectos prácticos de su uso, y su aplicación a chatbots desplegados en producción.
Descripción
Acerca de de Lara, Juan
Juan de Lara es catedrático en el Departamento de Informática de la Universidad Autónoma de Madrid, donde dirige el grupo de investigación en modelado e ingeniería del software (miso, http://miso.es) junto con Esther Guerra. Sus principales intereses de investigación se centran en el desarrollo automatizado de software, el desarrollo dirigido por modelos, el desarrollo low-code, los lenguajes específicos de dominio, así como en los agentes conversacionales y los asistentes inteligentes. Esta investigación ha dado lugar al desarrollo de numerosas herramientas prácticas, entre ellas Asymob, AToM3, Chatbot Dōjō, Gotten, metaDepth, Merlin y Sensei, y a la publicación de más de 300 artículos en revistas y conferencias internacionales. Ha sido co-presidente del comité de programa de varias conferencias dentro de sus áreas de investigación, como MODELS, SLE, ICGT, ICMT y FASE y forma parte del consejo editorial de la revista SoSyM (Springer).


