Hay una frase que escuchamos cada semana en reuniones técnicas con clientes que tienen un chatbot funcionando hace meses. La frase es siempre la misma: "el bot ya respondía bien al cliente la semana pasada, ¿por qué hoy lo trata como si lo viera por primera vez?". La pregunta parece tonta. No lo es. Es exactamente el problema central del campo de los language agents en 2026 — y es la razón por la que la mayoría de los Sales Qualifiers en producción siguen comportándose como estudiantes que aprueban un examen y al día siguiente olvidan todo.
El término técnico para esto se llama continual learning, y durante años fue uno de los problemas más esquivos del machine learning aplicado. La promesa siempre estuvo clara: un agente que acumule experiencia entre tareas, mejore con cada interacción y se vuelva más útil con el tiempo, sin requerir re-entrenamientos costosos del modelo base. La realidad fue otra: los agentes con LLMs actuales son sorprendentemente malos para reutilizar lo que ya aprendieron. Cada conversación arranca casi desde cero. Cada cliente repite su historia. Cada lead pasa por el mismo embudo como si nunca hubiera entrado antes.
Hay dos papers que vale la pena tener arriba del escritorio si construyes Sales Qualifiers, asistentes conversacionales o cualquier producto agéntico que tenga que escalar: BabyAI, publicado en ICLR 2019 por Mila/Université de Montréal con Yoshua Bengio como uno de los autores, y AGENTCL, publicado en junio de 2026 por equipos de Ohio State University, Johns Hopkins y el grupo de IA de Intuit. Juntos forman el mapa más honesto del problema y, lo más importante, traen herramientas concretas para resolverlo. Acá te explicamos qué dicen y cómo Annie de Soft-innova ya está aplicando ambos enfoques en arquitectura de producción.
01 //Lo que BabyAI demostró sobre sample efficiency
BabyAI es engañosamente simple. Es una plataforma de investigación con 19 niveles de dificultad creciente, donde un agente neuronal aprende a seguir instrucciones en lenguaje natural sintético dentro de un mundo 2D. Cosas como "go to the red ball", "put the blue key next to the green ball", o en el nivel más complejo "pick up the grey box behind you, then go to the grey key and open a door". Tareas triviales para un humano de 5 años. La pregunta del paper es: ¿cuántas demostraciones necesita un agente con deep learning para aprenderlas?
Los números son brutales. Para que un agente con Behavioral Cloning resuelva un nivel sencillo como GoToLocal (ir a un objeto específico evitando distractores), necesita entre 148 mil y 193 mil demostraciones. Para PutNextLocal (un nivel solo marginalmente más complejo), entre 244 mil y 322 mil. Y si usas Reinforcement Learning en lugar de Imitation Learning, los números son entre 2 y 10 veces peores: para que el mismo agente aprenda GoToLocal con RL necesita entre 903 mil y 1,1 millones de episodios.
El paper concluye con una frase incómoda para todo el ecosistema de chatbots: para que el aprendizaje con un humano en el loop sea realista, hay que mejorar la eficiencia de muestreo en al menos tres órdenes de magnitud. Es decir: mil veces. No hablamos de afinar hiperparámetros. Hablamos de repensar la arquitectura del aprendizaje.
Para los que construimos Sales Qualifiers, la lección de BabyAI es directa: no se puede entrenar un agente con cientos de miles de ejemplos para cada cliente nuevo. Si quieres que tu Annie entienda el flujo de ventas específico de una empresa minera, una pyme retail y una consultora B2B simultáneamente, no tienes el lujo de pedirle un millón de demostraciones por cada caso. Necesitas otra arquitectura: una que aprenda con currículum (de simple a complejo) y con entrenamiento interactivo, donde el agente pueda pedir ayuda o aprender de pequeñas correcciones en tiempo real. Esto es exactamente lo que el paper propone como dirección de investigación — y es exactamente lo que el segundo paper, siete años después, vino a aterrizar.
02 //AGENTCL: el framework que mide qué tan bien aprende tu agente
Si BabyAI demostró el problema, AGENTCL — publicado en junio de 2026, prácticamente este mes — construyó el framework para evaluarlo con rigor. Lo importante es que AGENTCL no es solo otro benchmark. Es un cambio de paradigma en cómo se mide si un agente realmente aprende, o si solo da la ilusión de aprender por exposición repetida a un dominio.
La crítica central del paper a los benchmarks existentes es elegante. Los autores observan que la mayoría de los frameworks de evaluación organizan las tareas como streams ingenuos (naive streams), donde las tareas vienen de un mismo dominio pero no se garantiza que haya relaciones reusables entre ellas. Eso hace imposible distinguir si el agente realmente aprendió algo, o si simplemente se benefició de exposición repetida. Su propuesta: streams composicionales, donde las tareas tempranas exponen explícitamente sub-soluciones, evidencias o workflows que las tareas posteriores pueden reusar. Es la diferencia entre evaluar a un estudiante con preguntas idénticas dos veces, o con problemas que combinan conceptos vistos por separado.
Pero la contribución más práctica de AGENTCL son sus tres métricas. Por primera vez se separa explícitamente qué tan plástico, qué tan estable y qué tan generalizable es un agente — porque optimizar uno solo de esos ejes te lleva a sistemas que parecen buenos en demos y se rompen en producción:
Léelos otra vez. Lo brillante del framework es que te obliga a mostrar las tres métricas juntas. Si publicas un Sales Qualifier que tiene un PG impresionante pero un SG negativo, lo que estás publicando es un sistema que mejora dentro de una conversación pero se rompe al día siguiente. Si tu GG es bajo, tu agente solo aprendió a copiar — no a abstraer. La industria publicó durante años "mejoras de chatbots" reportando solo el primer eje. AGENTCL es un golpe sobre la mesa para que dejemos de hacer eso.
ExpRAG alcanza PG de +17.7, pero su Generalization Gain en held-out es −4.2. MemProbe llega a PG de +21.9, pero SG cae a −2.1. Esto significa que el trade-off plasticidad-estabilidad sigue sin resolverse en 2026. La pregunta correcta no es "¿cuánta memoria tiene mi agente?", sino "¿qué experiencias decide abstraer, retener o descartar?". Ahí está el verdadero problema.
03 //El loop retrieve → solve → consolidate
Para no quedarse en filosofía, el equipo de AGENTCL propuso un método de probing llamado MemProbe. No es un producto comercial. Es una arquitectura de referencia diseñada para diagnosticar cómo deben operar las memorias no paramétricas en agentes con LLM. Su diseño es relevante porque define el patrón que cualquier Sales Qualifier serio en 2026 debería implementar:
Lo más importante de este loop es lo que el paper llama quality-aware consolidation. No toda interacción merece quedar en memoria. Los autores observan que muchos métodos de memoria fallan precisamente porque guardan demasiado: el agente termina arrastrando episodios irrelevantes que después interfieren con consultas posteriores. La solución es tener filtros explícitos antes de escribir en memoria — un checker sintáctico que descarta outputs inválidos, y un LLM judge que clasifica la calidad del episodio (correct, incorrect, unknown). Los episodios marcados como incorrectos no contribuyen contexto reusable. Esto es una decisión de diseño que evita amplificar errores con el tiempo.
04 //Las tres memorias que todo Sales Qualifier necesita
Acá viene la parte de AGENTCL/MemProbe que más impacto tiene en arquitectura de producto. Los autores demuestran empíricamente que no basta con un solo tipo de memoria. Distintos episodios sirven para distintas cosas, y mezclarlos todos en un mismo store genera interferencia. Su propuesta — y nuestra implementación en Annie — separa la memoria del agente en tres componentes complementarios:
cliente_id: 4192 · canal: whatsapp
trayectoria: [consulta_ficha → cotizacion → seguimiento_24h → cierre]
resultado: venta_cerrada · ticket: $2.4M CLP
patron: "compradores_mineria_zona_norte"
insight: "consultas_tecnicas_requieren_compatibilidad_antes_de_precio"
failure_mode: "enviar_pdf_antes_de_calificar_baja_conversion_37%"
skill_name: "calificacion_lead_industrial"
steps: [validar_industria → preguntar_volumen → estimar_urgencia → derivar_a_KAM]
reuse_count: 847 · success_rate: 0.81
Los ablation studies del paper son particularmente convincentes en este punto. Cuando los autores eliminan cualquiera de las tres memorias del sistema, el rendimiento cae consistentemente en streams composicionales — pero las caídas son distintas según qué memoria se quite. Quitar la skill memory destruye plasticidad. Quitar la insight memory afecta especialmente la generalización. Quitar la interaction memory daña tanto plasticidad como estabilidad. Las tres son complementarias, no redundantes. Es exactamente el tipo de evidencia experimental que justifica la complejidad arquitectónica.
El futuro no es tener un modelo más grande, sino un agente que sepa usar mejor su propia memoria. — Conclusión del paper AGENTCL · OSU + Johns Hopkins + Intuit · 2026
05 //Cómo Annie traduce estos hallazgos a producción
Hasta acá la teoría. La parte interesante es cómo todo esto se traduce a un Sales Qualifier real que opera con clientes reales, en canales reales, con conversaciones que no son de juguete. Annie de Soft-innova es una plataforma agéntica diseñada desde su perfil de producto como Sales Qualifier — no como chatbot genérico — y su arquitectura interna implementa precisamente el patrón retrieve → solve → consolidate con las tres memorias separadas. Esto no es marketing de feature. Es decisión arquitectónica conscientemente tomada con base en la literatura que acabamos de revisar.
La tabla siguiente traduce los hallazgos de AGENTCL/MemProbe en componentes concretos de cómo opera Annie en una cuenta de producción:
El detalle importante — y el que nos costó más resolver técnicamente — es que las tres memorias no operan en silos. Comparten contexto entre los agentes especializados de Annie (Captación, Seguimiento, Cierre, Retención, Posicionamiento, Contenido). Lo que aprende el Agente de Captación sobre un lead lo usa inmediatamente el Agente de Seguimiento. La consulta técnica que resolvió bien el Agente Técnico se consolida como skill que reusan los demás. Pero la memoria no fluye sin filtros. Cada escritura pasa por un juez antes de quedar disponible. Sin ese filtro, el sistema degrada con el tiempo — y eso es exactamente lo que el paper demuestra empíricamente sobre los métodos sin consolidación de calidad.
06 //El trade-off que sigue sin resolverse
Sería deshonesto cerrar este artículo sin mencionar lo que la propia investigación reconoce como problema abierto. AGENTCL termina con una conclusión incómoda: el trade-off plasticidad-estabilidad sigue sin resolverse. Los métodos que muestran las mayores ganancias de plasticidad en streams composicionales suelen tener estabilidad negativa cuando enfrentan tareas held-out o streams diferentes. No hay todavía una arquitectura de memoria que domine las tres métricas simultáneamente.
Esto importa porque define qué tipo de promesas son técnicamente honestas hacer sobre un Sales Qualifier en 2026. Decir "nuestro agente aprende y se vuelve mejor con el tiempo" sin explicar bajo qué condiciones es marketing que no resiste un benchmark serio. Lo que sí es defendible es: "nuestro agente está diseñado con el patrón retrieve-solve-consolidate, separa interaction/insight/skill memory, aplica quality-aware filtering, y monitorea sus propias métricas de PG, SG y GG por agente especializado". Esa es una afirmación técnicamente sustentable. Lo otro es venderle humo a un CTO que después se va a dar cuenta.
Es una plataforma 100% orientada a agentes desde su perfil.
Annie está construida desde el perfil Sales Qualifier — calificación, seguimiento, cierre y retención — con arquitectura agéntica modular. Cada agente especializado opera con su propio loop retrieve-solve-consolidate y memoria segmentada. El comportamiento del sistema completo está supervisado por un KAM humano que revisa los hallazgos de los agentes y ajusta la estrategia. Lo que la literatura propone como dirección de investigación, nosotros lo operamos en producción.
07 //Las preguntas correctas para evaluar un Sales Qualifier en 2026
Si estás evaluando comprar o reemplazar un agente conversacional para ventas — sea Annie o cualquier otro — estas son las preguntas técnicas que vale la pena llevar a la reunión de evaluación con el proveedor. Son las preguntas que se hacen los autores de AGENTCL y son las que separan a las plataformas serias de los chatbots reempaquetados:
- 01¿Su agente mantiene memoria persistente entre sesiones del mismo cliente? Si la respuesta es "sí, pero solo el resumen del chat anterior", no es memoria — es contexto extendido. Pregunta cómo manejan compactación.
- 02¿Cómo separan la memoria de interacción, insights y habilidades? Si toda la memoria es un solo store de logs, vas a tener problemas de interferencia con el tiempo.
- 03¿Tienen quality-aware consolidation antes de escribir en memoria? ¿Quién decide qué episodio merece quedar como skill reusable? Sin filtro, el sistema degrada.
- 04¿Pueden mostrar curvas de Plasticity Gain y Stability Gain de su agente en cuentas reales? Si nunca midieron esto, están operando a ciegas.
- 05¿Cómo evitan que el agente reuse memoria irrelevante? El paper de AGENTCL muestra que memorias mal calibradas pueden hurt performance — no es teórico, es medible.
- 06¿La memoria del cliente fluye entre agentes especializados o cada agente opera en su propio silo? Lo segundo es exactamente el problema que esta arquitectura existe para resolver.
- 07¿Quién supervisa cuando el sistema toma decisiones controvertidas? Memoria agéntica sin KAM humano arriba es deuda técnica acumulándose en tiempo real.
Si tu proveedor actual no puede responder con detalle técnico al menos cuatro de estas siete preguntas, probablemente estés operando un chatbot disfrazado de agente — no un sistema que realmente acumula experiencia. Y la diferencia entre ambas cosas, en un horizonte de 12 a 18 meses, se nota en métricas de conversión, en costo de atención al cliente, y en lo único que realmente importa: cuántas conversaciones que tu Sales Qualifier ya tuvo se traducen en aprendizaje que mejora la siguiente conversación con el siguiente cliente.
Si estás construyendo un Sales Qualifier,
hablemos de arquitectura.
Conversemos 45 minutos sobre cómo está diseñada Annie por dentro, los trade-offs que tomamos, las métricas que monitoreamos, y dónde te puede servir o no. Sin pitch comercial — diagnóstico técnico honesto. Nos interesa especialmente conversar con CTOs, heads of engineering y ML leads.
- Chevalier-Boisvert, M., Bahdanau, D., Lahlou, S., Willems, L., Saharia, C., Nguyen, T.H., Bengio, Y. (2019). "BabyAI: A Platform to Study the Sample Efficiency of Grounded Language Learning." International Conference on Learning Representations (ICLR 2019). arXiv:1810.08272 · Mila / Université de Montréal · github.com/mila-iqia/babyai
- Shu, Y., Jiménez Gutiérrez, B., Jonnalagedda, S.P., Yao, Y., Sun, H., Su, Y. (2026). "AGENTCL: Toward Rigorous Evaluation of Continual Learning in Language Agents." arXiv:2606.02461v2 · The Ohio State University · Johns Hopkins University · Intuit AI Research · huggingface.co/datasets/osunlp/AgentCL
- Wang, L., Zhang, X., Su, H., Zhu, J. (2024). "A Comprehensive Survey of Continual Learning: Theory, Method and Application." IEEE Transactions on Pattern Analysis and Machine Intelligence, 46(8):5362-5383.
- Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K.R., Cao, Y. (2023). "ReAct: Synergizing Reasoning and Acting in Language Models." ICLR 2023.
- Chhikara, P., Khant, D., Aryan, S., Singh, T., Yadav, D. (2025). "Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory." ECAI 2025.
- Wang, Z.Z., Mao, J., Fried, D., Neubig, G. (2025). "Agent Workflow Memory." ICML 2025.
- Suzgun, M., Yüksekgönül, M., Bianchi, F., Jurafsky, D., Zou, J. (2026). "Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory." EACL 2026.
- Bengio, Y., Louradour, J., Collobert, R., Weston, J. (2009). "Curriculum Learning." Proceedings of the 26th International Conference on Machine Learning.
Preguntas frecuentes sobre continual learning y Sales Qualifiers
Porque la mayoría opera como sistemas stateless — cada conversación arranca desde cero sin acceso a interacciones previas. No tienen memoria persistente ni capacidad de consolidar experiencia. El paper BabyAI (Mila/Bengio, 2019) demostró que los métodos estándar necesitan cientos de miles de demostraciones para aprender tareas triviales.
Es la capacidad de un agente para acumular experiencia entre tareas, mejorar con cada interacción y reutilizar lo aprendido sin reentrenamiento costoso. En ventas significa que el agente entiende mejor a cada cliente con el tiempo — no repite preguntas, no pierde contexto, y cada cierre le enseña algo para el siguiente.
Es el patrón arquitectónico que separa un agente que aprende de uno que solo responde. Retrieve: busca experiencias similares en memoria. Solve: responde usando ese contexto como referencia. Consolidate: un juez interno evalúa si la respuesta fue exitosa y decide si merece quedar en memoria o se descarta.
Interaction Memory (trayectorias concretas de cómo se resolvió una conversación), Insight Memory (patrones abstraídos y lecciones aprendidas), y Skill Memory (procedimientos reusables de alto nivel). AGENTCL demostró empíricamente que las tres son complementarias — quitar cualquiera degrada el rendimiento.
Cada agente especializado (Captación, Seguimiento, Cierre, Retención) opera con su propio loop retrieve-solve-consolidate y memoria segmentada. La memoria fluye entre agentes con filtros de calidad — un LLM judge clasifica cada episodio antes de escribir. Los errores no se propagan como contexto reusable.
No completamente. AGENTCL (junio 2026) demostró que los métodos con mayor plasticidad suelen tener estabilidad negativa. Annie mitiga esto con memoria segmentada por agente y quality-aware consolidation, pero es un problema abierto de la industria. Lo honesto es monitorear ambas métricas, no prometer perfección.