Hay una frase que escuchamos cada semana en reuniones técnicas con clientes que tienen un chatbot funcionando hace meses. La frase es siempre la misma: "el bot ya respondía bien al cliente la semana pasada, ¿por qué hoy lo trata como si lo viera por primera vez?". La pregunta parece tonta. No lo es. Es exactamente el problema central del campo de los language agents en 2026 — y es la razón por la que la mayoría de los Sales Qualifiers en producción siguen comportándose como estudiantes que aprueban un examen y al día siguiente olvidan todo.

El término técnico para esto se llama continual learning, y durante años fue uno de los problemas más esquivos del machine learning aplicado. La promesa siempre estuvo clara: un agente que acumule experiencia entre tareas, mejore con cada interacción y se vuelva más útil con el tiempo, sin requerir re-entrenamientos costosos del modelo base. La realidad fue otra: los agentes con LLMs actuales son sorprendentemente malos para reutilizar lo que ya aprendieron. Cada conversación arranca casi desde cero. Cada cliente repite su historia. Cada lead pasa por el mismo embudo como si nunca hubiera entrado antes.

Hay dos papers que vale la pena tener arriba del escritorio si construyes Sales Qualifiers, asistentes conversacionales o cualquier producto agéntico que tenga que escalar: BabyAI, publicado en ICLR 2019 por Mila/Université de Montréal con Yoshua Bengio como uno de los autores, y AGENTCL, publicado en junio de 2026 por equipos de Ohio State University, Johns Hopkins y el grupo de IA de Intuit. Juntos forman el mapa más honesto del problema y, lo más importante, traen herramientas concretas para resolverlo. Acá te explicamos qué dicen y cómo Annie de Soft-innova ya está aplicando ambos enfoques en arquitectura de producción.

01 //Lo que BabyAI demostró sobre sample efficiency

BabyAI es engañosamente simple. Es una plataforma de investigación con 19 niveles de dificultad creciente, donde un agente neuronal aprende a seguir instrucciones en lenguaje natural sintético dentro de un mundo 2D. Cosas como "go to the red ball", "put the blue key next to the green ball", o en el nivel más complejo "pick up the grey box behind you, then go to the grey key and open a door". Tareas triviales para un humano de 5 años. La pregunta del paper es: ¿cuántas demostraciones necesita un agente con deep learning para aprenderlas?

// PAPER 01 ICLR 2019 · arXiv:1810.08272
BabyAI: A Platform to Study the Sample Efficiency of Grounded Language Learning
CHEVALIER-BOISVERT · BAHDANAU · LAHLOU · WILLEMS · SAHARIA · NGUYEN · BENGIO · MILA / UNIVERSITÉ DE MONTRÉAL
"Current deep learning methods are not yet sufficiently sample-efficient in the context of learning a language with compositional properties. Hundreds of thousands of demonstrations are needed to learn tasks which seem trivial by human standards. In order for learning with an actual human in the loop to become realistic, an improvement of at least three orders of magnitude is required."

Los números son brutales. Para que un agente con Behavioral Cloning resuelva un nivel sencillo como GoToLocal (ir a un objeto específico evitando distractores), necesita entre 148 mil y 193 mil demostraciones. Para PutNextLocal (un nivel solo marginalmente más complejo), entre 244 mil y 322 mil. Y si usas Reinforcement Learning en lugar de Imitation Learning, los números son entre 2 y 10 veces peores: para que el mismo agente aprenda GoToLocal con RL necesita entre 903 mil y 1,1 millones de episodios.

// BABYAI 2019 · BASELINE RESULTS
Demostraciones necesarias para alcanzar 99% de éxito en tareas composicionales
// Fuente: Chevalier-Boisvert et al., ICLR 2019 · Tabla 3 · Valores en miles de demos/episodios

El paper concluye con una frase incómoda para todo el ecosistema de chatbots: para que el aprendizaje con un humano en el loop sea realista, hay que mejorar la eficiencia de muestreo en al menos tres órdenes de magnitud. Es decir: mil veces. No hablamos de afinar hiperparámetros. Hablamos de repensar la arquitectura del aprendizaje.

Para los que construimos Sales Qualifiers, la lección de BabyAI es directa: no se puede entrenar un agente con cientos de miles de ejemplos para cada cliente nuevo. Si quieres que tu Annie entienda el flujo de ventas específico de una empresa minera, una pyme retail y una consultora B2B simultáneamente, no tienes el lujo de pedirle un millón de demostraciones por cada caso. Necesitas otra arquitectura: una que aprenda con currículum (de simple a complejo) y con entrenamiento interactivo, donde el agente pueda pedir ayuda o aprender de pequeñas correcciones en tiempo real. Esto es exactamente lo que el paper propone como dirección de investigación — y es exactamente lo que el segundo paper, siete años después, vino a aterrizar.

02 //AGENTCL: el framework que mide qué tan bien aprende tu agente

Si BabyAI demostró el problema, AGENTCL — publicado en junio de 2026, prácticamente este mes — construyó el framework para evaluarlo con rigor. Lo importante es que AGENTCL no es solo otro benchmark. Es un cambio de paradigma en cómo se mide si un agente realmente aprende, o si solo da la ilusión de aprender por exposición repetida a un dominio.

// PAPER 02 arXiv:2606.02461 · JUNIO 2026
AGENTCL: Toward Rigorous Evaluation of Continual Learning in Language Agents
SHU · JIMÉNEZ GUTIÉRREZ · JONNALAGEDDA · YAO · SUN · SU · OHIO STATE UNIVERSITY + JOHNS HOPKINS + INTUIT AI RESEARCH
"Language agents spend substantial inference time solving individual tasks, yet the experience acquired in one episode is often underutilized in future episodes. Continual learning expects an agent to accumulate reusable experience across a stream of tasks, improve over time, and avoid interference from irrelevant experiences."

La crítica central del paper a los benchmarks existentes es elegante. Los autores observan que la mayoría de los frameworks de evaluación organizan las tareas como streams ingenuos (naive streams), donde las tareas vienen de un mismo dominio pero no se garantiza que haya relaciones reusables entre ellas. Eso hace imposible distinguir si el agente realmente aprendió algo, o si simplemente se benefició de exposición repetida. Su propuesta: streams composicionales, donde las tareas tempranas exponen explícitamente sub-soluciones, evidencias o workflows que las tareas posteriores pueden reusar. Es la diferencia entre evaluar a un estudiante con preguntas idénticas dos veces, o con problemas que combinan conceptos vistos por separado.

Pero la contribución más práctica de AGENTCL son sus tres métricas. Por primera vez se separa explícitamente qué tan plástico, qué tan estable y qué tan generalizable es un agente — porque optimizar uno solo de esos ejes te lleva a sistemas que parecen buenos en demos y se rompen en producción:

// PILAR 01
Plasticity Gain
PG = Fi − Bi
¿Qué tanto ayuda la experiencia acumulada de tareas previas a resolver una nueva? Mide si la memoria del agente realmente transforma episodios pasados en contexto útil. Si PG es bajo, tu agente no está aprendiendo nada nuevo.
// PILAR 02
Stability Gain
SG = Si − Fi
¿La experiencia que el agente ganó resolviendo una tarea sigue siendo recuperable después de muchas actualizaciones posteriores? Mide reutilización persistente. Si SG es negativo, la memoria nueva está borrando la útil.
// PILAR 03
Generalization Gain
GG = Hj − Bj
¿La memoria construida sirve para tareas held-out que el agente nunca vio? Mide si el conocimiento es lo suficientemente abstracto. Si GG es bajo, tu memoria es sobreajuste con esteroides.

Léelos otra vez. Lo brillante del framework es que te obliga a mostrar las tres métricas juntas. Si publicas un Sales Qualifier que tiene un PG impresionante pero un SG negativo, lo que estás publicando es un sistema que mejora dentro de una conversación pero se rompe al día siguiente. Si tu GG es bajo, tu agente solo aprendió a copiar — no a abstraer. La industria publicó durante años "mejoras de chatbots" reportando solo el primer eje. AGENTCL es un golpe sobre la mesa para que dejemos de hacer eso.

El hallazgo más incómodo del paper: los métodos de memoria que muestran las mayores ganancias de plasticidad en streams composicionales suelen tener estabilidad negativa en streams ingenuos. Concretamente: ExpRAG alcanza PG de +17.7, pero su Generalization Gain en held-out es −4.2. MemProbe llega a PG de +21.9, pero SG cae a −2.1. Esto significa que el trade-off plasticidad-estabilidad sigue sin resolverse en 2026. La pregunta correcta no es "¿cuánta memoria tiene mi agente?", sino "¿qué experiencias decide abstraer, retener o descartar?". Ahí está el verdadero problema.

03 //El loop retrieve → solve → consolidate

Para no quedarse en filosofía, el equipo de AGENTCL propuso un método de probing llamado MemProbe. No es un producto comercial. Es una arquitectura de referencia diseñada para diagnosticar cómo deben operar las memorias no paramétricas en agentes con LLM. Su diseño es relevante porque define el patrón que cualquier Sales Qualifier serio en 2026 debería implementar:

El loop fundamental de MemProbe
// PATRÓN DE REFERENCIA · MEMORIA NO PARAMÉTRICA
// PASO 01
Retrieve
Ante una nueva consulta del cliente, el agente busca en su memoria episodios similares usando búsqueda semántica con embeddings. Top-k experiencias previas se cargan como contexto.
// PASO 02
Solve
El agente resuelve la consulta usando ese contexto como referencia — no como respuesta autoritativa. Eso reduce el riesgo de reproducir errores pasados o copiar respuestas inadecuadas.
// PASO 03
Consolidate
Un "juez interno" evalúa si la respuesta fue exitosa. Si pasa los filtros de calidad, se consolida en memoria como Interacción, Insight o Habilidad. Si no, se descarta.

Lo más importante de este loop es lo que el paper llama quality-aware consolidation. No toda interacción merece quedar en memoria. Los autores observan que muchos métodos de memoria fallan precisamente porque guardan demasiado: el agente termina arrastrando episodios irrelevantes que después interfieren con consultas posteriores. La solución es tener filtros explícitos antes de escribir en memoria — un checker sintáctico que descarta outputs inválidos, y un LLM judge que clasifica la calidad del episodio (correct, incorrect, unknown). Los episodios marcados como incorrectos no contribuyen contexto reusable. Esto es una decisión de diseño que evita amplificar errores con el tiempo.

04 //Las tres memorias que todo Sales Qualifier necesita

Acá viene la parte de AGENTCL/MemProbe que más impacto tiene en arquitectura de producto. Los autores demuestran empíricamente que no basta con un solo tipo de memoria. Distintos episodios sirven para distintas cosas, y mezclarlos todos en un mismo store genera interferencia. Su propuesta — y nuestra implementación en Annie — separa la memoria del agente en tres componentes complementarios:

// MEMPROBE · MEMORIA NO PARAMÉTRICA
Los tres tipos de memoria que funcionan juntos
01
Interaction Memory · Trayectorias concretas
Guarda el episodio completo de cómo se resolvió una conversación específica — la trayectoria de tool calls, la respuesta final, los pasos intermedios. Útil cuando una consulta futura se beneficia de recordar cómo se resolvió un problema operativamente similar.
// EJEMPLO ANNIE:
cliente_id: 4192 · canal: whatsapp
trayectoria: [consulta_ficha → cotizacion → seguimiento_24h → cierre]
resultado: venta_cerrada · ticket: $2.4M CLP
02
Insight Memory · Patrones abstraídos
Almacena resúmenes concisos del patrón de resolución, observaciones de complejidad, modos de fallo potenciales y takeaways reusables. Más abstracta que la interacción, ideal para transferir lecciones sin reproducir la trayectoria completa.
// EJEMPLO ANNIE:
patron: "compradores_mineria_zona_norte"
insight: "consultas_tecnicas_requieren_compatibilidad_antes_de_precio"
failure_mode: "enviar_pdf_antes_de_calificar_baja_conversion_37%"
03
Skill Memory · Procedimientos reusables
Guarda procedimientos de nivel workflow o estrategias de alto nivel, opcionalmente acompañados de snippets cortos. Captura estrategias que generalizan a través de múltiples tareas, en lugar de estar atadas a una instancia específica.
// EJEMPLO ANNIE:
skill_name: "calificacion_lead_industrial"
steps: [validar_industria → preguntar_volumen → estimar_urgencia → derivar_a_KAM]
reuse_count: 847 · success_rate: 0.81

Los ablation studies del paper son particularmente convincentes en este punto. Cuando los autores eliminan cualquiera de las tres memorias del sistema, el rendimiento cae consistentemente en streams composicionales — pero las caídas son distintas según qué memoria se quite. Quitar la skill memory destruye plasticidad. Quitar la insight memory afecta especialmente la generalización. Quitar la interaction memory daña tanto plasticidad como estabilidad. Las tres son complementarias, no redundantes. Es exactamente el tipo de evidencia experimental que justifica la complejidad arquitectónica.

El futuro no es tener un modelo más grande, sino un agente que sepa usar mejor su propia memoria. — Conclusión del paper AGENTCL · OSU + Johns Hopkins + Intuit · 2026

05 //Cómo Annie traduce estos hallazgos a producción

Hasta acá la teoría. La parte interesante es cómo todo esto se traduce a un Sales Qualifier real que opera con clientes reales, en canales reales, con conversaciones que no son de juguete. Annie de Soft-innova es una plataforma agéntica diseñada desde su perfil de producto como Sales Qualifier — no como chatbot genérico — y su arquitectura interna implementa precisamente el patrón retrieve → solve → consolidate con las tres memorias separadas. Esto no es marketing de feature. Es decisión arquitectónica conscientemente tomada con base en la literatura que acabamos de revisar.

La tabla siguiente traduce los hallazgos de AGENTCL/MemProbe en componentes concretos de cómo opera Annie en una cuenta de producción:

Concepto del paper
Bot estático tradicional
Implementación Annie
Sample Efficiency (BabyAI)
Requiere reentrenamiento del modelo con miles de ejemplos por cliente nuevo.
Currículum de aprendizaje + corrección interactiva en runtime, sin retraining del LLM base.
Retrieve (MemProbe)
No tiene memoria entre sesiones. Cada conversación arranca desde cero.
Búsqueda semántica top-k sobre interacciones previas del cliente y casos similares del sector.
Solve con contexto
Responde usando solo el system prompt y el último turn del usuario.
Responde grounded en la memoria recuperada, tratándola como referencia — no autoridad.
Quality-aware consolidation
Guarda todo (logs sin curaduría) o no guarda nada (stateless).
LLM judge clasifica cada episodio antes de escribir. Errores quedan como marca, no como contexto reusable.
Plasticity Gain
Cero. El bot rinde igual el día 1 que el día 90.
Curva creciente: el agente entiende mejor las consultas del sector con cada semana operando.
Stability Gain
Si "se actualiza", lo previo se pierde o se contamina.
Memoria segmentada por agente especializado evita interferencia entre dominios (Captación ≠ Cierre ≠ Retención).
Generalization Gain
No transfiere. Lo aprendido en una cuenta no sirve para otra.
Skill memory abstrae patrones de calificación reusables entre verticales (con guardrails de privacidad).

El detalle importante — y el que nos costó más resolver técnicamente — es que las tres memorias no operan en silos. Comparten contexto entre los agentes especializados de Annie (Captación, Seguimiento, Cierre, Retención, Posicionamiento, Contenido). Lo que aprende el Agente de Captación sobre un lead lo usa inmediatamente el Agente de Seguimiento. La consulta técnica que resolvió bien el Agente Técnico se consolida como skill que reusan los demás. Pero la memoria no fluye sin filtros. Cada escritura pasa por un juez antes de quedar disponible. Sin ese filtro, el sistema degrada con el tiempo — y eso es exactamente lo que el paper demuestra empíricamente sobre los métodos sin consolidación de calidad.

06 //El trade-off que sigue sin resolverse

Sería deshonesto cerrar este artículo sin mencionar lo que la propia investigación reconoce como problema abierto. AGENTCL termina con una conclusión incómoda: el trade-off plasticidad-estabilidad sigue sin resolverse. Los métodos que muestran las mayores ganancias de plasticidad en streams composicionales suelen tener estabilidad negativa cuando enfrentan tareas held-out o streams diferentes. No hay todavía una arquitectura de memoria que domine las tres métricas simultáneamente.

Esto importa porque define qué tipo de promesas son técnicamente honestas hacer sobre un Sales Qualifier en 2026. Decir "nuestro agente aprende y se vuelve mejor con el tiempo" sin explicar bajo qué condiciones es marketing que no resiste un benchmark serio. Lo que sí es defendible es: "nuestro agente está diseñado con el patrón retrieve-solve-consolidate, separa interaction/insight/skill memory, aplica quality-aware filtering, y monitorea sus propias métricas de PG, SG y GG por agente especializado". Esa es una afirmación técnicamente sustentable. Lo otro es venderle humo a un CTO que después se va a dar cuenta.

✦ Annie · Sales Qualifier agéntico
Annie no es otro chatbot.
Es una plataforma 100% orientada a agentes desde su perfil.

Annie está construida desde el perfil Sales Qualifier — calificación, seguimiento, cierre y retención — con arquitectura agéntica modular. Cada agente especializado opera con su propio loop retrieve-solve-consolidate y memoria segmentada. El comportamiento del sistema completo está supervisado por un KAM humano que revisa los hallazgos de los agentes y ajusta la estrategia. Lo que la literatura propone como dirección de investigación, nosotros lo operamos en producción.

// AGENTE 01
Agente de Captación
Identifica leads en multi-canal (WhatsApp, web, ads). Califica intención antes de derivar. Memoria de patrones de captación por sector.
// AGENTE 02
Agente de Seguimiento
Persigue leads tibios con timing y contexto. Skill memory de cadencias óptimas según vertical y estado del lead.
// AGENTE 03
Agente Técnico
Responde consultas técnicas grounded en la base de conocimiento del cliente. Insight memory de objeciones frecuentes.
// AGENTE 04
Agente de Cierre
Detecta señales de readiness, activa ofertas personalizadas, deriva a humano cuando excede umbral. Interaction memory por cliente.
// AGENTE 05
Agente de Retención
Vigila señales tempranas de fuga. Memoria persistente del cliente activo. Recuperación antes de que la pérdida sea irreversible.
// AGENTE 06
Agente de Posicionamiento
Optimiza huella en Google, ChatGPT, Gemini, Perplexity, DeepSeek. Mantiene la marca presente donde hoy se busca.

07 //Las preguntas correctas para evaluar un Sales Qualifier en 2026

Si estás evaluando comprar o reemplazar un agente conversacional para ventas — sea Annie o cualquier otro — estas son las preguntas técnicas que vale la pena llevar a la reunión de evaluación con el proveedor. Son las preguntas que se hacen los autores de AGENTCL y son las que separan a las plataformas serias de los chatbots reempaquetados:

// EVALUACIÓN TÉCNICA
Siete preguntas para tu próximo proveedor de Sales Qualifier
  1. 01¿Su agente mantiene memoria persistente entre sesiones del mismo cliente? Si la respuesta es "sí, pero solo el resumen del chat anterior", no es memoria — es contexto extendido. Pregunta cómo manejan compactación.
  2. 02¿Cómo separan la memoria de interacción, insights y habilidades? Si toda la memoria es un solo store de logs, vas a tener problemas de interferencia con el tiempo.
  3. 03¿Tienen quality-aware consolidation antes de escribir en memoria? ¿Quién decide qué episodio merece quedar como skill reusable? Sin filtro, el sistema degrada.
  4. 04¿Pueden mostrar curvas de Plasticity Gain y Stability Gain de su agente en cuentas reales? Si nunca midieron esto, están operando a ciegas.
  5. 05¿Cómo evitan que el agente reuse memoria irrelevante? El paper de AGENTCL muestra que memorias mal calibradas pueden hurt performance — no es teórico, es medible.
  6. 06¿La memoria del cliente fluye entre agentes especializados o cada agente opera en su propio silo? Lo segundo es exactamente el problema que esta arquitectura existe para resolver.
  7. 07¿Quién supervisa cuando el sistema toma decisiones controvertidas? Memoria agéntica sin KAM humano arriba es deuda técnica acumulándose en tiempo real.

Si tu proveedor actual no puede responder con detalle técnico al menos cuatro de estas siete preguntas, probablemente estés operando un chatbot disfrazado de agente — no un sistema que realmente acumula experiencia. Y la diferencia entre ambas cosas, en un horizonte de 12 a 18 meses, se nota en métricas de conversión, en costo de atención al cliente, y en lo único que realmente importa: cuántas conversaciones que tu Sales Qualifier ya tuvo se traducen en aprendizaje que mejora la siguiente conversación con el siguiente cliente.

✦ Conversación técnica · Sin comerciales en medio

Si estás construyendo un Sales Qualifier,
hablemos de arquitectura.

Conversemos 45 minutos sobre cómo está diseñada Annie por dentro, los trade-offs que tomamos, las métricas que monitoreamos, y dónde te puede servir o no. Sin pitch comercial — diagnóstico técnico honesto. Nos interesa especialmente conversar con CTOs, heads of engineering y ML leads.

// Retrieve → Solve → Consolidate // Interaction · Insight · Skill memory // Quality-aware filtering // Agentes especializados // KAM humano supervisa
// Referencias verificadas
  1. Chevalier-Boisvert, M., Bahdanau, D., Lahlou, S., Willems, L., Saharia, C., Nguyen, T.H., Bengio, Y. (2019). "BabyAI: A Platform to Study the Sample Efficiency of Grounded Language Learning." International Conference on Learning Representations (ICLR 2019). arXiv:1810.08272 · Mila / Université de Montréal · github.com/mila-iqia/babyai
  2. Shu, Y., Jiménez Gutiérrez, B., Jonnalagedda, S.P., Yao, Y., Sun, H., Su, Y. (2026). "AGENTCL: Toward Rigorous Evaluation of Continual Learning in Language Agents." arXiv:2606.02461v2 · The Ohio State University · Johns Hopkins University · Intuit AI Research · huggingface.co/datasets/osunlp/AgentCL
  3. Wang, L., Zhang, X., Su, H., Zhu, J. (2024). "A Comprehensive Survey of Continual Learning: Theory, Method and Application." IEEE Transactions on Pattern Analysis and Machine Intelligence, 46(8):5362-5383.
  4. Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K.R., Cao, Y. (2023). "ReAct: Synergizing Reasoning and Acting in Language Models." ICLR 2023.
  5. Chhikara, P., Khant, D., Aryan, S., Singh, T., Yadav, D. (2025). "Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory." ECAI 2025.
  6. Wang, Z.Z., Mao, J., Fried, D., Neubig, G. (2025). "Agent Workflow Memory." ICML 2025.
  7. Suzgun, M., Yüksekgönül, M., Bianchi, F., Jurafsky, D., Zou, J. (2026). "Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory." EACL 2026.
  8. Bengio, Y., Louradour, J., Collobert, R., Weston, J. (2009). "Curriculum Learning." Proceedings of the 26th International Conference on Machine Learning.
Continual Learning BabyAI AGENTCL MemProbe Sales Qualifier Annie-AI Language Agents Sample Efficiency Plasticity-Stability Soft-innova

Preguntas frecuentes sobre continual learning y Sales Qualifiers

¿Por qué los chatbots olvidan al cliente entre conversaciones?

Porque la mayoría opera como sistemas stateless — cada conversación arranca desde cero sin acceso a interacciones previas. No tienen memoria persistente ni capacidad de consolidar experiencia. El paper BabyAI (Mila/Bengio, 2019) demostró que los métodos estándar necesitan cientos de miles de demostraciones para aprender tareas triviales.

¿Qué es el continual learning y por qué importa en ventas?

Es la capacidad de un agente para acumular experiencia entre tareas, mejorar con cada interacción y reutilizar lo aprendido sin reentrenamiento costoso. En ventas significa que el agente entiende mejor a cada cliente con el tiempo — no repite preguntas, no pierde contexto, y cada cierre le enseña algo para el siguiente.

¿Qué es el loop retrieve → solve → consolidate?

Es el patrón arquitectónico que separa un agente que aprende de uno que solo responde. Retrieve: busca experiencias similares en memoria. Solve: responde usando ese contexto como referencia. Consolidate: un juez interno evalúa si la respuesta fue exitosa y decide si merece quedar en memoria o se descarta.

¿Qué son las tres memorias que necesita un Sales Qualifier?

Interaction Memory (trayectorias concretas de cómo se resolvió una conversación), Insight Memory (patrones abstraídos y lecciones aprendidas), y Skill Memory (procedimientos reusables de alto nivel). AGENTCL demostró empíricamente que las tres son complementarias — quitar cualquiera degrada el rendimiento.

¿Cómo implementa Annie-AI el continual learning en producción?

Cada agente especializado (Captación, Seguimiento, Cierre, Retención) opera con su propio loop retrieve-solve-consolidate y memoria segmentada. La memoria fluye entre agentes con filtros de calidad — un LLM judge clasifica cada episodio antes de escribir. Los errores no se propagan como contexto reusable.

¿El trade-off plasticidad-estabilidad está resuelto en 2026?

No completamente. AGENTCL (junio 2026) demostró que los métodos con mayor plasticidad suelen tener estabilidad negativa. Annie mitiga esto con memoria segmentada por agente y quality-aware consolidation, pero es un problema abierto de la industria. Lo honesto es monitorear ambas métricas, no prometer perfección.