Poner un LLM en medio de un flujo productivo es fácil. Que no se rompa a las 2 AM es otra historia.
Después de 68+ workflows con OpenAI en producción, aprendí qué importa y qué no.
El error más común
La mayoría integra OpenAI así: prompt → respuesta → usar respuesta. Funciona el 80% del tiempo. El otro 20% llega en el peor momento.
Los problemas reales:
- La API devuelve JSON malformado o truncado
- El modelo interpreta mal el contexto y responde fuera del dominio
- Una latencia pico de OpenAI bloquea el workflow completo
- Los costos escalan sin control cuando el prompt no está optimizado
La arquitectura que funciona
En el V18 AI Agent de Jousfit usamos este patrón:
1. Contexto estructurado: el prompt siempre incluye el historial reciente del cliente (últimos 5 mensajes), el estado de su pedido y las herramientas disponibles. Sin contexto, el modelo alucina.
2. Tools/Function Calling: en lugar de pedir respuestas libres, el agente tiene herramientas específicas: consultar pedido, buscar cliente, registrar incidente. El modelo elige cuándo usar cada una.
3. Validación de salida: antes de enviar la respuesta al cliente, un nodo Code verifica que la respuesta no contenga datos sensibles, URLs inventadas ni instrucciones fuera de dominio.
4. Fallback determinista: si el agente no puede responder con >80% de confianza, transfiere al humano. No intenta adivinar.
Costos reales
GPT-4o-mini a $0.15/1M tokens input. Con el prompt optimizado, cada interacción cuesta ~$0.0008 USD. Para 500 conversaciones diarias: menos de $12/mes.
Artículo completo próximamente — en construcción.