Cuando comencé a experimentar con agentes de IA de voz para tareas del mundo real, como reservas de restaurantes y llamadas de servicio al cliente, rápidamente me encontré con un problema fundamental. Mi agente monolítico inicial estaba tratando de hacer todo a la vez: comprender las solicitudes complejas de los clientes, investigar la disponibilidad de restaurantes, manejar conversaciones telefónicas en tiempo real y adaptarse a respuestas inesperadas del personal humano. El resultado fue una IA que funcionó mal en todo. Después de días de experimentación con mi prototipo de IA de voz, que maneja la reserva de reservas para la cena, descubrí que el enfoque más robusto y escalable emplea a dos agentes especializados que trabajan en concierto: un agente de contexto y un agente de ejecución. Este patrón arquitectónico cambia fundamentalmente la forma en que pensamos sobre la automatización de tareas de IA al separar las preocupaciones y la optimización de cada componente para su rol específico. El problema con los agentes de IA monolíticos, mis primeros intentos de construir Voice AI usaron un solo agente que intentó manejar todo. Cuando un usuario quería reservar una reserva de restaurante, este agente monolítico tuvo que analizar simultáneamente la solicitud («Reserve una mesa para cuatro en un restaurante con opciones veganas»), formular una estrategia de conversación y luego ejecutar una llamada telefónica en tiempo real con personal humano dinámico.