A pesar de la promesa de AIOPS, el sueño de entornos totalmente automatizados y autoinitantes sigue siendo difícil de alcanzar. Las herramientas generativas de IA pueden ser la solución que finalmente abstrae suficiente de la carga de trabajo para llegar allí. Sin embargo, la realidad de hoy es mucho más compleja. El reciente Report 2025 de la firma de monitoreo del rendimiento de Internet Catchpoint encontró que por primera vez, y a pesar de, o tal vez debido a la creciente dependencia de las herramientas de IA, «la carga de las tareas operativas ha crecido». Es cierto que la IA puede suavizar los flujos de trabajo espinosos, pero hacerlo puede tener efectos inesperados. Por ejemplo, su sistema puede usar patrones aprendidos para suprimir automáticamente las alertas, pero esto podría hacer que sus equipos se pierdan por completo los nuevos eventos. Y la IA no solucionará mágicamente lo que está desactualizado o roto: después de implementar una solución de IA, «los problemas a menudo quedan porque el cambio ocurre con el tiempo, no de inmediato», explicó Mehdi Daoudi de Catchpoint a su cerveza. Eso es en parte porque «hacer correlaciones entre [the] Diferentes tipos de datos que viven en diferentes almacenes de datos son propensos a errores e ineficientes ”, incluso con la asistencia de herramientas con IA, escribir especializaciones de caridad, Liz Fong-Jones y George Miranda en su próxima edición de ingeniería de observabilidad. espada, cortando procesos complejos con facilidad al introducir nuevas formas de complejidad oculta en el retroceso. En resumen, como delegaremos la observabilidad a los sistemas inteligentes, reducimos nuestra capacidad de comprender sus acciones, o nuestros sistemas de monitoreo. Ya las preocupaciones sobre cómo son los puntos de referencia de IA actuales efectivos en la evaluación de los modelos, y los puntos de referencia para los agentes de IA son «significativamente más complejos» (y por lo tanto, menos confiables). La pila de observabilidad introduce errores o latencia, está en problemas desde el principio. Análisis. Es crucial. La latencia, las tasas de ingestión de datos, el rendimiento de la consulta y las tasas de error de la API, así como las métricas centradas en la AI, como la utilización de recursos de los agentes y los coleccionistas, el tiempo para el primer token, la latencia InterToken y los tokens por segundo si corresponde a las solicitudes de la tubería de observación. La recopilación de datos y la consolidación de sus flujos de datos brindan a las partes interesadas una visión unificada de la salud del sistema: esencial para comprender y confiar en las decisiones impulsadas por la IA. La integridad de los datos que fluyen en sus herramientas de observabilidad (número de nombres de servicios únicos, cardinalidades métricas esperadas, deriva de la marca de tiempo, etc.), así como alertas sobre las anomalías en la recopilación de datos (por ejemplo, la caída repentina en el volumen de registro de un servicio a los mismos modelos de AI, su configuración se desvanecerá con el tiempo (un problema menos que un solo third de las organizaciones está monitoreando proactivamente). [Infrastructure as Code] La adopción mezclada con clickops sistemáticos básicamente garantiza la divergencia de la configuración «. Monitoreo y explicación del modelo: Austin Parker, de Honeycomb, argumenta que la velocidad a la que las herramientas de observabilidad basadas en LLM pueden proporcionar análisis es el cambio de juego real, aunque» podrían estar equivocados una docena de veces antes de que lo hagan bien «. (Discutirá cómo la observabilidad puede coincidir con el tempo de la AI con más detalle en el próximo Infraestructura y OPS de O’Seilly. Positivos/negativos, y cuentan con importancia.1 Es lo que Frost Bank Ciso Eddie Contreras llama «Garantía de calidad a escala». Sin esto, su sistema de observabilidad de IA será opaco, y no sabrá cuándo le está llevando a perder. . Se definirá no solo por la brillantez de sus modelos, sino por la tranquila eficiencia y resistencia de la infraestructura que los alimenta ”. Teniendo en cuenta esta «verdad» desde otro ángulo, el presentador de la serie CISO, David Spark, pregunta: «¿Estamos creando una carrera armamentista AI-on-AI cuando lo que realmente necesitamos es la disciplina básica de ingeniería, la registro, los límites y la visión legible por los humanos?», Las buenas prácticas de ingeniería siempre superarán a «usar AI para resolver sus problemas de IA». Como Yevgeniy Brikman señala en los fundamentos de DevOps y la entrega de software, “las prioridades más importantes son típicamente seguridad, confiabilidad, repetibilidad y resistencia. Desafortunadamente, estas son precisamente las áreas débiles de Genai «. Es por eso que la confiabilidad tranquila Lorica y Spark Champion requieren una supervisión continua e intencional, incluso de las herramientas que afirman automatizar la supervisión en sí. Infraestructura y OPS Supertream en operaciones y observabilidad de AI. Lo que se requiere, consulte el capítulo de Chip Huyen sobre la evaluación de los sistemas de IA en ingeniería de IA y la descripción general de Abi Aryan de monitoreo, privacidad y seguridad en LLMOPS también compartirá estrategias para la observabilidad en cada etapa de la tubería LLM en la infracción de O’Reilly. Lista de preguntas para ayudarlo a resolverlo para sus circunstancias específicas.