¿Puede la observabilidad hacer frente al caos de TI que enfrentan tantas empresas hoy en día? Es una cuestión que vale la pena profundizar. Caos de TI (monitoreo, observabilidad e inteligencia) El caos de TI es una función de monitoreo, observabilidad e inteligencia. Sí, agregué inteligencia, pero no estoy hablando de inteligencia artificial (IA), todavía. Así como el monitoreo ha generado más datos de los que los humanos pueden consumir, la observabilidad puede producir más observaciones de las que cualquiera puede comprender. La sobrecarga de información de observación es particularmente cierta cuando entran en juego múltiples herramientas de observación. El aprendizaje automático puede ayudar, pero las preguntas que queremos responder están cambiando. Una vez quisimos saber si los servicios en una nube pública funcionaban y cómo fusionar esos datos con el ruido local. Ahora, las preguntas han cambiado a qué hacer con las observaciones. La automatización permite reiniciar elementos con bajo rendimiento y ampliar la memoria o la potencia informática según demanda, pero hay que almacenar los datos en algún lugar y el almacenamiento no es gratuito. Las principales soluciones de observabilidad ahora incluyen comparaciones de costos en tiempo real entre proveedores de nube. Las mejores herramientas de observabilidad tienen capacidades de operaciones financieras (FinOps) para encontrar recursos infrautilizados, sobreutilizados y abandonados en las nubes (públicas o privadas). Las herramientas de observabilidad tienen datos suficientes para predecir estados futuros. Desafortunadamente, la teoría del caos no ayuda. Los datos a nivel de elemento no existen a nivel de observabilidad. El análisis de regresión, los ajustes de mínimos cuadrados y algoritmos más complicados permiten predecir el caos. Cuantos más datos estén disponibles, más precisas serán las predicciones, pero almacenar datos es costoso. Los proveedores están abordando los problemas con licencias basadas en el consumo, niveles de almacenamiento de menor costo y otros métodos para hacer frente a la ola de datos necesarios para la observabilidad. El caos informático nunca terminará, pero al menos podemos intentar gestionarlo. La nueva esperanza es la IA generativa (GenAI), tal vez. Caos, observabilidad e inteligencia artificial La función del caos contiene los pasos que van desde el monitoreo hasta la observabilidad y la inteligencia y requiere nuevos enfoques para responder preguntas. El monitoreo nos indica el estado de los elementos, la observabilidad puede crear relaciones y proporcionar una metavisión de los elementos, y las preguntas inteligentes son posibles con la ayuda de GenAI. Pregunte a una herramienta de observabilidad cuándo ocurrirá la próxima interrupción y es posible que obtenga una respuesta. Pídale que automatice un modo de falla conocido y realizará un baile perfecto. Pregunte a una herramienta de observabilidad si la empresa está bien y no obtendrá nada. La cuestión está más allá de sus capacidades. Las herramientas de observabilidad tal como existen hoy se centran en TI, incluidos los desarrolladores en los procesos de DevOps, los miembros del equipo de gestión de operaciones que trabajan para mantener las luces encendidas y los recién acuñados (según mi estándar de más de 40 años) ingenieros de confiabilidad de sistemas (SRE). La observabilidad explica los datos del seguimiento. Ingresa GenAI, la gran roca en el estanque que crea su versión del caos. En la teoría del caos, un solo elemento puede hacer que todo un sistema caiga al límite. Las matemáticas lo dejan muy claro (llegaré a eso en un momento). Entonces, ¿qué pasa después? GenAI ya está mejorando la TI, desde mejores chatbots hasta consumir todos los datos y proporcionar información valiosa. Sin embargo, GenAI es completamente nueva y disruptiva. Pocos proveedores de observabilidad lo están utilizando con un efecto significativo ahora, y un número menor puede predecir los impactos en 24 a 26 meses. La observabilidad puede ralentizar la devolución al caos, lo que apunta a un entorno de TI más tranquilo con GenAI en algún momento del futuro. La inteligencia real para la empresa llega cuando GenAI consume datos de todas las fuentes de la empresa, lo que permite preguntas impensables y un futuro en el que el tsunami de cambios creado por GenAI no perturba a la empresa. Teoría del caos: ¿qué es? He mencionado la teoría del caos varias veces. Veamos qué es. La teoría del caos es un tropo popular que permite a los escritores inventar situaciones aparentemente imposibles que los protagonistas deben superar o basar el concepto de una historia completa en mover un solo elemento. Si se puede decir que cualquier sistema a gran escala y fácilmente concebible encarna el caos, entonces la tecnología de la información destaca. El caos es el estado normal de la TI, especialmente en las grandes empresas. Voy a exponerte las matemáticas. Esperar. ¿Por qué escribo sobre matemáticas en un blog de TI? Soy físico y, aunque llevo más de 40 años haciendo TI, confío en mi educación incluso para las cosas más mundanas. La observabilidad y la teoría del caos están relacionadas: el cómo y el por qué son esenciales cuando analizamos la empresa en su conjunto. Podría haber usado la entropía, pero la teoría del caos es más atractiva y más cercana a la realidad de un ecosistema de TI. Ahora, a la discusión sobre matemáticas esotéricas. La teoría del caos tiene ecuaciones que ayudan a los matemáticos y físicos a analizar los sistemas en estudio. En 1975, Robert May creó un modelo para demostrar el comportamiento caótico de los sistemas dinámicos. He modificado el modelo de May para incidentes: In+1 = r • In • (1 – In) In La proporción de la capacidad del sistema afectada por incidentes en un momento dado incluye el número de incidentes, la gravedad o el impacto total en el sistema. , con un valor que oscila entre cero (sin impacto) y uno (impacto total o falla en todo el sistema). En un mundo perfecto, esto siempre es cero, pero se trata de TI, donde el valor nunca es cero. Oh, pero nos esforzamos mucho. La NASA tiene algunos de los mejores métodos y procesos del mundo, pero el primer lugar que cuidaron después de la explosión del Challenger fue el código de seguridad del alcance, que puede hacer estallar el transbordador. Se consideró perfecto después de un examen multimillonario línea por línea. r Esto representa la tasa de generación y resolución de incidentes, influenciada por factores como la complejidad del sistema, la frecuencia de cambios y la efectividad de los procesos de gestión de incidentes. Los valores altos indican un sistema donde los incidentes se generan rápidamente o se resuelven mal, lo que lleva a un sistema más caótico. Los valores más bajos sugieren un sistema estable donde los incidentes se gestionan eficazmente o son poco frecuentes. En otro mundo perfecto, quizás en el multiverso, esto sería igual o menor que uno. En este mismo universo, los cerdos vuelan y nada se rompe jamás. Estoy seguro de que suceden otras cosas extrañas en esta utopía que le quitan brillo a toda la cuestión de la perfección. En otra versión de la Tierra, puedo simular cada elemento de TI para identificar sistemas y procesos al borde del caos y curarlos mágicamente. La TI no crea dinosaurios, excepto en forma de computadoras centrales que ejecutan COBOL. Bien, eso no está sucediendo, pero puedo monitorear todos esos elementos y recopilar información de estado (activado o desactivado), métricas (uso de memoria, rendimiento de la CPU) y más. Luego puedo enviar toda esa información a un equipo para determinar el nivel de caos del sistema y responder en consecuencia. Ups, ¡BAM! Tenemos otro exceso de datos (el monitoreo a menudo representa el 25% del tráfico de red en una gran empresa). La observabilidad se esfuerza por inferir el estado interno de un sistema a partir de sus resultados externos. Tenemos montones de datos pero no tenemos idea de lo que significan. Las herramientas de observabilidad, ya sea específicamente para nubes, redes, almacenamiento o aplicaciones públicas y privadas, son una visión del caos. La intersección de la ecuación de May y la observabilidad La ecuación de May y la observabilidad se cruzan. He aquí cómo: Comprender el comportamiento del sistema: la observabilidad y la ecuación de May tienen como objetivo mejorar la comprensión de sistemas complejos. La observabilidad permite el monitoreo y el conocimiento en tiempo real del estado de un sistema en función de los resultados, mientras que la ecuación de May muestra cómo el comportamiento del sistema puede cambiar dramáticamente con ligeros cambios en los parámetros. Previsibilidad y estabilidad: la ecuación de May resalta los límites de la previsibilidad en sistemas complejos debido a su sensibilidad a las condiciones iniciales. La observabilidad, por el contrario, es una herramienta para obtener información sobre el sistema. Aumenta la previsibilidad al permitir la detección temprana de problemas menores antes de que se conviertan en problemas importantes. Por lo tanto, el valor de «r» anterior evita que nuestro sistema explote en el caos. Adaptarse al cambio: el mapa logístico de la ecuación de May muestra cómo los sistemas pueden pasar de regímenes estables a regímenes caóticos con un solo cambio de parámetro. La observabilidad proporciona los medios para detectar y responder a estas transiciones, ofreciendo un método para ayudar a gestionar y mitigar los riesgos de entrar en estados caóticos. Bucles de retroalimentación: la observabilidad puede actuar como un mecanismo de retroalimentación en sistemas de TI complejos, identificando cuándo un sistema se acerca a un régimen caótico. Esta retroalimentación puede informar ajustes a los parámetros del sistema para mantener los niveles deseados de rendimiento y estabilidad. La tecnología nos impacta en casi todas partes: las visitas al médico, las noticias, las redes sociales, los refrigeradores e incluso nuestros automóviles (incluidos los de gasolina). El cambio en un solo parámetro puede poner de rodillas a una empresa. Pregúntele a AT&T acerca de un cambio de configuración simple que provocó la caída de toda su red. Observe cómo British Airways tuvo que cancelar cientos de vuelos porque un componente de software falló después de un simple cambio. Los sistemas de TI siempre están al borde del caos. Las herramientas de observabilidad son una forma de examinar el estado caótico de cada empresa de TI. Próximos pasos Para obtener más información, eche un vistazo a los informes de radar y criterios clave de observabilidad de la nube de GigaOm. Estos informes brindan una descripción general completa del mercado, describen los criterios que querrá considerar en una decisión de compra y evalúan el desempeño de varios proveedores en función de esos criterios de decisión. Si aún no es suscriptor de GigaOm, puede acceder a la investigación mediante una prueba gratuita.

Source link