Lea más sobre la interrupción del servicio de TI de CrowdStrike: CrowdStrike ha publicado una revisión preliminar posterior al incidente (PIR) sobre la interrupción global del servicio de TI del 19 de julio, que fue causada por un error en una actualización de contenido para su plataforma Falcon. El proveedor de ciberseguridad reveló que el incidente fue causado por una actualización de contenido de respuesta rápida que contenía un error no detectado. El problema afectó a 8,5 millones de dispositivos Windows en todo el mundo. Todos los hosts de Windows que ejecutaban la versión 7.11 y posteriores del sensor que estaban en línea entre el viernes 19 de julio de 2024 a las 04:09 UTC y el viernes 19 de julio de 2024 a las 05:27 UTC y recibieron la actualización se vieron afectados. El incidente continúa afectando a sectores críticos como aerolíneas, bancos, medios de comunicación y atención médica. El defecto en la actualización de contenido se revirtió el viernes 19 de julio de 2024 a las 05:27 UTC, y se han implementado correcciones y soluciones alternativas para los clientes afectados. CrowdStrike revela cómo se produjo el problema CrowdStrike explicó que envía actualizaciones de configuración de contenido de seguridad a sus sensores de dos maneras: Contenido del sensor que se envía directamente con su sensor Contenido de respuesta que está diseñado para responder al cambiante panorama de amenazas a la velocidad operativa El problema del 19 de julio no fue provocado por el contenido del sensor, que solo se envía con el lanzamiento de un sensor Falcon actualizado. CrowdStrike señaló que los clientes tienen control total sobre la implementación del sensor. En cambio, el error fue parte de una actualización de contenido de respuesta rápida a la versión 7.11 del sensor el 28 de febrero de 2024. Esta versión introdujo un nuevo tipo de plantilla de comunicación entre procesos (IPC) para detectar nuevas técnicas de ataque que abusan de las canalizaciones con nombre y siguió todos los procedimientos de prueba de contenido del sensor de CrowdStrike. El 5 de marzo, CrowdStrike llevó a cabo una prueba de estrés del tipo de plantilla de IPC dentro de su entorno de prueba. Esto se aprobó y se lanzó una instancia de plantilla de IPC a producción como parte de una actualización de configuración de contenido. Posteriormente, entre el 8 y el 24 de abril, se implementaron tres instancias de plantilla de IPC adicionales, todas las cuales funcionaron como se esperaba en producción. El 19 de julio, se implementaron dos instancias de plantilla de IPC adicionales. Una de estas instancias pasó la validación a pesar de contener datos de contenido problemáticos. CrowdStrike dijo que ambas instancias se implementaron como resultado de las pruebas exitosas anteriores realizadas antes de la implementación inicial del tipo de plantilla, la confianza en las verificaciones realizadas en el validador de contenido y las implementaciones exitosas anteriores de instancias de plantilla de IPC. Sin embargo, cuando el sensor recibió las instancias y las cargó en el intérprete de contenido, el contenido problemático en el archivo de canal 291 resultó en una lectura de memoria fuera de los límites que activó una excepción. Esto luego resultó en el bloqueo del sistema operativo Windows y el problema de la pantalla azul. CrowdStrike promete cambios en los procesos de prueba CrowdStrike dijo que planea implementar mejoras en sus procesos de prueba de contenido de respuesta rápida para evitar que ocurran problemas similares en el futuro. Esto incluye el uso de tipos de prueba para estas características, como: Pruebas de desarrollador local Pruebas de actualización y reversión de contenido Pruebas de estrés, fuzzing e inyección de fallas Pruebas de estabilidad Pruebas de interfaz de contenido La empresa también planea agregar verificaciones de validación adicionales al Validador de contenido para contenido de respuesta rápida para evitar que se implemente contenido problemático similar en el futuro, así como mejorar el manejo de errores existentes en el Intérprete de contenido. Los pasos adicionales que CrowdStrike planea para reducir el riesgo de errores en la implementación de contenido de respuesta rápida son: Implementar una estrategia de implementación escalonada para contenido de respuesta rápida en la que las actualizaciones se implementan gradualmente en porciones más grandes de la base de sensores, comenzando con una implementación canaria Mejorar el monitoreo tanto del rendimiento del sensor como del sistema, recopilando comentarios durante la implementación de contenido de respuesta rápida para guiar una implementación en fases Brindar a los clientes un mayor control sobre la entrega de actualizaciones de contenido de respuesta rápida al permitir la selección granular de cuándo y dónde se implementan estas actualizaciones Brindar detalles de actualización de contenido a través de notas de lanzamiento para los clientes Crédito de la imagen: VDB Photos / Shutterstock.com