Plataformas de protección de endpoints (EPP), seguridad de endpoints, gobernanza y gestión de riesgos La revisión preliminar de un proveedor de ciberseguridad detalla los problemas y promete mejorasMathew J. Schwartz (euroinfosec) •24 de julio de 2024 CrowdStrike ha culpado a los fallos de las pruebas internas, incluido el software de pruebas con errores, por no haber podido evitar la «actualización rápida de contenido» defectuosa del viernes que causó una interrupción mundial. Ver también: Higiene cibernética y gestión de activos Percepción vs. Realidad La empresa publicó el martes su revisión preliminar del incidente, que involucra el «archivo de canal 291» defectuoso para su software de detección y respuesta de endpoints Falcon. Después de recibir los datos de actualización de amenazas, 8,5 millones de hosts de Windows en línea que usan Falcon se bloquearon en una «pantalla azul de la muerte», se reiniciaron y luego se quedaron atascados en un bucle interminable de bloqueos y reinicios. Como reflejo de los tipos de organizaciones que utilizan Falcon, la interrupción provocó graves interrupciones en numerosos sectores críticos, incluidos los principales de la atención sanitaria, la banca, el mercado de valores y las organizaciones de medios de comunicación, así como los ferrocarriles y las aerolíneas. El informe de CrowdStrike ofrece detalles de lo que sucedió y cuándo, así como los pasos que tomará la empresa para intentar evitar que se repita. La empresa también se ha comprometido a publicar un «análisis de causa raíz» completo del incidente una vez que complete su investigación. Los expertos en seguridad han elogiado la puntualidad y el detalle contenidos en la revisión inicial de CrowdStrike. «Es bueno y realmente honesto», dijo el experto británico en ciberseguridad Kevin Beaumont. Una «conclusión clave», dijo, es que CrowdStrike se ha comprometido a un cambio «inteligente», en la forma de no implementar más actualizaciones de amenazas simultáneamente en cada punto final de Falcon, sino en un proceso más cuidadoso, gradual y bien monitoreado. Muchos otros proveedores de software de seguridad, incluido Microsoft, ya no envían actualizaciones de la plataforma de protección de puntos finales simultáneamente a todos los clientes. No hacerlo ayuda a que las implementaciones iniciales sirvan como un canario en la mina de carbón, en caso de que ocurra algo inesperado. CrowdStrike envió la actualización de configuración defectuosa de Falcon el viernes a las 04:09 UTC, lo que provocó fallas. Setenta y ocho minutos después, la compañía «revirtió» el archivo. Algunos sistemas se reiniciaron con éxito, recibieron el nuevo archivo y se recuperaron. Muchos más sistemas han requerido intervención manual. Varias aerolíneas quedaron en tierra temporalmente el viernes debido al incidente, dejando varados a los viajeros. La aerolínea estadounidense Delta se ha visto especialmente afectada, aunque se ha estado recuperando. Para el martes, la aerolínea canceló solo el 14% de sus vuelos, en comparación con el 36% del domingo, informó el servicio de seguimiento de vuelos FlightAware. Hasta el lunes, el proveedor de seguimiento de activos de TI Sevco Security informó haber visto tasas de recuperación del 93% del software CrowdStrike Falcon entre su base de clientes. Tanto CrowdStrike como Microsoft han lanzado herramientas para ayudar a automatizar el proceso, muchas deben ejecutarse desde unidades USB de arranque y, por lo tanto, requieren que los trabajadores remotos vengan al sitio para obtener una solución. El martes, CrowdStrike entregó una actualización preliminar, en forma de agregar el archivo defectuoso a la lista de archivos defectuosos conocidos de CrowdStrike Cloud, ya que el archivo defectuoso probablemente aún residía en numerosos sistemas, incluso si ya no se accedía a él. La actualización entró en vigencia de inmediato para los clientes que usan sus nubes US-1, US-2 y EU, y está disponible a pedido para clientes gubernamentales. Una ventaja inmediata de la medida es que «para los sistemas afectados con una fuerte conectividad de red, esta acción también podría resultar en la recuperación automática de los sistemas en un bucle de arranque», ya que los sistemas afectados pueden intentar comunicarse con CrowdStrike Cloud para obtener actualizaciones y recibir instrucciones para eliminar el archivo defectuoso, dijo. Para las organizaciones que usan cifrado de disco completo, que se considera una mejor práctica y también es requerido por algunas regulaciones, la recuperación de sistemas a menudo requiere ingresar una clave única de 48 dígitos para desbloquear el cifrado de disco completo de BitLocker, lo que agrega tiempo y complejidad al proceso de recuperación (ver: La restauración de la interrupción de CrowdStrike está tomando tiempo). Informe preliminar En su revisión preliminar del incidente, CrowdStrike dijo que el 28 de febrero lanzó una actualización de su sensor Falcon en forma de la versión 7.11, que le otorga una nueva funcionalidad para detectar amenazas, a través de lo que llama un tipo de plantilla InterProcessCommunication o IPC. Estas plantillas están diseñadas «para detectar nuevas técnicas de ataque que abusan de las canalizaciones con nombre», que se refieren a los procesos del sistema operativo. Las plantillas IPC se distribuyen «en un archivo binario propietario que contiene datos de configuración», que CrowdStrike dijo que «no es código ni un controlador de kernel». Los datos de configuración «se asignan a comportamientos específicos que el sensor debe observar, detectar o prevenir». La compañía dijo que probó con éxito el nuevo tipo de plantilla IPC el 5 de marzo, utilizando «una variedad de sistemas operativos y cargas de trabajo». En abril, la compañía envió tres nuevas plantillas IPC independientes a los usuarios, que «funcionaron como se esperaba en producción». El viernes ocurrió lo contrario, cuando envió dos nuevas plantillas de IPC a los puntos finales de Falcon, y una de las plantillas «pasó la validación a pesar de contener datos de contenido problemáticos», dijo. «Cuando el sensor lo recibió y lo cargó en el intérprete de contenido, el contenido problemático en el archivo de canal 291 resultó en una lectura de memoria fuera de los límites que desencadenó una excepción. Esta excepción inesperada no se pudo manejar correctamente, lo que resultó en un bloqueo del sistema operativo Windows (BSOD)». Próximos cambios en las pruebas y la implementación La compañía ha prometido introducir una serie de mejoras en la resistencia y las pruebas del software, que van desde tipos de pruebas más exhaustivos y variados hasta la actualización del intérprete de contenido en su software para manejar mejor los errores inesperados. Para implementar futuros contenidos de respuesta rápida, CrowdStrike dijo que «implementará una estrategia de implementación escalonada», implementando gradualmente las actualizaciones a nivel mundial después de «comenzar con una implementación canary». La compañía dijo que también les dará a los clientes «mayor control» sobre las actualizaciones, incluido «cuándo y dónde» se implementan, y monitoreará más de cerca el «rendimiento colectivo del sensor y del sistema» para guiar los futuros lanzamientos de contenido. Los expertos en seguridad dijeron que el impacto de una única actualización defectuosa del software de CrowdStrike revela problemas más amplios de la industria vinculados no solo a la tecnología sino también a la interconectividad (ver: CrowdStrike, Microsoft Outage Uncovers Big Resiliency Issues). «Tenemos un pequeño número de empresas cibernéticas que operan efectivamente como God Mode en la economía mundial ahora», dijo Beaumont en una publicación de blog, cuando un escenario más ideal implicaría que los clientes pudieran «tener confianza cero en los proveedores de ciberseguridad». Dada la interconexión del software con el funcionamiento seguro de tantas partes diferentes de la sociedad, «tiene que haber alguna forma de imponer un comportamiento menos riesgoso en todos los proveedores», dijo. «Esto también debería incluir las soluciones de seguridad de Microsoft». URL de la publicación original: https://www.databreachtoday.com/crowdstrike-says-code-testing-bugs-failed-to-prevent-outage-a-25833