Amy Larsen DeCarlo – Analista principal, Servicios de seguridad y centro de datos Resumen Puntos clave: • Una falla en una actualización de la plataforma de inteligencia de amenazas e incidencia Falcon de CrowdStrike dejó fuera de servicio millones de sistemas Windows, interrumpiendo las operaciones en todo el mundo a principios de este mes. • El evento, del que tardó días en recuperarse, puso de relieve la necesidad de una mayor resiliencia operativa y un mejor control de calidad, así como mejores protecciones para los sistemas y los datos. A principios de este mes, la combinación de un error no detectado en la actualización de contenido de Respuesta rápida de CrowdStrike y un error en el validador de contenido utilizado para garantizar que el código sea higiénico llevó a que la actualización corrupta se lanzara en producción. La distribución del software provocó que 8,5 millones de sistemas Windows quedaran fuera de línea y se interrumpieran las operaciones en todo el mundo. La solución fue manual y de naturaleza chapucera. Se cancelaron miles de vuelos, se pospusieron procedimientos médicos y se paralizaron las operaciones en todas las industrias, en algunos casos durante días. Se espera que el incidente cueste a las organizaciones miles de millones de dólares cuando se calculen las consecuencias de la interrupción. El evento planteó serias dudas sobre el control de calidad de los proveedores y la excesiva dependencia de sus clientes de la automatización con respecto a las actualizaciones de TI. Con respecto a lo primero, CrowdStrike publicó un informe inicial del incidente, identificando el par de problemas que hicieron que el proverbial tren de TI se descarrilara con cierres masivos de sistemas en todo el mundo. Junto con las profusas disculpas del CEO de CrowdStrike, la compañía prometió una divulgación completa posterior a la violación una vez que complete su investigación. Microsoft ofreció cientos de ingenieros para apoyar los esfuerzos de restauración del sistema del cliente. La compañía dijo que está colaborando con otros proveedores de la nube, incluidos Amazon Web Services y Google Cloud Platform, para comprender el efecto completo del incidente. La expectativa es que obtener una comprensión completa de lo que sucedió durante este evento ayudará a todos a prepararse mejor para problemas futuros. En una publicación de blog, John Cable, vicepresidente de gestión de programas para el servicio y la entrega de Windows, escribió que la compañía necesita realizar cambios de desarrollo para respaldar una mayor resiliencia de los sistemas. Cable dijo que la compañía está buscando reducir el acceso a nivel de kernel para aplicaciones de software para proteger mejor los sistemas operativos Windows contra códigos maliciosos y software corrupto. Las empresas afectadas deben revisar sus planes de continuidad empresarial. Todos los involucrados, desde los proveedores y prestadores de servicios hasta los clientes finales, tienen mucho que aprender. Ahora hay un diálogo abierto que, con suerte, conducirá a una mayor resiliencia organizacional en el futuro.