Sigcomm 2024 Huawei Cloud ha desarrollado una herramienta de monitorización de red que, cuando se utilizó en producción en tres de sus propias regiones, pudo observar más de su infraestructura que las herramientas existentes y reveló problemas que antes escapaban a los esfuerzos humanos. La herramienta se llama RD-Probe y se detalló en un artículo [PDF] presentado el martes en la conferencia SIGCOMM 2024 en Sídney. El artículo explica que la monitorización de la red es vital, pero difícil de lograr a gran escala. Los autores, algunos de Huawei y otros de la Facultad de Informática de la Universidad de Pekín, citan la investigación de AWS [PDF] que indica que la nube de Amazon tiene 1087 combinaciones de rutas de enlace intrarregionales y 10176 combinaciones de rutas de enlace interregionales (y también revela que las redes de centros de datos de Huawei Cloud comprenden más de 100.000 conmutadores y un millón de servidores). Monitorear toda esa infraestructura y todas esas rutas, en un entorno virtualizado que utiliza la aleatoriedad para equilibrar la carga, hace que sea muy difícil recopilar suficientes datos sobre lo que está sucediendo en la Capa 2. RD-Probe es el intento de Huawei Cloud de resolver ese problema. Los desarrolladores de la herramienta decidieron monitorear cada puerto físico de Capa 2, ya que al hacerlo significa que pueden observar el estado de tiempo de ejecución de las estructuras de conmutación. Considerar solo la Capa 3, escriben los autores, significaría que algunos puertos no serían monitoreados. Monitorear los puertos físicos también ayuda a lograr una mayor cobertura de la que es posible al observar redes virtuales, que, por su propia naturaleza, abstraen algunos de los recursos utilizados para ejecutarlas. Eso no es deseable porque sin una cobertura integral, las herramientas de monitoreo de red tendrán puntos ciegos que significan que se pasan por alto los problemas. El artículo señala que RD-Probe «se integra perfectamente con la arquitectura de monitorización existente» y «solo modifica los módulos de generación de tareas y procesamiento de datos». La herramienta comienza generando sondas aleatoriamente y luego lo vuelve a hacer de manera determinista. Este esquema de dos fases se realiza nuevamente con el objetivo de lograr la cobertura de monitorización requerida. Un clúster dedicado de 16 nodos, en el que cada servidor ejecuta una CPU de ocho núcleos a 2,80 GHz sin nombre con 64 GB de memoria, genera las sondas. Los datos generados por las sondas se procesan mediante un clúster de transmisión de 48 nodos en el que cada máquina emplea una CPU de 16 núcleos a 2,80 GHz con 32 GB de memoria. En el plazo de un mes después de utilizar RD-Probe, Huawei Cloud encontró «muchos problemas que no se habían detectado anteriormente». Afortunadamente, la mayoría «solo causaban síntomas de lentitud de falla o pérdidas intermitentes de paquetes» y se detectaron antes de que los usuarios percibieran un servicio degradado. Esto hizo feliz a Huawei, ya que los autores del artículo calificaron el problema como «difícil de localizar mediante una inspección manual». Los fallos detectados por RD-Probe y que otras herramientas no detectaron incluyen: un chip defectuoso en la unidad de procesamiento de línea de un conmutador central utilizado en un servicio de almacenamiento de objetos, que provocó la pérdida de paquetes entrantes y no pudo informar el problema al plano de control; un equilibrio de carga defectuoso que provocó que el tráfico pasara solo por el puerto local en lugar de por los cables de la pila; el uso de valores incorrectos para algunas rutas BGP, lo que llevó al tráfico a una ruta lenta. Los investigadores de Huawei están satisfechos con RD-Probe, ya que mejoró su cobertura de monitoreo de red del 80,9 por ciento de los recursos al 99,5 por ciento y «descubrió varios problemas que antes no se habían detectado al tiempo que toleraba numerosos fallos». La empresa planea implementarlo en más regiones de la nube pronto. Pero los autores del artículo también señalan que RD-Probe no considera el tráfico Norte-Sur y no puede filtrar los fallos del lado del servidor. Resolver esos problemas sigue estando en la lista de tareas pendientes de Huawei. ®