Uso de LLM para explotar vulnerabilidades Investigación interesante: «Los equipos de agentes LLM pueden explotar vulnerabilidades de día cero». Resumen: Los agentes de LLM se han vuelto cada vez más sofisticados, especialmente en el ámbito de la ciberseguridad. Los investigadores han demostrado que los agentes LLM pueden explotar vulnerabilidades del mundo real cuando se les proporciona una descripción de la vulnerabilidad y los problemas de captura de la bandera del juguete. Sin embargo, estos agentes todavía funcionan mal en vulnerabilidades del mundo real que el agente desconoce de antemano (vulnerabilidades de día cero). En este trabajo, mostramos que los equipos de agentes LLM pueden explotar vulnerabilidades de día cero del mundo real. Los agentes anteriores tienen dificultades para explorar muchas vulnerabilidades diferentes y planificar a largo plazo cuando se usan solos. Para solucionar esto, presentamos HPTSA, un sistema de agentes con un agente de planificación que puede lanzar subagentes. El agente de planificación explora el sistema y determina a qué subagentes llamar, resolviendo problemas de planificación a largo plazo al probar diferentes vulnerabilidades. Construimos un punto de referencia de 15 vulnerabilidades del mundo real y mostramos que nuestro equipo de agentes mejora con respecto al trabajo anterior hasta 4,5 veces. Los LLM no encuentran nuevas vulnerabilidades. Están explotando los días cero (lo que significa que no están entrenados para usarlos) de nuevas maneras. Así que piense en este tipo de cosas combinadas con otra IA que encuentre nuevas vulnerabilidades en el código. Es importante seguir este tipo de desarrollos, ya que son parte del rompecabezas de un agente de ciberataque de IA totalmente autónomo. Hablo más de este tipo de cosas aquí. Etiquetas: artículos académicos, inteligencia artificial, ciberataque, ciberseguridad, LLM, vulnerabilidades, día cero Publicado el 17 de junio de 2024 a las 07:08 • 3 comentarios Foto de la barra lateral de Bruce Schneier por Joe MacInnis.