Los modelos de lenguaje grande (LLM) se utilizan cada vez más para aplicaciones de ciberdefensa, aunque las preocupaciones sobre su confiabilidad y precisión siguen siendo una limitación significativa en casos de uso críticos. Un equipo de investigadores del Instituto de Tecnología de Rochester (RIT) lanzó CTIBench, el primer punto de referencia diseñado para evaluar el desempeño de los LLM en aplicaciones de inteligencia sobre amenazas cibernéticas. «Los LLM tienen el potencial de revolucionar el campo de CTI al mejorar la capacidad de procesar y analizar grandes cantidades de datos no estructurados de amenazas y ataques, lo que permite a los analistas de seguridad utilizar más fuentes de inteligencia que nunca», escribieron los investigadores. «Sin embargo, [they] Son propensos a sufrir alucinaciones y malentendidos en el texto, especialmente en dominios técnicos específicos, que pueden provocar una falta de veracidad del modelo. Esto requiere una consideración cuidadosa del uso de LLM en CTI, ya que sus limitaciones pueden llevar a que produzcan inteligencia falsa o poco confiable, lo que podría ser desastroso si se usa para abordar amenazas cibernéticas reales”. Aunque ya existen puntos de referencia de LLM en el mercado, estos son demasiado genéricos (GLUE, SuperGLUE, MMLU, HELM) para medir objetivamente las aplicaciones de ciberseguridad o demasiado específicos (SECURE, Purple Llama CyberSecEval, SecLLMHolmes, SevenLLM) para aplicar la inteligencia sobre amenazas cibernéticas. Esta falta de un punto de referencia LLM ad hoc para aplicaciones CTI llevó a los investigadores del RIT a desarrollar CTIBench. ¿Qué es CTIBench? Los investigadores describieron CTIBench como «un nuevo conjunto de tareas de referencia y conjuntos de datos para evaluar los LLM en inteligencia sobre amenazas cibernéticas». El producto final se compone de cuatro bloques de construcción: Preguntas de opción múltiple de inteligencia de amenazas cibernéticas (CTI-MCQ) Mapeo de causa raíz de inteligencia de amenazas cibernéticas (CTI-RCM) Predicción de gravedad de vulnerabilidad de inteligencia de amenazas cibernéticas (CTI-VSP) Inteligencia de amenazas cibernéticas Atribución del actor de amenazas ( CTI-TAA) Creación de preguntas de opción múltiple utilizando GPT-4 El primer paso en el proceso de desarrollo de CTIBench consistió en la creación de una base de datos de evaluación de conocimientos. Para crear esta base de datos, los investigadores recopilaron datos de una variedad de fuentes autorizadas dentro de CTI, como los marcos cibernéticos del Instituto Nacional de Estándares y Tecnología (NIST) de EE. UU., el modelo Diamond de detección de intrusiones y regulaciones como el Reglamento General Europeo de Protección de Datos ( RGPD). Esta base de datos de conocimientos les ayudó a crear preguntas de opción múltiple para evaluar la comprensión de los LLM sobre los estándares, amenazas, estrategias de detección, planes de mitigación y mejores prácticas de CTI. Los investigadores formularon preguntas utilizando estándares CTI como STIX y TAXII, marcos CTI como MITRE ATT&CK y las enumeraciones y clasificaciones de patrones de ataque comunes (CAPEC), y la base de datos de enumeración de debilidades comunes (CWE). Luego generaron la lista final de preguntas de opción múltiple. utilizando GPT-4 y evaluándolo y validándolo manualmente. El conjunto de datos final consta de 2500 preguntas, de las cuales 1578 se recopilaron de MITRE, 750 de CWE, 40 de la recopilación manual y 32 de estándares y marcos. Mapeo de causa raíz, predicción de gravedad de vulnerabilidad y atribución Con CTIBench, los investigadores propusieron dos tareas prácticas de CTI que evalúan el razonamiento y las habilidades de resolución de problemas de los LLM: Mapeo de descripciones de vulnerabilidades y exposiciones comunes (CVE) a categorías comunes de CWE (es decir, CTI-RCM) Cálculo la gravedad de las vulnerabilidades utilizando puntuaciones del sistema común de puntuación de vulnerabilidades (CVSS) (es decir, CTI-VSP). Finalmente, proporcionaron una herramienta que solicitaba al LLM que analizara informes de amenazas disponibles públicamente y los atribuyera a actores de amenazas o familias de malware específicos (es decir, CTI-TAA). . ChatGPT 4 LLM con mejor rendimiento probado con CTIBench Probaron cinco LLM de uso general diferentes usando CTIBench: ChatGPT 3.5, ChatGPT 4, Gemini 1.5, Llama 3-70B y Llama 3-8B. ChatGPT 4 recibió los mejores resultados para todas las tareas excepto la predicción de la gravedad de la vulnerabilidad (CTI-VSP), para la cual Gemini 1.5 fue el modelo con mejor rendimiento. A pesar de ser de código abierto, LLAMA3-70B tiene un rendimiento comparable al Gemini-1.5 e incluso lo supera en dos tareas, aunque tiene problemas con la tarea CTI-VSP. «A través de CTIBench, brindamos a la comunidad de investigación una herramienta sólida para acelerar la respuesta a incidentes mediante la automatización de la clasificación y el análisis de las alertas de seguridad, lo que les permite centrarse en amenazas críticas y reducir el tiempo de respuesta», concluyeron los investigadores. Leer más: Cómo los profesionales de inteligencia sobre amenazas cibernéticas deberían aprovechar la automatización y la inteligencia artificial