Los modelos de idiomas grandes (LLM) todavía se están quedando cortos en la realización de tareas de descubrimiento y explotación de vulnerabilidades. Por lo tanto, muchos actores de amenaza siguen siendo escépticos sobre el uso de herramientas de IA para tales roles. Esto es de acuerdo con una nueva investigación realizada por Foresout Research: Vedere Labs, que probó 50 modelos de IA actuales de fuentes comerciales, de código abierto y subterráneo para evaluar su capacidad para realizar investigaciones de vulnerabilidad (VR) y el desarrollo de explotación (ED). Las tareas de realidad virtual tenían como objetivo identificar una vulnerabilidad específica en un fragmento de código corto. Las tareas de ED buscaban generar una hazaña de trabajo para un binario vulnerable. Las tasas de falla fueron altas en todos los modelos. Alrededor de la mitad (48%) falló la primera tarea de realidad virtual, y el 55% falló el segundo. Alrededor de dos tercios (66%) fallaron la primera tarea ED, y el 93% falló el segundo. Ningún modelo único completó todas las tareas. La mayoría de los modelos eran inestables, a menudo producían resultados inconsistentes en las ejecuciones y ocasionalmente encontrando tiempos de espera o errores. En varios casos de DE, generar una exploit de trabajo requirió múltiples intentos durante varias horas. Incluso cuando los modelos completaron las tareas ED, requerían una guía sustancial del usuario, como interpretar errores, depurar la salida o dirigir manualmente el modelo hacia rutas de explotación viables. «Todavía estamos lejos de los LLM que pueden generar exploits completamente funcionales», señalaron los investigadores. Los ciberdelincuentes siguen siendo escépticos sobre las capacidades de IA El estudio, publicado el 10 de julio, también analizó varios foros subterráneos para ver cómo las comunidades cibercriminales ven el potencial de la IA. Los actores de amenaza experimentados tendían a expresar escepticismo o precaución, con muchos de sus comentarios minimizando la utilidad actual de LLM. El entusiasmo por la explotación asistida por AI-AI tendió a provenir de usuarios menos experimentados. «A pesar de las recientes afirmaciones de que LLM puede escribir código sorprendentemente bien, todavía no hay evidencia clara de actores de amenaza real que los usen para descubrir y explotar de manera confiable nuevas vulnerabilidades», escribieron los investigadores. Muchos actores de amenazas resaltaron la efectividad de los LLM en la realización de asistencia técnica, como generar código básico y otras tareas básicas de automatización de software. Las capacidades varían en los diferentes modelos de IA, la investigación de Forescout encontró que los modelos de código abierto eran los más poco confiables para la realidad virtual y la DE, con los 16 modelos probados que funcionan mal en todas las tareas. Estos modelos estaban disponibles en la plataforma Huggingface, que proporciona miles de modelos de IA previamente capacitados para su comunidad. «En general, esta categoría sigue siendo inadecuada incluso para la investigación básica de vulnerabilidad», señalaron los investigadores. Los modelos subterráneos son multados sintonizados para uso malicioso en foros web oscuros y canales de telegrama. Estos incluyen herramientas personalizadas desarrolladas a partir de modelos disponibles públicamente, como WORMGPT y GHOSTGPT. Si bien se desempeñaron mejor que los modelos de código abierto, estas herramientas se vieron obstaculizadas por problemas de usabilidad, que incluyen acceso limitado, comportamiento inestable, formato de producción deficiente y longitud de contexto restringido. Los modelos comerciales de propósito general de los principales proveedores de tecnología como ChatGPT, Gemini y Copilot, ofrecieron el mejor rendimiento, aunque algunos ocasionalmente estaban limitados por salvaguardas de alineación. Incluso en esta categoría, solo tres modelos lograron producir una hazaña de trabajo para los casos de prueba más difíciles. Las capacidades de IA crecerán a pesar de los hallazgos, el estudio observó que la IA generativa mostró mejoras rápidas tanto en VR como en la ED en la ventana de prueba de tres meses. «Estos resultados sugieren que la IA generativa aún no ha transformado cómo los actores de amenaza descubren y explotan las vulnerabilidades, pero eso puede estar a punto de cambiar. La edad de ‘piratería de vibos’ se acerca y los defensores deberían comenzar a prepararse ahora», agregaron los investigadores. Foresout dijo que es probable que la IA resulte en que las hazañas se vuelven más frecuentes pero no más sofisticadas. Por lo tanto, las medidas de ciberseguridad básicas, como el menor privilegio, la segmentación de red y la confianza cero, siguen siendo igual de relevantes para mitigar tales ataques.