Últimamente, la comunidad de TI se ha estado volviendo loca por el envenenamiento de los datos de la IA. Para algunos, es un mecanismo furtivo que podría actuar como una puerta trasera a los sistemas empresariales al infectar subrepticiamente los datos en los que se entrenan los modelos de lenguajes grandes (LLM) y luego ser incorporados a los sistemas empresariales. Para otros, es una forma de combatir los LLM que intentan poner fin a las protecciones de marcas y derechos de autor. En pocas palabras, estos dos temores equivalen a que el envenenamiento de datos sea 1) una herramienta de ataque para ciberladrones y ciberterroristas o 2) una herramienta de defensa para artistas y empresas que intentan proteger su propiedad intelectual. En realidad, el envenenamiento de datos de IA no es una gran amenaza en ninguno de los dos escenarios, pero a la gente de TI le encanta asustarse. Es la táctica de defensa la que está recibiendo mucha atención en estos días, con gente descargando un par de aplicaciones gratuitas de la Universidad de Chicago llamó Nightshade and Glaze. Este tipo de aplicaciones defensivas de envenenamiento de datos funcionan manipulando el archivo objetivo para engañar a la función de entrenamiento LLM. Con Nightshade, normalmente manipula el código alrededor de una imagen. La imagen puede ser una escena desértica con cactus (o cactus, si quieres entenderme en latín), pero la etiqueta se cambia para decir que es un océano con olas. La idea es que alguien le pida al LLM imágenes del océano y aparecerá la imagen modificada. Pero como se trata claramente de un escenario desértico, será rechazado. Glaze actúa más directamente sobre la imagen, en esencia, nublándola para hacerla menos deseable. De cualquier manera, el objetivo es hacer que sea menos probable que la imagen protegida se utilice a través de LLM. Esta técnica, aunque imaginativa, es poco probable que funcione por mucho tiempo. No pasará mucho tiempo antes de que a los LLM se les enseñe cómo ver a través de estas técnicas defensivas. “Para proteger sus obras, debe degradarlas”, dijo George Chedzhemov, estratega de ciberseguridad de la firma de datos BigID. “Voy a apostar a que las empresas con sistemas y cargas de trabajo de miles de millones de dólares tienen más probabilidades de prevalecer en este juego del gato y el ratón. A la larga, simplemente no creo que esto vaya a ser efectivo”. La técnica ofensiva es potencialmente la más preocupante, pero también es muy poco probable que sea eficaz, incluso a corto plazo. La técnica ofensiva funciona de dos maneras. Primero, intenta apuntar a una empresa específica haciendo conjeturas fundamentadas sobre el tipo de sitios y materiales con los que les gustaría capacitar a sus LLM. Los atacantes no atacan entonces a esa empresa específica, sino a los numerosos lugares a los que es probable que acuda para recibir formación. Si el objetivo es, digamos, Nike o Adidas, los atacantes podrían intentar envenenar las bases de datos de varios departamentos deportivos de las universidades con equipos deportivos de alto perfil. Si el objetivo fuera Citi o Chase, los malos podrían atacar bases de datos en sitios clave de la Reserva Federal. El problema es que ambos extremos de ese plan de ataque podrían frustrarse fácilmente. Los sitios universitarios podrían detectar y bloquear los esfuerzos de manipulación. Para que el ataque funcione, los datos insertados probablemente tendrían que incluir ejecutables de malware, que son relativamente fáciles de detectar. Incluso si el objetivo de los delincuentes fuera simplemente introducir datos incorrectos en los sistemas de destino, lo que, en teoría, dificultaría su el análisis es defectuoso: la mayor parte de la formación LLM absorbe una cantidad tan enorme de conjuntos de datos que es poco probable que el ataque funcione bien. “El código plantado terminaría extremadamente diluido. Probablemente sólo una pequeña cantidad del código malicioso sobreviviría”, dijo Chedzhemov. La otra táctica maliciosa de envenenamiento de datos de IA equivale a un mecanismo de rociar y orar. En lugar de apuntar a una empresa específica, los delincuentes intentarían contaminar una gran cantidad de sitios y esperarían que el malware termine de alguna manera en una empresa con datos atractivos para robar. “Tendrían que contaminar decenas de miles de sitios por todas partes ”, dijo Chedzhemov. «Y luego necesitan esperar que el modelo LLM de alguna manera se centre en uno de ellos». Chedzhemov argumentó que el único enfoque viable sería «elegir un área extremadamente esotérica para la cual no hay muchas cosas por ahí, algo muy especializado». .” La industria tecnológica está bastante familiarizada con estas contramedidas y rara vez funcionan por mucho tiempo, o nunca. Consideremos los programas antivirus que publicaron definiciones y luego los malos cambiaron la técnica. Luego, los reproductores AV buscaron patrones en lugar de definiciones específicas, y así sucesivamente. O piense en las arañas de los motores de búsqueda y sus batallas con scripts robot.txt que les decían que se fueran. O Youtube versus bloqueadores de publicidad. El envenenamiento de datos de LLM es algo que TI debe tener en cuenta y contra lo que debe protegerse. Pero en este concurso, creo que TI tiene casi todas las ventajas. Qué refrescantemente raro. Copyright © 2024 IDG Communications, Inc.
Source link
Deja una respuesta