Cómo detectar datos envenenados en conjuntos de datos de aprendizaje automático

Casi cualquiera puede envenenar un conjunto de datos de aprendizaje automático (ML) para alterar su comportamiento y resultados de manera sustancial y permanente. Con esfuerzos de detección cuidadosos y proactivos, las organizaciones podrían retener semanas, meses o incluso años de trabajo que de otro modo utilizarían para deshacer el daño que causaron las fuentes de datos envenenadas. ¿Qué es el envenenamiento de datos y por qué es importante? El envenenamiento de datos es un tipo de ataque de aprendizaje automático adversario que manipula maliciosamente conjuntos de datos para engañar o confundir el modelo. El objetivo es hacer que responda de manera inexacta o se comporte de manera no deseada. De manera realista, esta amenaza podría dañar el futuro de la IA. A medida que se expande la adopción de la IA, el envenenamiento de datos se vuelve más común. Las alucinaciones modelo, las respuestas inapropiadas y las clasificaciones erróneas causadas por manipulación intencional han aumentado en frecuencia. La confianza pública ya se está degradando: sólo el 34% de las personas cree firmemente que pueden confiar la gobernanza de la IA a las empresas de tecnología. Ejemplos de envenenamiento de conjuntos de datos de aprendizaje automático Si bien existen varios tipos de envenenamientos, comparten el objetivo de afectar el resultado de un modelo de ML. Generalmente, cada uno implica proporcionar información inexacta o engañosa para alterar el comportamiento. Por ejemplo, alguien podría insertar una imagen de una señal de límite de velocidad en un conjunto de datos de señales de alto para engañar a un automóvil autónomo y hacer que clasifique erróneamente las señales viales. Evento VB The AI Impact Tour – Nueva York Estaremos en Nueva York el 29 de febrero en asociación con Microsoft para discutir cómo equilibrar los riesgos y las recompensas de las aplicaciones de IA. Solicite una invitación al evento exclusivo a continuación. Solicitar una invitación Incluso si un atacante no puede acceder a los datos de entrenamiento, aún puede interferir con el modelo, aprovechando su capacidad para adaptar su comportamiento. Podrían ingresar miles de mensajes específicos a la vez para sesgar su proceso de clasificación. Google experimentó esto hace unos años cuando los atacantes lanzaron millones de correos electrónicos simultáneamente para confundir su filtro de correo electrónico y categorizar erróneamente el correo no deseado como correspondencia legítima. En otro caso del mundo real, la entrada del usuario alteró permanentemente un algoritmo de aprendizaje automático. Microsoft lanzó su nuevo chatbot “Tay” en Twitter en 2016, intentando imitar el estilo conversacional de una adolescente. Después de sólo 16 horas, había publicado más de 95.000 tweets, la mayoría de los cuales eran de odio, discriminatorios u ofensivos. La empresa descubrió rápidamente que había personas que enviaban en masa datos inapropiados para alterar el resultado del modelo. Técnicas de envenenamiento de conjuntos de datos comunes Las técnicas de envenenamiento pueden clasificarse en tres categorías generales. El primero es la manipulación del conjunto de datos, en la que alguien altera maliciosamente el material de capacitación para afectar el rendimiento del modelo. Un ejemplo típico es un ataque de inyección, en el que un atacante inserta datos inexactos, ofensivos o engañosos. El cambio de etiquetas es otro ejemplo de manipulación. En este ataque, el atacante simplemente cambia el material de entrenamiento para confundir al modelo. El objetivo es lograr que clasifique erróneamente o calcule muy mal, lo que eventualmente alterará significativamente su desempeño. La segunda categoría implica la manipulación del modelo durante y después del entrenamiento, donde los atacantes realizan modificaciones incrementales para influir en el algoritmo. Un ataque de puerta trasera es un ejemplo de esto. En este caso, alguien envenena un pequeño subconjunto del conjunto de datos; después de su publicación, activa un desencadenante específico para provocar un comportamiento no deseado. La tercera categoría implica la manipulación del modelo después de su implementación. Un ejemplo es el envenenamiento de vista dividida, donde alguien toma el control de una fuente que un algoritmo indexa y la llena con información inexacta. Una vez que el modelo ML utilice el recurso recién modificado, adoptará los datos envenenados. La importancia de los esfuerzos de detección proactiva Con respecto al envenenamiento de datos, ser proactivo es vital para proyectar la integridad de un modelo de ML. El comportamiento involuntario de un chatbot puede ser ofensivo o despectivo, pero las aplicaciones de aprendizaje automático relacionadas con la ciberseguridad envenenadas tienen implicaciones mucho más graves. Si alguien obtiene acceso a un conjunto de datos de aprendizaje automático para envenenarlo, podría debilitar gravemente la seguridad (por ejemplo, provocando clasificaciones erróneas durante la detección de amenazas o el filtrado de spam). Dado que la manipulación suele ocurrir de forma incremental, es probable que nadie descubra la presencia del atacante durante un promedio de 280 días. Para evitar que pasen desapercibidos, las empresas deben ser proactivas. Desafortunadamente, la manipulación maliciosa es increíblemente sencilla. En 2022, un equipo de investigación descubrió que podían envenenar el 0,01 % de los conjuntos de datos más grandes (COYO-700M o LAION-400M) por solo 60 dólares. Aunque un porcentaje tan pequeño pueda parecer insignificante, una pequeña cantidad puede tener graves consecuencias. Un simple envenenamiento del 3 % del conjunto de datos puede aumentar las tasas de error de detección de spam de un modelo de ML del 3 % al 24 %. Teniendo en cuenta que una manipulación aparentemente menor puede ser catastrófica, los esfuerzos de detección proactiva son esenciales. Formas de detectar un conjunto de datos de aprendizaje automático envenenado La buena noticia es que las organizaciones pueden tomar varias medidas para proteger los datos de capacitación, verificar la integridad del conjunto de datos y monitorear anomalías para minimizar las posibilidades de envenenamiento. 1: Desinfección de datos La desinfección consiste en «limpiar» el material de capacitación antes de que llegue al algoritmo. Implica filtrado y validación de conjuntos de datos, donde alguien filtra anomalías y valores atípicos. Si detectan datos sospechosos, inexactos o que parecen no auténticos, los eliminan. 2: Monitoreo del modelo Después de la implementación, una empresa puede monitorear su modelo de ML en tiempo real para asegurarse de que no muestre repentinamente un comportamiento no deseado. Si detectan respuestas sospechosas o un fuerte aumento de las imprecisiones, pueden buscar el origen del envenenamiento. La detección de anomalías juega aquí un papel importante, ya que ayuda a identificar casos de intoxicación. Una forma en que una empresa puede implementar esta técnica es crear un algoritmo de referencia y auditoría junto con su modelo público para comparar. 3: Seguridad de las fuentes Proteger los conjuntos de datos de ML es más crucial que nunca, por lo que las empresas solo deben recurrir a fuentes confiables. Además, deben verificar la autenticidad y la integridad antes de entrenar su modelo. Este método de detección también se aplica a las actualizaciones, porque los atacantes pueden envenenar fácilmente sitios previamente indexados. 4: Actualizaciones La desinfección y actualización rutinaria de un conjunto de datos de ML mitiga el envenenamiento por vista dividida y los ataques de puerta trasera. Garantizar que la información con la que se entrena un modelo sea precisa, apropiada e intacta es un proceso continuo. 5: Validación de las entradas del usuario Las organizaciones deben filtrar y validar todas las entradas para evitar que los usuarios alteren el comportamiento de un modelo con contribuciones maliciosas, generalizadas y dirigidas. Este método de detección reduce el daño de la inyección, el envenenamiento por vista dividida y los ataques de puerta trasera. Las organizaciones pueden prevenir el envenenamiento de conjuntos de datos. Aunque el envenenamiento de conjuntos de datos de ML puede ser difícil de detectar, un esfuerzo proactivo y coordinado puede reducir significativamente las posibilidades de que las manipulaciones afecten el rendimiento del modelo. De esta manera, las empresas pueden mejorar su seguridad y proteger la integridad de su algoritmo. Zac Amos es editor de artículos en ReHack, donde cubre ciberseguridad, inteligencia artificial y automatización. DataDecisionMakers ¡Bienvenido a la comunidad VentureBeat! DataDecisionMakers es el lugar donde los expertos, incluidos los técnicos que trabajan con datos, pueden compartir conocimientos e innovación relacionados con los datos. Si desea leer sobre ideas de vanguardia e información actualizada, mejores prácticas y el futuro de los datos y la tecnología de datos, únase a nosotros en DataDecisionMakers. ¡Incluso podrías considerar contribuir con un artículo propio! Leer más de DataDecisionMakers

Source link

Todo lo que necesitas saber sobre tecnología

Cómo detectar datos envenenados en conjuntos de datos de aprendizaje automático

Deja una respuesta Cancelar la respuesta

Cómo detectar datos envenenados en conjuntos de datos de aprendizaje automático

Obtenga Rosetta Stone y más de 1000 cursos electrónicos adicionales por solo $190 ahora mismo

Oferta: Samsung Galaxy Tab A9+ y Tab S6 Lite con descuento, iPads de Apple también a la venta

Deja una respuesta Cancelar la respuesta