Inteligencia artificial y aprendizaje automático, gestión del fraude y delitos cibernéticos, tecnologías de próxima generación y desarrollo seguro Los datos de entrenamiento sin filtrar pueden causar problemas de seguridad y difundir información errónea Rashmi Ramesh (rashmiramesh_) • 20 de septiembre de 2024 «Genera una imagen sobre la inteligencia artificial en LinkedIn». (Imagen: Shutterstock) Esta semana, LinkedIn se unió a sus pares en el uso de publicaciones en las redes sociales como datos de entrenamiento para modelos de inteligencia artificial, lo que genera inquietudes sobre la confiabilidad y la seguridad. Ver también: Mitigación de riesgos de identidad, movimiento lateral y escalada de privilegios Las empresas de IA dependen en gran medida de los datos disponibles públicamente. A medida que esos datos se agotan, el contenido de las redes sociales ofrece una alternativa amplia, gratuita y de fácil acceso. Esto hace que el uso de los datos de las redes sociales sea rentable y eficiente, pero tiene serias advertencias sobre problemas de seguridad y que las plataformas sean un caldo de cultivo para la desinformación. Los usuarios de LinkedIn pueden optar por no permitir que sus datos personales se utilicen para entrenar el modelo de IA de la plataforma. Las empresas que aprovechan los datos de las redes sociales encuentran datos lingüísticos diversos y del mundo real que pueden ayudar a los LLM a comprender las tendencias actuales y las expresiones coloquiales, dijo Stephen Kowski, director de tecnología de campo de la empresa de seguridad impulsada por IA SlashNext. Las redes sociales brindan información sobre los patrones de comunicación humana que pueden no estar disponibles en fuentes más formales, dijo a Information Security Media Group. LinkedIn no es la única empresa que utiliza datos de redes sociales de clientes. El gigante de las redes sociales Meta y X, anteriormente Twitter, han entrenado sus modelos de IA con datos de usuarios. Al igual que con LinkedIn, los usuarios deben optar manualmente por no tener sus datos extraídos, en lugar de que se les pida permiso previo. Otros, como Reddit, han licenciado sus datos a cambio de dinero. La pregunta para los desarrolladores de IA no es si las empresas usan los datos o incluso si es justo hacerlo, sino si los datos son confiables o no. La calidad de los datos de entrenamiento es crucial para el rendimiento del modelo de IA. Los datos diversos y de alta calidad conducen a resultados más precisos y confiables, mientras que los datos sesgados o de baja calidad pueden dar lugar a predicciones erróneas y perpetuar la desinformación. Las empresas deben emplear sistemas avanzados de filtrado y verificación de contenido impulsados ​​por IA para garantizar la calidad y la fiabilidad de los datos utilizados, dijo Kowski. El daño de utilizar datos de redes sociales de baja calidad para entrenar modelos de IA es que puede perpetrar los sesgos que las personas utilizan en sus publicaciones, utilizar jerga y argot humanos, e impulsar desinformación y contenido dañino. La calidad de los datos de las redes sociales varía según la plataforma. LinkedIn tiene datos de calidad relativamente superior debido a su enfoque profesional y procesos de verificación de usuarios. Reddit puede proporcionar perspectivas diversas, pero requiere un filtrado de contenido más riguroso. «El uso eficaz de los datos de cualquier plataforma exige un análisis de contenido avanzado impulsado por IA para identificar información confiable y filtrar la posible desinformación o contenido de baja calidad», dijo Kowski. Los investigadores y las empresas están desarrollando soluciones para mitigar la desinformación que la IA internaliza cuando se entrena con datos de redes sociales. Uno de esos métodos es marcar con agua el contenido de IA para informar al usuario la fuente de la información, pero el método no es infalible. Las empresas que entrenan a los modelos de IA también pueden identificar comportamientos dañinos e instruir a los LLM para evitarlos, pero esta no es una solución escalable. Por el momento, las únicas barreras de seguridad que existen son las que las empresas se han comprometido a respetar y las que han sugerido los gobiernos. URL de la publicación original: https://www.databreachtoday.com/training-ai-on-social-media-what-could-go-wrong-a-26335