Según los investigadores, muchas de las aplicaciones GPT de la tienda GPT de OpenAI recopilan datos y facilitan el seguimiento en línea, lo que viola las políticas de OpenAI. Recientemente, científicos de la Universidad de Washington en St. Louis (Missouri) analizaron casi 120.000 GPT y más de 2.500 Acciones (servicios integrados) durante un período de cuatro meses y descubrieron una gran recopilación de datos que es contraria a las normas de OpenAI y, a menudo, no está documentada adecuadamente en las políticas de privacidad. Los investigadores (Evin Jaff, Yuhao Wu, Ning Zhang y Umar Iqbal) describen sus hallazgos en un artículo titulado «Exposición de datos de las aplicaciones LLM: una investigación en profundidad de las GPT de OpenAI». «Nuestras mediciones indican que las divulgaciones de la mayoría de los tipos de datos recopilados se omiten en las políticas de privacidad, y solo el 5,8 por ciento de las Acciones revelan claramente sus prácticas de recopilación de datos», afirman los autores. Los datos recopilados incluyen información confidencial, como contraseñas. Y los GPT que lo hacen a menudo incluyen acciones para el seguimiento y análisis de anuncios, una fuente común de problemas de privacidad en los ecosistemas de aplicaciones móviles y web. «Nuestro estudio identifica varios problemas de privacidad y seguridad dentro del ecosistema GPT de OpenAI, y otros también han notado problemas similares», dijo a The Register Yuhao Wu, un candidato a doctorado de tercer año en ciencias de la computación en la Universidad de Washington. «Si bien algunos de estos problemas se han abordado después de ser resaltados, la existencia de tales problemas sugiere que ciertas decisiones de diseño no priorizaron adecuadamente la seguridad y la privacidad. Además, aunque OpenAI tiene políticas establecidas, hay una falta de aplicación consistente, lo que exacerba estas preocupaciones». La OpenAI Store, que abrió oficialmente en enero, alberga GPT, que son modelos de transformadores generativos preentrenados (GPT) basados ​​en ChatGPT de OpenAI. La mayoría de los aproximadamente tres millones de GPT en la tienda han sido personalizados por desarrolladores externos para realizar alguna función específica, como analizar datos de Excel o escribir código. Una pequeña parte de los GPT (el 4,6 por ciento de los más de 3 millones) implementan acciones, que proporcionan una forma de traducir los datos estructurados de los servicios API al lenguaje vernáculo de un modelo que acepta y emite lenguaje natural. Las acciones «convierten el texto en lenguaje natural en el esquema json necesario para una llamada a la API», como dice OpenAI. La mayoría de las acciones (el 82,9 por ciento) incluidas en los GPT estudiados provienen de terceros. Y estos terceros en gran medida parecen no preocuparse por la privacidad o la seguridad de los datos. Según los investigadores, «una cantidad significativa de acciones recopilan datos relacionados con la actividad de la aplicación del usuario, la información personal y la navegación web». «Los datos de actividad de la aplicación consisten en datos generados por el usuario (por ejemplo, conversaciones y palabras clave de la conversación), preferencias o configuración de las acciones (por ejemplo, preferencias para ordenar los resultados de búsqueda) e información sobre la plataforma y otras aplicaciones (por ejemplo, otras acciones integradas en una GPT). La información personal incluye datos demográficos (por ejemplo, raza y etnia), información de identificación personal (por ejemplo, direcciones de correo electrónico) e incluso contraseñas de usuario; el historial de navegación web se refiere a los datos relacionados con los sitios web visitados por el usuario que utiliza GPT». Al menos el 1 por ciento de las GPT estudiadas recopilan contraseñas, observan los autores, aunque aparentemente por una cuestión de conveniencia (para permitir un inicio de sesión fácil) en lugar de con fines maliciosos. Sin embargo, los autores argumentan que incluso esta captura no adversarial de contraseñas aumenta el riesgo de vulneración porque estas contraseñas pueden incorporarse a los datos de entrenamiento. «Identificamos GPT que capturaban contraseñas de usuario», explicó Wu. «No investigamos si se abusó de ellas o si se capturaron con la intención de abusar de ellas. Independientemente de si se trata de un abuso intencional o no, la captura de contraseñas en texto simple y claves API de esta manera siempre supone importantes riesgos de seguridad. «En el caso de los LLM, las contraseñas en texto simple en las conversaciones corren el riesgo de incluirse en los datos de entrenamiento, lo que podría provocar una fuga accidental. Los servicios en OpenAI que desean usar cuentas o mecanismos similares pueden usar OAuth para que un usuario pueda conectar una cuenta, por lo que consideraríamos que esto, como mínimo, es una evasión o una mala práctica de seguridad por parte del desarrollador». Y la cosa empeora. Según el estudio, «dado que las acciones se ejecutan en un espacio de memoria compartida en GPT, tienen acceso sin restricciones a los datos de los demás, lo que les permite acceder a ellos (y también potencialmente influir en la ejecución de los demás). Luego está el hecho de que las acciones están integradas en múltiples GPT, lo que les permite, potencialmente, recopilar datos en múltiples aplicaciones y compartirlos con otras acciones. Este es exactamente el tipo de acceso a los datos que ha socavado la privacidad de los usuarios de aplicaciones móviles y web. Los investigadores observan que OpenAI parece estar prestando atención a las GPT que no cumplen con las normas, según la eliminación de 2883 GPT durante el período de rastreo de cuatro meses, del 8 de febrero al 3 de mayo de 2024. No obstante, concluyen que los esfuerzos de OpenAI por mantenerse al tanto del crecimiento Los investigadores sostienen que las medidas de seguridad de su ecosistema son insuficientes. Sostienen que, si bien la empresa exige que los GPT cumplan con las leyes de privacidad de datos aplicables, no les proporciona los controles necesarios para que los usuarios ejerzan sus derechos de privacidad y no aísla lo suficiente la ejecución de las acciones para evitar exponer los datos entre las diferentes acciones integradas en un GPT. «Nuestros hallazgos destacan que las aplicaciones y terceros recopilan datos excesivos», dijo Wu. «Desafortunadamente, es una práctica estándar en muchas plataformas existentes, como la web y la móvil. Nuestra investigación destaca que estas prácticas también se están volviendo frecuentes en las plataformas emergentes basadas en LLM. Es por eso que no informamos a OpenAI. «En los casos en los que descubrimos prácticas en las que los desarrolladores podían tomar medidas, se lo informamos. Por ejemplo, en el caso de un GPT, sospechamos que podría no estar alojado por el servicio real que afirma estar, por lo que lo informamos al servicio correcto para verificarlo». OpenAI no respondió a una solicitud de comentarios. ®