Desde la proliferación de grandes modelos de lenguaje (LLM), como GPT-4 de OpenAI, Llama 2 de Meta y PaLM 2 de Google, hemos visto una explosión de aplicaciones de IA generativa en casi todas las industrias, incluida la ciberseguridad. Sin embargo, para la mayoría de las aplicaciones de LLM, la privacidad y la residencia de datos son una preocupación importante que limita la aplicabilidad de estas tecnologías. En los peores casos, los empleados de las organizaciones, sin saberlo, envían información de identificación personal (PII) a servicios como ChatGPT, fuera de los controles de su organización, sin comprender los riesgos de seguridad asociados. Del mismo modo, no todos los modelos básicos se crean de la misma manera. Es posible que los resultados de estos modelos no siempre sean objetivos, y la variabilidad de sus resultados depende de una amplia variedad de factores técnicos. ¿Cómo pueden los consumidores de LLM validar que un proveedor está utilizando los modelos más apropiados para el caso de uso deseado, respetando al mismo tiempo la privacidad, la residencia de datos y la seguridad? Este artículo abordará estas consideraciones y tendrá como objetivo brindar a las organizaciones una mejor capacidad para evaluar cómo utilizar y gestionar modelos LLM a lo largo del tiempo. LLM propietarios versus de código abierto Para comenzar la discusión, es importante proporcionar algunos antecedentes técnicos en la implementación y operación de los servicios LLM. En el sentido más amplio, existen dos clases de LLM: modelos propietarios y de código abierto. Ejemplos de LLM propietarios son GPT-3.5 y GPT-4 de OpenAI, y PaLM 2 de Google (el modelo detrás de Bard), donde el acceso está oculto detrás de API o aplicaciones de chat orientadas a Internet. La segunda clase son los modelos de código abierto, como los alojados. en el popular repositorio público de modelos Hugging Face o modelos como Llama 2. Cabe señalar que cualquier servicio comercial que utilice LLM de código abierto debería ejecutar alguna variante de Llama 2, ya que actualmente es el software abierto de última generación. modelo de código fuente para muchas aplicaciones comerciales. La principal ventaja de los modelos de código abierto es la capacidad de alojarlos localmente en una infraestructura propiedad de la organización, ya sea utilizando hardware dedicado local o en entornos de nube administrados de forma privada. Esto brinda a los propietarios un control total sobre cómo se utiliza el modelo y puede garantizar que los datos permanezcan dentro del dominio y el control de la organización. Si bien estos modelos de código abierto pueden tener actualmente un rendimiento inferior al de los modelos GPT-4 y PaLM 2 actuales y de última generación, esa brecha se está cerrando rápidamente. Aunque existe un gran revuelo en torno a estas tecnologías, pueden presentar varios problemas de seguridad que pueden pasarse por alto fácilmente. Actualmente, no existen estándares regulatorios o de cumplimiento sólidos para regir o auditar estas tecnologías específicas de la IA. Actualmente se están preparando muchos actos legislativos, como las Leyes de Datos e Inteligencia Artificial (AIDA) en Canadá, la Ley de IA de la UE, el Plan para la Declaración de Derechos de la IA en los EE. UU. y otros estándares específicos que se están desarrollando a través del NIST. la SEC y la FTC. Sin embargo, a pesar de estas pautas iniciales, hoy en día existe muy poca aplicación o supervisión regulatoria. Por lo tanto, los desarrolladores son responsables de seguir las mejores prácticas existentes en torno a sus implementaciones de aprendizaje automático, y los usuarios deben realizar la debida diligencia en su cadena de suministro de IA. Con estos tres aspectos en mente (modelos propietarios frente a modelos de código abierto, consideraciones de rendimiento/precisión y falta de supervisión regulatoria), hay dos preguntas principales que deben plantearse a los proveedores que están aprovechando el LLM en sus productos: ¿Cuál es el modelo base? ¿Se utiliza y dónde se aloja? Salvaguardar la seguridad y la privacidad de los LLM Abordemos primero la primera pregunta. Para cualquier organización moderna, la respuesta suele ser GPT-3.5 o GPT-4 si utiliza modelos propietarios. Si un proveedor utiliza modelos de código abierto, puede esperar que sea alguna variante de Llama 2. Si un proveedor utiliza el modelo GPT-3.5 o GPT-4, se deben abordar varias preocupaciones sobre la privacidad y la residencia de los datos. Por ejemplo, si utilizan la API de OpenAI, puede esperar que todos los datos ingresados ​​se envíen a OpenAI, que OpenAI recopilará y utilizará para volver a entrenar sus modelos. Si se envía PII, esto violará muchas políticas de cumplimiento, riesgo y gobernanza de datos (GRC), lo que hará que el uso de la API OpenAI sea inaceptable para muchos casos de uso. Por el contrario, si su proveedor o aplicación de IA generativa utiliza el servicio Azure OpenAI, OpenAI no comparte ni guarda los datos. Tenga en cuenta que existen varias tecnologías que pueden eliminar las indicaciones de LLM de PII antes de enviarlas a puntos finales propietarios para mitigar el riesgo de Fuga de PII. Sin embargo, la depuración de PII es difícil de generalizar y validar con un 100% de certeza. Como tal, los modelos de código abierto alojados localmente brindan una protección mucho mayor contra las violaciones de GRC en comparación con los modelos propietarios. Sin embargo, las organizaciones que implementan modelos de código abierto deben garantizar que existan controles de seguridad estrictos para proteger los datos y los modelos de los actores de amenazas (por ejemplo, , cifrado en llamadas API, controles de residencia de datos, controles de acceso basados ​​en roles en conjuntos de datos, etc.). Sin embargo, si la privacidad no es una preocupación, normalmente se prefiere el uso de modelos propietarios debido al costo, la latencia y la fidelidad de sus respuestas. Para ampliar el nivel de conocimiento que existe dentro de la implementación de IA, puede utilizar una puerta de enlace LLM. Se trata de un proxy API que permite a la organización de usuarios realizar registros y validaciones en tiempo real de las solicitudes enviadas a los LLM, así como realizar un seguimiento de cualquier dato que se comparta y se devuelva a usuarios individuales. La puerta de enlace LLM proporciona un punto de control que puede agregar más garantías contra dichas violaciones de PII al monitorear las solicitudes y, en muchos casos, remediar los problemas de seguridad asociados con los LLM. Esta es un área en desarrollo, pero será necesaria si queremos crear sistemas de inteligencia artificial que sean «seguros por diseño». Garantizar la precisión y coherencia de los LLM Now, en el rendimiento o precisión del modelo. Los LLM están capacitados con enormes cantidades de datos extraídos de Internet. Dichos conjuntos de datos incluyen CommonCrawl, WebText, C4, CoDEx y BookCorpus, solo por nombrar algunos. Estos datos subyacentes comprenden el mundo que comprenderá el LLM. Por lo tanto, si el modelo se entrena sólo con un tipo de datos muy específico, su visión será muy limitada y experimentará dificultades para responder preguntas fuera de su dominio. El resultado será un sistema más propenso a alucinaciones de IA que generan respuestas sin sentido o totalmente falsas. Para muchas de las aplicaciones propuestas en las que los LLM deberían sobresalir, dar respuestas falsas puede tener graves consecuencias. Afortunadamente, muchos de los LLM principales han recibido capacitación en numerosas fuentes de datos. Esto permite que estos modelos hablen sobre un conjunto diverso de temas con cierta fidelidad. Sin embargo, normalmente no hay suficiente conocimiento en dominios especializados en los que los datos son relativamente escasos, como temas técnicos profundos en medicina, academia o ciberseguridad. Como tal, estos grandes modelos base generalmente se refinan aún más mediante un proceso llamado ajuste fino. El ajuste fino permite que estos modelos logren una mejor alineación con el dominio deseado. El ajuste se ha convertido en una ventaja tan fundamental que incluso OpenAI lanzó recientemente soporte para esta capacidad para competir con los modelos de código abierto. Con estas consideraciones en mente, los consumidores de productos LLM que desean los mejores resultados posibles, con errores mínimos, deben comprender los datos en los que se entrena (o ajusta) el LLM para garantizar un uso y aplicabilidad óptimos. Por ejemplo, la ciberseguridad es un dominio subrepresentado en los datos subyacentes utilizados para entrenar estos modelos base. Esto, a su vez, predispone a estos modelos a generar respuestas más ficticias o falsas cuando se habla de ciberdatos y ciberseguridad. Aunque la porción de temas de ciberseguridad dentro de los datos de capacitación de estos LLM es difícil de discernir, es seguro decir que es mínima en comparación con temas más convencionales. Por ejemplo, GPT-3 se entrenó con 45 TB de datos; compárelo con el conjunto de datos cibernéticos de 2 GB utilizado para ajustar el modelo CySecBert. Si bien los LLM de propósito general pueden proporcionar una mayor fluidez en el lenguaje natural y la capacidad de responder de manera realista a los usuarios, los datos especializados utilizados en el ajuste es donde se puede generar el mayor valor. Si bien el ajuste de los LLM se está volviendo cada vez más común, reunir la disponer de datos adecuados para ajustar los modelos básicos puede resultar complicado. Por lo general, esto requiere que el proveedor tenga una infraestructura de ingeniería de datos relativamente madura y recopile los atributos relevantes en formatos no estructurados. Como tal, comprender cómo un proveedor implementa el proceso de ajuste y los datos con los que se entrena un modelo es fundamental para comprender su rendimiento relativo y, en última instancia, hasta qué punto la aplicación puede ofrecer resultados confiables. Para las empresas interesadas en desarrollar productos de IA o utilizar un servicio de otro proveedor, comprender de dónde provienen esos datos y cómo se utilizaron como parte del ajuste será un nuevo diferenciador del mercado. Si analizamos la seguridad, la privacidad y el rendimiento problemas que surgen con el uso de LLM, debemos poder administrar y rastrear cómo los usuarios interactuarán con estos sistemas. Si no consideramos esto desde el principio, correremos el riesgo de que las generaciones anteriores de profesionales de TI se enfrentaran al uso de TI en la sombra y a implementaciones predeterminadas inseguras. Tenemos la oportunidad de incorporar seguridad y privacidad en la forma en que se entrega la IA generativa desde el principio, y no debemos perderla. Jeff Schwartzentruber es científico senior de aprendizaje automático en eSentire.—Generative AI Insights proporciona un lugar para los líderes tecnológicos explorar y discutir los desafíos y oportunidades de la inteligencia artificial generativa. La selección es amplia, desde análisis profundos de tecnología hasta estudios de casos y opiniones de expertos, pero también subjetiva, basada en nuestro juicio sobre qué temas y tratamientos servirán mejor a la audiencia técnicamente sofisticada de InfoWorld. InfoWorld no acepta garantías de marketing para su publicación y se reserva el derecho de editar todo el contenido aportado. Póngase en contacto con doug_dineley@foundryco.com. Copyright © 2023 IDG Communications, Inc.

Source link