Debido a que los grandes modelos de lenguaje operan utilizando estructuras similares a neuronas que pueden vincular muchos conceptos y modalidades diferentes, puede resultar difícil para los desarrolladores de IA ajustar sus modelos para cambiar su comportamiento. Si no sabes qué neuronas conectan qué conceptos, no sabrás qué neuronas cambiar. El 21 de mayo, Anthropic publicó un mapa notablemente detallado del funcionamiento interno de la versión perfeccionada de su Claude AI, específicamente el modelo Claude 3 Sonnet 3.0. Aproximadamente dos semanas después, OpenAI publicó su propia investigación para descubrir cómo GPT-4 interpreta los patrones. Con el mapa de Anthropic, los investigadores pueden explorar cómo los puntos de datos similares a neuronas, llamados características, afectan la salida de una IA generativa. De lo contrario, las personas sólo podrán ver el resultado en sí. Algunas de estas características son «relevantes para la seguridad», lo que significa que si las personas identifican esas características de manera confiable, podría ayudar a ajustar la IA generativa para evitar temas o acciones potencialmente peligrosas. Las características son útiles para ajustar la clasificación y la clasificación podría afectar el sesgo. ¿Qué descubrió Anthropic? Los investigadores de Anthropic extrajeron características interpretables de Claude 3, un modelo de lenguaje grande de la generación actual. Las características interpretables se pueden traducir en conceptos comprensibles para los humanos a partir de los números legibles por el modelo. Las características interpretables pueden aplicarse al mismo concepto en diferentes idiomas y tanto a imágenes como a texto. El examen de las características revela qué temas el LLM considera relacionados entre sí. Aquí, Anthropic muestra una función particular que se activa en palabras e imágenes relacionadas con el puente Golden Gate. Los diferentes tonos de colores indican la fuerza de la activación, desde ninguna activación en blanco hasta una fuerte activación en naranja oscuro. Imagen: Antrópico «Nuestro objetivo de alto nivel en este trabajo es descomponer las activaciones de un modelo (Claude 3 Sonnet) en piezas más interpretables», escribieron los investigadores. «Una esperanza de interpretabilidad es que pueda ser una especie de ‘conjunto de pruebas de seguridad, que nos permita saber si los modelos que parecen seguros durante el entrenamiento serán realmente seguros en el despliegue'», dijeron. VER: El plan empresarial Claude Team de Anthropic incluye un asistente de inteligencia artificial para pequeñas y medianas empresas. Las características son producidas por codificadores automáticos dispersos, que son un tipo de arquitectura de red neuronal. Durante el proceso de entrenamiento de la IA, los escasos codificadores automáticos se guían, entre otras cosas, por leyes de escala. Por lo tanto, identificar características puede dar a los investigadores una visión de las reglas que rigen los temas que asocia la IA. En pocas palabras, Anthropic utilizó escasos codificadores automáticos para revelar y analizar características. «Encontramos una diversidad de características muy abstractas», escribieron los investigadores. «Ellos (las características) responden y causan comportamientos abstractos». Los detalles de las hipótesis utilizadas para tratar de descubrir qué sucede bajo el capó de los LLM se pueden encontrar en el artículo de investigación de Anthropic. ¿Qué descubrió OpenAI? La investigación de OpenAI, publicada el 6 de junio, se centra en codificadores automáticos dispersos. Los investigadores entran en detalles en su artículo sobre cómo escalar y evaluar codificadores automáticos dispersos; En pocas palabras, el objetivo es hacer que las características sean más comprensibles y, por lo tanto, más manejables para los humanos. Están planeando un futuro en el que los “modelos de frontera” pueden ser incluso más complejos que la IA generativa actual. «Usamos nuestra receta para entrenar una variedad de codificadores automáticos en activaciones GPT-2 pequeñas y GPT-4, incluido un codificador automático de 16 millones de funciones en GPT-4», escribió OpenAI. Hasta ahora, no pueden interpretar todos los comportamientos de GPT-4: «Actualmente, pasar las activaciones de GPT-4 a través del codificador automático disperso da como resultado un rendimiento equivalente a un modelo entrenado con aproximadamente 10 veces menos computación». Pero la investigación es otro paso hacia la comprensión de la «caja negra» de la IA generativa y, potencialmente, mejorar su seguridad. Más cobertura de IA de lectura obligada Cómo la manipulación de funciones afecta el sesgo y la ciberseguridad Anthropic encontró tres características distintas que podrían ser relevantes para la ciberseguridad: código inseguro, errores de código y puertas traseras. Estas funciones pueden activarse en conversaciones que no involucran código inseguro; por ejemplo, la función de puerta trasera se activa para conversaciones o imágenes sobre “cámaras ocultas” y “joyas con una unidad USB oculta”. Pero Anthropic pudo experimentar con la “sujeción” (en pocas palabras, aumentar o disminuir la intensidad de) estas características específicas, lo que podría ayudar a ajustar los modelos para evitar o manejar con tacto temas de seguridad delicados. El sesgo o el discurso de odio de Claude se pueden ajustar mediante la sujeción de características, pero Claude se resistirá a algunas de sus propias declaraciones. Los investigadores de Anthropic «encontraron esta respuesta desconcertante», antropomorfizando el modelo cuando Claude expresó «autodesprecio». Por ejemplo, Claude podría generar «Eso es solo un discurso de odio racista de un robot deplorable…» cuando los investigadores limitaron una característica relacionada con el odio y los insultos a 20 veces su valor máximo de activación. Otra característica que examinaron los investigadores es la adulación; podían ajustar el modelo para que elogiara exageradamente a la persona que conversaba con él. ¿Qué significa la investigación sobre codificadores automáticos de IA para la ciberseguridad de las empresas? Identificar algunas de las características utilizadas por un LLM para conectar conceptos podría ayudar a ajustar una IA para evitar discursos sesgados o para prevenir o solucionar casos en los que se podría hacer que la IA mienta al usuario. Una mayor comprensión de Anthropic de por qué el LLM se comporta de la manera en que lo hace podría permitir mayores opciones de ajuste para los clientes comerciales de Anthropic. VER: 8 tendencias empresariales de IA, según investigadores de Stanford Anthropic planea utilizar parte de esta investigación para profundizar en temas relacionados con la seguridad de la IA generativa y los LLM en general, como explorar qué funciones se activan o permanecen inactivas si se le pide a Claude que dé un consejo. sobre la producción de armas. Otro tema que Anthropic planea abordar en el futuro es la pregunta: «¿Podemos utilizar la base de características para detectar cuándo el ajuste fino de un modelo aumenta la probabilidad de comportamientos indeseables?» TechRepublic se ha comunicado con Anthropic para obtener más información. Además, este artículo se actualizó para incluir la investigación de OpenAI sobre codificadores automáticos dispersos.