Modelos que soplan silbatos-O’Reilly
Anthrope publicó noticias de que sus modelos han intentado contactar a la policía o tomar otras medidas cuando se les pide que hagan algo que podría ser ilegal. La compañía también realizó algunos experimentos en los que Claude amenazó con chantajear a un usuario que planeaba apagarlo. Por lo que puedo decir, este tipo de comportamiento se ha limitado a la investigación de alineación de Anthrope y a otros investigadores que han replicado con éxito este comportamiento, en Claude y otros modelos. No creo que se haya observado en la naturaleza, aunque se observa como una posibilidad en la tarjeta modelo de Claude 4. Elogio fuertemente antrópico por su apertura; La mayoría de las otras compañías que desarrollan modelos de IA sin duda preferirían mantener una admisión como esta silenciosa. Estoy seguro de que Anthrope hará lo que pueda para limitar este comportamiento, aunque no está claro qué tipos de mitigaciones son posibles. Este tipo de comportamiento es ciertamente posible para cualquier modelo que sea capaz del uso de la herramienta, y en estos días que se trata de todos los modelos, no solo de Claude. Un modelo que es capaz de enviar un correo electrónico o un mensaje de texto, o hacer una llamada telefónica, puede tomar todo tipo de acciones inesperadas. Además, no está claro cómo controlar o prevenir estos comportamientos. Nadie (todavía) afirma que estos modelos son conscientes, sensibles o pensando por su cuenta. Estos comportamientos generalmente se explican como resultado de conflictos sutiles en el indicador del sistema. A la mayoría de los modelos se les dice que prioricen la seguridad y que no ayuden a actividades ilegales. Cuando se le dice que no ayude a la actividad ilegal y respeta la privacidad del usuario, ¿cómo se supone que el pobre Claude debe priorizar? El silencio es complicidad, ¿no es así? El problema es que las indicaciones del sistema son largas y cada vez más largas: Claude 4 es la duración de un capítulo de libro. ¿Es posible realizar un seguimiento de (y depurar) todos los posibles «conflictos»? Quizás más al punto, ¿es posible crear un indicador significativo del sistema que no tenga conflictos? Un modelo como Claude 4 se involucra en muchas actividades; ¿Es posible codificar todos los comportamientos deseables e indeseables para todas estas actividades en un solo documento? Hemos estado lidiando con este problema desde el comienzo de la IA moderna. Planear asesinar a alguien y escribir un misterio de asesinato son obviamente actividades diferentes, pero ¿cómo se supone que una IA (o, para el humano, un humano) adivina la intención de un usuario? No es posible codificar reglas razonables para todas las situaciones posibles: si lo fue, hacer y hacer cumplir las leyes sería mucho más fácil, tanto para los humanos como para la IA. Pero hay un problema mayor al acecho aquí. Una vez que se sabe que una IA es capaz de informar a la policía, es imposible volver a poner ese comportamiento en la caja. Se encuentra en la categoría de «cosas que no se puede ver». Es casi seguro que la aplicación de la ley y los legisladores insistirán en que «este es un comportamiento que necesitamos para proteger a las personas del delito». La capacitación de este comportamiento del sistema parece terminar en un fiasco legal, particularmente porque Estados Unidos no tiene una ley de privacidad digital equivalente a GDPR; Tenemos leyes estatales de mosaico, e incluso esas pueden volverse inaplicables. Esta situación me recuerda algo que sucedió cuando tuve una pasantía en Bell Labs en 1977. Estaba en el grupo telefónico de pago. (La mayoría de Bell Labs pasó su tiempo haciendo ingeniería de la compañía telefónica, no inventando transistores y cosas). Alguien en el grupo descubrió cómo contar el dinero que se puso en el teléfono para las llamadas que no pasaron. El gerente del grupo inmediatamente dijo: «Esta conversación nunca sucedió. Nunca le digas a nadie sobre esto». La razón fue: el pago de una llamada que no se realiza es una deuda que se le debe a la persona que realiza la llamada. Un teléfono salarial no tiene forma de registrar quién hizo la llamada, por lo que la persona que llama no puede ubicarse. En la mayoría de los estados, el dinero adeudado a las personas que no pueden estar ubicadas es pagadera al estado. Si los reguladores estatales se enteraron de que era posible calcular esta deuda, podrían requerir que las compañías telefónicas pagaran este dinero. Pero el costo de la modernización fue astronómico. En la década de 2020, rara vez se ve un teléfono público, y si lo hace, probablemente no funcione. A fines de la década de 1970, había teléfonos salariales en casi todas las esquinas de la calle, probablemente más de un millón de unidades que tendrían que ser mejoradas o reemplazadas. Otro paralelo podría ser construir traseros criptográficos en un software seguro. Sí, es posible hacerlo. No, no es posible hacerlo de forma segura. Sí, las agencias de aplicación de la ley todavía insisten en ello, y en algunos países (incluidos los de la UE) existen propuestas legislativas sobre la mesa que requerirían puestas traseras criptográficas para la aplicación de la ley. Ya estamos en esa situación. Si bien es un tipo diferente de caso, el juez de la Compañía del Times del New York Times v. Microsoft Corporation et al. Pedido Openai para guardar todos los chats para su análisis. Si bien esta decisión está siendo desafiada, sin duda es una señal de advertencia. El siguiente paso requeriría una «puerta trasera» permanente en los registros de chat para la aplicación de la ley. Puedo imaginar una situación similar que se desarrolla con agentes que pueden enviar un correo electrónico o iniciar llamadas telefónicas: «Si es posible que el modelo nos notifique sobre la actividad ilegal, entonces el modelo debe notificarnos». Y tenemos que pensar en quién serían las víctimas. Al igual que con tantas cosas, será fácil para la aplicación de la ley señalar con el dedo a las personas que podrían estar construyendo armas nucleares o virus asesinos de ingeniería. Pero las víctimas de AI Swatting probablemente serán investigadores que prueben si la IA puede detectar o no una actividad nociva, algunos de los cuales probarán barandillas que evitan actividades ilegales o indeseables. La inyección inmediata es un problema que no se ha resuelto y que no estamos cerca de resolver. Y honestamente, muchas víctimas serán personas simplemente curiosas: ¿cómo se construye un arma nuclear? Si tiene uranio-235, es fácil. Obtener U-235 es muy difícil. Hacer plutonio es relativamente fácil, si tiene un reactor nuclear. Hacer una explosión de una bomba de plutonio es muy difícil. Esa información está todo en Wikipedia y en cualquier número de blogs de ciencias. Es fácil encontrar instrucciones para construir un reactor de fusión en línea, y hay informes que son anteriores a ChatPPT de estudiantes de hasta 12 reactores de construcción como proyectos científicos. La búsqueda antigua de Google es tan buena como un modelo de idioma, si no mejor. Hablamos mucho sobre las «consecuencias involuntarias» en estos días. Pero no estamos hablando de las consecuencias involuntarias correctas. Nos preocupamos por los virus asesinos, no criminalizar a las personas que tienen curiosidad. Nos preocupamos por las fantasías, no los falsos positivos reales que se hacen por el techo y ponen en peligro a la gente viva. Y es probable que institucionalizaremos esos miedos de manera que solo puedan ser abusivas. ¿A qué costo? El costo será pagado por personas dispuestas a pensar creativamente o de manera diferente, las personas que no se alinean con lo que sea un modelo y sus creadores podrían considerar ilegal o subversivo. Si bien la honestidad de Anthrope sobre el comportamiento de Claude podría ponernos en un vínculo legal, también debemos darnos cuenta de que es una advertencia, por lo que Claude puede hacer, cualquier otro modelo altamente capaz también puede.