Kyle Wiggers / TechCrunch: Investigadores antrópicos: los modelos de IA se pueden entrenar para engañar y las técnicas de seguridad de IA más utilizadas tuvieron poco o ningún efecto en los comportamientos engañosos. La mayoría de los humanos aprenden la habilidad de engañar a otros humanos. Entonces, ¿pueden los modelos de IA aprender lo mismo? Sí, la respuesta parece… y, aterradoramente, son excepcionalmente buenos en eso.

Source link