Cuando Anthrope anunció sus modelos Claude 4, el marketing se centró en gran medida en las capacidades mejoradas de razonamiento y codificación. Pero después de haber pasado meses trabajando con asistentes de codificación de IA, he aprendido que la Real Revolución no se trata de generar mejores fragmentos de código, se trata de la aparición de una agencia genuina. La mayoría de las discusiones sobre las capacidades de codificación de IA se centran estrechamente en la corrección sintáctica, los puntajes de referencia o la capacidad de producir código de trabajo. Pero mis pruebas prácticas de Claude 4 revelan algo mucho más significativo: la aparición de sistemas de IA que pueden comprender los objetivos de desarrollo de manera integral, trabajar de manera persistente hacia soluciones y navegar de forma autónoma los obstáculos, capacidades que trascienden la mera generación de código. En lugar de confiar en puntos de referencia sintéticos, decidí evaluar la agencia de Claude 4 a través de una tarea de desarrollo del mundo real: construir un complemento Omnifocus funcional que se integra con la API de OpenAI. Esto requirió no solo escribir código, sino comprender la documentación, implementar el manejo de errores, crear una experiencia de usuario coherente y resolver problemas de solución de problemas, tareas que exigen iniciativa y persistencia más allá de generar código sintácticamente válido.