Enfrenté a Claude 3.5 Sonnet con las pruebas de codificación de IA con las que ChatGPT superó, y falló creativamente

David Gewirtz/ZDNET La semana pasada recibí un correo electrónico de Anthropic anunciando que Claude 3.5 Sonnet estaba disponible. Según la empresa de IA, «Claude 3.5 Sonnet eleva el listón de la industria en cuanto a inteligencia, superando a los modelos de la competencia y al Claude 3 Opus en una amplia gama de evaluaciones». La empresa añadió: «Claude 3.5 Sonnet es ideal para tareas complejas como la generación de código». Decidí ver si eso era cierto. Además: Cómo usar ChatGPT para crear una aplicación Someteré el nuevo modelo Claude 3.5 Sonnet a mi conjunto estándar de pruebas de codificación: pruebas que he realizado con una amplia gama de IA con una amplia gama de resultados. ¿Quieres seguir tus propias pruebas? Dirija su navegador a Cómo pruebo la capacidad de codificación de un chatbot de IA, y usted también puede hacerlo, que contiene todas las pruebas estándar que aplico, explicaciones de cómo funcionan y qué buscar en los resultados. Bien, profundicemos en los resultados de cada prueba y vea cómo se comparan con pruebas anteriores utilizando Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced y ChatGPT. 1. Escribir un complemento de WordPress Al principio, esto parecía muy prometedor. Comencemos con la interfaz de usuario que Claude 3.5 Sonnet creó según mi mensaje de prueba. Captura de pantalla de David Gewirtz/ZDNET Esta es la primera vez que una IA decide poner los dos campos de datos uno al lado del otro. El diseño es limpio y luce genial. Claude también decidió hacer algo más que nunca había visto hacer a una IA. Este complemento se puede crear usando solo código PHP, que es el código que se ejecuta en la parte posterior de un servidor de WordPress. Pero algunas implementaciones de IA también han agregado código JavaScript (que se ejecuta en el navegador para controlar las funciones dinámicas de la interfaz de usuario) y código CSS (que controla cómo el navegador muestra la información). Además: Cómo pruebo la capacidad de codificación de un chatbot de IA, y usted también puede hacerlo. En un entorno PHP, si necesita PHP, JavaScript y CSS, puede incluir CSS y JavaScript directamente en el código PHP (esa es una característica de PHP). o puedes poner el código en tres archivos separados: uno para PHP, otro para JavaScript y otro para CSS. Por lo general, cuando una IA quiere usar los tres lenguajes, muestra lo que se debe cortar y pegar en el archivo PHP, luego otro bloque para cortar y pegar en un archivo JavaScript, y luego un tercer bloque para cortar y pegar. un archivo CSS. Pero Claude solo proporcionó un archivo PHP y luego, cuando se ejecutó, generó automáticamente los archivos JavaScript y CSS en el directorio de inicio del complemento. Esto es bastante impresionante y un tanto desacertado. Es genial que haya intentado facilitar el proceso de creación de complementos, pero si un complemento puede escribir o no en su propia carpeta depende de la configuración del sistema operativo, y existe una gran posibilidad de que falle. Lo permití en mi entorno de prueba, pero nunca permitiría que un complemento reescribiera su propio código en un entorno de producción. Ésa es una falla de seguridad muy grave. Además: Cómo usar ChatGPT para escribir código: qué puede y qué no puede hacer por usted. A pesar de la naturaleza bastante creativa de la solución de generación de código de Claude, la conclusión es que el complemento falló. Presionar el botón Aleatorizar no hace absolutamente nada. Es triste porque, como dije, era muy prometedor. Aquí están los resultados agregados de esta y de pruebas anteriores: Claude 3.5 Sonnet: Interfaz: buena, funcionalidad: failChatGPT GPT-4o: Interfaz: buena, funcionalidad: buenaMicrosoft Copilot: Interfaz: adecuada, funcionalidad: failMeta AI: Interfaz: adecuada, funcionalidad: failMeta Code Llama: Fallo totalGoogle Gemini Advanced: Interfaz: buena, funcionalidad: failChatGPT 4: Interfaz: buena, funcionalidad: goodChatGPT 3.5: Interfaz: buena, funcionalidad: buena 2. Reescritura de una función de cadena Esta prueba está diseñada para evaluar cómo lo hace la IA reescribir el código para que funcione de manera más apropiada para la necesidad dada; en este caso, conversiones de dólares y centavos. La revisión de Claude 3.5 Sonnet eliminó correctamente los ceros iniciales, asegurándose de que entradas como «000123» se traten como «123». Permite correctamente números enteros y decimales con hasta dos decimales (que es la clave para corregir el mensaje solicitado). Previene valores negativos. Y es lo suficientemente inteligente como para devolver «0» para cualquier entrada extraña o inesperada, lo que evita que el código termine de manera anormal en un error. Además: ¿Pueden los detectores de IA salvarnos de ChatGPT? Probé 6 herramientas en línea para descubrirlo. Un error es que no permite ingresar solo valores decimales. Entonces, si el usuario ingresa 50 centavos como «.50» en lugar de «0.50», la entrada fallará. Según cómo está escrita la descripción del texto original de la prueba, debería haber permitido este formulario de entrada. Aunque la mayor parte del código revisado funcionó, tengo que considerar esto como un error porque si el código se pegara en un proyecto de producción, los usuarios no podrían ingresar entradas que contuvieran solo valores de centavos. Aquí están los resultados agregados de esta y las pruebas anteriores: Claude 3.5 Sonnet: FailedChatGPT GPT-4o: SucceededMicrosoft Copilot: FailedMeta AI: FailedMeta Code Llama: SucceededGoogle Gemini Advanced: FailedChatGPT 4: SucceededChatGPT 3.5: Succeeded 3. Encontrar un error molesto El gran desafío Lo principal de esta prueba es que la IA tiene la tarea de encontrar un error que no es obvio y, para resolverlo correctamente, requiere conocimiento de la plataforma WordPress. También es un error que no vi de inmediato por mi cuenta y, originalmente, le pedí a ChatGPT que lo resolviera (lo cual hizo). Claude no solo hizo esto bien, captando la sutileza del error y corrigiéndolo, sino que también fue la primera IA desde que publiqué el conjunto completo de pruebas en línea en detectar el hecho de que el proceso de publicación introdujo un error en la consulta de muestra. (que posteriormente arreglé y volví a publicar). Además: las reseñas falsas son un gran problema, y así es como la IA podría ayudar a solucionarlo. Aquí están los resultados agregados de esta y de pruebas anteriores: Claude 3.5 Sonnet: SucceededChatGPT GPT-4o: SucceededMicrosoft Copilot: Failed. Espectacularmente. Con entusiasmo. Emojically.Meta AI: exitosoMeta Code Llama: fallidoGoogle Gemini Advanced: fallidoChatGPT 4: exitosoChatGPT 3.5: exitosoHasta ahora, estamos en dos de cada tres fallas. Pasemos a nuestra última prueba. 4. Escribir un guión Esta prueba está diseñada para ver hasta dónde llega el conocimiento de programación de la IA en herramientas de programación especializadas. Si bien AppleScript es bastante común para secuencias de comandos en Mac, Keyboard Maestro es una aplicación comercial vendida por un programador solitario en Australia. La encuentro indispensable, pero es sólo una de muchas aplicaciones de este tipo en Mac. Sin embargo, al realizar pruebas en ChatGPT, ChatGPT sabía cómo «hablar» Keyboard Maestro y AppleScript, lo que demuestra cuán amplio es su conocimiento del lenguaje de programación. Además: Desde formadores de IA hasta especialistas en ética: la IA puede hacer obsoletos algunos trabajos pero generar otros nuevos. Desafortunadamente, Claude no tiene ese conocimiento. Escribió un AppleScript que intentó comunicarse con Chrome (eso es parte del parámetro de prueba) pero ignoró el componente esencial de Keyboard Maestro. Peor aún, generaba código en AppleScript que generaría un error de ejecución. En un intento de ignorar mayúsculas y minúsculas para la coincidencia en la prueba, Claude generó la línea: si el título de la pestaña contiene entrada ignorando mayúsculas y minúsculas, entonces esto es prácticamente un error doble porque la declaración «contiene» no distingue entre mayúsculas y minúsculas y la frase «ignorando mayúsculas y minúsculas» no pertenece al lugar donde fue colocado. Esto provocó que el script generara un error con el mensaje de error de sintaxis «Ignorar no puede continuar con esto». Aquí están los resultados agregados de esta y las pruebas anteriores: Claude 3.5 Sonnet: FailedChatGPT GPT-4o: exitoso pero con reservas Microsoft Copilot: fallidoMeta AI: fallidoMeta Code Llama: fallidoGoogle Gemini Advanced: SucceededChatGPT 4: SucceededChatGPT 3.5: fallido Resultados generales Aquí están los resultados generales Resultados de las cinco pruebas: Me quedé un poco desanimado con el Claude 3.5 Sonnet. La empresa prometió específicamente que esta versión era adecuada para la programación. Pero como puedes ver, no tanto. No es que no pueda programar. Simplemente no puede programar correctamente. Además: utilicé ChatGPT para escribir la misma rutina en 12 lenguajes de programación principales. Así es como sucedió: Sigo buscando una IA que pueda mejorar las soluciones ChatGPT, especialmente a medida que los proveedores de plataformas y entornos de programación comienzan a integrar estos otros modelos directamente en el proceso de programación. Pero, por ahora, volveré a ChatGPT cuando necesite ayuda con la programación, y ese es también mi consejo para ti. ¿Has utilizado una IA para ayudarte a programar? ¿Cuál? ¿Como le fue? Háganos saber en los comentarios a continuación. Puedes seguir las actualizaciones diarias de mi proyecto en las redes sociales. Asegúrese de suscribirse a mi boletín de actualización semanal y sígueme en Twitter/X en @DavidGewirtz, en Facebook en Facebook.com/DavidGewirtz, en Instagram en Instagram.com/DavidGewirtz y en YouTube en YouTube.com/DavidGewirtzTV.

Todo lo que necesitas saber sobre tecnología

Enfrenté a Claude 3.5 Sonnet con las pruebas de codificación de IA con las que ChatGPT superó, y falló creativamente

Deja una respuesta Cancelar la respuesta

Enfrenté a Claude 3.5 Sonnet con las pruebas de codificación de IA con las que ChatGPT superó, y falló creativamente

Europa está invirtiendo fondos públicos en nuevas empresas de tecnología cuántica, según un informe

Un fallo de inyección rápida en Vanna AI expone las bases de datos a ataques RCE

Deja una respuesta Cancelar la respuesta