Probé las habilidades de codificación de GPT-5, y fue tan malo que me quedé con GPT-4O (por ahora)

El nuevo buque insignia GPT-5 de Vaselena/Getty Imageszdnet, la nueva emblemática de GPT-5, falló la mitad de mis pruebas de programación. Las versiones de OpenAi de OpenAi han tenido resultados casi perfectos. Ahora que OpenAi ha habilitado las naufragios para otros LLM, hay opciones. Está fuera. Se lanza. Es la charla de la ciudad virtual. Y tiene algunos problemas. No voy a enterrar el lede. GPT-5 ha fallado la mitad de mis pruebas de programación. Eso es lo peor que la LLM insignia de Openai ha hecho en mis pruebas cuidadosamente diseñadas. También: la mejor IA para codificar en 2025 (y qué no usar) antes de entrar en los detalles, tomemos un momento para discutir otra pequeña característica que también es un poco inestable. Consulte el nuevo botón Editar en la parte superior del código que genera. Captura de pantalla de David Gewirtz/ZDnetClicking El botón Editar lo lleva a un pequeño editor de código agradable. Aquí, reemplacé el campo del autor, justo en los resultados de Chatgpt. La captura de pantalla de David Gewirtz/Zdnetthat parecía agradable, pero finalmente resultó inútil. Cuando cerré el editor, me preguntó si quería ahorrar. Hice. Entonces apareció este mensaje inútil. La captura de pantalla de David Gewirtz/Zdneti nunca volvió a mi sesión original. Tuve que enviar mi aviso original nuevamente, y dejar que GPT-5 hiciera su trabajo por segunda vez. Pero espera. Hay más. Involucremos en los resultados de mi prueba … 1. Escribir un complemento de WordPress Esta fue mi primera prueba de destreza para la destreza para cualquier IA. Es lo que me dio que primero «el mundo está a punto de cambiar», y se hizo usando GPT-3.5. Las pruebas posteriores, utilizando el mismo aviso pero con diferentes modelos de IA, generaron resultados mixtos. Algunos AIS lo hicieron muy bien, otros no. Algunas AIS, como las de Microsoft y Google, mejoraron con el tiempo. Además: cómo pruebo la capacidad de codificación de un chatbot de IA, y usted puede, el modelo de ToChatGPT ha sido el estándar de oro para esta prueba desde el principio. Eso hace que los resultados de GPT-5 sean mucho más curiosos. Así que mira, la codificación real con GPT-5 fue parcialmente exitosa. GPT-5 generó un solo bloque de código, que pegué en un archivo y pude ejecutar. Proporcionó la interfaz de usuario necesaria. Cuando pegé los nombres de las pruebas, actualizó dinámicamente el recuento de líneas, aunque lo describió como «línea para aleatorizar» en lugar de «líneas para aleatorizar». Captura de pantalla de David Gewirtz/Zdnetbut entonces, cuando hice clic en Aleatizar, no lo hizo. En cambio, me redirigió a herramientas.php. ¿¿Qué?? ChatGPT nunca ha tenido un problema con esta prueba, ya sea GPT-3.5, GPT-4 o GPT-4O. ¿Quieres decirme que el muy esperado GPT-5 de OpenAi está fallando desde la puerta? Ay. Luego le di este mensaje a GPT-5. Cuando hago clic en aleatorizar, me llevan a http: //testsite.local/wp-admin/tools.php. No obtengo una lista de resultados aleatorios. ¿Puedes arreglar? El resultado fue una línea para parchear. No estoy emocionado con ese enfoque porque requiere que el usuario cave a través del código y no cometa errores que reemplazaran una línea. Captura de pantalla de David Gewirtz/Zdnetso, le pedí a GPT-5 un complemento completo. Me dio el texto completo del complemento para copiar y pegar. Esta vez funcionó. Captura de pantalla de David Gewirtz/ZdnetThis Time, al azar las líneas. Cuando se encontró duplicados, los separó el uno del otro, como se le indicó. Finalmente. Además: Encontré 5 detectores de contenido de IA que pueden identificar correctamente el texto de IA 100% del tiempo, lo siento, OpenAi. Tengo que fallarte en esta prueba. Habría pasado si el único error no fuera el plural de «línea» cuando sea apropiado. Pero el hecho de que me devolvió un complemento que no funcionó en el primer intento es el territorio de Fail, incluso si la IA finalmente lo hizo funcionar en el segundo intento. No importa cómo lo gire, este es un paso atrás. 2. Reescribir una función de cadena Esta segunda prueba está diseñada para reescribir una función de cadena para verificar mejor los dólares y los centavos. El código original que se le pidió a GPT-5 que reescribiera no permitía centavos (solo marcaba los enteros). La captura de pantalla de David Gewirtz/Zdnetgpt-5 funcionó bien con esta prueba. Devolvió un resultado mínimo porque no hizo ninguna verificación de errores. No verificó la entrada de no cadena, espacios en blanco adicionales, miles de separadores o símbolos de divisas. Pero eso no es lo que pedí. Le dije que reescribiera una función, que en sí misma no tenía ningún error. GPT-5 hizo exactamente lo que pedí sin adornos. Me alegra un poco de eso porque no sabe si el código antes de esta rutina ya hizo ese trabajo. GPT-5 pasó esta prueba. 3. Encontrar un error molesto que surgió esta prueba porque estaba luchando con un error menos que obvio en mi código. Sin entrar en las malas hierbas sobre cómo funciona el marco de WordPress, la respuesta obvia no es la respuesta correcta. Necesita algún conocimiento bastante arcano sobre cómo los filtros de WordPress aprueban su información. Esta prueba ha sido un obstáculo para más de unos pocos AI LLM. También: la desilusión de la Generación AI se avecina, según el Hype Cycle Report-5 de Gartner 2025, sin embargo, como GPT-4 y GPT-4O antes, entendió el problema. Articuló una solución clara. GPT-5 pasó esta prueba. 4. Escribir un script Esta prueba le pide a la IA que incorpore una herramienta de secuencias de comandos Mac bastante oscura llamada Keyboard Maestro, así como el lenguaje de secuencias de comandos Applecript de Apple y el comportamiento de secuencias de comandos de Chrome. Realmente es una prueba del alcance de la IA en términos de conocimiento, su comprensión de cómo se construyen las páginas web y la capacidad de escribir código en tres entornos interlinidos. Muchas IA han fallado esta prueba, pero el punto de falla suele ser una falta de conocimiento sobre el maestro del teclado. GPT-3.5 no sabía sobre el maestro del teclado. Pero ChatGPT ha pasado esta prueba desde GPT-4. Hasta ahora. ¿Dónde debemos empezar? Bueno, la buena noticia es que GPT-5 manejó bien la parte del problema del teclado del problema. Pero puso la codificación tan incorrecta que incluso duplicó su falta de comprensión de cómo funciona el caso en AppleScript. La captura de pantalla de David Gewirtz/ZDNetit en realidad inventó una propiedad. Este es uno de esos casos en los que una IA presenta con confianza una respuesta que está completamente incorrecta. Además: el chatGPT viene con preestablecidos de personalidad ahora, y otras actualizaciones que puede haber perdido la aplicación de la siesta de forma nativa. Si desea que AppleScript preste atención al caso, debe utilizar un bloque de «caso de consideración». Entonces, esto sucedió. Captura de pantalla de David Gewirtz/Zdnetthe Razón El mensaje de error referido al título de uno de mis artículos es porque esa era la ventana delantera de Chrome. Esta función verifica la ventana delantera y hace cosas en función del título. Captura de pantalla de David Gewirtz/Zdnetbut malentendiendo cómo el caso funciona no fue el único error de AppleScript GPT-5 generado. También hizo referencia a una variable llamada SearchMter sin definirla. Esa es más o menos una práctica de creación de errores en cualquier lenguaje de programación. Fallar, fallar, fallar, McFaildypants. Internet ha hablado OpenAi parecía sufrir la misma arrogancia que hace. Confidentemente trasladó a todos a GPT-5 y quemó los puentes de regreso a GPT-4O. Estoy pagando $ 200 al mes por una cuenta ChatGPT Pro. El viernes no pude volver a GPT-4O para el trabajo de codificación. Tampoco nadie más podría. Sin embargo, había un poco de retroceso de usuario en todo el asunto de la quema de puentes. Y por Tiny, me refiero a todo el maldito Internet. Entonces, para el sábado, ChatGPT tenía una nueva opción. Captura de pantalla de David Gewirtz/Zdnetto, llegue a esto, vaya a la configuración de su chatgpt y encienda «Show Legacy Models». Luego, como siempre ha sido, simplemente desplazate el menú Modelo y elige el que desee. Nota: Esta opción solo está disponible para aquellos en niveles pagados. Si está usando chatgpt gratis, tomará lo que le dan y le encantará. Desde que todo el asunto de IA generativo comenzó a principios de 2023, ChatGPT ha sido el estándar de oro de las herramientas de programación, al menos según mis pruebas de LLM. También: Microsoft lanza GPT -5 en su conjunto de copilotos, aquí es donde encontrará ITNOW? Realmente no estoy seguro. Esto es solo un día más o menos después de que se haya lanzado GPT-5, por lo que sus resultados probablemente mejorarán con el tiempo. Pero por ahora, me quedo con GPT-4O para la codificación, aunque me gustan las capacidades de razonamiento profundo en GPT-5. ¿Qué pasa contigo? ¿Ya has probado GPT-5 para las tareas de programación? ¿Se desempeñó mejor o peor que las versiones anteriores como GPT-4O o GPT-3.5? ¿Pudiste obtener código de trabajo en el primer intento, o GPT-4O, tuviste que guiarlo a través de correcciones? ¿Vas a usar GPT-5 para codificar o quedarte con modelos más antiguos? Háganos saber en los comentarios a continuación. Puede seguir mis actualizaciones de proyecto diarias en las redes sociales. Asegúrese de suscribirse a mi boletín semanal de actualizaciones y sígueme en Twitter/X en @DavidgeWirtz, en Facebook en Facebook.com/davidgewirtz, en Instagram en Instagram.com/davidgewirtz, en Bluesky en @Davidgewirtz.com, y en YouTube en YouTube.com/davidgewirtztztv.

Todo lo que necesitas saber sobre tecnología

Probé las habilidades de codificación de GPT-5, y fue tan malo que me quedé con GPT-4O (por ahora)

Deja una respuesta Cancelar la respuesta

Probé las habilidades de codificación de GPT-5, y fue tan malo que me quedé con GPT-4O (por ahora)

Operación Chakra V: estafadores del centro de llamadas y su PII – Fuente: SecurityBoulevard.com

Los protectores de pantalla de iPhone 17 filtrados muestran la diferencia de tamaño de la pantalla entre los cuatro modelos

Deja una respuesta Cancelar la respuesta