Sometí a mis cuatro pruebas de codificación de IA la versión preliminar o1 de OpenAI. Me sorprendió (en el buen sentido)

sankai/Getty ImagesPor lo general, cuando una empresa de software lanza un nuevo lanzamiento importante en mayo, no intenta superarlo con otro lanzamiento importante cuatro meses después. Pero no hay nada de inusual en el ritmo de innovación en el negocio de la IA. Además: 6 formas de escribir mejores indicaciones de ChatGPT y obtener los resultados que desea más rápidoAunque OpenAI lanzó su nuevo y poderoso modelo GPT-4o a mediados de mayo, la empresa ha estado ocupada. Ya en noviembre pasado, Reuters publicó un rumor de que OpenAI estaba trabajando en un modelo de lenguaje de próxima generación, entonces conocido como Q*. En mayo, duplicaron ese informe, afirmando que se estaba trabajando en Q* bajo el nombre en código de Strawberry. Strawberry, como se ve, es en realidad un modelo llamado o1-preview, que ahora está disponible como una opción para los suscriptores de ChatGPT Plus. Puedes elegir el modelo del menú desplegable de selección: Captura de pantalla de David Gewirtz/ZDNETComo puedes imaginar, si hay un nuevo modelo de ChatGPT disponible, lo voy a poner a prueba. Y eso es lo que estoy haciendo aquí. Además: Cómo ChatGPT escaneó 170k líneas de código en segundos y me ahorró horas de trabajoEl nuevo modelo Strawberry se centra en el razonamiento, dividiendo las indicaciones y los problemas en pasos. OpenAI muestra este enfoque a través de un resumen del razonamiento que se puede mostrar antes de cada respuesta.Cuando se le hace una pregunta a o1-preview, piensa un poco y luego muestra cuánto tiempo le llevó hacerlo. Si activas el menú desplegable, verás un razonamiento. Aquí hay un ejemplo de una de mis pruebas de codificación: Captura de pantalla de David Gewirtz/ZDNETEs bueno que la IA supiera lo suficiente como para agregar el manejo de errores, pero me parece interesante que o1-preview categorice ese paso bajo «Cumplimiento normativo». También descubrí que el modelo o1-preview proporciona más exposición después del código. En mi primera prueba, que creó un complemento de WordPress, el modelo proporcionó explicaciones del encabezado, la estructura de clases, el menú de administración, la página de administración, la lógica, las medidas de seguridad, la compatibilidad, las instrucciones de instalación, las instrucciones de funcionamiento e incluso los datos de prueba. Esa es mucha más información de la que proporcionaban los modelos anteriores. Además: La mejor IA para codificar en 2024 (y qué no usar) Pero realmente, la prueba está en el pudín. Sometamos este nuevo modelo a nuestras pruebas estándar y veamos qué tan bien funciona. 1. Escribir un complemento de WordPress Esta sencilla prueba de codificación requiere conocimientos del lenguaje de programación PHP y del marco de WordPress. El desafío le pide a la IA que escriba tanto el código de la interfaz como la lógica funcional, con el giro de que en lugar de eliminar las entradas duplicadas, tiene que separar las entradas duplicadas, para que no estén una al lado de la otra. El modelo o1-preview sobresalió. Presentó la UI primero como solo el campo de entrada: Captura de pantalla de David Gewirtz/ZDNETUna vez que se ingresaron los datos y se hizo clic en Aleatorizar líneas, la IA generó un campo de salida con datos de salida aleatorizados correctamente. Puede ver cómo se duplica Abigail Williams y, de acuerdo con las instrucciones de prueba, ambas entradas no se enumeran una al lado de la otra: Captura de pantalla de David Gewirtz/ZDNETEn mis pruebas de otros LLM, solo cuatro de los 10 modelos pasaron esta prueba. El modelo o1-preview completó esta prueba perfectamente. 2. Reescritura de una función de cadena Nuestra segunda prueba corrige una expresión regular de cadena que era un error informado por un usuario. El código original fue diseñado para probar si un número ingresado era válido para dólares y centavos. Desafortunadamente, el código solo permitía números enteros (por lo que se permitía 5, pero no 5,25). Además: Los lenguajes de programación más populares en 2024El LLM o1-preview reescribió el código con éxito. El modelo se unió a cuatro de mis pruebas LLM anteriores en el círculo de ganadores. 3. Encontrar un error molesto Esta prueba se creó a partir de un error del mundo real que tuve dificultades para resolver. Identificar la causa raíz requiere conocimiento del lenguaje de programación (en este caso PHP) y los matices de la API de WordPress. Los mensajes de error proporcionados no eran técnicamente precisos. Los mensajes de error hacían referencia al principio y al final de la secuencia de llamada que estaba ejecutando, pero el error estaba relacionado con la parte media del código. Además: 10 funciones que Apple Intelligence necesita para competir realmente con OpenAI y GoogleNo estaba solo en la lucha por resolver el problema. Tres de los otros LLM que probé no pudieron identificar la causa raíz del problema y recomendaron la solución más obvia (pero incorrecta) de cambiar el principio y el final de la secuencia de llamada. El modelo o1-preview proporcionó la solución correcta. En su explicación, el modelo también señaló la documentación de la API de WordPress para las funciones que usé incorrectamente, proporcionando un recurso adicional para aprender por qué había hecho su recomendación. Muy útil. 4. Escribir un script Este desafío requiere que la IA integre el conocimiento de tres esferas de codificación separadas, el lenguaje AppleScript, Chrome DOM (cómo se estructura internamente una página web) y Keyboard Maestro (una herramienta de programación especializada de un solo programador). Responder a esta pregunta requiere una comprensión de las tres tecnologías, así como también de cómo tienen que trabajar juntas. Una vez más, o1-preview tuvo éxito, uniéndose a solo tres de los otros 10 LLM que han resuelto este problema. Un chatbot muy hablador El nuevo enfoque de razonamiento para o1-preview ciertamente no disminuye la capacidad de ChatGPT para aprobar nuestras pruebas de programación. El resultado de mi prueba inicial del complemento de WordPress, en particular, parecía funcionar como una pieza de software más sofisticada que las versiones anteriores. Además: he probado docenas de chatbots de IA desde el debut de ChatGPT. Aquí está mi nueva elección principalEs genial que ChatGPT proporcione pasos de razonamiento al comienzo de su trabajo y algunos datos explicativos al final. Sin embargo, las explicaciones pueden ser muy conversacionales. Le pedí a o1-preview que escribiera «Hola mundo» en C#, la línea de prueba canónica en programación. Así es como respondió GPT-4o: Captura de pantalla de David Gewirtz/ZDNETY así es como o1-preview respondió a la misma prueba: Captura de pantalla de David Gewirtz/ZDNETQuiero decir, guau, ¿verdad? Eso es mucho chat de ChatGPT. También puede invertir el menú desplegable de razonamiento y obtener aún más información: Captura de pantalla de David Gewirtz/ZDNETToda esta información es excelente, pero es mucho texto para filtrar. Prefiero una explicación concisa, con opciones de información adicional en menús desplegables eliminados de la respuesta principal. Sin embargo, el modelo o1-preview de ChatGPT funcionó excelentemente. Espero ver qué tan bien funcionará cuando se integre más completamente con las características de GPT-4o, como el análisis de archivos y el acceso web. ¿Has probado a codificar con o1-preview? ¿Cuáles fueron tus experiencias? Cuéntanos en los comentarios a continuación. Puedes seguir las actualizaciones diarias de mi proyecto en las redes sociales. Asegúrate de suscribirte a mi boletín de actualizaciones semanales y sígueme en Twitter/X en @DavidGewirtz, en Facebook en Facebook.com/DavidGewirtz, en Instagram en Instagram.com/DavidGewirtz y en YouTube en YouTube.com/DavidGewirtzTV.

Todo lo que necesitas saber sobre tecnología

Sometí a mis cuatro pruebas de codificación de IA la versión preliminar o1 de OpenAI. Me sorprendió (en el buen sentido)

Deja una respuesta Cancelar la respuesta

Sometí a mis cuatro pruebas de codificación de IA la versión preliminar o1 de OpenAI. Me sorprendió (en el buen sentido)

Diseño de un manual de respuesta a incidentes centrado en la identidad

El Aston Villa entra en los deportes electrónicos con un torneo FIFA 18

Deja una respuesta Cancelar la respuesta