Probé las habilidades de codificación de GPT-5, y fue tan malo que me quedé con GPT-4O (por ahora)

código

Vaselena/Getty Images

Takeaways de interruptor de ZDNET

  • El nuevo buque insignia GPT-5 de OpenAI falló la parte de mis pruebas de programación.
  • Los lanzamientos anteriores de Operai han tenido resultados casi perfectos.
  • Ahora que OpenAI ha facultado las personas con otros LLM, hay opciones.

Entonces GPT-5 sucedió. Está fuera. Se aguijada. Es la charla de la ciudad aparente. Y tiene algunos problemas. No voy a relegar el lede. GPT-5 ha fallado la parte de mis pruebas de programación. Eso es lo peor que la LLM insignia de OpenAI ha hecho en mis pruebas cuidadosamente diseñadas.

Incluso: la mejor IA para codificar en 2025 (y qué no usar)

Antaño de entrar en los detalles, tomemos un momento para susurrar sobre otra pequeña característica que además sea un poco inestable. Consulte el nuevo tallo Editar en la parte superior del código que genera.

botón de edición

Captura de pantalla de David Gewirtz/Zdnet

Hacer clic en el tallo Editar lo lleva a un pequeño editor de código agradable. Aquí, reemplacé el campo del autor, encajado en los resultados de Chatgpt.

editor

Captura de pantalla de David Gewirtz/Zdnet

Eso parecía agradable, pero finalmente resultó inútil. Cuando cerré el editor, me preguntó si quería reservar. Hice. Entonces apareció este mensaje inútil.

salvado

Captura de pantalla de David Gewirtz/Zdnet

Nunca volví a mi sesión llamativo. Tuve que expedir mi aviso llamativo nuevamente, y dejar que GPT-5 hiciera su trabajo por segunda vez.

Pero prórroga. Hay más. Cavemos en los resultados de mi prueba …

1. Escribir un complemento de WordPress

Esta fue mi primera prueba de destreza de codificación para cualquier IA. Es lo que me dio que primero “el mundo está a punto de cambiar”, y se hizo usando GPT-3.5.

Las pruebas posteriores, utilizando el mismo aviso pero con diferentes modelos de IA, generaron resultados mixtos. Algunos AIS lo hicieron muy admisiblemente, otros no. Algunas AIS, como las de Microsoft y Google, mejoraron con el tiempo.

Incluso: cómo pruebo la capacidad de codificación de un chatbot de ai, y tú además puedes

El maniquí de ChatGPT ha sido el típico de oro para esta prueba desde el principio. Eso hace que los resultados de GPT-5 sean mucho más curiosos.

Entonces, mira, la codificación positivo con GPT-5 fue parcialmente exitosa. GPT-5 generó un solo bando de código, que pegué en un archivo y pude ejecutar. Proporcionó la interfaz de agraciado necesaria.

Cuando pegé los nombres de las pruebas, actualizó dinámicamente el recuento de líneas, aunque lo describió como “cuerda para aleatorizar” en oportunidad de “líneas para aleatorizar”.

complemento

Captura de pantalla de David Gewirtz/Zdnet

Pero luego, cuando hice clic al azar, no lo hizo. En cambio, me redirigió a herramientas.php. ¿¿Qué?? ChatGPT nunca ha tenido un problema con esta prueba, ya sea GPT-3.5, GPT-4 o GPT-4O. ¿Quieres decirme que el muy esperado GPT-5 de OpenAi está fallando desde la puerta? Ay.

Luego le di este mensaje a GPT-5.

Cuando hago clic en aleatorizar, me llevan a http: //testsite.recinto/wp-admin/tools.php. No obtengo una registro de resultados aleatorios. ¿Puedes arreglar?

El resultado fue una cuerda para parchear. No estoy emocionado con ese enfoque porque requiere que el agraciado cave a través del código y no cometa errores que reemplazaran una cuerda.

parche

Captura de pantalla de David Gewirtz/Zdnet

Entonces, le pedí a GPT-5 un complemento completo. Me dio el texto completo del complemento para copiar y pegar. Esta vez funcionó.

plugin2

Captura de pantalla de David Gewirtz/Zdnet

Esta vez, aleatorizó las líneas. Cuando se encontró duplicados, los separó el uno del otro, como se le indicó. Finalmente.

Incluso: Encontré 5 detectores de contenido de IA que pueden identificar correctamente el texto de IA el 100% del tiempo

Lo siento, Openai. Tengo que fallarte en esta prueba. Habría pasado si el único error no fuera el plural de “cuerda” cuando sea apropiado. Pero el hecho de que me devolvió un complemento que no funcionó en el primer intento es el comarca de Fail, incluso si la IA finalmente lo hizo funcionar en el segundo intento.

No importa cómo lo gire, este es un paso a espaldas.

2. Reescribir una función de condena

Esta segunda prueba está diseñada para reescribir una función de condena para probar mejor los dólares y los centavos. El código llamativo que se le pidió a GPT-5 que reescribiera no permitía centavos (solo marcaba los enteros).

Test2

Captura de pantalla de David Gewirtz/Zdnet

GPT-5 funcionó admisiblemente con esta prueba. Devolvió un resultado insignificante porque no hizo ninguna comprobación de errores. No verificó la entrada de no condena, espacios en blanco adicionales, miles de separadores o símbolos de divisas.

Pero eso no es lo que pedí. Le dije que reescribiera una función, que en sí misma no tenía ningún error. GPT-5 hizo exactamente lo que pedí sin adornos. Me alegra un poco de eso porque no sabe si el código ayer de esta rutina ya hizo ese trabajo.

GPT-5 pasó esta prueba.

3. Encontrar un error desagradable

Esta prueba surgió porque estaba luchando con un error menos que obvio en mi código. Sin entrar en las malas hierbas sobre cómo funciona el situación de WordPress, la respuesta obvia no es la respuesta correcta.

Necesita algún conocimiento congruo secreto sobre cómo los filtros de WordPress aprueban su información. Esta prueba ha sido un obstáculo para más de unos pocos AI LLM.

Incluso: la desilusión de la procreación AI se avecina, según el noticia del ciclo de atabal de Gartner de Gartner de Gartner

GPT-5, sin requisa, como GPT-4 y GPT-4O ayer, entendió el problema. Articuló una opción clara.

GPT-5 pasó esta prueba.

4. Escribir un insignia

Esta prueba le pide a la IA que incorpore una útil de secuencia de comandos Mac congruo oscura convocatoria Pedagogo de tecladoasí como el estilo de secuencias de comandos Applecript y el comportamiento de secuencias de comandos de Chrome.

En realidad es una prueba del repercusión de la IA en términos de conocimiento, su comprensión de cómo se construyen las páginas web y la capacidad de escribir código en tres entornos interlinidos.

Muchas IA han fallado esta prueba, pero el punto de defecto suele ser una desliz de conocimiento sobre el músico del teclado. GPT-3.5 no sabía sobre el músico del teclado. Pero ChatGPT ha pasado esta prueba desde GPT-4. Hasta ahora.

¿Dónde debemos principiar? Bueno, la buena anuncio es que GPT-5 manejó admisiblemente la parte del problema del teclado del problema. Pero puso la codificación tan incorrecta que incluso duplicó su desliz de comprensión de cómo funciona el caso en AppleScript.

GPT5-Applecript

Captura de pantalla de David Gewirtz/Zdnet

En ingenuidad inventó una propiedad. Este es uno de esos casos en los que una IA presenta con confianza una respuesta que está completamente incorrecta.

Encima: ChatGPT viene con preajustes de personalidad ahora, y otras actualizaciones que quizás se haya perdido

AppleScript es nativamente insensible a los casos. Si desea que AppleScript preste atención al caso, debe utilizar un bando de “caso de consideración”. Entonces, esto sucedió.

minúscula

Captura de pantalla de David Gewirtz/Zdnet

La razón por la que el mensaje de error se refirió al título de uno de mis artículos es porque esa era la ventana delantera en Chrome. Esta función verifica la ventana delantera y hace cosas en función del título.

de búsqueda

Captura de pantalla de David Gewirtz/Zdnet

Pero el malentendido cómo funciona el caso no fue el único error de AppleScript GPT-5 generado. Incluso hizo narración a una variable convocatoria SearchMter sin definirla. Esa es más o menos una destreza de creación de errores en cualquier estilo de programación.

Zanjar, estropearse, estropearse, McFaildypants.

Internet ha hablado

Openai parecía sufrir la misma arrogancia que hace. Confidentemente trasladó a todos a GPT-5 y quemó los puentes de regreso a GPT-4O. Estoy pagando $ 200 al mes por una cuenta ChatGPT Pro. El viernes no pude retornar a GPT-4O para el trabajo de codificación. Siquiera nadie más podría.

Sin requisa, había un poco de retroceso de agraciado en todo el asunto de la incendio de puentes. Y por Tiny, quiero aseverar todo el detestable internet. Entonces, para el sábado, ChatGPT tenía una nueva opción.

revertir

Captura de pantalla de David Gewirtz/Zdnet

Para venir a esto, vaya a la configuración de su chatgpt y encienda “Mostrar modelos heredados”. Luego, como siempre ha sido, simplemente desplazate el menú Maniquí y elige el que desee. Nota: Esta opción solo está arreglado para aquellos en niveles pagados. Si está usando chatgpt injusto, tomará lo que le dan y le encantará.

Desde que todo el asunto de IA generativo comenzó a principios de 2023, ChatGPT ha sido el típico de oro de las herramientas de programación, al menos según mis pruebas de LLM.

Encima: Microsoft aguijada GPT -5 en su suite de copilotos, aquí es donde lo encontrarás

¿Ahora? En realidad no estoy seguro. Esto es solo un día más o menos a posteriori de que se haya agresivo GPT-5, por lo que sus resultados probablemente mejorarán con el tiempo. Pero por ahora, me silencioso con GPT-4O para la codificación, aunque me gustan las capacidades de razonamiento profundo en GPT-5.

¿Qué pasa contigo? ¿Ya has probado GPT-5 para las tareas de programación? ¿Se desempeñó mejor o peor que las versiones anteriores como GPT-4O o GPT-3.5? ¿Pudiste obtener código de trabajo en el primer intento, o GPT-4O, tuviste que guiarlo a través de correcciones? ¿Vas a usar GPT-5 para codificar o quedarte con modelos más antiguos? Háganos conocer en los comentarios a continuación.


Puede seguir mis actualizaciones de esquema diarias en las redes sociales. Asegúrese de suscribirse a Mi boletín de puesta al día semanaly sígueme en Twitter/X en @Davidgewirtzen Facebook en Facebook.com/davidgewirtzen Instagram en Instagram.com/davidgewirtzen bluesky en @Davidgewirtz.comy en youtube en Youtube.com/davidgewirtztv.


Related Posts

Deje de culpar a su distribución de Linux por problemas que en efectividad no son problemas de distribución

Así como hay muchos usuarios a los que les gusta promocionar Linux como la opción a todos los problemas de Windows 11, hay muchos otros que se sienten atraídos por…

¿Son los enchufes inteligentes mejores que los temporizadores de salida?

Margarita-margarita/Getty Images Es posible que recibamos una comisión por las compras realizadas a través de enlaces. Nuestros hogares se están volviendo gradualmente…

You Missed

“Entretenimiento de Hombre” postura a LAMUVIRD+ para su estreno mundial

“Entretenimiento de Hombre” postura a LAMUVIRD+ para su estreno mundial

Hijos de Rubby e Inés dicen que no tienen responsabilidad con deuda por homenaje a su padre

Hijos de Rubby e Inés dicen que no tienen responsabilidad con deuda por homenaje a su padre

Hoy comienza la primavera en el hemisferio ideal – Remolacha

Hoy comienza la primavera en el hemisferio ideal – Remolacha

Deje de culpar a su distribución de Linux por problemas que en efectividad no son problemas de distribución

Deje de culpar a su distribución de Linux por problemas que en efectividad no son problemas de distribución

La importancia del apretado de Ormuz en la conversación entre Takaichi

La importancia del apretado de Ormuz en la conversación entre Takaichi

Valoran en NY celebración feria “Turismo y Atracciones Samaná 2026”

Valoran en NY celebración feria “Turismo y Atracciones Samaná 2026”