Guardar
Para estas pruebas, OpenAI utilizó
Para estas pruebas, OpenAI utilizó a GPT-5-high, una versión potenciada de GPT-5 con mayor capacidad computacional. (Reuters)

Un nuevo test desarrollado por OpenAI marca un hito en la evolución de la inteligencia artificial: la versión avanzada de su modelo GPT-5 ha igualado o superado el desempeño de profesionales humanos en el 40,6% de los casos evaluados. Este avance, presentado recientemente, sitúa en el centro del debate la capacidad de la IA para asumir tareas de alto valor económico y su potencial impacto en el futuro del trabajo.

El test, denominado GDPval, representa el primer intento de OpenAI por medir de manera sistemática cómo se compara su tecnología con expertos humanos en sectores clave de la economía estadounidense. GDPval se enfoca en nueve industrias que aportan de forma significativa al producto interno bruto de Estados Unidos, entre las que se encuentran la salud, las finanzas, la manufactura y el sector público.

En total, la evaluación abarca 44 ocupaciones, desde ingenieros de software y enfermeros hasta periodistas, con el objetivo de analizar el rendimiento de la IA en tareas que requieren un alto nivel de especialización.

GPT-5 es el modelo de
GPT-5 es el modelo de razonamiento más avanzado de OpenAI disponible para el público. (Reuters)

Para realizar la prueba, OpenAI solicitó a profesionales experimentados que compararan informes generados por modelos de IA con los elaborados por otros expertos humanos, decidiendo cuál consideraban superior.

Un ejemplo de las tareas evaluadas fue pedir a banqueros de inversión un análisis competitivo sobre la industria de entregas de última milla para comparar sus resultados con los informes producidos por la IA. El desempeño de cada modelo se midió a través de la tasa de “victorias” frente a los informes humanos en las 44 ocupaciones seleccionadas.

Comparación entre modelos de IA y expertos

En este contexto, GPT-5-high, una versión potenciada de GPT-5 con mayor capacidad computacional, igualó o superó a los expertos humanos en el 40,6% de los casos. Este resultado, aunque no mayoritario, supone un salto considerable respecto a versiones anteriores. GPT-4o, lanzado hace aproximadamente 15 meses, solo había alcanzado un 13,7% en la misma métrica, reflejando una mejora significativa en poco tiempo.

Expertos en diversas especialidades calificaron
Expertos en diversas especialidades calificaron el desempeño de los distintos modelos de IA. (OpenAI)

La comparación con otros modelos de inteligencia artificial también resulta relevante. Anthropic, con su modelo Claude Opus 4.1, obtuvo una tasa de éxito del 49%, superando incluso a GPT-5-high. OpenAI atribuye este resultado, en parte, a la capacidad de Claude para generar gráficos visualmente atractivos, característica que podría haber influido en la percepción de los evaluadores más allá del contenido técnico de los informes.

A pesar de estos avances, OpenAI reconoce que GDPval evalúa solo una fracción de las tareas que los profesionales realizan cada día, ya que se limita principalmente a la elaboración de informes de investigación. La compañía ha manifestado su intención de desarrollar pruebas más completas en el futuro, incorporando una gama más amplia de industrias y flujos de trabajo interactivos con el objetivo de reflejar de manera más fiel la realidad laboral.

El progreso alcanzado con GDPval ha recibido reconocimiento entre los responsables de OpenAI. El economista jefe de la compañía, Dr. Aaron Chatterji, señaló que los resultados sugieren que los profesionales podrían comenzar a utilizar modelos de IA para dedicar más tiempo a tareas de mayor valor.

Sam Altman, CEO de OpenAI.
Sam Altman, CEO de OpenAI. (Reuters)

“El modelo ha mejorado en algunas de estas áreas, lo que permite a quienes desempeñan estos trabajos apoyarse en la IA para delegar parte de su labor y concentrarse en actividades potencialmente más significativas”, afirmó Chatterji. A su vez, Tejal Patwardhan, responsable de evaluaciones en OpenAI, expresó optimismo ante la rapidez con la que ha evolucionado GDPval y anticipó que esta tendencia continuará.

En el panorama amplio de la industria tecnológica, la búsqueda de benchmarks que reflejen con precisión la capacidad de la inteligencia artificial en tareas del mundo real se ha vuelto prioritaria. Pruebas como AIME 2025, centrada en problemas matemáticos competitivos, o GPQA Diamond, que examina conocimientos científicos a nivel de doctorado, han sido ampliamente utilizadas.

Sin embargo, muchos modelos de IA ya han alcanzado niveles de saturación en estos tests, lo que impulsa la demanda de evaluaciones más representativas de los desafíos laborales cotidianos. En este sentido, GDPval podría ganar relevancia para medir el verdadero alcance de la inteligencia artificial en el entorno profesional.

Aunque los resultados obtenidos por OpenAI son notables, la compañía admite que será necesario desarrollar versiones más amplias y detalladas de GDPval antes de afirmar con certeza que sus modelos de inteligencia artificial superan de forma generalizada a los profesionales humanos.