Guardar
La definición de AGI divide
La definición de AGI divide a científicos y tecnólogos, dificultando pruebas universales para medir sus avances (Imagen Ilustrativa Infobae)

La falta de consenso sobre qué es la inteligencia artificial general (AGI) y cómo medirla revela divisiones profundas en la comunidad científica y tecnológica. Aunque empresas referentes del sector como OpenAI, Anthropic y Google DeepMind anunciaron avances que aceleran la llegada de la AGI, no existe unanimidad sobre su definición ni sobre cuáles son las pruebas más fiables para validarla.

Según la revista científica IEEE Spectrum, la dificultad para crear testeos que verifiquen capacidades realmente equivalentes a las humanas es uno de los grandes desafíos actuales, con repercusiones para la economía, la ciencia y la sociedad en general.

Los nuevos benchmarks buscan evaluar
Los nuevos benchmarks buscan evaluar la inteligencia artificial general más allá de la imitación humana en tareas concretas (Archivo)

El primer conflicto radica en la definición misma de AGI. Para algunos, debe igualar a los humanos en la mayoría de las tareas. Otros priorizan su impacto económico, la forma en que funciona internamente o incluso juicios subjetivos.

Geoffrey Hinton, reconocido profesor emérito de la Universidad de Toronto, lo sintetizó: “Estamos construyendo seres alienígenas”, aludiendo a lo difícil que resulta establecer comparaciones directas entre las máquinas y los humanos. Este desacuerdo obstaculiza el desarrollo de pruebas universales, ya que las fortalezas y debilidades de la IA difieren de las humanas.

Historia y límites de las pruebas tradicionales

La historia de las evaluaciones de inteligencia artificial refleja esta complejidad. El test de Turing, propuesto por Alan Turing en 1950, desafía a las máquinas a hacerse pasar por humanas en diálogos escritos. Más tarde, victorias como la de Deep Blue sobre Garry Kasparov en ajedrez marcaron hitos pero no resolvieron el problema de fondo.

Modelos recientes como GPT-4.5 pueden imitar a un humano en conversaciones breves, aunque siguen incurriendo en errores inconcebibles para personas, por ejemplo, equivocarse contando letras en una palabra sencilla. Esto llevó a la búsqueda de criterios que no puedan ser burlados mediante trucos o atajos computacionales.

El test ARC desafía a
El test ARC desafía a las máquinas con retos de abstracción que siguen siendo triviales para los humanos (Imagen Ilustrativa Infobae)

Nuevos benchmarks: el caso del test ARC

Ante estas limitaciones, surgen nuevos benchmarks diseñados para evaluar la inteligencia general de la IA con mayor exigencia. Uno de los más influyentes es el ARC (Abstraction and Reasoning Corpus), creado por François Chollet. Este test se enfoca en la capacidad de la IA para adquirir habilidades nuevas con pocos ejemplos, presentando rompecabezas visuales que requieren deducir reglas abstractas y aplicarlas en situaciones inéditas.

Mientras que los humanos resuelven la mayoría fácilmente, las máquinas suelen fracasar. OpenAI consiguió que uno de sus modelos superara el promedio humano, pero a cambio de un enorme costo computacional.

En 2024, Chollet y la ARC Prize Foundation lanzaron una versión más difícil (ARC-AGI-2), con un premio de USD 1 millón para los equipos cuyos sistemas de IA logren superar el 85% de aciertos bajo estrictas condiciones. Por ahora, el mayor logro de las máquinas es un 16% frente al 60% de los humanos, marcando la mayor brecha de rendimiento actual entre IA avanzada y personas en razonamiento abstracto.

La mayoría de los sistemas
La mayoría de los sistemas de IA actuales fracasan en pruebas integrales que requieren razonamiento, creatividad y juicio ético (Imagen Ilustrativa Infobae)

Críticas y evolución de los benchmarks

El test ARC también genera controversias. Jiaxuan You, de la Universidad de Illinois, lo ve como un buen benchmark teórico, pero advierte que no representa la complejidad del mundo real ni abarca el razonamiento social.

Por su parte, Melanie Mitchell, del Instituto Santa Fe, reconoció sus virtudes para describir cómo se abstraen reglas a partir de pocos ejemplos, pero subraya que “no refleja lo que la gente entiende por inteligencia general”. Para responder a estas críticas, Chollet trabaja ya en una versión que incluirá tareas inspiradas en minijuegos, ampliando el espectro de habilidades evaluadas.

Otros tests surgieron para cubrir aspectos diferentes de la AGI. El General-Bench emplea modalidades que integran texto, imágenes, video, audio y 3D para analizar el rendimiento en reconocimiento, razonamiento, creatividad y juicio ético.

Ningún sistema actual domina todas estas dimensiones de forma integrada. Mientras que Dreamer, algoritmo de Google DeepMind, mostró habilidades en más de 150 tareas virtuales, pero aún no queda claro cómo respondería ante la imprevisibilidad del mundo físico.

El Tong test va más allá y propone asignar a “personas virtuales” tareas aleatorias que examinen no solo su comprensión y habilidades, sino también sus valores y la capacidad de adaptación. Sus autores opinan que una evaluación completa de la AGI debe incluir exploración autónoma, alineación con valores humanos, comprensión causal, control físico y un flujo constante de tareas impredecibles.

El impacto real de la
El impacto real de la inteligencia artificial solo puede medirse en problemas del mundo físico, donde aún prevalecen los errores inesperados (Imagen Ilustrativa Infobae)

Límites, debates y horizontes de la AGI

El debate sobre si la AGI necesita demostrar habilidades físicas o si basta con las cognitivas sigue sin resolverse. Un estudio de Google DeepMind sostuvo que solo se requiere software, mientras que Melanie Mitchell insiste en evaluar la aptitud de la IA para completar trabajos reales y reaccionar ante problemas inesperados del mundo.

Jeff Clune, de la Universidad de British Columbia, sugirió que no solo se debe medir el rendimiento observable, sino también los procesos internos de la IA, advirtiendo que tienden a encontrar atajos ingeniosos pero poco fiables.

“La verdadera prueba para la IA es su impacto en el mundo real”, aseguró el especialista Clune en IEEE Spectrum. Para él, la automatización del trabajo y la generación de descubrimientos científicos ofrecen indicadores más fiables que cualquier benchmark.

Expertos advierten que el concepto
Expertos advierten que el concepto de AGI permanece indefinido y su validación es aún motivo de debate (Imagen ilustrativa Infobae)

Una meta todavía lejana

Pese a los avances y a la aparición de nuevas pruebas, alcanzar un consenso sobre la AGI y cómo demostrar su existencia sigue siendo improbable. Anna Ivanova, psicóloga de Georgia Tech, resaltó que la percepción social sobre qué es la inteligencia y qué es valioso está en constante cambio.

El informe detallado de IEEE Spectrum concluyó en que el término AGI funciona como una abreviatura útil para expresar aspiraciones y temores, pero requiere siempre una aclaración precisa y un benchmark específico.