Google revela cuál es la mejor inteligencia artificial para desarrollar apps de Android

Guardar

Google reveló qué inteligencia artificial es la mejor para desarrollar aplicativos para Android.

El desarrollo de aplicaciones móviles con ayuda de inteligencia artificial está avanzando rápidamente, y ahora Google ha publicado un nuevo sistema de evaluación para medir qué modelos son realmente útiles para programar en su ecosistema móvil.

El gigante tecnológico presentó Android Bench, un benchmark diseñado específicamente para evaluar la capacidad de las IA en tareas reales de desarrollo de apps para Android.

Según los resultados publicados por la compañía, el modelo mejor calificado es Gemini 3.1 Pro, que alcanzó una puntuación del 72,4 % en las pruebas. Este resultado lo posiciona como la inteligencia artificial más eficaz para desarrollar aplicaciones dentro del ecosistema Android, superando a modelos de otros competidores del sector.

Gemini 3.1 Pro es la mejor app para programar aplicaciones para Android.

Detrás del sistema de Google aparecen Claude Opus 4.6, desarrollado por Anthropic, con un 66,6 %, y GPT-5.2 Codex, de OpenAI, con 62,5 %. Estas herramientas completan los primeros lugares del ranking que busca determinar qué modelos de IA tienen mejor desempeño en programación móvil.

Un benchmark enfocado en desarrollo real

Google explicó que uno de los motivos para crear Android Bench es que muchos benchmarks actuales no reflejan las necesidades reales de los desarrolladores móviles.

Según la empresa, escribir código genérico en lenguajes como Python no representa la complejidad de construir aplicaciones completas para Android. El desarrollo móvil implica tareas más específicas, como gestionar el ciclo de vida de una actividad, trabajar con arquitecturas de software modernas o implementar sistemas de almacenamiento y sincronización de datos.

Google presentó Android Bench, un sistema capaz de evaluar a las IA que programan para Android. (Imagen Ilustrativa Infobae)

Por ese motivo, Android Bench fue diseñado para medir habilidades concretas relacionadas con la creación de aplicaciones dentro del sistema operativo móvil.

Cómo se realizó la evaluación

El benchmark está compuesto por 100 tareas de programación seleccionadas a partir de un conjunto inicial de casi 39.000 solicitudes de cambios (pull requests) publicadas en GitHub.

Para garantizar la relevancia de las pruebas, Google filtró repositorios con más de 500 estrellas y con actividad reciente en los últimos tres años. De esta forma, los modelos de IA se enfrentan a problemas de programación actuales y no a código antiguo o desactualizado.

Las pruebas evalúan la capacidad de los sistemas en cuatro áreas clave del desarrollo Android:

Diseño de interfaces de usuario
Manejo de procesos asíncronos
Persistencia de datos
Inyección de dependencias

Estas competencias representan gran parte del trabajo cotidiano de los desarrolladores profesionales.

Google evalúa constantemente a las IA, incluyendo a la suya, en el desarrollo de aplicaciones.

Además, el benchmark incluye tareas de diferentes niveles de complejidad. Algunas consisten en correcciones de menos de 30 líneas de código, mientras que otras requieren modificar más de 400 líneas, lo que permite evaluar tanto problemas simples como tareas propias de un desarrollador experimentado.

Predominio de Kotlin en las pruebas

Otro detalle importante es que la mayoría de las tareas del benchmark se basan en Kotlin, el lenguaje principal para el desarrollo de aplicaciones Android en la actualidad.

En total, el 71 % de las pruebas utilizan Kotlin, mientras que el 25 % se basa en Java. El resto incluye otras configuraciones menores.

También se evaluaron distintos tipos de proyectos. Aunque muchas de las pruebas corresponden a aplicaciones completas, alrededor del 58 % de las tareas se orientan al desarrollo de librerías, una parte fundamental del ecosistema de software móvil.

Las pruebas que se realizaron se hicieron a través de Kotlin, donde se suele programar la mayor parte de las aplicaciones para Android.

Un sistema para medir habilidades reales

Uno de los retos al evaluar modelos de inteligencia artificial es evitar que aprueben simplemente porque memorizaron fragmentos de código durante su entrenamiento.

Para evitar este problema, Google incluyó varias salvaguardas en el benchmark. Entre ellas se encuentra una verificación manual del proceso que sigue cada modelo al generar su solución.

Este sistema permite comprobar que los resultados obtenidos se deben realmente a la capacidad de razonamiento de la IA y no a la repetición de ejemplos aprendidos previamente.

Según Google, este enfoque busca ofrecer una medición más precisa del rendimiento de las herramientas de programación basadas en inteligencia artificial.

El ranking de las mejores IA para Android

De acuerdo con la clasificación publicada en Android Bench, estos son los modelos con mejor desempeño en el desarrollo de aplicaciones móviles:

Gemini 3.1 Pro Preview – 72,4 %
Claude Opus 4.6 – 66,6 %
GPT-5.2 Codex – 62,5 %
Claude Opus 4.5 – 61,9 %
Gemini 3 Pro Preview – 60,4 %
Claude Sonnet 4.6 – 58,4 %
Claude Sonnet 4.5 – 54,2 %
Gemini 3 Flash Preview – 42 %
Gemini 2.5 Flash – 16,1 %

Google - Android - PC - tecnología - 28 de enero

Google publicó su ranking de IA para desarrollar aplicaciones para Android. (Imagen ilustrativa Infobae)

Con este nuevo benchmark, Google busca ofrecer una referencia más clara para los desarrolladores que utilizan inteligencia artificial como herramienta de apoyo.

A medida que estas tecnologías evolucionan, evaluaciones especializadas como Android Bench podrían convertirse en un estándar para medir qué tan capaces son los modelos de IA de resolver problemas reales en el desarrollo de software móvil.

Últimas Noticias

Por qué un celular se demora en abrir apps: significa que debes reiniciarlo

Liberar el espacio de almacenamiento del teléfono y actualizar su sistema operativo son otras soluciones a errores frecuentes en Android y otros modelos

Hasta 62 mil dólares podría costar acompañar a tu selección en todos los partidos del Mundial 2026

El desglose de presupuesto para los aficionados de Argentina, Colombia, España y México, asigna la mayor inversión en boletos, seguido de hospedaje y pasajes, con un componente elevado por la distancia y disponibilidad

Google revela cuál es la mejor inteligencia artificial para desarrollar apps de Android