GPT-5.4 mini y nano: el modelo correcto no es el más grande, es el que cabe en tu agente
OpenAI lanzó hoy dos nuevos modelos — y no son para que los uses directamente en el chat. Son para ser delegados. La era de los agentes tiene una nueva lógica de costes, y cambia cómo construirás con IA.

Hay una pregunta que todo desarrollador que trabaja con IA empieza a hacerse tarde o temprano: ¿por qué estoy pagando por el modelo más caro en todas las etapas?
Usas GPT-5.4 para planificar. Para escribir código. Para revisar. Para buscar en la base de código. Para clasificar un archivo. Para extraer datos de un documento. Todo con el mismo modelo, todo con el mismo coste, incluso cuando la tarea es trivial.
GPT-5.4 mini y nano llegaron hoy para decir que este modelo de uso se acabó. O al menos debería acabarse.
Lo que se lanzó
Métricas y señales que ayudan a resumir el impacto técnico con lectura inmediata.
GPT-5.4
Flagship
Entrada Referencia Uso ideal Planificación, coordinación, revisión final
GPT-5.4 mini
Nuevo
Entrada $0,75/M tokens Salida $4,50/M tokens Contexto 400k tokens Codex 30% de la cuota del flagship
GPT-5.4 nano
Nuevo · Más barato
Entrada $0,20/M tokens Salida $1,25/M tokens Uso ideal Clasificación, extracción, ranking
El nano es el modelo más barato que OpenAI ha lanzado. $0,20 por millón de tokens de entrada — para tareas de alto volumen donde necesitas velocidad y escala, no razonamiento profundo.
¿Pero el mini es lo suficientemente bueno?
Esa es la pregunta importante. Y los benchmarks tienen una respuesta interesante.
SWE-bench Pro — tareas de código en repositorios reales:
- GPT-5.4: ~56%
- GPT-5.4 mini: 54,38% — solo 2 puntos por debajo
- GPT-5.4 nano: ~28%
OSWorld-Verified — uso de computador e interfaz:
- GPT-5.4: 75,03%
- GPT-5.4 mini: 72,13% — 3 puntos por debajo
- GPT-5.4 nano: 39,61%
El mini se queda a 2 puntos porcentuales del flagship en código. En uso de computadora, 3 puntos. Y funciona más del doble de rápido.
Esto no es "casi bueno". Es lo suficientemente bueno para el 80% de las tareas que un agente de código necesita hacer.
La lógica de los subagentes
Lo que OpenAI está señalando va más allá de los precios. Es un cambio de arquitectura — y ya está ocurriendo en Codex, su motor de agentes de codificación.
Cómo Codex divide el trabajo
- GPT-5.4 - Planificación, coordinación, decisiones de arquitectura, revisión final
- GPT-5.4 mini - Subagentes paralelos — búsqueda en la base de código, revisión de archivos grandes, procesamiento de documentos de soporte
- GPT-5.4 nano - Alto volumen — clasificación, extracción de datos, ranking, soporte ligero de código
El modelo grande piensa. Los modelos más pequeños ejecutan. En paralelo, en volumen, sin gastar la cuota del flagship para tareas que no lo necesitan.
Es la misma lógica de los microservicios aplicada a modelos de IA: no usas el servidor más caro para servir un archivo estático. Usas el correcto para cada función.
Lo que esto cambia para quien está construyendo con IA
Si estás construyendo algo que llama a modelos de IA en múltiples etapas — ya sea un agente de código, un pipeline de análisis, una automatización con n8n o Langchain — esta arquitectura de modelos empieza a tener mucho más sentido que usar el flagship en todo.
Piensa en un pipeline simple: recibir un documento, extraer datos estructurados, clasificar por categoría, generar un resumen, revisar. Cada etapa tiene un nivel diferente de complejidad. Usar GPT-5.4 en todas es como contratar a un arquitecto sénior para hacer la limpieza.
La cuenta en Codex es directa: mini consume solo el 30% de la cuota de GPT-5.4. Para tareas paralelas — diez subagentes ejecutándose al mismo tiempo — esto es la diferencia entre escalar o no escalar financieramente.
El nano no es para todo. Con un 39% en OSWorld-Verified, pierde mucho en tareas que exigen razonamiento encadenado. Brilla en volumen y simplicidad — clasificar, extraer, rankear. Si la tarea tiene matices, ve por el mini.
Una cita que resume bien
OpenAI dijo algo que vale la pena recordar:
"El mejor modelo a menudo no es el más grande — es el que puede responder rápido, usar herramientas de forma confiable y aún así rendir bien en tareas complejas y especializadas."
Esto es un cambio de mentalidad. Durante mucho tiempo, la carrera fue por modelos cada vez más grandes. Ahora la conversación está cambiando hacia modelos cada vez más adecuados — para el coste correcto, a la velocidad correcta, para la tarea correcta.
Lo que permanece
- GPT-5.4 mini se sitúa a 2-3 puntos del flagship en código y uso de ordenador, funcionando 2 veces más rápido.
- GPT-5.4 nano es el modelo más barato de OpenAI — $0,20/M tokens — para tareas de alto volumen.
- En Codex, mini consume el 30% de la cuota de GPT-5.4 — escalado financiero real en pipelines paralelos.
- Usar el modelo correcto para cada tarea dejó de ser una optimización avanzada — se convirtió en arquitectura básica



