GPT-5.4 mini e nano: o modelo certo não é o maior, é o que cabe no seu agente
A OpenAI lançou dois novos modelos hoje — e eles não são pra você usar direto no chat. São pra ser delegados. A era dos agentes tem uma nova lógica de custo, e ela muda como você vai construir com IA.

Tem uma pergunta que todo dev que trabalha com IA começa a fazer cedo ou tarde: por que estou pagando pelo modelo mais caro em todas as etapas?
Você usa o GPT-5.4 pra planejar. Pra escrever código. Pra revisar. Pra buscar no codebase. Pra classificar um arquivo. Pra extrair um dado de um documento. Tudo no mesmo modelo, tudo no mesmo custo, mesmo quando a tarefa é trivial.
O GPT-5.4 mini e nano chegaram hoje pra dizer que esse modelo de uso acabou. Ou pelo menos deveria acabar.
O que foi lançado
Métricas e sinais que ajudam a resumir impacto técnico com leitura imediata.
GPT-5.4
Flagship
Input Referência Uso ideal Planejamento, coordenação, revisão final
GPT-5.4 mini
Novo
Input $0,75/M tokens Output $4,50/M tokens Contexto 400k tokens Codex 30% da quota do flagship
GPT-5.4 nano
Novo · Mais barato
Input $0,20/M tokens Output $1,25/M tokens Uso ideal Classificação, extração, ranking
O nano é o modelo mais barato que a OpenAI já lançou. $0,20 por milhão de tokens de entrada — pra tarefas de alto volume onde você precisa de velocidade e escala, não de raciocínio profundo.
Mas o mini é bom o suficiente?
Essa é a pergunta que importa. E os benchmarks têm uma resposta interessante.
SWE-bench Pro — tarefas de código em repositórios reais:
- GPT-5.4: ~56%
- GPT-5.4 mini: 54,38% — apenas 2 pontos atrás
- GPT-5.4 nano: ~28%
OSWorld-Verified — uso de computador e interface:
- GPT-5.4: 75,03%
- GPT-5.4 mini: 72,13% — 3 pontos atrás
- GPT-5.4 nano: 39,61%
O mini fica a 2 pontos percentuais do flagship em código. Em uso de computador, 3 pontos. E roda mais do que duas vezes mais rápido.
Isso não é "quase bom". É bom o suficiente pra 80% das tarefas que um agente de código precisa fazer.
A lógica dos subagentes
O que a OpenAI está sinalizando vai além dos preços. É uma mudança de arquitetura — e ela já está acontecendo no Codex, o motor de coding agentico deles.
Como o Codex divide o trabalho
- GPT-5.4 - Planejamento, coordenação, decisões de arquitetura, revisão final
- GPT-5.4 - mini Subagentes paralelos — busca no codebase, revisão de arquivo grande, processamento de documentos de suporte
- GPT-5.4 nano - Alto volume — classificação, extração de dados, ranking, suporte leve de código
O modelo grande pensa. Os modelos menores executam. Em paralelo, em volume, sem gastar quota do flagship pra tarefas que não precisam dele.
É a mesma lógica dos microsserviços aplicada a modelos de IA: você não usa o servidor mais caro pra servir um arquivo estático. Você usa o certo pra cada função.
O que isso muda pra quem está construindo com IA
Se você está construindo qualquer coisa que chama modelos de IA em múltiplas etapas — seja um agente de código, um pipeline de análise, uma automação com n8n ou Langchain — essa arquitetura de modelos começa a fazer muito mais sentido do que usar o flagship em tudo.
Pensa num pipeline simples: receber um documento, extrair dados estruturados, classificar por categoria, gerar um resumo, revisar. Cada etapa tem um nível diferente de complexidade. Usar GPT-5.4 em todas é como contratar um arquiteto sênior pra fazer faxina.
A conta no Codex é direta: mini consome apenas 30% da quota do GPT-5.4. Pra tarefas paralelas — dez subagentes rodando ao mesmo tempo — isso é a diferença entre escalar ou não escalar financeiramente.
O nano não é pra tudo. Com 39% no OSWorld-Verified, ele perde muito em tarefas que exigem raciocínio encadeado. Ele brilha em volume e simplicidade — classificar, extrair, ranquear. Se a tarefa tem nuance, vai pro mini.
Uma citação que resume bem
A OpenAI disse algo que vale guardar:
"O melhor modelo muitas vezes não é o maior — é o que consegue responder rápido, usar ferramentas de forma confiável e ainda performar bem em tarefas complexas e especializadas."
Isso é uma mudança de mentalidade. Por muito tempo, a corrida foi por modelos cada vez maiores. Agora a conversa está mudando pra modelos cada vez mais adequados — pro custo certo, na velocidade certa, pra tarefa certa.
O que fica
- GPT-5.4 mini fica a 2-3 pontos do flagship em código e uso de computador, rodando 2× mais rápido.
- GPT-5.4 nano é o modelo mais barato da OpenAI — $0,20/M tokens — pra tarefas de alto volume.
- No Codex, mini consome 30% da quota do GPT-5.4 — escala financeira real em pipelines paralelos.
- Usar o modelo certo pra cada tarefa deixou de ser otimização avançada — virou arquitetura básica



