🤖 LLMs dobram capacidade a cada 7 meses, revela estudo

A evolução dos modelos de linguagem de grande escala (LLMs, na sigla em inglês) ganhou um novo marco estatístico: a capacidade desses sistemas está dobrando, em média, a cada sete meses. A conclusão vem de uma análise comparativa publicada pela IEEE Spectrum que avaliou o desempenho de gerações sucessivas de modelos como GPT-4o, da OpenAI, e Claude 3.7 Sonnet, da Anthropic. O levantamento combina métricas de comprimento de contexto, parâmetros efetivos, throughput de inferência e, sobretudo, qualidade das respostas em benchmarks padronizados.

Projeções até 2030

Se a curva de progresso mantiver o ritmo atual, pesquisadores projetam que, até o final da década, LLMs conseguirão realizar — em questão de minutos ou horas — tarefas de desenvolvimento de software que hoje demandariam cerca de um mês de trabalho humano, considerando jornadas de 40 horas por semana. A previsão, no entanto, traz uma nota de cautela: os modelos alcançariam essa façanha com apenas 50 % de confiabilidade, o que significa que o resultado precisaria de supervisão e revisão por engenheiros humanos antes de entrar em produção.

O que “dobrar capacidade” realmente significa

No estudo, capacidade não se resume ao número bruto de parâmetros. O termo abrange:

Escopo de tarefas resolvidas de ponta a ponta (por exemplo, gerar especificações, implementar código e escrever testes automatizados).
Precisão em benchmarks complexos (como HumanEval, GSM-Hard, MMLU e tarefas personalizadas de refatoração).
Eficiência de inferência — quanto tempo e energia computacional o modelo gasta para entregar a solução.

A combinação dessas variáveis forma um “índice composto” que, segundo os autores, duplicou em média a cada 210 dias desde 2020.

Limites atuais: o mundo real é mais bagunçado

Apesar do salto acelerado, tarefas menos estruturadas — aquelas que envolvem ambiguidade, contexto cultural amplo ou situações físicas — continuam sendo um desafio. Exemplos incluem:

Suporte ao cliente em linguagem natural, onde nuances emocionais influenciam a resposta correta.
Planejamento logístico dinâmico, que exige adaptação contínua a restrições imprevisíveis.
Tomada de decisão em cenários abertos, como análise de riscos em investimentos.

Nesses casos, a performance melhora, mas em ritmo bem menos agressivo do que o observado em tópicos “fechados” de programação ou matemática.

Fatores que impulsionam o crescimento

Arquitetura Mixture-of-Experts (MoE): distribui cargas de trabalho específicas para sub-redes especializadas, elevando a capacidade ao mesmo custo computacional.
Pré-treinamento multimodal: inclusão de imagens, áudio e vídeo enriquece o entendimento semântico e amplia o universo de aplicações.
Aprendizado de reforço finamente controlado: técnicas como RLAIF (Reinforcement Learning from AI Feedback) reduzem dependência de anotações humanas caras.
Hardware dedicado: GPUs de última geração e, sobretudo, ASICs customizados (como TPUs v6 da Google) aumentam throughput e diminuem custos de inferência.

Impacto no mercado de trabalho

Especialistas em economia digital apontam para um cenário híbrido:

Automação parcial de tarefas rotineiras de codificação, revisão de pull-requests e geração de documentação técnica.
Aumento de produtividade para desenvolvedores humanos, que passam a focar em arquitetura, validação de requisitos e governança de código.
Demanda crescente por “AI wranglers” — profissionais capazes de orquestrar, auditar e ajustar LLMs para contextos corporativos específicos.

Entidades sindicais e associações de programadores sustentam que o “fator 50 % de confiabilidade” implicará, na prática, mais vagas voltadas a validação e curadoria do que cortes massivos de postos de trabalho, pelo menos até que a confiabilidade atinja patamares próximos a 90 %.

Desafios éticos e técnicos

Alucinações: embora ocorram com menor frequência em tarefas de codificação, ainda podem introduzir vulnerabilidades sutis.
Propriedade intelectual: o treinamento em repositórios públicos e privados levanta questões sobre licenciamento de código.
Uso responsável: políticas corporativas terão de definir papéis, limites e auditorias periódicas para evitar dependência cega da máquina.

Perspectiva de longo prazo

Se o ritmo de duplicação semestral continuar, o estudo prevê que a janela de 50 % de confiabilidade em tarefas semana-mês deve cair para dois ou três dias até 2033, colocando pressão inédita sobre ciclos tradicionais de desenvolvimento de software. Entretanto, a complexidade intrínseca do mundo físico e social sugere que nem todas as atividades humanas sofrerão impacto no mesmo compasso.

Você acredita que o desenvolvimento de software humano vai se tornar obsoleto ou veremos uma parceria mais estreita entre programadores e IA? Deixe seu ponto de vista nos comentários!

Fontes
IEEE Spectrum, análise comparativa LLM 2025, especialistas em IA aplicada, dados de benchmark público