
Em um feito histórico para a inteligência artificial, o Google DeepMind e a OpenAI alcançaram desempenho equivalente à medalha de ouro na Olimpíada Internacional de Matemática (IMO) de 2025, realizada na Austrália. O modelo avançado do Google, uma versão do Gemini com a tecnologia Deep Think, foi oficialmente certificado pela organização da IMO, resolvendo cinco dos seis problemas da competição e somando 35 de 42 pontos possíveis, conforme anunciado em um post no blog da DeepMind em 22 de julho de 2025. A OpenAI, embora não tenha participado formalmente, avaliou seu modelo experimental nos mesmos problemas, alcançando o mesmo placar de 35 pontos, segundo um post no X do pesquisador Alexander Wei em 19 de julho de 2025. Esses resultados, amplamente cobertos por veículos como Reuters e Ars Technica, marcam a primeira vez que sistemas de IA atingiram o nível de medalha de ouro na competição, destacando avanços significativos no raciocínio matemático.
A IMO, realizada anualmente desde 1959, é a competição mais prestigiada para jovens matemáticos pré-universitários, reunindo cerca de 600 participantes de mais de 100 países. Cada competidor enfrenta seis problemas desafiadores, divididos em duas sessões de 4,5 horas, cobrindo álgebra, combinatória, geometria e teoria dos números. Apenas os 8% melhores recebem medalhas de ouro, o que torna o feito das IAs ainda mais impressionante. O modelo Gemini Deep Think do Google, descrito como um sistema de linguagem natural que opera sem ferramentas externas, foi treinado com técnicas avançadas de aprendizado por reforço, utilizando milhares de soluções de alta qualidade, conforme detalhado pela DeepMind. “Nosso modelo produziu provas rigorosas diretamente a partir das descrições oficiais dos problemas, dentro do limite de tempo da competição”, afirmou Thang Luong, pesquisador sênior da DeepMind, em entrevista à Reuters em 22 de julho de 2025.
A OpenAI, por sua vez, utilizou um modelo experimental de raciocínio, avaliado por três ex-medalhistas da IMO, que confirmaram a pontuação de 35 pontos após consenso unânime, segundo Wei. Diferentemente do Google, a OpenAI não seguiu o processo oficial de certificação da IMO, optando por uma avaliação independente, o que gerou controvérsia. Um post no X do pesquisador Thang Luong, em 20 de julho de 2025, destacou que “sem a avaliação oficial da IMO, nenhuma reivindicação de medalha pode ser confirmada”. A decisão da OpenAI de anunciar os resultados antes do prazo estipulado pela IMO, 28 de julho, também foi criticada por Demis Hassabis, CEO da DeepMind, que enfatizou o respeito da empresa pelo protocolo da competição, conforme relatado pela TechCrunch.
Ambos os modelos demonstraram avanços notáveis em relação a tentativas anteriores. Em 2024, o sistema AlphaProof e AlphaGeometry 2 da DeepMind alcançou nível de medalha de prata, resolvendo quatro problemas, mas exigiu traduções manuais para linguagens formais e até três dias por problema. O Gemini Deep Think, por outro lado, opera inteiramente em linguagem natural, utilizando “parallel thinking” para explorar múltiplas soluções simultaneamente, o que o permitiu resolver problemas em poucas horas. A OpenAI destacou que seu modelo também processa problemas como texto puro, gerando provas em linguagem natural, um avanço em relação a sistemas anteriores que dependiam de ferramentas especializadas, conforme relatado pela Ars Technica.
Apesar do sucesso, ambos os modelos são experimentais e não estão disponíveis ao público. O Google planeja disponibilizar o Gemini Deep Think para testadores confiáveis, incluindo matemáticos, antes de liberá-lo para assinantes do Google AI Ultra, segundo a DeepMind. A OpenAI, por sua vez, informou que seu modelo permanecerá em fase de pesquisa por meses, conforme Alexander Wei. Especialistas, como Junehyuk Jung, ex-medalhista da IMO e pesquisador da DeepMind, sugeriram à Reuters que esses avanços podem, em menos de um ano, ajudar a resolver problemas matemáticos de pesquisa abertos, com aplicações em física e ciência da computação.
A transparência é essencial: as informações foram verificadas em fontes confiáveis, como o blog da DeepMind, Reuters, Ars Technica, TechCrunch e posts no X. O desempenho do Google foi oficialmente validado, enquanto a pontuação da OpenAI, embora promissora, carece de certificação oficial, o que limita sua legitimidade. Ambos os modelos falharam no problema 6, considerado o mais difícil, indicando que ainda há espaço para melhorias.
O que você acha do impacto dessas IAs na matemática e na ciência? Deixe seu comentário e compartilhe como esses avanços podem transformar o futuro!
Fontes: Google DeepMind, Reuters, Ars Technica, TechCrunch, X posts de @lmthang e @alexwei_