
A OpenAI anunciou uma atualização significativa para o GPT-4o, introduzindo a capacidade nativa de geração de imagens diretamente no ChatGPT. Lançada em 26 de março de 2025, a nova funcionalidade, chamada “Images in ChatGPT”, permite que usuários criem imagens fotorrealistas, editem fotos existentes e até renderizem textos com precisão, tudo isso sem depender de modelos externos como o DALL-E 3. Essa inovação, conforme relatado por fontes como The Verge e TechCrunch, marca um avanço importante na integração de capacidades multimodais em modelos de inteligência artificial, aproximando a tecnologia de uma experiência mais fluida e intuitiva.
O GPT-4o, descrito como um modelo “omnimodal” — capaz de lidar com texto, imagens, áudio e vídeo —, agora substitui o DALL-E 3 como o gerador de imagens padrão no ChatGPT. A mudança traz melhorias notáveis, como a renderização precisa de textos em imagens, algo que modelos anteriores frequentemente falhavam ao tentar. Por exemplo, enquanto sistemas mais antigos geravam textos ilegíveis ou distorcidos em placas e cartazes, o GPT-4o consegue criar imagens com frases completas e legíveis, como menus de restaurantes ou sinalizações urbanas. Além disso, a capacidade de seguir prompts detalhados foi aprimorada, permitindo que o modelo gere imagens com até 10 a 20 objetos diferentes, mantendo consistência e contexto, de acordo com a OpenAI.
Outro destaque é a possibilidade de edição e transformação de imagens. Usuários podem carregar uma foto e pedir ao GPT-4o para modificá-la, como transformar um personagem em um estilo de animação do Studio Ghibli ou ajustar elementos específicos, como cores e fundos. Essa funcionalidade tem gerado entusiasmo nas redes sociais, com usuários compartilhando criações impressionantes, muitas delas descritas como “insanas” e “surpreendentemente realistas”. A integração direta no ChatGPT também permite um processo iterativo: é possível refinar a imagem por meio de comandos conversacionais, ajustando detalhes até alcançar o resultado desejado.
A nova ferramenta está disponível para usuários das versões Plus, Pro, Team e Free do ChatGPT, com rollout gradual para outras categorias, como Enterprise e Edu. No entanto, a OpenAI implementou medidas de segurança para evitar abusos. Todas as imagens geradas incluem metadados C2PA, que identificam sua origem como sendo do GPT-4o, e o sistema bloqueia prompts que violem políticas, como a criação de deepfakes sexuais ou materiais de abuso infantil. Apesar disso, há preocupações éticas: a OpenAI não detalhou completamente os dados usados para treinar o modelo, o que levanta questões sobre o uso de obras protegidas por direitos autorais, um ponto de tensão recorrente na indústria de IA.
Embora o GPT-4o traga avanços impressionantes, ele não é perfeito. A OpenAI reconheceu limitações, como dificuldades em recortar imagens longas, renderizar idiomas não latinos e realizar edições muito precisas em detalhes pequenos. Mesmo assim, a recepção tem sido amplamente positiva, com especialistas destacando que a tecnologia representa um salto em relação aos modelos anteriores. Para empresas e criadores de conteúdo, a funcionalidade pode ser um divisor de águas, oferecendo uma maneira acessível de produzir visuais de alta qualidade sem a necessidade de ferramentas externas.
O lançamento do GPT-4o com geração de imagens nativa reforça a posição da OpenAI no mercado de IA, especialmente em um momento em que concorrentes como o Gemini do Google também estão expandindo suas capacidades multimodais. Para os usuários, a novidade abre um leque de possibilidades criativas, desde a criação de ilustrações para projetos até a transformação de ideias em imagens detalhadas. À medida que a tecnologia evolui, o desafio será equilibrar inovação com responsabilidade, garantindo que os benefícios da IA cheguem a todos sem comprometer a ética ou a sustentabilidade.
Fontes:
The Verge, TechCrunch, OpenAI