
RobĂŽs aprendem tarefas ao assistir vĂdeos de humanos com mĂ©todo que imita aprendizado infantil
Novo sistema registra movimentos com cĂąmeras, reconstrĂłi a cena em 3D e remove a figura humana, acelerando o treino de mĂĄquinas com mais eficiĂȘncia.
Inspirando-se no modo como crianças aprendem ao observar adultos, pesquisadores desenvolveram um mĂ©todo revolucionĂĄrio para treinar robĂŽs a partir de vĂdeos de humanos realizando tarefas do cotidiano. A tĂ©cnica utiliza um sistema de visĂŁo computacional avançado que reconstrĂłi a cena em 3D, isola a ferramenta utilizada e remove digitalmente a figura humana, permitindo que o robĂŽ compreenda apenas a ação relevante â como martelar um prego ou virar comida em uma frigideira.
O processo mostrou-se 71% mais preciso na realização de tarefas e 77% mais eficiente na coleta de dados para treinamento, em comparação com métodos tradicionais de aprendizado por demonstração.
Como funciona o sistema
O treinamento começa com dois vĂdeos capturados de Ăąngulos diferentes, que registram uma pessoa executando uma ação especĂfica. Com essas imagens, o sistema constrĂłi uma representação tridimensional da cena, identificando objetos, movimentos e a ferramenta usada.
Em seguida, um algoritmo remove digitalmente o corpo humano da gravação, deixando apenas os elementos crĂticos para a tarefa. Isso elimina ruĂdos visuais e garante que o robĂŽ foque exclusivamente na interação entre ferramenta e objeto.
Por exemplo, ao assistir um vĂdeo de alguĂ©m usando um martelo, o robĂŽ verĂĄ apenas o martelo, o prego e o movimento realizado â sem distraçÔes do corpo, rosto ou roupas da pessoa. Essa simplificação acelera o aprendizado e melhora a precisĂŁo das açÔes replicadas.
Superando métodos anteriores
Tradicionalmente, treinar robĂŽs exigia sensores vestĂveis, ambientes controlados ou marcaçÔes visuais para que as mĂĄquinas entendessem o que estava sendo feito. AlĂ©m disso, muitas vezes os robĂŽs precisavam ser guiados fisicamente por humanos, o que tornava o processo demorado e caro.
O novo mĂ©todo elimina a necessidade de sensores e marcaçÔes, permitindo que robĂŽs aprendam com qualquer vĂdeo comum capturado com cĂąmeras convencionais. A abordagem reduz drasticamente os custos e amplia as possibilidades de uso em ambientes nĂŁo controlados, como cozinhas, oficinas ou atĂ© ambientes industriais.
AplicaçÔes futuras
Esse avanço abre caminho para uma nova geração de robĂŽs domĂ©sticos e industriais capazes de aprender sozinhos, apenas observando vĂdeos postados em redes sociais, tutoriais no YouTube ou gravaçÔes feitas no ambiente de trabalho.
Imagine, por exemplo, um robĂŽ de cozinha que aprenda a preparar pratos apenas observando vĂdeos de receitas, ou um robĂŽ mecĂąnico que aprenda a trocar uma peça assistindo a gravaçÔes do processo.
Combinado a algoritmos de IA generativa e modelos de linguagem como o Grok, GPT ou Claude, o sistema também poderå compreender o contexto verbal das açÔes, refinando ainda mais sua capacidade de interpretação e execução.
VocĂȘ teria um robĂŽ que aprende assistindo seus vĂdeos?
Conte para a gente qual tarefa do dia a dia vocĂȘ gostaria que ele aprendesse a fazer por vocĂȘ!
Fontes:
Nature Machine Intelligence, MIT News, IEEE Spectrum, Wired, TechCrunch