Agentes de IA falham ao substituir os trabalhadores humanos num caso prático

Uma experiência da Universidade Carnegie Mellon com uma equipa de funcionários virtuais revela graves deficiências nos modelos generativos, que só conseguem completar uma pequena parte das tarefas atribuídas.
6 de Maio, 2025
Foto gerara por IA

Quem tem medo que a inteligência artificial lhe tire o emprego pode ficar tranquilo. Pelo menos por enquanto: numa experiência prática que nos chega através da Futurism, a universidade norte-americana de Carnegie Mellon recriou uma empresa de software, oportunamente batizada de TheAgentCompany, formada inteiramente por agentes de IA provenientes do Google, OpenAI, Anthropic e Meta, para verificar se eles poderiam substituir de forma eficaz e eficiente os trabalhadores humanos nas suas funções.

Estes sistemas autónomos foram concebidos para desempenhar as tarefas de analistas financeiros, engenheiros de software e chefes de projeto, sem intervenção humana e dialogando entre si como fariam os responsáveis humanos de qualquer empresa, apoiados por departamentos simulados de recursos humanos e direção técnica.

O objetivo desta experiencia era verificar se os agentes de IA poderiam lidar com as tarefas diárias de uma organização real sem a necessidade de intervenção humana e, portanto, substituir todo o pessoal humano de uma empresa. Para cumprir as suas obrigações corporativas, estes sistemas foram encarregados de navegar por estruturas de ficheiros, avaliar novos escritórios por meio de visitas virtuais e redigir relatórios de desempenho para os programadores, entre outras atividades habituais no setor.

A iniciativa permite comparar o desempenho de cada modelo em um ambiente que exige coordenação, critério e gestão de prazos.

Desempenho e custos da força de trabalho virtual

Na prática, o melhor resultado foi obtido pelo Claude 3.5 Sonnet, da Anthropic, que concluiu 24% das tarefas atribuídas, embora tenha precisado de uma média de trinta passos e um custo superior a 6 dólares por tarefa. Muito atrás ficou o Gemini 2.0 Flash, do Google, com 11,4% de sucesso e cerca de quarenta ações para concluir cada atividade.

O agente de IA que saiu pior nos testes é o Nova Pro v1, da Amazon, com uma taxa de sucesso de apenas 1,7% após quase vinte passos em média.

Estes dados ilustram tanto o baixo grau de autonomia real dos agentes quanto o impacto financeiro da sua implantação, elementos decisivos para qualquer responsável de TI que valorize sua adoção.

Lacunas operacionais e lições para os departamentos de TI

Os investigadores atribuem as falhas à ausência de senso comum nos modelos de linguagem, às habilidades sociais limitadas, mesmo para dialogar entre si, e à dificuldade de se orientar na rede.

Em alguns casos, os agentes recorreram a atalhos que acabaram por piorar a situação: um deles, ao não encontrar o interlocutor adequado no chat corporativo, optou por renomear outro utilizador com o nome procurado, causando mais confusão.

Esses comportamentos destacam que a inteligência artificial atual se assemelha mais a um “texto preditivo ampliado” do que a um sistema capaz de aprender com a experiência e transferi-la para cenários novos.

No momento, os agentes podem auxiliar em tarefas muito limitadas, mas sua confiabilidade e custo os afastam de projetos complexos, onde a supervisão humana continua sendo essencial.

Para os responsáveis pelas compras de tecnologia, o estudo fornece uma referência clara: incorporar agentes de IA sem uma avaliação rigorosa de sua eficácia e impacto económico pode resultar em custos adicionais e prazos não cumpridos.

O discurso sobre a iminente substituição em massa de empregos especializados por máquinas está, portanto, longe da realidade operacional atual, de acordo com esta experiencia.

Opinião