Quem tem medo que a inteligência artificial lhe tire o emprego pode ficar tranquilo. Pelo menos por enquanto: numa experiência prática que nos chega através da Futurism, a universidade norte-americana de Carnegie Mellon recriou uma empresa de software, oportunamente batizada de TheAgentCompany, formada inteiramente por agentes de IA provenientes do Google, OpenAI, Anthropic e Meta, para verificar se eles poderiam substituir de forma eficaz e eficiente os trabalhadores humanos nas suas funções.
Estes sistemas autónomos foram concebidos para desempenhar as tarefas de analistas financeiros, engenheiros de software e chefes de projeto, sem intervenção humana e dialogando entre si como fariam os responsáveis humanos de qualquer empresa, apoiados por departamentos simulados de recursos humanos e direção técnica.
O objetivo desta experiencia era verificar se os agentes de IA poderiam lidar com as tarefas diárias de uma organização real sem a necessidade de intervenção humana e, portanto, substituir todo o pessoal humano de uma empresa. Para cumprir as suas obrigações corporativas, estes sistemas foram encarregados de navegar por estruturas de ficheiros, avaliar novos escritórios por meio de visitas virtuais e redigir relatórios de desempenho para os programadores, entre outras atividades habituais no setor.
A iniciativa permite comparar o desempenho de cada modelo em um ambiente que exige coordenação, critério e gestão de prazos.
Desempenho e custos da força de trabalho virtual
Na prática, o melhor resultado foi obtido pelo Claude 3.5 Sonnet, da Anthropic, que concluiu 24% das tarefas atribuídas, embora tenha precisado de uma média de trinta passos e um custo superior a 6 dólares por tarefa. Muito atrás ficou o Gemini 2.0 Flash, do Google, com 11,4% de sucesso e cerca de quarenta ações para concluir cada atividade.
O agente de IA que saiu pior nos testes é o Nova Pro v1, da Amazon, com uma taxa de sucesso de apenas 1,7% após quase vinte passos em média.
Estes dados ilustram tanto o baixo grau de autonomia real dos agentes quanto o impacto financeiro da sua implantação, elementos decisivos para qualquer responsável de TI que valorize sua adoção.
Lacunas operacionais e lições para os departamentos de TI
Os investigadores atribuem as falhas à ausência de senso comum nos modelos de linguagem, às habilidades sociais limitadas, mesmo para dialogar entre si, e à dificuldade de se orientar na rede.
Em alguns casos, os agentes recorreram a atalhos que acabaram por piorar a situação: um deles, ao não encontrar o interlocutor adequado no chat corporativo, optou por renomear outro utilizador com o nome procurado, causando mais confusão.
Esses comportamentos destacam que a inteligência artificial atual se assemelha mais a um “texto preditivo ampliado” do que a um sistema capaz de aprender com a experiência e transferi-la para cenários novos.
No momento, os agentes podem auxiliar em tarefas muito limitadas, mas sua confiabilidade e custo os afastam de projetos complexos, onde a supervisão humana continua sendo essencial.
Para os responsáveis pelas compras de tecnologia, o estudo fornece uma referência clara: incorporar agentes de IA sem uma avaliação rigorosa de sua eficácia e impacto económico pode resultar em custos adicionais e prazos não cumpridos.
O discurso sobre a iminente substituição em massa de empregos especializados por máquinas está, portanto, longe da realidade operacional atual, de acordo com esta experiencia.