O recente marco alcançado pelo sistema o3 da OpenAI, a 20 de dezembro, gerou grande entusiasmo. De acordo com os números, o novo modelo alcançou uma taxa de sucesso de 85% no benchmark ARC-AGI, um teste que tem como objetivo medir a capacidade de adaptação e de resolução de problemas novos, como se pode ler num artigo exaustivo do The Conversation.
O resultado destaca-se da marca anterior de 55%, e está próximo da média alcançada pelos indivíduos. Além disso, revela um desempenho elevado numa avaliação complexa de matemática. Para muitos observadores, este pode ser um passo importante no sentido de alcançar a inteligência geral artificial (AGI), embora os investigadores e os especialistas sejam cautelosos e sublinhem a necessidade de mais provas a este respeito.
Tal como outras grandes empresas do setor, a OpenAI declarou o seu objetivo de avançar para a AGI. A capacidade de um sistema superar e generalizar numa variedade de tarefas, adaptando-se rapidamente a novos cenários, levanta questões sobre o quão perto estaremos de criar máquinas capazes de um desempenho semelhante ao humano. Várias vozes no domínio da tecnologia acolheram estes dados com entusiasmo e cautela, reconhecendo que o caminho para a AGI pode ser mais curto do que o previsto.
Os sinais deste progresso, no entanto, não dissipam a cautela. Existe um ceticismo razoável quanto à possibilidade de os resultados deste tipo de teste se traduzirem diretamente em competências gerais reais, especialmente em contextos não controlados.
Justificação do teste ARC-AGI
Para avaliar o grau de sucesso, é essencial compreender o que mede exatamente o teste ARC-AGI. O seu foco principal é a eficiência da amostra, um conceito que mede o número de exemplos que um sistema necessita para compreender novas situações e, assim, extrair regras. Os modelos anteriores, como o GPT-4 , provaram ser fiáveis em tarefas quotidianas, mas o seu desempenho é prejudicado em contextos pouco frequentes, em que a disponibilidade de dados é escassa.
A amostra limitada de problemas disponíveis no ARC-AGI obriga um sistema de inteligência artificial a “adivinhar” padrões a partir de muito pouca informação. Ao contrário de outros modelos que funcionam bem com grandes volumes de dados, estes testes põem à prova a sua flexibilidade e rapidez de adaptação.
A natureza repetitiva de certas tarefas para as quais os sistemas de IA são atualmente utilizados deixa espaço para uma futura generalização, a fim de melhorar a sua utilidade. Muitos especialistas defendem que a capacidade de extrair regras gerais e de as aplicar com precisão é essencial para a inteligência no sentido mais lato.
Generalização e adaptabilidade
O teste ARC-AGI utiliza grelhas e padrões. Utilizando exemplos aparentemente simples, a IA deve deduzir as regras subjacentes e aplicá-las a um novo caso, com o objetivo de transformar a grelha inicial na grelha final.
O que aconteceu com o modelo o3 é que mostrou uma capacidade invulgar de contornar este desafio com poucos exemplos, identificando a regra e traduzindo-a exatamente para a nova situação.
Para resolver estes exercícios, os sistemas não podem assumir regras demasiado específicas. Quanto mais simples e gerais forem estas diretrizes, maior será a probabilidade de o sistema se adaptar a novas circunstâncias. Esta ideia de “regras fracas” explica a robustez do modelo a situações que não viu no seu treino.
Não se sabe exatamente qual o método utilizado pela OpenAI para que o modelo adopte estas regras ou cadeias de passos lógicos. No entanto, é provável que, graças a um processo de aprendizagem adicional e à análise de diferentes cenários, o sistema seja capaz de escolher a estratégia mais adequada.
A abordagem da OpenAI com o modelo o3
A empresa de Sam Altman tem dado poucos pormenores sobre o o3, limitando a informação a apresentações e testando o sistema de forma restrita em alguns laboratórios e centros de investigação. Embora se saiba que o modelo tem a capacidade de “investir” mais tempo na reflexão sobre tarefas difíceis, não se sabe até que ponto a arquitetura interna difere das soluções anteriores da empresa.
O criador do teste ARC-AGI, François Chollet, sugere que a o3 poderia utilizar uma pesquisa de diferentes “cadeias de pensamento” ou sequências lógicas para resolver o problema, escolhendo a mais adequada de acordo com um critério ou heurística. Esta abordagem seria uma reminiscência da estratégia que a Google aplicou com o AlphaGo, procurando o movimento mais adequado para cada jogada.
Se o funcionamento do modelo for semelhante ao utilizado no jogo Go, o3 seria conduzido por um mecanismo que permite, grosso modo, escolher a sequência de passos com maior probabilidade de sucesso. Uma tal estratégia pode também ser descrita como “mais simples” ou “menos rígida”, uma qualidade que favorece a adaptação.
Perspetivas da inteligência geral
Se estas hipóteses se confirmarem, o novo sistema poderia traduzir-se em mudanças económicas e sociais notáveis, uma vez que a capacidade de autoaperfeiçoamento acelerado geraria um ambiente sem precedentes. No entanto, a robustez destes resultados e a sua aplicabilidade na prática têm de ser objeto de avaliações mais extensas e transparentes, incluindo a compreensão das limitações e da taxa de insucesso do modelo.
Atualmente, a comunidade está à espera de mais dados para clarificar os progressos efetivamente realizados na via da IGA. Se o o3 for finalmente publicado de forma mais ampla e confirmar a sua aparente adaptabilidade, o debate sobre novas medidas de controlo, governação e segurança na inteligência artificial tornar-se-á mais relevante. Caso contrário, será ainda uma realização técnica significativa, que não conduzirá imediatamente a uma alteração profunda dos processos normais de IA.