Phi-3: Chegou o primeiro dos três pequenos modelos de linguagem da Microsoft

A Microsoft lançou a próxima versão do seu modelo de IA leve Phi-3 Mini, o primeiro de três pequenos modelos que a empresa planeia lançar.
24 de Abril, 2024

O Phi-3 Mini mede 3,8 mil milhões de parâmetros e é treinado num conjunto de dados mais pequeno do que os modelos de linguagem de grande dimensão, como o GPT-4, chegou. Está disponível no Azure, Hugging Face e Ollama. A Microsoft tem no seus planos lançar o Phi-3 Small (7 mil milhões de parâmetros) e o Phi-3 Medium (14 mil milhões de parâmetros). Os parâmetros referem-se ao número de instruções complexas que um modelo pode compreender.

A empresa lançou o Phi-2 em dezembro, que teve um desempenho tão bom como os modelos maiores, como o Llama 2. Segundo a Microsoft o Phi-3 tem um desempenho melhor do que a versão anterior e pode fornecer respostas próximas às de um modelo 10 vezes maior.

Alguns dos principais destaques incluem:

  • O Phi-3 prova que dados sintéticos de alta qualidade são uma opção viável para treinar modelos de linguagem e cria oportunidades únicas para mais inovação.
  • Esta inovação nasceu nos laboratórios de Research da Microsoft e foi impulsionada pela mais recente equipa de GenAI da empresa.
  • Além de todas as outras medidas de Responsible AI desenvolvidas antes de lançar um modelo, o treino com dados sintéticos permitiu à Microsoft adicionar uma camada extra de segurança e mitigar problemas comuns com linguagem prejudicial exibida por modelos treinados com dados da internet.
  • A família de modelos Phi-3 pode ajudar a derrubar barreiras associadas ao custo e à eficiência.
  • O Phi-3-mini possui 3.8 mil milhões de parâmetros e ainda supera concorrentes de maior dimensão. Isso significa que tarefas que normalmente seriam encaminhadas para um modelo maior podem ser tratadas por um modelo menor.
  • Devido à sua dimensão, será mais fácil e acessível ajustar o Phi-3 para use cases personalizados.
  • O Phi-3-small (7 mil milhões de parâmetros) e o Phi-3-medium (14 mil milhões de parâmetros) estarão disponíveis brevemente e oferecerão propostas de valor semelhantes com desempenho em escala.
  • A Microsoft está a apoiar a comunidade de developers ao disponibilizar o Phi-3 em várias plataformas.
  • O Phi-3 estará disponível no HuggingFace e Ollama, além do Azure, permitindo a qualquer pessoa executar o modelo localmente e aproveitar os benefícios da IA generativa.
  • O Phi-3-mini permitirá aos utilizadores executar o modelo no equipamento sem ser necessária uma ligação à internet ou acesso à cloud, ampliando o acesso à IA em locais sem a infraestrutura necessária para aproveitar os LLMs.

Se compararmos com os modelos maiores, os modelos de IA pequenos são muitas vezes mais baratos de executar e mostram ter melhor performance em maquinas pessoais como telemóveis e computadores portáteis. Segundo alguma impressa americana no início deste ano que a Microsoft estava a criar uma equipa especificamente dedicada a modelos de IA mais leves. Juntamente com o Phi, a empresa também construiu o Orca-Math, um modelo centrado na resolução de problemas matemáticos.

Como não poderia deixar de ser a Microsoft não esta sozinha no desenho de pequenos modelos de IA, a maioria dos concorrentes da empresa gerida por Nadella, também se dedicou nos últimos tempos ao desenvolvimento de soluções para tarefas mais simples, como o resumo de documentos ou a assistência à codificação. Os modelos Gemma 2B e 7B da Google são bons para chatbots simples e trabalhos relacionados com a linguagem. O Claude 3 Haiku da Anthropic pode ler artigos de investigação densos com gráficos e resumi-los rapidamente, enquanto o Llama 3 8B da Meta, recentemente lançado, pode ser utilizado para alguns chatbots e para assistência na codificação.

Acrescentou ainda que o Phi-3 se limitou a desenvolver o que as iterações anteriores aprenderam. Enquanto o Phi-1 se concentrou na codificação e o Phi-2 começou a aprender a raciocinar, o Phi-3 é melhor na codificação e no raciocínio. Embora a família de modelos Phi-3 tenha algum conhecimento geral, não consegue bater um GPT-4 ou outro LLM em termos de amplitude – há uma grande diferença no tipo de respostas que se pode obter de um LLM treinado em toda a Internet em relação a um modelo mais pequeno como o Phi-3.

Em suma os modelos mais pequenos, como o Phi-3, funcionam melhor para aplicações personalizadas, uma vez que, para muitas empresas, os seus conjuntos de dados internos serão, de qualquer modo, mais pequenos. Tendo em conta que estes modelos usam menos poder de computação, são na maioria dos casos muito mais económicos.

Opinião