A AMD anunciou o lançamento do ROCm 6.4, uma plataforma de software de GPU, que introduz melhorias significativas em inteligência artificial (IA), computação de alto desempenho (HPC) e gerenciamento de infraestrutura em contentores. Esta versão representa uma evolução substancial em relação às versões anteriores, oferecendo desempenho otimizado, novos recursos para Kubernetes e ferramentas de desenvolvimento mais precisas.
Concebido para ser executado nos aceleradores AMD Instinct MI300X, o ROCm 6.4 facilita a formação de modelos linguísticos em grande escala, a inferência otimizada e a implementação eficiente em ambientes locais ou na cloud. Esta solução responde a uma necessidade crítica da indústria: alimentar cargas de trabalho complexas, mantendo o controlo sobre o custo, o consumo de energia e a escalabilidade.
Um dos avanços mais notáveis nesta atualização é a melhoria substancial do desempenho em estruturas de IA, como PyTorch, JAX e Megatron-LM. A introdução de otimizações em operações como o TopK, a atenção escalonada e o SDPA permite acelerar a inferência de modelos LLM, mantendo a coerência e a qualidade dos resultados.
O ROCm 6.4 também incorpora contentores Docker pré-configurados para treino e inferência com modelos como Llama 2, Llama 3 e DeepSeek, prontos para implantação imediata em ambientes corporativos. Estes ambientes suportam várias estruturas, incluindo vLLM e SGLang, facilitando uma experiência plug-and-play para programadores de modelos de linguagem.
O AITER, um conjunto de kernels pré-otimizados, proporciona melhorias de velocidade até 17x para operações críticas, como GEMM e atenção, reduzindo a necessidade de ajuste manual no desenvolvimento.
Bibliotecas matemáticas e comunicação GPU-GPU
Do ponto de vista computacional, o ROCm 6.4 oferece melhorias nas principais bibliotecas, como o rocWMMA e o rocSPARSE. As melhorias no GEMM intercalado e no algoritmo Stream-K aumentam a eficiência computacional, enquanto as operações de matrizes esparsas aceleram simulações HPC complexas com menor utilização de memória.
Nas comunicações, foram introduzidos avanços no rocSHMEM e no RCCL, melhorando a comunicação inter e intra-nó e reduzindo o congestionamento da rede através da otimização da topologia da rede baseada em comutadores de camada única.
Ferramentas para programadores e novas capacidades de observabilidade
O ROCm Systems Profiler alarga a sua funcionalidade com o rastreio da atividade da rede, a análise da descarga OpenMP em C++ e a monitorização do motor de vídeo (VCN). Estas ferramentas permitem identificar com maior precisão os estrangulamentos e otimizar o desempenho de aplicações exigentes.
Estas capacidades são especialmente relevantes para ambientes multimédia, onde o ROCm 6.4 adiciona suporte para o codec VP9, para além dos codecs HEVC, AVC e AV1 já suportados, melhorando assim a capacidade de processamento de vídeo.
Na frente da gestão de infraestrutura, o ROCm 6.4 introduz um operador de GPU para Kubernetes com suporte para Red Hat OpenShift e Ubuntu, que automatiza a orquestração, atualizações de driver e tarefas de manutenção. Esta solução suporta ambientes isolados ou proxied, atendendo às necessidades críticas em setores regulamentados, como defesa e governo.
O novo Device Metrics Exporter, baseado no Prometheus, permite monitorizar métricas como erros de ECC, consumo de energia e utilização de memória em tempo real, oferecendo limites configuráveis pelo utilizador para antecipar falhas e minimizar interrupções.
Modularidade e suporte alargado de controladores
A modularização da pilha com o novo Instinct GPU Driver, agora dissociado do espaço do utilizador ROCm, permite atualizações independentes do controlador e do kit de ferramentas, melhora a estabilidade e facilita a sua utilização com várias versões do software ou contentores ISV. Esta modularidade foi concebida para garantir a compatibilidade com versões anteriores e posteriores durante um período alargado de 12 meses.