Ted Hitowawa
20 de agosto de 2025 16:26
A NVIDIA apresenta o suporte do Megatron-Core em Nemo-RL V0.3, otimizando a transferência de treinamento para grandes modelos com técnicas otimizadas para GPU e paralelismo aprimorado.
A NVIDIA apresentou a mais recente iteração de sua estrutura Nemo-RL, versão 0.3, que incorpora suporte para Megatron-Core. Esse aprimoramento visa otimizar a taxa de transferência de treinamento para grandes modelos de linguagem, alavancando técnicas otimizadas para GPU e estratégias avançadas de paralelismo, de acordo com o blog oficial da NVIDIA.
Desafios com back -ends anteriores
A liberação inicial do NVIDIA Nemo-RL utilizou o Pytorch Dtensor (FSDP2), oferecendo integração nativa com o ecossistema Huggingface e permitindo uma rápida experimentação através dos paralelismos nativos de Pytorch. No entanto, à medida que os tamanhos dos modelos aumentavam para centenas de bilhões de parâmetros, o caminho do Dtensor se mostrou inadequado devido a uma sobrecarga de recomputa significativa e a falta de grãos otimizados da NVIDIA CUDA, levando a tempos de passo ineficientes.
Apresentando o Megatron-Core
A biblioteca do Megatron-Core aborda essas limitações, oferecendo uma solução mais eficiente para o treinamento de modelos extensos. Emprega uma estratégia de paralelismo 6D para aprimorar os padrões de comunicação e computação, apoiando várias arquiteturas de modelos. Esse back -end permite o treinamento contínuo de modelos de idiomas enormes, aprimorando significativamente o rendimento e o desempenho.
Introdução com Megatron-Core
A implementação do treinamento baseado em megatron envolve a adição de configurações específicas à configuração da YAML. O processo é simplificado pelo Nemo-RL, que lida com o ajuste complexo automaticamente, apresentando aos usuários opções de configuração direta. Isso torna a adoção do Megatron-Core mais acessível para os desenvolvedores, permitindo que eles se concentrem em otimizar seus processos de treinamento modelo.
Melhorias de desempenho
O treinamento baseado em megatron suporta modelos densos e de mistura de especialistas (MOE). Os testes de desempenho demonstraram desempenho superior de treinamento com o Megatron-Core em comparação com o Pytorch Dtensor, como mostrado em várias configurações de modelo, como LLAMA 3.1-8B e 70B. Os aprimoramentos são evidentes em tempos de passo mais rápidos e propriedades de convergência aprimoradas.
Recursos adicionais e perspectivas futuras
O Nemo-RL V0.3 apresenta recursos como lançamentos de assíncronos e geração não colocada, expandindo seus recursos. Olhando para o futuro, a NVIDIA planeja suportar modelos MOE maiores e introduzir outras otimizações, incluindo suporte de geração FP8 e geração não colocada com o Megatron-Core.
Os avanços no Nemo-RL com o back-end do Megatron-Core marcam um passo significativo para otimizar o aprendizado de reforço para modelos de linguagem em larga escala, garantindo eficiência e escalabilidade no treinamento de modelos.
Fonte da imagem: Shutterstock