Em 1º de setembro de 2020, a NVIDIA revelou sua nova linha de GPUs para jogos: a série RTX 3000, baseada em sua arquitetura Ampere. Discutiremos o que há de novo, o software baseado em IA que vem com ele e todos os detalhes que tornam essa geração realmente incrível.
Índice
Conheça as GPUs da Série RTX 3000
O principal anúncio da NVIDIA foram suas novas GPUs, todas construídas em um processo de fabricação de 8 nm customizado, e todas trazendo grandes acelerações no desempenho de rasterização e rastreamento de raios .
Na extremidade inferior da linha, está o RTX 3070 , que custa US $ 499. É um pouco caro para a placa mais barata revelada pela NVIDIA no anúncio inicial, mas é um roubo absoluto, uma vez que você descobre que ela bate a RTX 2080 Ti existente, uma placa topo de linha que regularmente é vendida por mais de US $ 1400. No entanto, após o anúncio da NVIDIA, o preço de venda de terceiros caiu, com um grande número deles sendo vendidos no eBay por menos de $ 600.
Não há benchmarks sólidos desde o anúncio, então não está claro se a placa é realmente objetivamente “melhor” do que uma 2080 Ti, ou se a NVIDIA está distorcendo o marketing um pouco. Os benchmarks executados estavam em 4K e provavelmente tinham RTX ativado, o que pode fazer a lacuna parecer maior do que em jogos puramente rasterizados, já que a série 3000 baseada em Ampere terá um desempenho duas vezes melhor em traçado de raios do que Turing. Mas, com o ray tracing agora sendo algo que não prejudica muito o desempenho, e sendo suportado na última geração de consoles, é um grande ponto de venda tê-lo funcionando tão rápido quanto o carro-chefe da última geração por quase um terço do preço.
Também não está claro se o preço permanecerá assim. Projetos de terceiros regularmente adicionam pelo menos US $ 50 ao preço e, com a alta demanda provável, não será surpresa vê-lo sendo vendido por US $ 600 em outubro de 2020.
Logo acima disso está o RTX 3080 por US $ 699, que deve ser duas vezes mais rápido que o RTX 2080 e chegar a cerca de 25-30% mais rápido do que o 3080.
Então, na extremidade superior, o novo carro-chefe é o RTX 3090 , que é comicamente enorme. A NVIDIA está bem ciente disso e se referiu a isso como “BFGPU”, que a empresa diz que significa “GPU Big Ferocious”.
A NVIDIA não mostrou nenhuma métrica de desempenho direta, mas a empresa mostrou rodando jogos de 8K a 60 FPS, o que é realmente impressionante. Certo, a NVIDIA quase certamente está usando DLSS para atingir essa marca, mas jogos de 8K são jogos de 8K.
Claro, eventualmente haverá um 3060 e outras variações de cartões mais orientados para o orçamento, mas esses geralmente vêm mais tarde.
Para realmente esfriar as coisas, a NVIDIA precisava de um design de cooler renovado. O 3080 é avaliado para 320 watts, o que é bastante alto, então a NVIDIA optou por um design de ventoinha dupla, mas em vez de ambas as ventoinhas vwinf colocadas na parte inferior, a NVIDIA colocou uma ventoinha na extremidade superior, onde normalmente fica a placa traseira. A ventoinha direciona o ar para cima, em direção ao cooler do processador e à parte superior do gabinete.
Julgando por quanto o desempenho pode ser afetado por fluxo de ar ruim em um gabinete, isso faz todo o sentido. No entanto, a placa de circuito é muito apertada por causa disso, o que provavelmente afetará os preços de venda de terceiros.
DLSS: uma vantagem de software
O rastreamento de raio não é o único benefício desses novos cartões. Realmente, é tudo um bocado de um hack-as séries RTX 2000 e 3000 series não é que muito melhor em fazer o traçado de raios real, em comparação com as gerações mais velhas de cartões. O rastreamento de uma cena completa em software 3D como o Blender geralmente leva alguns segundos ou até minutos por quadro, então forçar bruta em menos de 10 milissegundos está fora de questão.
Claro, existe um hardware dedicado para executar cálculos de raio, chamados de núcleos RT, mas principalmente, a NVIDIA optou por uma abordagem diferente. A NVIDIA melhorou os algoritmos de eliminação de ruído, que permitem às GPUs renderizar uma única passagem muito barata que parece terrível e, de alguma forma – por meio da magia da IA - transformar isso em algo que um jogador deseja ver. Quando combinado com técnicas tradicionais baseadas em rasterização, torna uma experiência agradável aprimorada por efeitos de traçado de raio.
No entanto, para fazer isso rapidamente, a NVIDIA adicionou núcleos de processamento específicos de AI chamados núcleos de Tensor. Eles processam toda a matemática necessária para executar modelos de aprendizado de máquina e muito rapidamente. Eles são uma virada total para a IA no espaço do servidor em nuvem , já que a IA é amplamente usada por muitas empresas.
Além da remoção de ruído, o principal uso dos núcleos do Tensor para jogadores é chamado de DLSS, ou superamostragem de aprendizado profundo. Ele pega um quadro de baixa qualidade e o aprimora para uma qualidade totalmente nativa. Isso essencialmente significa que você pode jogar com taxas de quadros de nível 1080p, enquanto olha uma imagem 4K.
Isso também ajuda um pouco com o desempenho do traçado de raio – os benchmarks do PCMag mostram um RTX 2080 Super Running Control em ultra qualidade, com todas as configurações de traçado de raio acionadas ao máximo. Em 4K, ele luta com apenas 19 FPS, mas com DLSS ativado, ele consegue 54 FPS muito melhores. DLSS é um desempenho gratuito para NVIDIA, possibilitado pelos núcleos Tensor em Turing e Ampere. Qualquer jogo que ofereça suporte e seja limitado pela GPU pode ter grandes acelerações apenas com o software sozinho.
O DLSS não é novo e foi anunciado como um recurso quando a série RTX 2000 foi lançada há dois anos. Na época, era suportado por poucos jogos, pois exigia que a NVIDIA treinasse e ajustasse um modelo de aprendizado de máquina para cada jogo individual.
No entanto, nessa época, a NVIDIA o reescreveu completamente, chamando a nova versão de DLSS 2.0. É uma API de propósito geral, o que significa que qualquer desenvolvedor pode implementá-la, e ela já está sendo usada pela maioria dos lançamentos principais. Em vez de trabalhar em um quadro, ele obtém dados do vetor de movimento do quadro anterior, de forma semelhante ao TAA. O resultado é muito mais nítido do que o DLSS 1.0 e, em alguns casos, realmente parece melhor e mais nítido do que até mesmo a resolução nativa, então não há muito motivo para não ativá-lo.
Há um problema – ao alternar completamente as cenas, como nas cenas, o DLSS 2.0 deve renderizar o primeiro quadro com qualidade de 50% enquanto espera os dados do vetor de movimento. Isso pode resultar em uma pequena queda na qualidade por alguns milissegundos. Mas, 99% de tudo que você olha será processado corretamente, e a maioria das pessoas não percebe isso na prática.
Arquitetura Ampere: Construída para IA
Ampere é rápido. Sério rápido, especialmente em cálculos de IA. O núcleo RT é 1,7x mais rápido do que Turing e o novo núcleo Tensor é 2,7x mais rápido do que Turing. A combinação dos dois é um verdadeiro salto geracional no desempenho do raytracing.
No início de maio, a NVIDIA lançou a GPU Ampere A100 , uma GPU de data center projetada para executar IA. Com ele, eles detalharam muito do que torna o Ampere tão mais rápido. Para data centers e cargas de trabalho de computação de alto desempenho, o Ampere é em geral cerca de 1,7 vezes mais rápido do que o Turing. Para treinamento de IA, é até 6 vezes mais rápido.
Com o Ampere, a NVIDIA está usando um novo formato de número projetado para substituir o “Ponto flutuante 32” ou FP32 padrão da indústria em algumas cargas de trabalho. Sob o capô, cada número que seu computador processa ocupa um número predefinido de bits na memória, seja 8 bits, 16 bits, 32, 64 ou até maior. Números maiores são mais difíceis de processar; portanto, se você puder usar um tamanho menor, terá menos para processar.
FP32 armazena um número decimal de 32 bits e usa 8 bits para o intervalo do número (quão grande ou pequeno ele pode ser) e 23 bits para a precisão. A afirmação da NVIDIA é que esses 23 bits de precisão não são inteiramente necessários para muitas cargas de trabalho de IA, e você pode obter resultados semelhantes e desempenho muito melhor com apenas 10 deles. Reduzir o tamanho para apenas 19 bits, em vez de 32, faz uma grande diferença em muitos cálculos.
Este novo formato é chamado Tensor Float 32, e os Tensor Cores no A100 são otimizados para lidar com o formato de tamanho estranho. Isto é, além das reduções de dados e dos aumentos de contagem de núcleos, como eles estão obtendo uma aceleração massiva de 6x no treinamento de IA.
Além do novo formato de número, o Ampere está vendo grandes acelerações de desempenho em cálculos específicos, como FP32 e FP64. Isso não se traduz diretamente em mais FPS para o leigo, mas é parte do que o torna quase três vezes mais rápido no geral nas operações do Tensor.
Então, para acelerar ainda mais os cálculos, eles introduziram o conceito de dispersão estruturada de baixa granularidade , que é uma palavra muito sofisticada para um conceito bastante simples. As redes neurais funcionam com grandes listas de números, chamadas de pesos, que afetam a saída final. Quanto mais números processar, mais lento será.
No entanto, nem todos esses números são realmente úteis. Alguns deles são literalmente apenas zero e podem basicamente ser jogados fora, o que leva a acelerações massivas quando você pode processar mais números ao mesmo tempo. A dispersão essencialmente comprime os números, o que exige menos esforço para fazer cálculos. O novo “Sparse Tensor Core” foi desenvolvido para operar em dados compactados.
Apesar das mudanças, a NVIDIA diz que isso não deve afetar de forma perceptível a precisão dos modelos treinados.
Para cálculos Sparse INT8, um dos menores formatos de número, o desempenho de pico de uma única GPU A100 é superior a 1,25 PetaFLOPs, um número incrivelmente alto. Claro, isso só acontece quando se analisa um tipo específico de número, mas mesmo assim é impressionante.