Elimine a potência ociosa
Elimine a potência ociosa alinhando os Clusters de IA com os blocos de capacidade do data center.
A potência em um data center é segmentada em blocos de capacidade, normalmente de 1 a 3 MW, e é determinada pelo dimensionamento padrão da indústria para os disjuntores e geradores
A IA é implementada em Clusters, que logo serão comuns com + de 100 kW por rack, e crescerão a partir daí.
Alinhar os clusters com os blocos de capacidade pode garantir que cada kW disponível possa ser utilizado.
Equilibre os custos, a redundância e os riscos
O valor do hardware de IA, de 1 a 4 milhões de dólares por rack, e o processamento a que ele dá suporte, está originando uma maior consideração sobre redundância nos designs de alimentação e de resfriamento, especialmente para aplicações de inferência.
Designs que limitam o blast radius, ou o impacto da perda de um único segmento de capacidade (servidor, rack, fila), tendem a usar uma maior quantidade de componentes menores, potencialmente às custas do custo total de propriedade.
Designs que favorecem o custo total de propriedade tendem a usar uma menor quantidade de componentes maiores, muitas vezes com redundância para reduzir a possibilidade de uma perda de um segmento de capacidade.
Inclua resfriamento a líquido e a ar
A energia sendo alimentada para o data center é igual ao calor rejeitado.
A temperatura e o fluxo/vazão de resfriamento do ar e do líquido devem permanecer dentro dos limites de operação tanto dos servidores de IA como dos equipamentos de rejeição de calor do data center.
Planeje para o futuro
Planeje hoje para acomodar o crescimento e a demanda por alta densidade do futuro.
Planeje hoje para acomodar o crescimento e a demanda por alta densidade do futuro.
Projete a potência e o resfriamento juntos
Otimize a infraestrutura de IA garantindo que as tecnologias de potência e de refrigeração sejam construídas e implementadas para que trabalhem em conjunto.
Potência, resfriamento e hardware de IA competem por espaço e alimentação limitados.
Uma abordagem holística ao design da potência e do resfriamento é necessária para maximizar a divisão do espaço e da alimentação dedicados ao processamento de IA.
Vertiv Design
Principles
Explore how implementing
these principles can optimize
the strategic deployment of
AI workloads.
Gerencie os picos de cargas de trabalho de IA
Planeje para a variação que as cargas de trabalho de IA podem demandar através de controles no nível do sistema, incluindo buffers para alimentação de energia e resfriamento.
O 'treinamento' da IA tende a levar uma grande quantidade de processadores a trabalhar em uníssono, criando picos gigantescos de consumo de energia que podem se repetir e degradar tanto a performance como a vida útil das infraestruturas de energia e de refrigeração.
Designs para mitigar o problema incuem controles no nível do sistema com resposta rápida, além de buffers na capacidade de alimentação de energia e de resfriamento acessíveis de imediato.