HPC

Объем воздуха для охлаждения серверов

Связь между температурой и необходимым потоком воздуха проста: чем выше температура входящего воздуха или чем ниже допустимый порог нагрева оборудования, тем больше воздуха нужно прокачивать.

Если говорить физически, зависимость описывается формулой:

$$Q = \frac{P}{C_p \cdot \rho \cdot \Delta T}$$

Где:

  • $Q$ — объемный расход воздуха (м³/с).
  • $P$ — мощность тепловыделения (Вт).
  • $C_p$ — удельная теплоемкость воздуха.
  • $\rho$ — плотность воздуха (падает при нагреве).
  • $\Delta T$ — разница температур между входящим воздухом и нагретым компонентом (или выходящим потоком).

Основные закономерности

  1. Обратная зависимость от $\Delta T$: Если разница температур между воздухом и деталью сокращается (например, в комнате стало жарче), нам нужно пропорционально увеличить поток, чтобы отвести то же количество тепла.
  2. Плотность воздуха ($\rho$): Горячий воздух менее плотный. При одинаковых оборотах вентилятора масса прокачиваемого воздуха падает с ростом температуры, что снижает эффективность охлаждения.
  3. Нелинейность на практике: В реальных системах (например, в ПК или серверах) зависимость часто нелинейная из-за турбулентности и изменения теплопроводности материалов.

Иными словами: если температура входящего воздуха поднялась на 10 градусов, а мы хотим оставить температуру процессора прежней, вентиляторам придется крутиться значительно быстрее, чтобы компенсировать уменьшившийся «запас» по температуре.

Современный ЦОД для ИИ

Вызов продиктован современными трендами развития ИИ инфраструктуры и потребностью строительства оптимизированных ЦОД.

Опорные данные:

  1. В качестве сервера для расчетов взят сервер Nvidia DGX B200 и серверы с жидкостным охлаждением размером 4U SXM B200
  2. Стартовое число размещаемых в ЦОД серверов: 100 штук
  3. Среднегодовой рост числа серверов: 200 штук в год

Современный машинный зал для ИИ — это высокоплотная инженерная система, где критически важны энергоэффективность, максимальная плотность размещения оборудования и стратегический выбор архитектуры охлаждения. Для ЦОД ИИ со стартом на 100 серверов NVIDIA DGX B200 (10U в стойке) с ежегодным приростом 200 серверов и расчетом на 3 года, оптимальная инфраструктура требует жесткого следования ряду технических и экономических принципов. Так же рассмотрено размещение серверов с жидкостным охлаждением, более плотное размещение.

Строим сервисы для разработчиков ИИ: как в МТС GPU SuperCloud эволюционировал до автоматизированной MLOps Platform

Роботы вошли в нашу жизнь. Мы пользуемся ими на повседневной основе, подчас даже не замечая этого. ИИ звонит нам и отвечает на наши звонки. Сейчас даже проезд в метро можно оплатить лицом.

Динамичный рост рынка технологий искусственного интеллекта закономерно породил спрос на инфраструктуру для их разработки. Особенность построения моделей искусственного интеллекта состоит в том, что для их обучения требуются очень мощные и производительные решения. Под катом мы поговорим о том, как начался наш путь в сервисы для ИИ и к чему мы пришли сейчас. Коснемся и исторических моментов, и планов на ближайшее будущее.