HW

Объем воздуха для охлаждения серверов

Связь между температурой и необходимым потоком воздуха проста: чем выше температура входящего воздуха или чем ниже допустимый порог нагрева оборудования, тем больше воздуха нужно прокачивать.

Если говорить физически, зависимость описывается формулой:

$$Q = \frac{P}{C_p \cdot \rho \cdot \Delta T}$$

Где:

  • $Q$ — объемный расход воздуха (м³/с).
  • $P$ — мощность тепловыделения (Вт).
  • $C_p$ — удельная теплоемкость воздуха.
  • $\rho$ — плотность воздуха (падает при нагреве).
  • $\Delta T$ — разница температур между входящим воздухом и нагретым компонентом (или выходящим потоком).

Основные закономерности

  1. Обратная зависимость от $\Delta T$: Если разница температур между воздухом и деталью сокращается (например, в комнате стало жарче), нам нужно пропорционально увеличить поток, чтобы отвести то же количество тепла.
  2. Плотность воздуха ($\rho$): Горячий воздух менее плотный. При одинаковых оборотах вентилятора масса прокачиваемого воздуха падает с ростом температуры, что снижает эффективность охлаждения.
  3. Нелинейность на практике: В реальных системах (например, в ПК или серверах) зависимость часто нелинейная из-за турбулентности и изменения теплопроводности материалов.

Иными словами: если температура входящего воздуха поднялась на 10 градусов, а мы хотим оставить температуру процессора прежней, вентиляторам придется крутиться значительно быстрее, чтобы компенсировать уменьшившийся «запас» по температуре.

Запускаем llama.cpp на RISC-V VisionFive 2

Пробуем запускать LLM на RISC-V

banner

Целью эксперимента было не столько проверить производительность, сколько понять применимость процессоров RISC-V в качестве управляющих в серверах для ИИ.

Компания Nvidia использует ARM процессоры Vera в качестве управляющих для GPU Rubin.

Почему бы не попробовать использовать RISC-V?

В качестве инференес-движка выбрал LLaMA C++ - LLM inference in C/C++

Критерием успеха для себя выбрал: модель LLM работает и ответила мне хотя бы одним словом.

На чем пробовал и как собирал

Одноплатник StarFive VisionFive 2:

Архитектурный анализ межпроцессорной связи серверов на базе AMD 9005 и Intel 6700P

Рассмотрим два дизайна серверов:

  1. 2 процессора AMD 9005 (CPU_0 и CPU_1), от каждого процессора разведено 5 слотов PCIe x16, в слоты от CPU_0 установлена 4 ускорителя Nvidia H200 NVL, они объединены мостами NVLink 4-post, а так же адаптер Infiniband 400Gbps, в слоты от CPU_1 установлена 4 ускорителя Nvidia H200 NVL, они объединены мостами NVLink 4-post, а так же адаптер Infiniband 400Gbps, таким образом у нас всего 8 ускорителей Nvidia H200 NVL и два адаптера Infiniband 400Gbps.
  2. 2 процессора AMD 9005 (CPU_0 и CPU_1), к каждому процессору подключен PCIe Switch Broadcom PEX89144 (BR_0 и BR_1 соответственно), подключение BR к CPU выполнено PCIe5 x16. От коммутатора BR_0 и BR_1 разведено 5 слотов PCIe x16, в слоты от BR_0 установлена 4 ускорителя Nvidia H200 NVL, они объединены мостами NVLink 4-post, а так же адаптер Infiniband 400Gbps, в слоты от BR_1 установлена 4 ускорителя Nvidia H200 NVL, они объединены мостами NVLink 4-post, а так же адаптер Infiniband 400Gbps, таким образом у нас всего 8 ускорителей Nvidia H200 NVL и два адаптера Infiniband 400Gbps.

Краткий вывод

Дизайн 1 (прямое подключение к CPU) является более оптимальным решением для задач инференса и fine-tuning больших моделей, требующих взаимодействия между двумя группами GPU. Прямое подключение через CPU обеспечивает более низкую латентность (15-25 мкс против 2-5 мкс через InfiniBand), лучшую интеграцию с технологиями GPUDirect и упрощённую топологию для tensor parallelism и pipeline parallelism.​

Современный ЦОД для ИИ

Вызов продиктован современными трендами развития ИИ инфраструктуры и потребностью строительства оптимизированных ЦОД.

Опорные данные:

  1. В качестве сервера для расчетов взят сервер Nvidia DGX B200 и серверы с жидкостным охлаждением размером 4U SXM B200
  2. Стартовое число размещаемых в ЦОД серверов: 100 штук
  3. Среднегодовой рост числа серверов: 200 штук в год

Современный машинный зал для ИИ — это высокоплотная инженерная система, где критически важны энергоэффективность, максимальная плотность размещения оборудования и стратегический выбор архитектуры охлаждения. Для ЦОД ИИ со стартом на 100 серверов NVIDIA DGX B200 (10U в стойке) с ежегодным приростом 200 серверов и расчетом на 3 года, оптимальная инфраструктура требует жесткого следования ряду технических и экономических принципов. Так же рассмотрено размещение серверов с жидкостным охлаждением, более плотное размещение.

Как ИИ меняет проектирование и эксплуатацию дата-центров в России. TA мнения

Дал комментарий для TAdviser.

Затрагивается тема влияния ИИ в строительстве ЦОД.

Искусственный интеллект давно перестал быть футуристической концепцией и стал рабочим инструментом в самых разных сферах. Но пока обыватели обсуждают креативные возможности ChatGPT и генерацию изображений, в фундаменте цифрового мира — дата-центрах — происходит своя, не менее значимая тихая революция. От оптимизации энергопотребления до предсказательного ремонта оборудования: TAdviser поговорил с экспертами и участниками рынка, чтобы выяснить, как ИИ применяется при создании и эксплуатации ЦОДов в России.

GPU Server and AI Infrastructure: тренды архитектуры 2030

2030

Мы в OpenYard внимательно следим за тем, как развивается инфраструктура для искусственного интеллекта — от железа до сетей и архитектуры дата-центров. Причём это не просто рабочая необходимость, а и то, что нам самим по-настоящему интересно. В эту статью попали материалы, которые мы собираем и анализируем в процессе исследований для наших новых продуктов. Здесь собраны ключевые тренды, которые уже начинают влиять на то, как мы будем строить свою инфраструктуру и запускать модели ИИ в ближайшие 5–7 лет.