'power efficiency' 태그의 글 목록

power efficiency

ARM 및 RISC-V 기반 슈퍼컴퓨터 설계 및 DGX H100 비교 보고서 2025.02.24
Power System for Server 2025.02.19 1

ARM 및 RISC-V 기반 슈퍼컴퓨터 설계 및 DGX H100 비교 보고서

zeah 2025. 2. 24. 05:56

2025. 2. 24. 05:56

Balanced_DGX_vs_ARM_vs_RISC-V_Supercomputer_Performance_Comparison.xlsx

1. 개요

최근 GPU 기반 슈퍼컴퓨터가 증가하고 있지만, 높은 전력 소비가 운영 비용을 증가시키는 문제가 발생하고 있다. 이에 대한 대안으로 ARM 및 RISC-V 기반의 슈퍼컴퓨터를 설계하여, NVIDIA DGX H100과 동등한 성능을 유지하면서도 더 높은 전력 효율을 달성할 수 있는지 검토하였다.

본 보고서는 ARM 및 RISC-V 기반 슈퍼컴퓨터의 아키텍처를 설계하고, DGX H100과의 성능을 비교하여 현실적인 구현 가능성을 분석한 결과를 포함한다.

2. 설계 목표

NVIDIA DGX H100과 유사한 연산 성능을 갖춘 ARM 및 RISC-V 기반 슈퍼컴퓨터 설계
GPU 대신 ARM 및 RISC-V 아키텍처를 활용하여 전력 효율 극대화
고대역폭 메모리(HBM3) 및 고속 인터커넥트(CXL 3.0) 적용
AMBA 버스 기반 CXL 확장을 통해 메모리 병목 최소화

3. 시스템 사양 비교

아래 표는 DGX H100과 ARM, RISC-V 기반 슈퍼컴퓨터의 주요 사양을 비교한 것이다.

Specification	NVIDIA DGX H100	ARM-Based Supercomputer	RISC-V Based Supercomputer
Processor Architecture	x86 (AMD EPYC + NVIDIA H100)	ARMv9	RISC-V (RV64GC + Vector Extensions)
Total Cores	16 x 64 (AMD EPYC) + 8 x 18,432 (H100 CUDA Cores)	256 ARM Cores	512 RISC-V Cores
Base Clock Speed	3.7 GHz (AMD EPYC) / 1.4 GHz (H100)	3.0 GHz (ARM)	2.5 GHz (RISC-V)
Floating Point Performance	60 TFLOPS (FP64) / 1,000+ TFLOPS (FP16, Tensor Cores)	60 TFLOPS (FP64) / 500 TFLOPS (FP16, SVE2)	60 TFLOPS (FP64) / 500 TFLOPS (FP16, RVV)
Memory Type	HBM3	HBM3	HBM3
Memory Capacity	640GB (8 x 80GB HBM3)	640GB (8 x 80GB HBM3)	640GB (8 x 80GB HBM3)
Memory Bandwidth	3.35 TB/s	4 TB/s	3.8 TB/s
Interconnect	NVLink 4.0, PCIe Gen5	CXL 3.0, PCIe Gen5, NoC	CXL 3.0, PCIe Gen5, NoC
Storage	30TB NVMe SSD	10TB NVMe SSD + Persistent Memory	10TB NVMe SSD + Persistent Memory
Networking	8 x 400Gbps InfiniBand	8 x 400Gbps InfiniBand, RoCE v2	8 x 400Gbps InfiniBand, RoCE v2
Power Consumption	10.2 kW (Full Rack)	800W per Node (~8 kW per Full Rack)	700W per Node (~7 kW per Full Rack)
Cooling System	Liquid Cooling	Direct-to-Chip Liquid Cooling	Direct-to-Chip Liquid Cooling

4. 성능 분석

코어 수 조정
- ARM 및 RISC-V 기반 시스템은 DGX H100과 동일한 FP64 및 FP16 연산 성능을 제공하기 위해 코어 수를 증가하였다.
- ARM 기반 시스템은 256개 코어로 구성되어 있으며, SVE2 확장을 활용하여 500 TFLOPS (FP16) 연산을 지원한다.
- RISC-V 기반 시스템은 512개 코어를 배치하여 500 TFLOPS (FP16) 연산 성능을 확보하였다.
메모리 성능
- ARM 및 RISC-V 기반 슈퍼컴퓨터는 HBM3 메모리를 활용하여 4TB/s 및 3.8TB/s의 높은 메모리 대역폭을 제공한다.
- AMBA 기반 CXL 3.0 인터페이스를 활용하여 NVLink 없이도 고성능 확장이 가능하도록 설계되었다.
전력 효율
- DGX H100은 10.2kW의 전력을 소비하는 반면, ARM 및 RISC-V 기반 시스템은 약 8kW 이하의 전력 소비를 목표로 한다.
- ARM은 전력당 성능이 우수하며, RISC-V는 개방형 아키텍처를 활용하여 소비 전력을 최소화할 수 있다.

5. 결론 및 향후 연구 방향

본 보고서에서는 ARM 및 RISC-V 기반 슈퍼컴퓨터의 설계 및 성능 분석을 통해 DGX H100과 비교하였다.
결과적으로, ARM 및 RISC-V 아키텍처는 고성능 AI 및 병렬 연산을 지원할 수 있으며, GPU 기반 DGX H100 대비 낮은 전력 소비를 달성할 수 있다는 점이 확인되었다.

향후 연구에서는 다음과 같은 점을 추가적으로 검토할 필요가 있다:

CXL 3.0을 활용한 메모리 공유 성능 평가
AI 및 HPC 워크로드에서 ARM 및 RISC-V의 실제 성능 분석
FPGA 또는 추가적인 가속기(ASIC) 통합 가능성 연구

본 연구는 GPU 중심의 슈퍼컴퓨팅 환경을 넘어, 더 높은 전력 효율을 갖춘 ARM 및 RISC-V 기반의 차세대 슈퍼컴퓨터 설계를 위한 기초 연구로 활용될 수 있다.

ARM이나 RISC-V 기반으로 DGX H100 수준의 슈퍼컴퓨터를 만들 수 있음에도 불구하고, 현재 NVIDIA GPU 기반 슈퍼컴퓨터가 주류인 이유는 여러 가지 기술적, 경제적, 그리고 생태계적인 이유 때문입니다.

✅ 1. 연산 성능 및 최적화 부족

🔹 GPU의 강력한 행렬 연산 가속기 (Tensor Core)

AI 및 병렬 연산에 있어 GPU는 수십 년 동안 최적화된 아키텍처를 보유하고 있음.
NVIDIA의 Tensor Core는 AI/ML 연산을 가속화하는데 최적화되어 있으며, FP16/FP8 연산에서 압도적인 성능을 제공함.
반면, ARM 및 RISC-V는 AI 최적화 연산 유닛이 부족하고, 일반 벡터 연산(SVE2, RVV) 기반이므로 동일한 수준의 성능을 내기 어려움.

🔹 병렬 연산 최적화 부족

GPU는 수만 개의 CUDA Core를 통해 massive parallel processing에 최적화됨.
ARM 및 RISC-V는 SIMD (SVE2, RVV) 기반으로 병렬 연산을 수행하지만, 병렬 처리 효율성이 GPU만큼 뛰어나지 않음.
예를 들어, AI 훈련이나 그래픽 렌더링과 같은 워크로드에서 GPU의 압도적인 병렬 처리 성능을 대체하기 어려움.

✅ 2. 생태계 및 소프트웨어 지원 부족

🔹 NVIDIA CUDA 생태계의 압도적 우위

NVIDIA는 CUDA 및 cuDNN과 같은 강력한 소프트웨어 생태계를 구축하여 AI 연구 및 HPC(High-Performance Computing) 분야에서 사실상 독점적 위치를 차지하고 있음.
딥러닝 프레임워크 (TensorFlow, PyTorch, JAX 등)가 GPU를 최적화하여 동작하도록 설계되어 있음.
반면, ARM과 RISC-V는 AI 가속을 위한 SVE2/RVV 지원이 부족하며, 기존 AI 소프트웨어를 ARM/RISC-V용으로 재작성해야 함.

🔹 병렬 연산을 위한 라이브러리 부족

NVIDIA는 cuBLAS, cuFFT, cuSPARSE 등 HPC 및 AI 연산을 위한 수십 년의 최적화된 라이브러리를 보유.
ARM 및 RISC-V 기반 슈퍼컴퓨터는 이러한 최적화된 라이브러리가 부족하여 동일한 수준의 성능을 내기 어려움.
HPC 및 AI 연구자들이 ARM/RISC-V로 쉽게 전환할 수 있는 기반이 부족함.

✅ 3. 하드웨어 및 메모리 병목

🔹 HBM3 메모리 컨트롤러 설계 난이도

현재 HBM3 메모리는 GPU 및 특수 ASIC(예: TPU, AI 가속기)에 최적화되어 있음.
ARM 및 RISC-V CPU가 HBM3를 직접 탑재하려면 고성능 메모리 컨트롤러 및 캐시 시스템이 필요하며, 이는 추가적인 개발 비용과 시간이 소요됨.

🔹 CXL 3.0의 실질적 활용도 문제

CXL 3.0을 통해 HBM을 확장하려는 시도가 있지만, 아직 대규모 상용화된 사례가 적고, 최적화가 부족함.
NVLink처럼 로우 레이턴시 고대역폭 통신을 지원하는 안정적인 솔루션이 부족함.

✅ 4. 시장 및 경제적 요인

🔹 NVIDIA의 시장 지배력

NVIDIA는 GPU 및 AI 가속기 시장에서 절대적인 점유율을 보유하고 있으며, 기업 및 연구기관들이 이미 GPU 중심의 인프라를 구축한 상태임.
기업들이 ARM 및 RISC-V로 전환하려면 기존 코드 재작성, 최적화 작업, 하드웨어 교체 비용이 너무 큼.

🔹 칩 제조 및 최적화의 어려움

NVIDIA는 TSMC 4N 공정 (H100)과 같이 최신 반도체 공정을 적극 활용하여 최고 수준의 성능을 내고 있음.
반면, ARM 및 RISC-V 기반 슈퍼컴퓨터를 만들려면 독자적인 칩 설계 및 최적화가 필요하며, 이는 높은 개발 비용과 긴 개발 주기가 요구됨.
또한, 슈퍼컴퓨터 수준의 ARM 및 RISC-V 칩을 설계 및 양산할 회사가 부족함.

✅ 결론: ARM/RISC-V 기반 슈퍼컴퓨터의 가능성과 한계

현재로서는 ARM 및 RISC-V 기반 슈퍼컴퓨터가 GPU 기반 슈퍼컴퓨터를 완전히 대체하기 어려운 이유는 다음과 같다:

AI 및 병렬 연산에서 GPU의 성능 우위 (Tensor Core, CUDA Core 등)
CUDA 및 AI 소프트웨어 생태계 부족
HBM3 및 CXL 3.0과 같은 고속 메모리 활용의 어려움
시장 지배력과 경제적 진입 장벽

그러나 ARM 및 RISC-V 기반 슈퍼컴퓨터는 AI inference, Low-Power HPC 등 특정 영역에서 성장 가능성이 있음.
특히 전력 효율이 중요한 Edge AI, Cloud AI 및 Custom AI Accelerator 시장에서는 ARM 및 RISC-V 기반 슈퍼컴퓨터가 경쟁력을 가질 수 있음.

'AI > NVIDIA' 카테고리의 다른 글

RTX 4080, A100 40GB, H100 80GB 비교 분석 보고서 (1)	2025.03.05
NVLink Evolution and GPU Ecosystem: From Version 1.0 to 6.0 (1)	2025.02.24
DGX H100 SUPERPOD: NVLINK SWITCH 상세 설명 (0)	2025.02.24
DGX H100: Data-Network Configuration 상세 분석 (0)	2025.02.24
DGX H100 SERVER 상세 분석 (0)	2025.02.24

Power System for Server

zeah 2025. 2. 19. 15:52

2025. 2. 19. 15:52

서버의 전력 시스템은 데이터 센터 내에서 서버 장비에 안정적이고 효율적인 전력을 공급하기 위한 핵심 인프라입니다. 아래는 서버 전력 시스템의 주요 구성 요소와 그 역할을 설명하는 다이어그램입니다.

1. 전력 공급원 (Power Source):

전력망 (Utility Power): 데이터 센터는 일반적으로 지역 전력망으로부터 전력을 공급받습니다.
비상 발전기 (Backup Generators): 전력망 장애 시를 대비하여 디젤 또는 가스 발전기를 통해 비상 전력을 공급합니다.

2. 무정전 전원 공급 장치 (UPS, Uninterruptible Power Supply):

전력망의 순간적인 전압 강하나 정전 시에도 서버에 지속적으로 전력을 공급하기 위해 배터리를 사용합니다.

3. 전력 분배 장치 (PDU, Power Distribution Unit):

UPS나 발전기로부터 받은 전력을 각 서버 랙이나 장비에 분배하는 역할을 합니다.

4. 서버 랙 내부 전력 구성:

랙 장착형 PDU (Rack-mounted PDU): 각 서버 랙 내에서 개별 서버에 전력을 분배합니다.
전원 케이블 관리: 효율적인 전력 공급과 유지보수를 위해 케이블을 정리하고 관리합니다.

전력 변환 과정

외부 전력 공급 (100V~240V AC)
- 데이터센터는 전력망(Utility Power) 또는 비상 발전기(Generator) 에서 AC(교류) 전력을 공급받습니다.
- 일반적인 상용 전압은 국가마다 다르며, 미국은 110~120V AC, 한국 및 유럽은 220~240V AC입니다.
UPS (무정전 전원 공급 장치)
- 순간적인 전압 변동이나 정전이 발생했을 때 서버 가동을 유지하기 위해 UPS 배터리(DC 기반) 를 사용합니다.
PDU (Power Distribution Unit)
- UPS에서 나오는 전력을 서버 랙(Rack) 단위로 배분합니다.
- 일부 PDU는 AC 전압을 그대로 전달하지만, 고효율 전력 분배를 위해 DC 전력으로 변환하는 경우도 있습니다.
AC-DC 변환 (Power Supply Unit, PSU)
- 서버 내부의 전원 공급 장치(PSU) 가 AC 전력을 48V DC로 변환합니다.
- 고출력 서버(예: AI 서버, HPC 서버)의 경우, 48V DC 전력 시스템을 직접 사용하여 전력 손실을 줄입니다.
DC-DC 변환 (VRM, Voltage Regulator Module)
- 서버 내부에서는 48V → 12V, 5V, 3.3V, 1.8V 등으로 변환하여 CPU, GPU, 메모리 등에 적절한 전압을 공급합니다.

🔹 왜 48V DC를 사용할까?

전력 효율성 증가
- 높은 전압(48V)은 같은 전력을 공급할 때 전류(Ampere) 를 줄여서 전력 손실(Watts)을 최소화할 수 있음.
서버 냉각 효율 향상
- 낮은 전류를 사용하면 전력 손실에 따른 발열이 줄어들어 냉각 비용 절감.
고출력 서버(예: AI/ML 서버, 데이터센터)
- 최신 AI 서버는 GPU가 여러 개 장착되므로 대량의 전력을 필요로 함 → 12V보다 48V 전력 공급이 더 효율적.

🔹 정리

✅ 데이터센터의 전력 공급은 일반적으로 100~240V AC → 48V DC → 12V/5V/3.3V DC로 변환됨.
✅ 48V DC를 사용하는 이유는 전력 손실을 줄이고 서버의 전력 효율을 높이기 위해서임.
✅ 최신 AI 서버와 HPC 시스템에서는 48V 전원 시스템이 점점 더 보편화되고 있음. 🚀

서버에서 48V DC를 직접 사용하는 이유는 높은 전력 효율을 유지하고 전력 손실을 줄이기 위해서입니다. 하지만, 대부분의 반도체는 3V 이하의 전압에서 동작하기 때문에 48V를 직접 사용하는 부품은 거의 없으며, 특정 전력 변환 장치(PSU, VRM 등)가 이를 낮은 전압으로 변환하여 사용합니다.

📌 48V 전력을 직접 사용하는 부품

서버 내에서 48V DC를 직접 사용하는 경우는 제한적이지만, 다음과 같은 전력 관련 부품이 48V를 처리합니다:

서버 전원 공급 장치 (PSU, Power Supply Unit)
- 48V를 받아서 12V, 5V, 3.3V, 1.8V 등의 낮은 전압으로 변환.
- 서버용 고출력 PSU는 기존의 12V 출력 대신 48V 입력을 지원하여 전력 손실을 줄임.
DC-DC 컨버터 및 전압 조절 모듈 (VRM, Voltage Regulator Module)
- CPU, GPU, 메모리 등은 1V~3V로 동작하므로, 48V를 직접 사용할 수 없음.
- 따라서 48V → 12V → 1V~3V로 단계적으로 변환하는 DC-DC 컨버터를 사용.
- AI 서버 및 고성능 컴퓨팅(HPC) 서버의 VRM은 직접 48V 입력을 받아 1V대 전압으로 변환하는 방식이 늘어나고 있음.
서버용 냉각 장치 (팬, 워터쿨링 시스템 등)
- 일부 데이터센터에서는 48V 팬을 사용하여 고출력 냉각 시스템을 구성.
- 12V 팬보다 전류를 줄일 수 있어 전력 손실이 적음.
PoE (Power over Ethernet) 네트워크 장비
- PoE를 지원하는 네트워크 장비 (예: 고출력 스위치, PoE 카메라, AP 등)
- PoE는 최대 48V 전력 공급 가능.

📌 48V가 필요한 이유 (서버 설계 관점)

✔ 전류(A) 감소 → 전력 손실(발열) 최소화

전력 공식: P = V × I
같은 전력을 공급할 때 전압(V)을 높이면 전류(I)를 줄일 수 있음 → 배선에서 발생하는 저항 손실 감소
예:
- 12V 전원으로 1,200W 공급하려면 100A 필요
- 48V 전원으로 같은 1,200W를 공급하면 25A로 충분

✔ 서버 랙 내 전력 효율성 증가

기존 서버는 12V로 동작하지만, 대형 AI 서버, 데이터센터에서는 48V 전원이 점점 보편화됨.
Google, Facebook(메타), Microsoft 등 대형 데이터센터는 48V 기반 아키텍처로 전환 중.
AI 서버에서 GPU 8개를 연결하면 3,000W 이상 전력을 소비하므로, 48V 전원이 필수적.

✔ AI 및 HPC 시스템에서 GPU VRM의 효율성 증가

AI 가속기(GPU, TPU, FPGA 등)는 일반적으로 0.8V~1.2V에서 동작.
기존 서버에서는 12V → 1V 변환(비효율적)
최신 서버에서는 48V → 1V 변환 VRM 사용 (전력 손실 최소화)

📌 48V 전력 공급이 적용된 최신 서버 사례

Google TPU 데이터센터: 48V 전원 아키텍처 적용
NVIDIA DGX 서버: GPU용 48V VRM 사용
Facebook(메타) 데이터센터: 48V 전력 시스템 도입
Open Compute Project (OCP): 데이터센터 48V 전력 공급 표준화 추진

✅ 결론

✔ 48V를 직접 사용하는 반도체는 거의 없지만, 서버의 전력 공급 및 변환 시스템(PSU, VRM, DC-DC 컨버터)이 이를 활용함.
✔ 고전류(100A 이상) 전송을 피하기 위해 서버에서 48V를 사용한 후, 필요한 부품에 맞게 낮은 전압(12V, 5V, 3.3V, 1V 등)으로 변환하여 공급.
✔ AI 서버 및 데이터센터에서는 48V 전력이 점점 더 보편화되고 있음. 🚀

서버에서 48V를 낮은 전압(12V, 5V, 3.3V, 1V 등)으로 변환할 때 일반적으로 Buck Converter(강압형 DC-DC 컨버터)를 사용합니다. 하지만, 고성능 서버에서는 일반적인 Buck 컨버터만 사용하지 않고, 여러 가지 고효율 변환 기술이 함께 적용됩니다.

📌 일반적인 DC-DC 변환 방식

1️⃣ Buck Converter (강압형 컨버터)

동작 방식: 입력 전압(예: 48V)을 낮은 전압(예: 12V, 5V, 1V)으로 변환하는 스위칭 레귤레이터.
장점:
- 효율이 높음 (90% 이상)
- 간단한 회로 구성 가능
단점:
- 대전류(100A 이상) 변환 시 발열과 손실 증가
- 낮은 전압(1V 이하)까지 변환할 경우 효율 저하
서버 적용 예시:
- 48V → 12V 변환 (서버용 VRM에서 많이 사용)
- 12V → 1V 변환 (CPU/GPU용 VRM)

✅ 서버 전력 시스템에서 기본적으로 사용되지만, 고성능 AI 서버에서는 단독으로 사용하기 어려운 경우가 많음.

2️⃣ 두 단계 DC-DC 변환 (48V → 12V → 1V)

서버에서는 48V를 1V까지 직접 변환하는 것이 비효율적이기 때문에, 중간 단계(12V)를 거치는 방식이 일반적입니다.

📌 변환 과정

1차 변환: 48V → 12V (고출력 Buck Converter 사용)
- 효율: 약 96%
2차 변환: 12V → 1V (멀티페이즈 Buck Converter 사용)
- 효율: 약 85~90%

💡 왜 48V → 12V → 1V로 변환할까?

48V → 1V를 한 번에 변환하면 전력 손실이 큼.
12V 단계에서 전력 분배 및 관리가 용이.
서버 보드에서 기존 12V 기반 VRM을 재활용 가능.

✅ 현재 대부분의 AI 서버 및 데이터센터에서 이 방식을 사용하고 있음.

'System-on-Chip Design' 카테고리의 다른 글

SERDES(Serializer/Deserializer)의 개념, 아키텍처, 그리고 응용 분야 (2)	2025.02.20
Serdes (Serializer/Deserializer) (0)	2025.02.20
Digital Interface for Server system (1)	2025.02.19
클라우드 서버 AI 시스템 (0)	2025.02.19
GPU-to-GPU Interconnect Topology (1)	2025.02.19

PREV 이전 1 NEXT 다음

Zeah Engineering Factory