반응형
DGX H100 (2022년) 서버에서 활용되는 NVSwitch의 주요 개선점과 성능 향상 요소를 정리하고 있습니다.
1. NVLink 4 NVSwitch의 주요 특징
NVSwitch는 NVIDIA의 최신 NVLink 4 기술과 결합하여 GPU 간 초고속 통신을 지원하는 고성능 네트워크 패브릭 역할을 합니다. 주요 특징을 살펴보겠습니다.
✅ (1) NVLink 네트워크 지원 (NVLink Network Support)
- PHY(물리) 계층 인터페이스가 400G 이더넷(Ethernet)/InfiniBand와 호환됨
- 기존 NVLink는 GPU 간 직접 연결을 주로 사용했으나, 400G급 네트워크 장비와 직접 연결 가능하여 확장성이 증가함
- OSFP(Octal Small Form-factor Pluggable) 지원 (4 NVLinks per cage)
- 액티브 모듈을 위한 커스텀 펌웨어(FW) 적용 가능
- 서버 및 데이터센터 환경에서 광케이블 기반 NVLink 확장 가능
- FEC (Forward Error Correction) 추가
- 광케이블을 통한 데이터 전송 시 성능/신뢰성을 보장하는 오류 정정 기능 제공
- 대규모 클러스터 환경에서도 데이터 무결성을 유지하면서 빠른 통신 가능
✅ (2) 대역폭 2배 증가 (Doubling of Bandwidth)
- 100Gbps-per-differential-pair (50Gbaud PAM4)
- 기존 NRZ 변조 방식에서 PAM4 변조 방식으로 전환하여 동일한 대역폭에서 2배 데이터 전송
- x2 NVLinks 및 64 NVLinks-per-NVSwitch 지원
- 1.6TB/s 내부 양분 대역폭(Bisection BW) 제공
- 적은 수의 칩(스위치)으로 더 높은 대역폭 제공 가능
- 더 적은 칩으로 더 높은 성능 달성
- NVSwitch 칩 개수를 줄이면서도 NVLink 4의 향상된 데이터 전송 성능을 활용할 수 있음
✅ (3) SHARP Collectives/멀티캐스트 지원 (SHARP Collectives/Multicast Support)
- NVSwitch 내부에서 데이터 복제를 수행하여 다중 GPU 접근 불필요
- 기존에는 GPU가 필요한 데이터를 여러 번 NVSwitch에서 가져와야 했으나, 이제 NVSwitch가 직접 데이터를 복제하여 GPU 간 전송 효율을 극대화
- 통신 병목(Bottleneck) 현상 감소
- 내장 ALU(Arithmetic Logic Unit) 추가
- NVSwitch 자체적으로 AllReduce 연산 수행 가능
- GPU가 직접 수행해야 했던 연산 부담을 NVSwitch가 처리하여 GPU 연산 성능을 최적화
- AI 및 딥러닝 모델 학습 시 데이터 전송 처리량이 2배 증가
- GPU-기반 딥러닝 훈련에서 NVSwitch를 활용하여 더 빠른 데이터 동기화(AllReduce) 가능
- GPT-4, Llama 같은 대형 모델 학습 속도 대폭 향상
2. DGX H100 NVSwitch의 성능 요약
- 3.6TB/s Bisection BW (양분 대역폭)
- 450GB/s AllReduce BW (집계 대역폭)
이전 세대(DGX A100)와 비교했을 때 대역폭이 2배 이상 증가했으며, 특히 NVSwitch 자체적인 데이터 복제 및 AllReduce 연산 지원으로 AI 학습 및 HPC 환경에서 병목을 줄이고 성능을 극대화함.
3. NVLink 4 NVSwitch의 핵심 개선점 요약
개선 항목설명
400G 이더넷/InfiniBand 지원 | 기존 GPU 간 NVLink 연결을 넘어 네트워크 스위치와 직접 연결 가능 |
FEC (Forward Error Correction) 추가 | 광케이블 기반 NVLink 통신에서 신뢰성 증가 |
PAM4 변조 방식 사용 | NRZ 대비 동일 대역폭에서 2배의 데이터 전송 |
64 NVLinks per NVSwitch 지원 | 1.6TB/s 내부 대역폭으로 확장 가능 |
NVSwitch 자체 AllReduce 연산 지원 | GPU의 연산 부담을 NVSwitch가 일부 담당하여 성능 최적화 |
데이터 복제 기능 추가 | 동일 데이터를 여러 GPU에 공유할 때 중복 접근 감소 |
4. 결론
- NVLink 4 기반 NVSwitch는 GPU 간 통신 대역폭을 획기적으로 향상시키며, 데이터센터 및 AI 학습에 최적화됨
- 400G 이더넷/InfiniBand와 직접 연결 가능하여 확장성이 증가
- PAM4 변조 및 내부 데이터 복제 기능을 통해 GPU의 연산 병목을 줄이고 학습 속도를 대폭 향상
- DGX H100과 함께 사용될 경우 AI 모델 훈련, 슈퍼컴퓨팅(HPC) 환경에서 획기적인 성능 개선 가능
즉, NVLink 4 NVSwitch는 기존 NVLink 대비 대역폭을 두 배로 늘리고, AI 및 HPC 환경에서 GPU 간 통신을 최적화하는 핵심 기술입니다. 🚀
반응형
'AI > NVIDIA' 카테고리의 다른 글
AllReduce in AI Training: AI 학습에서의 AllReduce 역할 (0) | 2025.02.23 |
---|---|
NVLink 4 NVSwitch 칩 아키텍처 상세 설명 (0) | 2025.02.23 |
NVLink 기반 서버(DGX) 세대별 발전 과정 (0) | 2025.02.23 |
NVIDIA NVLink의 세대별 발전 과정 (0) | 2025.02.23 |
NVLink Motivations (0) | 2025.02.23 |