
NVIDIA의 NVLink 기반 서버(DGX) 세대별 발전 과정을 보여줍니다. DGX 시스템은 멀티-GPU 연결을 최적화하여 고성능 컴퓨팅(HPC), AI 훈련, 데이터 분석 등의 작업을 수행하는 데 최적화된 플랫폼입니다.
NVLink와 NVSwitch를 활용하여 점점 더 많은 GPU를 더 높은 대역폭으로 연결할 수 있도록 진화해 왔습니다.
1. NVLink 기반 DGX 서버 세대별 비교
세대연도사용 GPUBisection BW (양분 대역폭)AllReduce BW (집계 대역폭)
| DGX-1 | 2016 | P100 | 140GB/s | 40GB/s |
| DGX-2 | 2018 | V100 | 2.4TB/s | 75GB/s |
| DGX A100 | 2020 | A100 | 2.4TB/s | 150GB/s |
| DGX H100 | 2022 | H100 | 3.6TB/s | 450GB/s |
2. 세대별 주요 특징 및 발전 과정
(1) 2016 – DGX-1 (P100)
- NVLink 1.0 기반으로, GPU 간 직접 연결
- 총 8개의 GPU를 NVLink로 연결, GPU 간 40GB/s의 AllReduce 대역폭 제공
- Bisection Bandwidth(BW): 140GB/s
- Bisection BW는 네트워크를 반으로 나누었을 때, 양쪽 간 최대 전송 가능한 데이터 대역폭을 의미
- 문제점: GPU 개수가 많아질수록 연결 복잡성 증가 및 병목 발생
(2) 2018 – DGX-2 (V100)
- NVLink 2.0과 NVSwitch 도입
- NVSwitch는 GPU 간 다대다(Any-to-Any) 연결을 지원하는 고속 인터커넥트
- 이를 통해 모든 GPU가 다른 GPU와 직접 연결 가능
- 16개의 V100 GPU 연결 가능
- Bisection BW: 2.4TB/s (DGX-1 대비 17배 증가)
- AllReduce BW: 75GB/s (DGX-1 대비 1.9배 증가)
(3) 2020 – DGX A100 (A100)
- NVLink 3.0 기반으로 발전
- NVSwitch 개선을 통해 동일한 Bisection BW 2.4TB/s 유지
- 하지만 AllReduce BW가 150GB/s로 2배 증가
- 이는 AI 훈련 시 GPU 간의 데이터 동기화 속도를 획기적으로 개선
- 즉, GPU 간 통신 병목이 줄어듦
(4) 2022 – DGX H100 (H100)
- NVLink 4.0 및 NVSwitch 업그레이드
- Bisection BW 3.6TB/s로 증가 (DGX A100 대비 1.5배 증가)
- AllReduce BW 450GB/s로 증가 (DGX A100 대비 3배 증가)
- 더 많은 GPU를 NVLink 네트워크 포트를 통해 확장 가능
- 20개의 NVLink 네트워크 포트 제공
- 이를 통해 여러 DGX H100 시스템 간 연결이 가능해짐
3. NVSwitch의 역할
NVSwitch는 NVLink 연결을 확장하는 중요한 역할을 합니다.
- DGX-1(P100): NVSwitch 없음 → GPU 간 직접 연결만 가능
- DGX-2(V100): NVSwitch 도입 → 모든 GPU가 다른 GPU와 직접 통신 가능
- DGX A100, DGX H100: NVSwitch 개선 → 더 높은 대역폭과 확장성 제공
NVSwitch가 추가되면서 GPU 간 트래픽을 효율적으로 분배할 수 있어 딥러닝 학습 시 데이터 동기화 속도가 향상됩니다.
4. 결론
- NVLink와 NVSwitch를 활용하여 DGX 서버 성능이 지속적으로 향상됨
- GPU 간 대역폭 증가 → AI 훈련 및 HPC 성능 대폭 향상
- NVSwitch 도입 이후 Any-to-Any 연결이 가능해지면서 확장성이 크게 증가
- 2022년 DGX H100은 3.6TB/s Bisection BW, 450GB/s AllReduce BW 제공
- 20개의 NVLink 네트워크 포트 추가로 여러 DGX 시스템 간 연결 가능
즉, NVLink & NVSwitch의 발전으로 NVIDIA는 GPU 간 병목을 줄이고, AI 훈련 및 HPC 환경에서 최고의 성능을 제공하는 방향으로 발전하고 있습니다. 🚀
1. Bisection Bandwidth (양분 대역폭)
Bisection Bandwidth(양분 대역폭)은 네트워크를 두 개의 동등한 크기의 그룹으로 나누었을 때, 양쪽 그룹 간 최대 전송할 수 있는 데이터 대역폭을 의미합니다.
✅ 정의
네트워크를 절반으로 나누었을 때, 두 그룹 간 통신할 수 있는 최대 대역폭
✅ 의미와 중요성
- GPU 간 데이터 이동의 병목을 평가하는 중요한 지표
- 네트워크 확장성(Scalability)을 결정하는 요소
- 딥러닝 및 AI 모델 훈련 시 여러 GPU가 데이터를 공유할 때 중요한 성능 지표
✅ 예제
- DGX-1 (P100, 2016년)
- Bisection BW = 140GB/s
- 8개의 GPU를 서로 반으로 나누었을 때, 두 그룹 간 최대 140GB/s의 데이터 전송 가능
- DGX-2 (V100, 2018년)
- Bisection BW = 2.4TB/s
- NVSwitch를 사용하여 GPU 간 직접 연결이 가능해지면서, 네트워크 병목이 크게 감소
2. AllReduce Bandwidth (집계 대역폭)
AllReduce Bandwidth(집계 대역폭)은 딥러닝 및 AI 훈련에서 GPU 간 데이터를 공유하고 집계하는 속도를 측정하는 대역폭입니다.
✅ 정의
다중 GPU 환경에서 각 GPU가 데이터를 서로 교환(AllReduce 연산)할 때 사용 가능한 최대 대역폭
✅ AllReduce의 역할
- 딥러닝 훈련 시 중요한 연산 중 하나
- GPU들이 각자의 연산 결과(예: 손실 함수의 기울기)를 공유하고 이를 평균 내거나 합산하는 과정
- GPU가 많아질수록 AllReduce BW가 높아야 성능이 유지됨
- NVLink & NVSwitch를 통해 AllReduce 성능을 극대화할 수 있음
✅ 예제
- DGX-1 (P100, 2016년)
- AllReduce BW = 40GB/s
- 8개의 GPU가 협력하여 AI 훈련을 수행할 때, 전체적인 데이터 동기화 속도가 40GB/s
- DGX H100 (2022년)
- AllReduce BW = 450GB/s
- 최신 NVSwitch를 사용하여 GPU 간 데이터 동기화 속도가 11배 향상됨
- 더 빠른 AI 훈련, 더 높은 효율성 제공
3. Bisection BW vs. AllReduce BW 비교
구분Bisection BW (양분 대역폭)AllReduce BW (집계 대역폭)
| 정의 | 네트워크를 반으로 나눌 때 두 그룹 간 최대 대역폭 | 다중 GPU가 협력하여 데이터를 공유하는 속도 |
| 중요성 | GPU 간 연결 구조 및 확장성을 평가하는 지표 | AI 훈련 시 데이터 동기화 속도를 결정하는 요소 |
| GPU 연결 방식 | NVLink & NVSwitch | NVLink & NVSwitch |
| 주요 활용 분야 | 데이터센터, HPC, 대규모 GPU 클러스터 | AI 훈련, 딥러닝 모델 동기화 |
4. 결론
- Bisection BW는 네트워크 확장성과 연결 병목을 평가하는 지표, AllReduce BW는 AI 학습 성능을 결정하는 주요 요소
- NVLink & NVSwitch 발전으로 두 값이 지속적으로 증가하면서 AI 및 HPC 성능 향상
- 최신 DGX H100(2022년) 기준 Bisection BW = 3.6TB/s, AllReduce BW = 450GB/s로 AI 훈련 속도가 획기적으로 향상됨 🚀
즉, Bisection BW는 "네트워크 구조"의 효율성을 나타내고, AllReduce BW는 "AI 훈련 성능"의 척도라고 볼 수 있습니다.
NVSwitch: NVIDIA의 고속 GPU 상호 연결 스위치
1. NVSwitch란?
NVSwitch는 NVIDIA가 개발한 고속 GPU 간 상호 연결 스위치로, 다수의 GPU를 초고속으로 연결하여 높은 대역폭과 낮은 지연 시간을 제공하는 데이터 패브릭(Data Fabric) 기술입니다.
기존에는 GPU 간 통신을 위해 PCIe 기반의 GPU 다이렉트(GPU Direct) 또는 NVLink 포인트 투 포인트(Point-to-Point) 연결 방식을 사용했지만, 다수의 GPU가 연결될수록 데이터 병목 현상이 발생했습니다. NVSwitch는 이러한 병목을 해결하고 확장성을 극대화하는 솔루션입니다.
2. NVSwitch의 핵심 역할
✅ (1) 다대다(Any-to-Any) 연결 지원
- 기존 NVLink는 Point-to-Point(1:1) 연결만 가능했지만, NVSwitch를 사용하면 모든 GPU가 다른 GPU와 직접 연결 가능
- 이를 통해 병렬 AI 학습 및 HPC(고성능 컴퓨팅) 환경에서 데이터 동기화 속도가 비약적으로 향상됨
✅ (2) 초고속 데이터 전송
- 최신 **NVSwitch(4세대, H100 기준)**는 7.2TB/s 이상의 내부 스위칭 대역폭 제공
- 개별 GPU 간 최대 900GB/s의 NVLink 연결 지원
- NVSwitch를 여러 개 연결하면, 수백 개의 GPU를 하나의 거대한 슈퍼컴퓨터처럼 운영 가능
✅ (3) PCIe 대비 초고속 성능
- PCIe 기반 클러스터와 비교했을 때, NVSwitch를 통한 GPU 간 데이터 이동 속도가 14~20배 빠름
- NVSwitch는 PCIe의 CPU 중심 구조를 벗어나 GPU 간 직접 통신이 가능하도록 설계됨
3. NVSwitch 아키텍처 변화
세대연도사용된 GPU스위칭 대역폭NVLink 연결 방식
| 1세대 NVSwitch | 2018 | V100 | 2.4TB/s | 12 NVLinks/GPU |
| 2세대 NVSwitch | 2020 | A100 | 4.8TB/s | 12 NVLinks/GPU |
| 3세대 NVSwitch | 2022 | H100 | 7.2TB/s | 18 NVLinks/GPU |
4. NVSwitch의 주요 이점
✅ (1) GPU 간 고속 연결
- 기존 PCIe 기반 GPU 연결 방식보다 훨씬 낮은 지연 시간
- NVLink와 결합하면 한 대의 서버 내 최대 18개의 GPU를 초고속으로 연결 가능
- NVSwitch가 여러 개 연결되면 수백 개의 GPU를 하나의 거대한 연산 노드처럼 활용 가능
✅ (2) AI 학습 및 HPC 최적화
- 최신 GPT-4, Llama, Stable Diffusion 같은 대규모 AI 모델 학습에 필수적인 네트워크 구조
- AI 학습 시 필수적인 AllReduce 연산 속도를 극대화하여 병렬 학습 효율을 높임
- 대규모 데이터셋을 병렬 GPU에서 학습할 때 성능이 급격히 향상됨
✅ (3) 확장 가능한 아키텍처
- NVSwitch는 여러 개를 병렬 연결하여 GPU 수를 확장 가능
- 예를 들어, DGX SuperPOD 같은 데이터센터급 AI 슈퍼컴퓨터에서도 사용됨
- DGX H100의 경우 NVSwitch를 활용해 256개 이상의 GPU를 하나의 클러스터로 구성 가능
5. NVSwitch와 기존 PCIe 기반 GPU 연결 비교
항목NVSwitch (H100 기준)PCIe 5.0 (x16 기준)
| GPU 간 대역폭 | 900GB/s (NVLink 4) | 64GB/s (x16 PCIe 5.0) |
| GPU 간 연결 구조 | 다대다(Any-to-Any) 연결 가능 | CPU 중심의 트리 구조 |
| 확장성 | 256개 이상의 GPU까지 확장 가능 | 최대 8~16개 GPU 제한 |
| AI 학습 속도 | 10배 이상 빠름 | 병목 발생 가능성 높음 |
6. NVSwitch 사용 예시
🚀 DGX SuperPOD (H100)
- 256개의 GPU를 NVSwitch로 연결하여 단일 슈퍼컴퓨터처럼 동작
- NVIDIA의 AI 모델 훈련 및 슈퍼컴퓨팅에 사용
- 초고속 AllReduce 연산을 지원하여 AI 학습 속도를 극대화
🚀 DGX H100
- 최신 DGX H100 서버는 8개의 H100 GPU를 NVSwitch로 연결
- 기존 PCIe 연결 방식보다 AI 학습 성능이 10배 이상 향상
🚀 클라우드 AI 슈퍼컴퓨터
- Microsoft Azure, AWS, Google Cloud 등의 대규모 GPU 클러스터에서 NVSwitch를 활용
- AI 모델 학습을 위해 수천 개의 GPU를 효율적으로 연결하는 핵심 기술
7. 결론
- NVSwitch는 기존 NVLink를 확장하여 GPU 간 Any-to-Any 초고속 연결을 지원하는 스위칭 기술
- 초대형 AI 훈련, 슈퍼컴퓨팅, 데이터센터용 AI 서버에서 필수적인 요소
- 최신 H100 기반 NVSwitch는 최대 7.2TB/s 대역폭을 지원하여 AI 모델 학습 속도를 극대화
- DGX SuperPOD, DGX H100 같은 NVIDIA의 AI 서버에서 핵심 역할 수행
✅ 한 마디로:
NVSwitch는 대규모 GPU 클러스터를 구성하여 AI 훈련 속도를 극대화하는 핵심 기술이며, 기존 PCIe 대비 압도적인 성능을 제공하는 GPU 네트워크 스위치입니다. 🚀
'AI > NVIDIA' 카테고리의 다른 글
| AllReduce in AI Training: AI 학습에서의 AllReduce 역할 (0) | 2025.02.23 |
|---|---|
| NVLink 4 NVSwitch 칩 아키텍처 상세 설명 (0) | 2025.02.23 |
| NVLink 4 기반의 NVSwitch의 새로운 기능 (0) | 2025.02.23 |
| NVIDIA NVLink의 세대별 발전 과정 (0) | 2025.02.23 |
| NVLink Motivations (0) | 2025.02.23 |