NVLink 기반 서버(DGX) 세대별 발전 과정

zeah 2025. 2. 23. 14:17

2025. 2. 23. 14:17

NVIDIA의 NVLink 기반 서버(DGX) 세대별 발전 과정을 보여줍니다. DGX 시스템은 멀티-GPU 연결을 최적화하여 고성능 컴퓨팅(HPC), AI 훈련, 데이터 분석 등의 작업을 수행하는 데 최적화된 플랫폼입니다.

NVLink와 NVSwitch를 활용하여 점점 더 많은 GPU를 더 높은 대역폭으로 연결할 수 있도록 진화해 왔습니다.

1. NVLink 기반 DGX 서버 세대별 비교

세대연도사용 GPUBisection BW (양분 대역폭)AllReduce BW (집계 대역폭)

DGX-1	2016	P100	140GB/s	40GB/s
DGX-2	2018	V100	2.4TB/s	75GB/s
DGX A100	2020	A100	2.4TB/s	150GB/s
DGX H100	2022	H100	3.6TB/s	450GB/s

2. 세대별 주요 특징 및 발전 과정

(1) 2016 – DGX-1 (P100)

NVLink 1.0 기반으로, GPU 간 직접 연결
총 8개의 GPU를 NVLink로 연결, GPU 간 40GB/s의 AllReduce 대역폭 제공
Bisection Bandwidth(BW): 140GB/s
- Bisection BW는 네트워크를 반으로 나누었을 때, 양쪽 간 최대 전송 가능한 데이터 대역폭을 의미
문제점: GPU 개수가 많아질수록 연결 복잡성 증가 및 병목 발생

(2) 2018 – DGX-2 (V100)

NVLink 2.0과 NVSwitch 도입
- NVSwitch는 GPU 간 다대다(Any-to-Any) 연결을 지원하는 고속 인터커넥트
- 이를 통해 모든 GPU가 다른 GPU와 직접 연결 가능
16개의 V100 GPU 연결 가능
Bisection BW: 2.4TB/s (DGX-1 대비 17배 증가)
AllReduce BW: 75GB/s (DGX-1 대비 1.9배 증가)

(3) 2020 – DGX A100 (A100)

NVLink 3.0 기반으로 발전
NVSwitch 개선을 통해 동일한 Bisection BW 2.4TB/s 유지
하지만 AllReduce BW가 150GB/s로 2배 증가
- 이는 AI 훈련 시 GPU 간의 데이터 동기화 속도를 획기적으로 개선
- 즉, GPU 간 통신 병목이 줄어듦

(4) 2022 – DGX H100 (H100)

NVLink 4.0 및 NVSwitch 업그레이드
Bisection BW 3.6TB/s로 증가 (DGX A100 대비 1.5배 증가)
AllReduce BW 450GB/s로 증가 (DGX A100 대비 3배 증가)
더 많은 GPU를 NVLink 네트워크 포트를 통해 확장 가능
- 20개의 NVLink 네트워크 포트 제공
- 이를 통해 여러 DGX H100 시스템 간 연결이 가능해짐

3. NVSwitch의 역할

NVSwitch는 NVLink 연결을 확장하는 중요한 역할을 합니다.

DGX-1(P100): NVSwitch 없음 → GPU 간 직접 연결만 가능
DGX-2(V100): NVSwitch 도입 → 모든 GPU가 다른 GPU와 직접 통신 가능
DGX A100, DGX H100: NVSwitch 개선 → 더 높은 대역폭과 확장성 제공

NVSwitch가 추가되면서 GPU 간 트래픽을 효율적으로 분배할 수 있어 딥러닝 학습 시 데이터 동기화 속도가 향상됩니다.

4. 결론

NVLink와 NVSwitch를 활용하여 DGX 서버 성능이 지속적으로 향상됨
GPU 간 대역폭 증가 → AI 훈련 및 HPC 성능 대폭 향상
NVSwitch 도입 이후 Any-to-Any 연결이 가능해지면서 확장성이 크게 증가
2022년 DGX H100은 3.6TB/s Bisection BW, 450GB/s AllReduce BW 제공
20개의 NVLink 네트워크 포트 추가로 여러 DGX 시스템 간 연결 가능

즉, NVLink & NVSwitch의 발전으로 NVIDIA는 GPU 간 병목을 줄이고, AI 훈련 및 HPC 환경에서 최고의 성능을 제공하는 방향으로 발전하고 있습니다. 🚀

1. Bisection Bandwidth (양분 대역폭)

Bisection Bandwidth(양분 대역폭)은 네트워크를 두 개의 동등한 크기의 그룹으로 나누었을 때, 양쪽 그룹 간 최대 전송할 수 있는 데이터 대역폭을 의미합니다.

✅ 정의

네트워크를 절반으로 나누었을 때, 두 그룹 간 통신할 수 있는 최대 대역폭

✅ 의미와 중요성

GPU 간 데이터 이동의 병목을 평가하는 중요한 지표
네트워크 확장성(Scalability)을 결정하는 요소
딥러닝 및 AI 모델 훈련 시 여러 GPU가 데이터를 공유할 때 중요한 성능 지표

✅ 예제

DGX-1 (P100, 2016년)
- Bisection BW = 140GB/s
- 8개의 GPU를 서로 반으로 나누었을 때, 두 그룹 간 최대 140GB/s의 데이터 전송 가능
DGX-2 (V100, 2018년)
- Bisection BW = 2.4TB/s
- NVSwitch를 사용하여 GPU 간 직접 연결이 가능해지면서, 네트워크 병목이 크게 감소

2. AllReduce Bandwidth (집계 대역폭)

AllReduce Bandwidth(집계 대역폭)은 딥러닝 및 AI 훈련에서 GPU 간 데이터를 공유하고 집계하는 속도를 측정하는 대역폭입니다.

✅ 정의

다중 GPU 환경에서 각 GPU가 데이터를 서로 교환(AllReduce 연산)할 때 사용 가능한 최대 대역폭

✅ AllReduce의 역할

딥러닝 훈련 시 중요한 연산 중 하나
GPU들이 각자의 연산 결과(예: 손실 함수의 기울기)를 공유하고 이를 평균 내거나 합산하는 과정
GPU가 많아질수록 AllReduce BW가 높아야 성능이 유지됨
NVLink & NVSwitch를 통해 AllReduce 성능을 극대화할 수 있음

✅ 예제

DGX-1 (P100, 2016년)
- AllReduce BW = 40GB/s
- 8개의 GPU가 협력하여 AI 훈련을 수행할 때, 전체적인 데이터 동기화 속도가 40GB/s
DGX H100 (2022년)
- AllReduce BW = 450GB/s
- 최신 NVSwitch를 사용하여 GPU 간 데이터 동기화 속도가 11배 향상됨
- 더 빠른 AI 훈련, 더 높은 효율성 제공

3. Bisection BW vs. AllReduce BW 비교

구분Bisection BW (양분 대역폭)AllReduce BW (집계 대역폭)

정의	네트워크를 반으로 나눌 때 두 그룹 간 최대 대역폭	다중 GPU가 협력하여 데이터를 공유하는 속도
중요성	GPU 간 연결 구조 및 확장성을 평가하는 지표	AI 훈련 시 데이터 동기화 속도를 결정하는 요소
GPU 연결 방식	NVLink & NVSwitch	NVLink & NVSwitch
주요 활용 분야	데이터센터, HPC, 대규모 GPU 클러스터	AI 훈련, 딥러닝 모델 동기화

4. 결론

Bisection BW는 네트워크 확장성과 연결 병목을 평가하는 지표, AllReduce BW는 AI 학습 성능을 결정하는 주요 요소
NVLink & NVSwitch 발전으로 두 값이 지속적으로 증가하면서 AI 및 HPC 성능 향상
최신 DGX H100(2022년) 기준 Bisection BW = 3.6TB/s, AllReduce BW = 450GB/s로 AI 훈련 속도가 획기적으로 향상됨 🚀

즉, Bisection BW는 "네트워크 구조"의 효율성을 나타내고, AllReduce BW는 "AI 훈련 성능"의 척도라고 볼 수 있습니다.

NVSwitch: NVIDIA의 고속 GPU 상호 연결 스위치

1. NVSwitch란?

NVSwitch는 NVIDIA가 개발한 고속 GPU 간 상호 연결 스위치로, 다수의 GPU를 초고속으로 연결하여 높은 대역폭과 낮은 지연 시간을 제공하는 데이터 패브릭(Data Fabric) 기술입니다.

기존에는 GPU 간 통신을 위해 PCIe 기반의 GPU 다이렉트(GPU Direct) 또는 NVLink 포인트 투 포인트(Point-to-Point) 연결 방식을 사용했지만, 다수의 GPU가 연결될수록 데이터 병목 현상이 발생했습니다. NVSwitch는 이러한 병목을 해결하고 확장성을 극대화하는 솔루션입니다.

2. NVSwitch의 핵심 역할

✅ (1) 다대다(Any-to-Any) 연결 지원

기존 NVLink는 Point-to-Point(1:1) 연결만 가능했지만, NVSwitch를 사용하면 모든 GPU가 다른 GPU와 직접 연결 가능
이를 통해 병렬 AI 학습 및 HPC(고성능 컴퓨팅) 환경에서 데이터 동기화 속도가 비약적으로 향상됨

✅ (2) 초고속 데이터 전송

최신 **NVSwitch(4세대, H100 기준)**는 7.2TB/s 이상의 내부 스위칭 대역폭 제공
개별 GPU 간 최대 900GB/s의 NVLink 연결 지원
NVSwitch를 여러 개 연결하면, 수백 개의 GPU를 하나의 거대한 슈퍼컴퓨터처럼 운영 가능

✅ (3) PCIe 대비 초고속 성능

PCIe 기반 클러스터와 비교했을 때, NVSwitch를 통한 GPU 간 데이터 이동 속도가 14~20배 빠름
NVSwitch는 PCIe의 CPU 중심 구조를 벗어나 GPU 간 직접 통신이 가능하도록 설계됨

3. NVSwitch 아키텍처 변화

세대연도사용된 GPU스위칭 대역폭NVLink 연결 방식

1세대 NVSwitch	2018	V100	2.4TB/s	12 NVLinks/GPU
2세대 NVSwitch	2020	A100	4.8TB/s	12 NVLinks/GPU
3세대 NVSwitch	2022	H100	7.2TB/s	18 NVLinks/GPU

4. NVSwitch의 주요 이점

✅ (1) GPU 간 고속 연결

기존 PCIe 기반 GPU 연결 방식보다 훨씬 낮은 지연 시간
NVLink와 결합하면 한 대의 서버 내 최대 18개의 GPU를 초고속으로 연결 가능
NVSwitch가 여러 개 연결되면 수백 개의 GPU를 하나의 거대한 연산 노드처럼 활용 가능

✅ (2) AI 학습 및 HPC 최적화

최신 GPT-4, Llama, Stable Diffusion 같은 대규모 AI 모델 학습에 필수적인 네트워크 구조
AI 학습 시 필수적인 AllReduce 연산 속도를 극대화하여 병렬 학습 효율을 높임
대규모 데이터셋을 병렬 GPU에서 학습할 때 성능이 급격히 향상됨

✅ (3) 확장 가능한 아키텍처

NVSwitch는 여러 개를 병렬 연결하여 GPU 수를 확장 가능
예를 들어, DGX SuperPOD 같은 데이터센터급 AI 슈퍼컴퓨터에서도 사용됨
DGX H100의 경우 NVSwitch를 활용해 256개 이상의 GPU를 하나의 클러스터로 구성 가능

5. NVSwitch와 기존 PCIe 기반 GPU 연결 비교

항목NVSwitch (H100 기준)PCIe 5.0 (x16 기준)

GPU 간 대역폭	900GB/s (NVLink 4)	64GB/s (x16 PCIe 5.0)
GPU 간 연결 구조	다대다(Any-to-Any) 연결 가능	CPU 중심의 트리 구조
확장성	256개 이상의 GPU까지 확장 가능	최대 8~16개 GPU 제한
AI 학습 속도	10배 이상 빠름	병목 발생 가능성 높음

6. NVSwitch 사용 예시

🚀 DGX SuperPOD (H100)

256개의 GPU를 NVSwitch로 연결하여 단일 슈퍼컴퓨터처럼 동작
NVIDIA의 AI 모델 훈련 및 슈퍼컴퓨팅에 사용
초고속 AllReduce 연산을 지원하여 AI 학습 속도를 극대화

🚀 DGX H100

최신 DGX H100 서버는 8개의 H100 GPU를 NVSwitch로 연결
기존 PCIe 연결 방식보다 AI 학습 성능이 10배 이상 향상

🚀 클라우드 AI 슈퍼컴퓨터

Microsoft Azure, AWS, Google Cloud 등의 대규모 GPU 클러스터에서 NVSwitch를 활용
AI 모델 학습을 위해 수천 개의 GPU를 효율적으로 연결하는 핵심 기술

7. 결론

NVSwitch는 기존 NVLink를 확장하여 GPU 간 Any-to-Any 초고속 연결을 지원하는 스위칭 기술
초대형 AI 훈련, 슈퍼컴퓨팅, 데이터센터용 AI 서버에서 필수적인 요소
최신 H100 기반 NVSwitch는 최대 7.2TB/s 대역폭을 지원하여 AI 모델 학습 속도를 극대화
DGX SuperPOD, DGX H100 같은 NVIDIA의 AI 서버에서 핵심 역할 수행

✅ 한 마디로:

NVSwitch는 대규모 GPU 클러스터를 구성하여 AI 훈련 속도를 극대화하는 핵심 기술이며, 기존 PCIe 대비 압도적인 성능을 제공하는 GPU 네트워크 스위치입니다. 🚀

'AI > NVIDIA' 카테고리의 다른 글

AllReduce in AI Training: AI 학습에서의 AllReduce 역할 (0)	2025.02.23
NVLink 4 NVSwitch 칩 아키텍처 상세 설명 (0)	2025.02.23
NVLink 4 기반의 NVSwitch의 새로운 기능 (0)	2025.02.23
NVIDIA NVLink의 세대별 발전 과정 (0)	2025.02.23
NVLink Motivations (0)	2025.02.23

Zeah Engineering Factory

NVLink 기반 서버(DGX) 세대별 발전 과정

1. NVLink 기반 DGX 서버 세대별 비교

2. 세대별 주요 특징 및 발전 과정

(1) 2016 – DGX-1 (P100)

(2) 2018 – DGX-2 (V100)

(3) 2020 – DGX A100 (A100)

(4) 2022 – DGX H100 (H100)

3. NVSwitch의 역할

4. 결론

1. Bisection Bandwidth (양분 대역폭)

✅ 정의

✅ 의미와 중요성

✅ 예제

2. AllReduce Bandwidth (집계 대역폭)

✅ 정의

✅ AllReduce의 역할

✅ 예제

3. Bisection BW vs. AllReduce BW 비교

4. 결론

NVSwitch: NVIDIA의 고속 GPU 상호 연결 스위치

1. NVSwitch란?

2. NVSwitch의 핵심 역할

✅ (1) 다대다(Any-to-Any) 연결 지원

✅ (2) 초고속 데이터 전송

✅ (3) PCIe 대비 초고속 성능

3. NVSwitch 아키텍처 변화

4. NVSwitch의 주요 이점

✅ (1) GPU 간 고속 연결

✅ (2) AI 학습 및 HPC 최적화

✅ (3) 확장 가능한 아키텍처

5. NVSwitch와 기존 PCIe 기반 GPU 연결 비교

6. NVSwitch 사용 예시

🚀 DGX SuperPOD (H100)

🚀 DGX H100

🚀 클라우드 AI 슈퍼컴퓨터

7. 결론

✅ 한 마디로:

'AI > NVIDIA' 카테고리의 다른 글

+ Recent posts

티스토리툴바