NVIDIA NVLink의 세대별 발전 과정

zeah 2025. 2. 23. 14:05

2025. 2. 23. 14:05

NVLink는 고대역폭, 저지연 GPU 간 데이터 전송 기술로, 세대가 거듭될수록 성능이 향상되고 확장성이 증가하고 있습니다.

1. NVLink 세대별 발전 과정

이 그림은 2016년부터 2022년까지 NVLink의 4세대 발전 과정을 보여주며, 각 세대마다 NVLink의 수, 대역폭, 그리고 신호 변조 방식이 어떻게 변화했는지를 설명합니다.

(1) 2016 – P100 (NVLink 1)

4개의 NVLink 지원
각 링크당 40GB/s 속도 제공
NRZ(Non-Return-to-Zero) 변조 방식 사용, x8 @ 20Gbaud
총 대역폭: 160GB/s

(2) 2017 – V100 (NVLink 2)

6개의 NVLink 지원
각 링크당 50GB/s 속도 제공 → 향상됨
NRZ 변조 방식, x8 @ 25Gbaud
총 대역폭: 300GB/s (NVLink 1 대비 2배 가까운 증가)

(3) 2020 – A100 (NVLink 3)

12개의 NVLink 지원 → GPU 간 연결 확장 가능
각 링크당 50GB/s 속도 제공 (NVLink 2와 동일)
NRZ 변조 방식, x4 @ 50Gbaud
총 대역폭: 600GB/s (NVLink 2 대비 2배 증가)

(4) 2022 – H100 (NVLink 4)

18개의 NVLink 지원 → 더 많은 GPU 연결 가능
각 링크당 50GB/s 속도 제공
PAM4(Pulse Amplitude Modulation 4-Level) 변조 방식 도입, x2 @ 50Gbaud
총 대역폭: 900GB/s (NVLink 3 대비 1.5배 증가)

연도	CPU 모델	NVLink 세대	NVLink 수	각 링크 속도 (GB/s)	변조 방식	Lane 구성	총 대역폭 (GB/s)
2016	P100	NVLink 1	4	40	NRZ	x8 @ 20Gbaud	160
2017	V100	NVLink 2	6	50	NRZ	x8 @ 25Gbaud	300
2020	A100	NVLink 3	12	50	NRZ	x4 @ 50Gbaud	600
2022	H100	NVLink 4	18	50	PAM4	x2 @ 50Gbaud	900

2. NVLink의 주요 발전 방향

대역폭 증가
- NVLink 1 (160GB/s) → NVLink 4 (900GB/s)로 약 5.6배 증가
- GPU 간 연결이 강화되면서 HPC(고성능 컴퓨팅) 및 AI 훈련 성능 향상
NVLink 수 증가
- 4개 (P100) → 18개 (H100)로 점진적 증가
- GPU 간 연결을 더욱 촘촘히 할 수 있어, 멀티-GPU 시스템에서의 병렬 연산 효율 향상
신호 변조 방식의 변화
- NRZ(Non-Return-to-Zero) → PAM4(Pulse Amplitude Modulation 4-Level)
- PAM4는 1개 신호에서 4개의 전압 레벨을 사용하여 2배 더 많은 데이터를 전송 가능
- 즉, 같은 대역폭에서도 더 높은 데이터 속도를 제공
GPU-간 직접 연결 증가
- 초기에는 GPU가 PCIe를 통해 연결되었으나, 세대가 거듭되면서 NVLink 간 GPU 직접 연결이 증가
- PCIe의 병목 현상을 줄이고, GPU 간 빠른 데이터 교환 가능

3. 결론 및 활용

NVLink는 세대를 거듭할수록 GPU 간 대역폭을 증가시키고 병목을 최소화하여 고성능 AI 및 HPC 애플리케이션을 지원
2022년 H100(NVLink 4)은 PCIe보다 훨씬 높은 대역폭과 낮은 지연시간을 제공, 이는 AI 훈련 및 대규모 병렬 연산에서 강력한 성능 이점
PAM4 변조 방식을 도입하여 더욱 효율적으로 데이터를 전송, 기존 NRZ 방식보다 전송 효율이 향상됨
GPU 개수가 많아질수록 NVLink를 활용한 직접 통신 구조가 중요해지며, 데이터 센터, 슈퍼컴퓨터, AI 모델 훈련 등에서 필수 기술이 됨

4. 추가적으로 고려할 점

2024년 이후 NVLink 5세대가 등장할 가능성이 있으며, 더 높은 대역폭과 새로운 변조 방식이 적용될 것으로 예상됨
현재 NVLink는 NVIDIA의 기술이지만, 다른 기업들도 유사한 GPU-간 고속 인터커넥트 기술을 개발 중
NVLink 발전 방향은 결국 PCIe 및 CXL과의 경쟁 및 보완 관계 속에서 발전할 것

이해하기 쉽게 정리하면, NVLink는 GPU 간 빠른 데이터 전송을 위해 세대를 거듭하며 지속적으로 대역폭과 효율을 향상시키고 있다는 것이 핵심입니다. 🚀

1. NVLink 4 vs PCIe 4 성능 비교

구분NVLink 4PCIe 4.0

대역폭 (per lane)	50GB/s (양방향)	4GB/s (양방향)
총 대역폭	900GB/s (H100 기준, 18 NVLinks)	64GB/s (x16 링크 기준)
링크 개수	최대 18개 (H100 기준)	최대 16개 (x16 슬롯 기준)
신호 변조 방식	PAM4 (Pulse Amplitude Modulation 4-Level)	NRZ (Non-Return-to-Zero)
연결 구조	GPU 간 직접 연결 (Point-to-Point, Mesh 가능)	CPU-중심 허브 아키텍처
주요 사용처	멀티-GPU AI 훈련, HPC	일반적인 CPU↔GPU, CPU↔SSD 연결

2. 주요 차이점

✅ (1) 대역폭 비교

NVLink 4는 각 링크당 50GB/s 속도를 제공하며, 18개 NVLink를 병렬 사용하면 900GB/s까지 가능
PCIe 4.0은 x16 슬롯 기준 64GB/s에 불과하여, NVLink 4 대비 14배 낮은 대역폭 제공

✅ (2) 신호 변조 방식

NVLink 4는 PAM4 변조 방식을 사용하여, 기존 NRZ보다 동일한 대역폭에서 2배의 데이터 전송 가능
PCIe 4.0은 NRZ 방식을 사용하며, 같은 클럭 속도에서 NVLink보다 효율이 낮음

✅ (3) 연결 방식

NVLink 4는 GPU 간 직접 연결이 가능하여 CPU를 거치지 않고 낮은 레이턴시와 높은 데이터 교환 효율 제공
PCIe 4.0은 CPU-중심 구조로, GPU 간 직접 데이터 교환이 어려워 레이턴시 증가

✅ (4) 활용 분야

NVLink 4는 AI 훈련, HPC(고성능 컴퓨팅), 대규모 병렬 연산과 같이 다중 GPU 간 데이터 교환이 중요한 환경에 최적화
PCIe 4.0은 일반적인 CPU↔GPU, CPU↔SSD 연결에 적합하지만, 다중 GPU 간 고속 데이터 교환에는 한계가 있음

3. 결론

NVLink 4는 PCIe 4.0보다 최소 14배 이상 높은 총 대역폭을 제공하며, GPU 간 직접 연결을 통해 낮은 레이턴시와 고효율 통신이 가능
AI, HPC 등 대량의 데이터가 GPU 간 이동하는 워크로드에서는 NVLink 4가 압도적으로 유리
PCIe 4.0은 CPU-중심의 전통적인 시스템 연결에 적합하지만, 멀티-GPU 환경에서는 병목 현상이 발생할 가능성이 큼

따라서, NVLink 4와 PCIe 4.0은 성능이 비슷하지 않으며, NVLink 4가 훨씬 뛰어난 성능을 제공합니다.

'AI > NVIDIA' 카테고리의 다른 글

AllReduce in AI Training: AI 학습에서의 AllReduce 역할 (0)	2025.02.23
NVLink 4 NVSwitch 칩 아키텍처 상세 설명 (0)	2025.02.23
NVLink 4 기반의 NVSwitch의 새로운 기능 (0)	2025.02.23
NVLink 기반 서버(DGX) 세대별 발전 과정 (0)	2025.02.23
NVLink Motivations (0)	2025.02.23

Zeah Engineering Factory