반응형
NVLink는 고대역폭, 저지연 GPU 간 데이터 전송 기술로, 세대가 거듭될수록 성능이 향상되고 확장성이 증가하고 있습니다.
1. NVLink 세대별 발전 과정
이 그림은 2016년부터 2022년까지 NVLink의 4세대 발전 과정을 보여주며, 각 세대마다 NVLink의 수, 대역폭, 그리고 신호 변조 방식이 어떻게 변화했는지를 설명합니다.
(1) 2016 – P100 (NVLink 1)
- 4개의 NVLink 지원
- 각 링크당 40GB/s 속도 제공
- NRZ(Non-Return-to-Zero) 변조 방식 사용, x8 @ 20Gbaud
- 총 대역폭: 160GB/s
(2) 2017 – V100 (NVLink 2)
- 6개의 NVLink 지원
- 각 링크당 50GB/s 속도 제공 → 향상됨
- NRZ 변조 방식, x8 @ 25Gbaud
- 총 대역폭: 300GB/s (NVLink 1 대비 2배 가까운 증가)
(3) 2020 – A100 (NVLink 3)
- 12개의 NVLink 지원 → GPU 간 연결 확장 가능
- 각 링크당 50GB/s 속도 제공 (NVLink 2와 동일)
- NRZ 변조 방식, x4 @ 50Gbaud
- 총 대역폭: 600GB/s (NVLink 2 대비 2배 증가)
(4) 2022 – H100 (NVLink 4)
- 18개의 NVLink 지원 → 더 많은 GPU 연결 가능
- 각 링크당 50GB/s 속도 제공
- PAM4(Pulse Amplitude Modulation 4-Level) 변조 방식 도입, x2 @ 50Gbaud
- 총 대역폭: 900GB/s (NVLink 3 대비 1.5배 증가)
연도 | CPU 모델 | NVLink 세대 | NVLink 수 | 각 링크 속도 (GB/s) | 변조 방식 | Lane 구성 | 총 대역폭 (GB/s) |
2016 | P100 | NVLink 1 | 4 | 40 | NRZ | x8 @ 20Gbaud | 160 |
2017 | V100 | NVLink 2 | 6 | 50 | NRZ | x8 @ 25Gbaud | 300 |
2020 | A100 | NVLink 3 | 12 | 50 | NRZ | x4 @ 50Gbaud | 600 |
2022 | H100 | NVLink 4 | 18 | 50 | PAM4 | x2 @ 50Gbaud | 900 |
2. NVLink의 주요 발전 방향
- 대역폭 증가
- NVLink 1 (160GB/s) → NVLink 4 (900GB/s)로 약 5.6배 증가
- GPU 간 연결이 강화되면서 HPC(고성능 컴퓨팅) 및 AI 훈련 성능 향상
- NVLink 수 증가
- 4개 (P100) → 18개 (H100)로 점진적 증가
- GPU 간 연결을 더욱 촘촘히 할 수 있어, 멀티-GPU 시스템에서의 병렬 연산 효율 향상
- 신호 변조 방식의 변화
- NRZ(Non-Return-to-Zero) → PAM4(Pulse Amplitude Modulation 4-Level)
- PAM4는 1개 신호에서 4개의 전압 레벨을 사용하여 2배 더 많은 데이터를 전송 가능
- 즉, 같은 대역폭에서도 더 높은 데이터 속도를 제공
- GPU-간 직접 연결 증가
- 초기에는 GPU가 PCIe를 통해 연결되었으나, 세대가 거듭되면서 NVLink 간 GPU 직접 연결이 증가
- PCIe의 병목 현상을 줄이고, GPU 간 빠른 데이터 교환 가능
3. 결론 및 활용
- NVLink는 세대를 거듭할수록 GPU 간 대역폭을 증가시키고 병목을 최소화하여 고성능 AI 및 HPC 애플리케이션을 지원
- 2022년 H100(NVLink 4)은 PCIe보다 훨씬 높은 대역폭과 낮은 지연시간을 제공, 이는 AI 훈련 및 대규모 병렬 연산에서 강력한 성능 이점
- PAM4 변조 방식을 도입하여 더욱 효율적으로 데이터를 전송, 기존 NRZ 방식보다 전송 효율이 향상됨
- GPU 개수가 많아질수록 NVLink를 활용한 직접 통신 구조가 중요해지며, 데이터 센터, 슈퍼컴퓨터, AI 모델 훈련 등에서 필수 기술이 됨
4. 추가적으로 고려할 점
- 2024년 이후 NVLink 5세대가 등장할 가능성이 있으며, 더 높은 대역폭과 새로운 변조 방식이 적용될 것으로 예상됨
- 현재 NVLink는 NVIDIA의 기술이지만, 다른 기업들도 유사한 GPU-간 고속 인터커넥트 기술을 개발 중
- NVLink 발전 방향은 결국 PCIe 및 CXL과의 경쟁 및 보완 관계 속에서 발전할 것
이해하기 쉽게 정리하면, NVLink는 GPU 간 빠른 데이터 전송을 위해 세대를 거듭하며 지속적으로 대역폭과 효율을 향상시키고 있다는 것이 핵심입니다. 🚀
1. NVLink 4 vs PCIe 4 성능 비교
구분NVLink 4PCIe 4.0
대역폭 (per lane) | 50GB/s (양방향) | 4GB/s (양방향) |
총 대역폭 | 900GB/s (H100 기준, 18 NVLinks) | 64GB/s (x16 링크 기준) |
링크 개수 | 최대 18개 (H100 기준) | 최대 16개 (x16 슬롯 기준) |
신호 변조 방식 | PAM4 (Pulse Amplitude Modulation 4-Level) | NRZ (Non-Return-to-Zero) |
연결 구조 | GPU 간 직접 연결 (Point-to-Point, Mesh 가능) | CPU-중심 허브 아키텍처 |
주요 사용처 | 멀티-GPU AI 훈련, HPC | 일반적인 CPU↔GPU, CPU↔SSD 연결 |
2. 주요 차이점
✅ (1) 대역폭 비교
- NVLink 4는 각 링크당 50GB/s 속도를 제공하며, 18개 NVLink를 병렬 사용하면 900GB/s까지 가능
- PCIe 4.0은 x16 슬롯 기준 64GB/s에 불과하여, NVLink 4 대비 14배 낮은 대역폭 제공
✅ (2) 신호 변조 방식
- NVLink 4는 PAM4 변조 방식을 사용하여, 기존 NRZ보다 동일한 대역폭에서 2배의 데이터 전송 가능
- PCIe 4.0은 NRZ 방식을 사용하며, 같은 클럭 속도에서 NVLink보다 효율이 낮음
✅ (3) 연결 방식
- NVLink 4는 GPU 간 직접 연결이 가능하여 CPU를 거치지 않고 낮은 레이턴시와 높은 데이터 교환 효율 제공
- PCIe 4.0은 CPU-중심 구조로, GPU 간 직접 데이터 교환이 어려워 레이턴시 증가
✅ (4) 활용 분야
- NVLink 4는 AI 훈련, HPC(고성능 컴퓨팅), 대규모 병렬 연산과 같이 다중 GPU 간 데이터 교환이 중요한 환경에 최적화
- PCIe 4.0은 일반적인 CPU↔GPU, CPU↔SSD 연결에 적합하지만, 다중 GPU 간 고속 데이터 교환에는 한계가 있음
3. 결론
- NVLink 4는 PCIe 4.0보다 최소 14배 이상 높은 총 대역폭을 제공하며, GPU 간 직접 연결을 통해 낮은 레이턴시와 고효율 통신이 가능
- AI, HPC 등 대량의 데이터가 GPU 간 이동하는 워크로드에서는 NVLink 4가 압도적으로 유리
- PCIe 4.0은 CPU-중심의 전통적인 시스템 연결에 적합하지만, 멀티-GPU 환경에서는 병목 현상이 발생할 가능성이 큼
따라서, NVLink 4와 PCIe 4.0은 성능이 비슷하지 않으며, NVLink 4가 훨씬 뛰어난 성능을 제공합니다.
반응형
'AI > NVIDIA' 카테고리의 다른 글
AllReduce in AI Training: AI 학습에서의 AllReduce 역할 (0) | 2025.02.23 |
---|---|
NVLink 4 NVSwitch 칩 아키텍처 상세 설명 (0) | 2025.02.23 |
NVLink 4 기반의 NVSwitch의 새로운 기능 (0) | 2025.02.23 |
NVLink 기반 서버(DGX) 세대별 발전 과정 (0) | 2025.02.23 |
NVLink Motivations (0) | 2025.02.23 |