NVIDIA NVLink 4 기반 NVSwitch 칩의 구조와 특징을 설명하는 다이어그램입니다. NVSwitch는 대규모 GPU 클러스터를 고속으로 연결하는 핵심 기술이며, 최신 DGX H100 시스템에서 활용됩니다.
1. NVSwitch 4 칩 구조 분석
NVSwitch 칩 내부를 구성하는 주요 블록은 다음과 같습니다.
✅ (1) XBAR (Crossbar, 중앙부)
- 칩의 핵심 데이터 라우팅 엔진
- GPU 간 트래픽을 고속으로 스위칭하는 역할 수행
- 높은 대역폭을 처리하기 위해 병렬 구조 최적화
✅ (2) PORT Logic (좌우측, SHARP 가속기 포함)
- 각 NVLink 포트를 처리하는 논리 블록
- SHARP (Scalable Hierarchical Aggregation and Reduction Protocol) 가속기 포함
- AllReduce 연산 등 AI/딥러닝 작업을 가속화하는 역할 수행
- NVSwitch가 직접 데이터 연산을 수행하여 GPU의 부하를 감소
- GPU 간 데이터 패킷을 고속 전송 및 최적화
✅ (3) 32 PHY Lanes (상/하단)
- PHY (Physical Layer) 인터페이스로, NVLink 4 데이터 신호를 물리적으로 처리
- 각 PHY Lanes는 PAM4 변조 방식(50Gbaud) 사용
- 총 64 NVLink 4 포트 지원 (각 NVLink당 2개 포트)
2. NVSwitch 4 칩의 주요 특징
✅ (1) 가장 큰 NVSwitch 칩 (Largest NVSwitch Ever)
- TSMC 4N 공정 사용
- 최신 TSMC 4N(4nm 기반) 공정으로 제작되어 성능과 전력 효율 최적화
- 25.1B (251억) 트랜지스터 포함
- 기존 NVSwitch보다 트랜지스터 수 대폭 증가 → 더 강력한 스위칭 및 연산 성능 제공
- 다이 크기: 294mm²
- AI 가속기 및 데이터센터용 고성능 칩 중 대형급 크기
- 패키지 크기: 50mm × 50mm, 2645개의 볼 (BGA)
- 데이터센터 및 AI 슈퍼컴퓨터용으로 최적화된 패키지 디자인
✅ (2) 역대 최고 대역폭 (Highest Bandwidth Ever)
- 64개의 NVLink 4 포트 지원
- 각 NVLink당 2개 포트 제공 → 총 64개 포트
- GPU 간 초고속 데이터 이동 가능
- 3.2TB/s 풀 듀플렉스 대역폭 제공
- 기존 NVSwitch 대비 약 2배의 성능 증가
- AI 및 HPC 애플리케이션에서 통신 병목 해소
- 50Gbaud PAM4 변조 신호 사용
- 기존 NRZ(Non-Return-to-Zero) 방식보다 동일 대역폭에서 2배의 데이터 전송 가능
- 모든 포트 NVLink 네트워크 연결 가능
- 데이터센터급 AI 슈퍼컴퓨터 확장에 최적화
✅ (3) 새로운 기능 (New Capabilities)
- 400GFLOPS의 FP32 SHARP 지원
- SHARP (Scalable Hierarchical Aggregation and Reduction Protocol) 가속기가 부동소수점 연산을 수행하여 AI 학습 속도를 극대화
- FP32(32비트 부동소수점) 외에도 다양한 데이터 포맷 지원
- NVLink 네트워크 관리, 보안, 텔레메트리 엔진 추가
- 데이터센터 및 클라우드 환경에서 네트워크 모니터링 및 최적화 가능
3. NVSwitch 4의 핵심 장점
항목설명
고속 NVLink 네트워크 지원 | 64 NVLink 포트를 통해 초고속 GPU 통신 가능 |
대역폭 3.2TB/s | 기존 대비 2배 이상 증가한 풀 듀플렉스 전송 |
SHARP 가속기 내장 | AI 학습을 위한 AllReduce 연산 속도 향상 |
PAM4 변조 기술 사용 | 기존 NRZ 대비 2배 높은 데이터 전송율 |
보안 및 관리 기능 강화 | 네트워크 트래픽 모니터링 및 보안 기능 추가 |
4. 결론
- NVLink 4 NVSwitch는 대규모 GPU 클러스터에서 초고속 데이터 전송을 가능하게 하는 핵심 칩
- 64 NVLink 4 포트와 3.2TB/s 대역폭을 지원하며, AI 학습과 HPC 환경에서 획기적인 성능 개선
- SHARP 가속기를 활용하여 GPU의 연산 부담을 줄이고, AI 모델 훈련 속도를 향상
- 최신 TSMC 4N 공정과 25.1B 트랜지스터를 사용하여 높은 성능과 전력 효율 제공
즉, NVSwitch 4는 AI 및 슈퍼컴퓨터 환경에서 GPU 간 네트워크 병목을 제거하고, 고성능 데이터 처리 능력을 극대화하는 필수적인 기술입니다. 🚀
그림에는 32 PHY Lanes가 4개 있으므로, 총 128 NVLink 포트가 있어야 할 것처럼 보이지만, 실제 NVLink 포트 개수는 64개입니다.
이유는 다음과 같습니다.
1. NVLink 4의 동작 방식과 PHY Lanes
NVLink 포트와 PHY Lanes의 관계를 이해하려면 NVLink 4의 동작 방식을 알아야 합니다.
- 각 NVLink 포트는 2개의 PHY Lanes를 사용
- NVLink 4는 x2 데이터 페어(differential pair)로 구성됨
- 즉, 2개의 PHY Lanes가 1개의 NVLink 포트를 형성
- PHY Lanes는 데이터 신호를 전기적으로 전송하는 물리 계층 (Physical Layer, PHY) 역할
- PHY Lanes는 단순한 전송 채널이고, 논리적으로는 NVLink 포트로 묶여 동작
2. NVLink 4 NVSwitch의 PHY Lanes 구성
- 그림에서 보면 32 PHY Lanes × 4개 = 128 PHY Lanes
- 그러나 2개의 PHY Lanes가 1개의 NVLink 포트를 구성
- 128 PHY Lanes ÷ 2 = 64 NVLink 포트
즉, 128개의 PHY Lanes는 실제로 64개의 NVLink 4 포트로 동작합니다.
3. NVLink 4에서 PHY Lanes를 2배로 사용하는 이유
- 기존 NVLink 3에서는 1개의 NVLink 포트가 1개의 PHY Lane을 사용
- 그러나 NVLink 4에서는 한 포트당 2개의 PHY Lanes를 사용하여 더 높은 대역폭을 제공
- 50Gbaud PAM4 변조를 적용하면서 NRZ 대비 2배 높은 데이터 전송률을 제공
- 더 빠른 데이터 전송을 위해 포트당 2개의 PHY Lanes를 사용하도록 변경됨
4. 결론
- 그림에서 128개의 PHY Lanes가 존재하지만, NVLink 4에서는 2개의 PHY Lanes가 1개의 NVLink 포트를 구성하므로 총 64개의 NVLink 포트가 된다.
- 이는 NVLink 4의 설계가 PAM4 변조를 활용하여 더 높은 대역폭을 제공하도록 변경되었기 때문
- 즉, NVSwitch 칩의 총 NVLink 포트 수는 64개이며, 3.2TB/s 풀 듀플렉스 대역폭을 지원
➡️ NVLink 포트 수가 PHY Lanes 수의 절반이 되는 이유는 NVLink 4가 포트당 2개의 PHY Lanes를 사용하기 때문입니다. 🚀
NVSwitch 칩 하나에 직접 64개의 GPU가 연결되는 것은 아닙니다.
NVSwitch 칩에는 64개의 NVLink 4 포트가 존재하지만, 각 GPU는 여러 개의 NVLink를 사용하여 NVSwitch와 연결됩니다.
1. NVSwitch와 GPU 연결 방식
✅ (1) NVLink 포트 개수 vs. GPU 연결 개수
- 이 칩에는 64개의 NVLink 4 포트가 있음
- 하지만 각 GPU는 여러 개의 NVLink 포트를 사용하여 연결됨
- 최신 H100 GPU는 18개의 NVLink 포트를 사용
- 즉, 1개의 NVSwitch가 64개의 GPU를 직접 연결할 수는 없음
- 보통 8~16개의 GPU를 하나의 NVSwitch에 연결
✅ (2) 다중 NVSwitch 구성
- 대규모 GPU 클러스터를 구성하려면 여러 개의 NVSwitch 칩을 연결하여 확장
- 예를 들어, DGX H100에는 여러 개의 NVSwitch를 사용하여 8~16개의 GPU를 연결
- DGX SuperPOD 같은 대규모 시스템에서는 NVSwitch 여러 개를 계층적으로 연결하여 256개 이상의 GPU를 하나의 클러스터로 묶음
2. 실제 연결 방식 예시
구성GPU 개수NVSwitch 개수
DGX H100 | 8~16개 | 여러 개의 NVSwitch 사용 |
DGX SuperPOD | 256개 이상 | NVSwitch 네트워크 확장 |
3. 결론
- NVSwitch 칩 하나에 64개의 GPU가 직접 연결되지는 않음
- 각 GPU는 여러 개의 NVLink 포트를 사용하여 NVSwitch와 연결됨
- 더 많은 GPU를 연결하려면 여러 개의 NVSwitch를 계층적으로 연결해야 함
- 대규모 클러스터(예: DGX SuperPOD)에서는 수십~수백 개의 NVSwitch를 사용하여 수백 개의 GPU를 연결 가능
즉, NVSwitch 하나가 64개의 GPU를 직접 연결할 수 있는 것은 아니지만, 여러 개의 NVSwitch를 조합하면 수백 개의 GPU를 하나의 클러스터로 구성할 수 있습니다. 🚀
'AI > NVIDIA' 카테고리의 다른 글
전통적인 AllReduce 계산 (Traditional AllReduce Calculation) (0) | 2025.02.23 |
---|---|
AllReduce in AI Training: AI 학습에서의 AllReduce 역할 (0) | 2025.02.23 |
NVLink 4 기반의 NVSwitch의 새로운 기능 (0) | 2025.02.23 |
NVLink 기반 서버(DGX) 세대별 발전 과정 (0) | 2025.02.23 |
NVIDIA NVLink의 세대별 발전 과정 (0) | 2025.02.23 |