DGX H100 SUPERPOD: NVLINK SWITCH 상세 설명

zeah 2025. 2. 24. 00:36

2025. 2. 24. 00:36

DGX H100 SuperPOD는 대규모 AI 및 고성능 컴퓨팅(HPC) 클러스터를 위한 초고속 NVLink 네트워크 스위치를 포함하고 있습니다.
이 NVLink Switch는 128개의 NVLink4 포트를 지원하며, 최대 6.4TB/s의 양방향 대역폭을 제공하여
여러 개의 DGX H100 시스템을 초고속 네트워크로 연결하는 핵심 역할을 합니다.

1. DGX H100 NVLink Switch 주요 사양

항목설명

Form Factor	1U(1 Rack Unit) 19-inch 크기의 스위치
NVSwitch 칩 개수	2개의 NVLink4 NVSwitch 칩 사용
NVLink 포트 개수	128개의 NVLink4 포트 지원
OSFP 슬롯 (Cages)	32개의 OSFP(Octal Small Form-factor Pluggable) 슬롯 제공
최대 대역폭	6.4TB/s (Full-Duplex)
관리 기능	Out-of-band 관리 지원
케이블 지원	Passive Copper, Active Copper, Optical OSFP 지원 (Custom Firmware 사용 가능)

2. 주요 용어 및 기술 설명

(1) 1U 19-inch Form Factor

1U(1 Rack Unit)는 데이터센터에서 표준으로 사용되는 서버 및 네트워크 장비의 크기
1U = 약 1.75인치(4.45cm) 높이
19-inch는 표준 서버 랙 크기
즉, 이 NVLink 스위치는 일반적인 데이터센터 랙에 쉽게 설치할 수 있도록 설계됨
InfiniBand 스위치 아키텍처를 기반으로 설계되어 네트워크 최적화됨

(2) Dual NVLink4 NVSwitch Chips

2개의 NVSwitch 4.0 칩을 사용하여 GPU 간 NVLink 네트워크 최적화
각 NVSwitch 칩은 NVLink 포트 간 초고속 데이터 교환을 지원
NVSwitch 칩이 많을수록 더 많은 GPU를 연결할 수 있음
NVSwitch는 AI 및 HPC 워크로드에서 GPU 간 데이터 공유 속도를 크게 향상

(3) 128 NVLink4 Ports

총 128개의 NVLink4 포트를 제공
각 포트는 최대 50GB/s (양방향 100GB/s) 속도를 지원
다수의 DGX H100 서버를 연결하여 초고속 AI 클러스터를 구축 가능
NVSwitch를 활용하여 GPU 간 연결을 중앙 집중식으로 처리

(4) 32 OSFP Cages

OSFP(Octal Small Form-factor Pluggable) 슬롯은 광(Optical) 또는 구리(Copper) 케이블을 연결하는 포트
NVLink 네트워크 확장을 위해 OSFP 포트를 사용하여 DGX 서버를 연결 가능
일반적인 SFP(10G, 25G) 또는 QSFP(40G, 100G)보다 더 높은 속도를 지원하는 차세대 폼팩터
NVLink4 및 InfiniBand 네트워크 연결을 위한 광 네트워크 트랜시버 장착 가능

(5) 6.4 TB/s Full-Duplex Bandwidth

총 6.4TB/s(양방향) NVLink 네트워크 대역폭 제공
Full-Duplex란 양방향 데이터 전송을 동시에 수행할 수 있음을 의미
단일 서버에서 NVLink를 사용할 때보다 여러 개의 서버를 연결할 때 훨씬 높은 데이터 처리량 제공
AI 모델 학습 시 GPU 간 데이터 공유 속도를 크게 향상하여 모델 학습 시간을 단축

(6) Managed Switch with Out-of-Band Management

NVLink Switch는 관리형 스위치(Managed Switch)로 작동
Out-of-Band(OOB) 관리는 별도의 네트워크 포트를 통해 원격으로 장비를 관리하는 기능
관리자는 NVLink 네트워크 상태를 모니터링하고, 트래픽을 최적화하며, 장애 발생 시 복구 가능
HPC 및 AI 클러스터 운영 시 필수적인 기능

(7) Passive Copper, Active Copper, Optical OSFP Cables 지원

Passive Copper: 짧은 거리(약 1~3m)에서 전력 소모 없이 NVLink 네트워크 연결
Active Copper: 중간 거리(3~10m)에서 신호 증폭을 통해 NVLink 연결 안정화
Optical OSFP: 장거리(10m 이상)에서 광케이블을 사용하여 NVLink 네트워크 확장

NVLink 네트워크의 유연성을 높이고, 데이터센터 환경에 맞게 최적의 케이블을 선택하여 사용 가능

3. NVLink Switch의 역할과 장점

(1) AI 및 HPC 워크로드 가속

NVSwitch를 통해 GPU 간 데이터 전송을 최적화하여 AI 모델 학습 속도 향상
대용량 데이터 공유가 필요한 HPC(고성능 컴퓨팅) 워크로드에 적합
AI 훈련 시 AllReduce 연산 최적화하여 GPU 간 데이터 동기화 속도 증가

(2) 다수의 DGX H100 서버 연결 가능

128 NVLink 포트와 32 OSFP 슬롯을 활용하여 여러 개의 DGX 서버를 연결 가능
단일 서버의 NVLink 연결을 넘어, 대규모 AI 클러스터 구축 가능
데이터센터 및 슈퍼컴퓨터에서 사용 가능

(3) NVLink 및 InfiniBand를 동시에 활용 가능

OSFP 포트를 통해 InfiniBand 네트워크와 연동 가능
NVLink 네트워크를 통해 GPU 간 데이터 전송 최적화, InfiniBand로 서버 간 데이터 교환
데이터센터 네트워크 구성에 유연성 제공

(4) 효율적인 데이터센터 운영 지원

Out-of-Band 관리를 통해 원격으로 NVLink 네트워크 상태 모니터링 및 장애 복구 가능
패시브 및 액티브 구리 케이블, 광 케이블 지원으로 다양한 데이터센터 환경에 맞게 구성 가능
초거대 AI 모델 학습을 위한 고성능 GPU 클러스터 구축 가능

4. 결론

DGX H100 SUPERPOD의 NVLink Switch는 초고속 AI 및 HPC 네트워크를 위한 핵심 인프라

128개의 NVLink4 포트와 32 OSFP 슬롯을 제공하여 DGX 서버 간 고속 네트워크 구성 가능
최대 6.4TB/s 대역폭을 지원하여 GPU 간 데이터 공유 속도를 극대화
NVSwitch 및 OSFP를 활용하여 대규모 AI 클러스터를 손쉽게 구축
Out-of-Band 관리 및 다양한 케이블 지원으로 데이터센터 운영 최적화

즉, 이 NVLink Switch는 DGX H100 SuperPOD의 GPU 클러스터에서 초고속 데이터 교환을 지원하는 핵심 인프라입니다.

'AI > NVIDIA' 카테고리의 다른 글

ARM 및 RISC-V 기반 슈퍼컴퓨터 설계 및 DGX H100 비교 보고서 (0)	2025.02.24
NVLink Evolution and GPU Ecosystem: From Version 1.0 to 6.0 (1)	2025.02.24
DGX H100: Data-Network Configuration 상세 분석 (0)	2025.02.24
DGX H100 SERVER 상세 분석 (0)	2025.02.24
NVLink4 NVSwitch 블록 다이어그램 상세 분석 (2)	2025.02.24

Zeah Engineering Factory