반응형
DGX H100 SuperPOD는 대규모 AI 및 고성능 컴퓨팅(HPC) 클러스터를 위한 초고속 NVLink 네트워크 스위치를 포함하고 있습니다.
이 NVLink Switch는 128개의 NVLink4 포트를 지원하며, 최대 6.4TB/s의 양방향 대역폭을 제공하여
여러 개의 DGX H100 시스템을 초고속 네트워크로 연결하는 핵심 역할을 합니다.
1. DGX H100 NVLink Switch 주요 사양
항목설명
Form Factor | 1U(1 Rack Unit) 19-inch 크기의 스위치 |
NVSwitch 칩 개수 | 2개의 NVLink4 NVSwitch 칩 사용 |
NVLink 포트 개수 | 128개의 NVLink4 포트 지원 |
OSFP 슬롯 (Cages) | 32개의 OSFP(Octal Small Form-factor Pluggable) 슬롯 제공 |
최대 대역폭 | 6.4TB/s (Full-Duplex) |
관리 기능 | Out-of-band 관리 지원 |
케이블 지원 | Passive Copper, Active Copper, Optical OSFP 지원 (Custom Firmware 사용 가능) |
2. 주요 용어 및 기술 설명
(1) 1U 19-inch Form Factor
- 1U(1 Rack Unit)는 데이터센터에서 표준으로 사용되는 서버 및 네트워크 장비의 크기
- 1U = 약 1.75인치(4.45cm) 높이
- 19-inch는 표준 서버 랙 크기
- 즉, 이 NVLink 스위치는 일반적인 데이터센터 랙에 쉽게 설치할 수 있도록 설계됨
- InfiniBand 스위치 아키텍처를 기반으로 설계되어 네트워크 최적화됨
(2) Dual NVLink4 NVSwitch Chips
- 2개의 NVSwitch 4.0 칩을 사용하여 GPU 간 NVLink 네트워크 최적화
- 각 NVSwitch 칩은 NVLink 포트 간 초고속 데이터 교환을 지원
- NVSwitch 칩이 많을수록 더 많은 GPU를 연결할 수 있음
- NVSwitch는 AI 및 HPC 워크로드에서 GPU 간 데이터 공유 속도를 크게 향상
(3) 128 NVLink4 Ports
- 총 128개의 NVLink4 포트를 제공
- 각 포트는 최대 50GB/s (양방향 100GB/s) 속도를 지원
- 다수의 DGX H100 서버를 연결하여 초고속 AI 클러스터를 구축 가능
- NVSwitch를 활용하여 GPU 간 연결을 중앙 집중식으로 처리
(4) 32 OSFP Cages
- OSFP(Octal Small Form-factor Pluggable) 슬롯은 광(Optical) 또는 구리(Copper) 케이블을 연결하는 포트
- NVLink 네트워크 확장을 위해 OSFP 포트를 사용하여 DGX 서버를 연결 가능
- 일반적인 SFP(10G, 25G) 또는 QSFP(40G, 100G)보다 더 높은 속도를 지원하는 차세대 폼팩터
- NVLink4 및 InfiniBand 네트워크 연결을 위한 광 네트워크 트랜시버 장착 가능
(5) 6.4 TB/s Full-Duplex Bandwidth
- 총 6.4TB/s(양방향) NVLink 네트워크 대역폭 제공
- Full-Duplex란 양방향 데이터 전송을 동시에 수행할 수 있음을 의미
- 단일 서버에서 NVLink를 사용할 때보다 여러 개의 서버를 연결할 때 훨씬 높은 데이터 처리량 제공
- AI 모델 학습 시 GPU 간 데이터 공유 속도를 크게 향상하여 모델 학습 시간을 단축
(6) Managed Switch with Out-of-Band Management
- NVLink Switch는 관리형 스위치(Managed Switch)로 작동
- Out-of-Band(OOB) 관리는 별도의 네트워크 포트를 통해 원격으로 장비를 관리하는 기능
- 관리자는 NVLink 네트워크 상태를 모니터링하고, 트래픽을 최적화하며, 장애 발생 시 복구 가능
- HPC 및 AI 클러스터 운영 시 필수적인 기능
(7) Passive Copper, Active Copper, Optical OSFP Cables 지원
- Passive Copper: 짧은 거리(약 1~3m)에서 전력 소모 없이 NVLink 네트워크 연결
- Active Copper: 중간 거리(3~10m)에서 신호 증폭을 통해 NVLink 연결 안정화
- Optical OSFP: 장거리(10m 이상)에서 광케이블을 사용하여 NVLink 네트워크 확장
NVLink 네트워크의 유연성을 높이고, 데이터센터 환경에 맞게 최적의 케이블을 선택하여 사용 가능
3. NVLink Switch의 역할과 장점
(1) AI 및 HPC 워크로드 가속
- NVSwitch를 통해 GPU 간 데이터 전송을 최적화하여 AI 모델 학습 속도 향상
- 대용량 데이터 공유가 필요한 HPC(고성능 컴퓨팅) 워크로드에 적합
- AI 훈련 시 AllReduce 연산 최적화하여 GPU 간 데이터 동기화 속도 증가
(2) 다수의 DGX H100 서버 연결 가능
- 128 NVLink 포트와 32 OSFP 슬롯을 활용하여 여러 개의 DGX 서버를 연결 가능
- 단일 서버의 NVLink 연결을 넘어, 대규모 AI 클러스터 구축 가능
- 데이터센터 및 슈퍼컴퓨터에서 사용 가능
(3) NVLink 및 InfiniBand를 동시에 활용 가능
- OSFP 포트를 통해 InfiniBand 네트워크와 연동 가능
- NVLink 네트워크를 통해 GPU 간 데이터 전송 최적화, InfiniBand로 서버 간 데이터 교환
- 데이터센터 네트워크 구성에 유연성 제공
(4) 효율적인 데이터센터 운영 지원
- Out-of-Band 관리를 통해 원격으로 NVLink 네트워크 상태 모니터링 및 장애 복구 가능
- 패시브 및 액티브 구리 케이블, 광 케이블 지원으로 다양한 데이터센터 환경에 맞게 구성 가능
- 초거대 AI 모델 학습을 위한 고성능 GPU 클러스터 구축 가능
4. 결론
DGX H100 SUPERPOD의 NVLink Switch는 초고속 AI 및 HPC 네트워크를 위한 핵심 인프라
- 128개의 NVLink4 포트와 32 OSFP 슬롯을 제공하여 DGX 서버 간 고속 네트워크 구성 가능
- 최대 6.4TB/s 대역폭을 지원하여 GPU 간 데이터 공유 속도를 극대화
- NVSwitch 및 OSFP를 활용하여 대규모 AI 클러스터를 손쉽게 구축
- Out-of-Band 관리 및 다양한 케이블 지원으로 데이터센터 운영 최적화
즉, 이 NVLink Switch는 DGX H100 SuperPOD의 GPU 클러스터에서 초고속 데이터 교환을 지원하는 핵심 인프라입니다.
반응형
'AI > NVIDIA' 카테고리의 다른 글
ARM 및 RISC-V 기반 슈퍼컴퓨터 설계 및 DGX H100 비교 보고서 (0) | 2025.02.24 |
---|---|
NVLink Evolution and GPU Ecosystem: From Version 1.0 to 6.0 (1) | 2025.02.24 |
DGX H100: Data-Network Configuration 상세 분석 (0) | 2025.02.24 |
DGX H100 SERVER 상세 분석 (0) | 2025.02.24 |
NVLink4 NVSwitch 블록 다이어그램 상세 분석 (2) | 2025.02.24 |