DGX H100 SuperPOD는 대규모 AI 및 고성능 컴퓨팅(HPC) 클러스터를 위한 초고속 NVLink 네트워크 스위치를 포함하고 있습니다. 이 NVLink Switch는 128개의 NVLink4 포트를 지원하며, 최대 6.4TB/s의 양방향 대역폭을 제공하여 여러 개의 DGX H100 시스템을 초고속 네트워크로 연결하는 핵심 역할을 합니다.
1. DGX H100 NVLink Switch 주요 사양
항목설명
Form Factor
1U(1 Rack Unit) 19-inch 크기의 스위치
NVSwitch 칩 개수
2개의 NVLink4 NVSwitch 칩 사용
NVLink 포트 개수
128개의 NVLink4 포트 지원
OSFP 슬롯 (Cages)
32개의 OSFP(Octal Small Form-factor Pluggable) 슬롯 제공
최대 대역폭
6.4TB/s (Full-Duplex)
관리 기능
Out-of-band 관리 지원
케이블 지원
Passive Copper, Active Copper, Optical OSFP 지원 (Custom Firmware 사용 가능)
2. 주요 용어 및 기술 설명
(1) 1U 19-inch Form Factor
1U(1 Rack Unit)는 데이터센터에서 표준으로 사용되는 서버 및 네트워크 장비의 크기
1U = 약 1.75인치(4.45cm) 높이
19-inch는 표준 서버 랙 크기
즉, 이 NVLink 스위치는 일반적인 데이터센터 랙에 쉽게 설치할 수 있도록 설계됨
InfiniBand 스위치 아키텍처를 기반으로 설계되어 네트워크 최적화됨
(2) Dual NVLink4 NVSwitch Chips
2개의 NVSwitch 4.0 칩을 사용하여 GPU 간 NVLink 네트워크 최적화
각 NVSwitch 칩은 NVLink 포트 간 초고속 데이터 교환을 지원
NVSwitch 칩이 많을수록 더 많은 GPU를 연결할 수 있음
NVSwitch는 AI 및 HPC 워크로드에서 GPU 간 데이터 공유 속도를 크게 향상
(3) 128 NVLink4 Ports
총 128개의 NVLink4 포트를 제공
각 포트는 최대 50GB/s (양방향 100GB/s) 속도를 지원
다수의 DGX H100 서버를 연결하여 초고속 AI 클러스터를 구축 가능
NVSwitch를 활용하여 GPU 간 연결을 중앙 집중식으로 처리
(4) 32 OSFP Cages
OSFP(Octal Small Form-factor Pluggable) 슬롯은 광(Optical) 또는 구리(Copper) 케이블을 연결하는 포트
NVLink 네트워크 확장을 위해 OSFP 포트를 사용하여 DGX 서버를 연결 가능
일반적인 SFP(10G, 25G) 또는 QSFP(40G, 100G)보다 더 높은 속도를 지원하는 차세대 폼팩터
NVLink4 및 InfiniBand 네트워크 연결을 위한 광 네트워크 트랜시버 장착 가능
(5) 6.4 TB/s Full-Duplex Bandwidth
총 6.4TB/s(양방향) NVLink 네트워크 대역폭 제공
Full-Duplex란 양방향 데이터 전송을 동시에 수행할 수 있음을 의미
단일 서버에서 NVLink를 사용할 때보다 여러 개의 서버를 연결할 때 훨씬 높은 데이터 처리량 제공
AI 모델 학습 시 GPU 간 데이터 공유 속도를 크게 향상하여 모델 학습 시간을 단축
(6) Managed Switch with Out-of-Band Management
NVLink Switch는 관리형 스위치(Managed Switch)로 작동
Out-of-Band(OOB) 관리는 별도의 네트워크 포트를 통해 원격으로 장비를 관리하는 기능
관리자는 NVLink 네트워크 상태를 모니터링하고, 트래픽을 최적화하며, 장애 발생 시 복구 가능
HPC 및 AI 클러스터 운영 시 필수적인 기능
(7) Passive Copper, Active Copper, Optical OSFP Cables 지원
Passive Copper: 짧은 거리(약 1~3m)에서 전력 소모 없이 NVLink 네트워크 연결
Active Copper: 중간 거리(3~10m)에서 신호 증폭을 통해 NVLink 연결 안정화
Optical OSFP: 장거리(10m 이상)에서 광케이블을 사용하여 NVLink 네트워크 확장
NVLink 네트워크의 유연성을 높이고, 데이터센터 환경에 맞게 최적의 케이블을 선택하여 사용 가능
3. NVLink Switch의 역할과 장점
(1) AI 및 HPC 워크로드 가속
NVSwitch를 통해 GPU 간 데이터 전송을 최적화하여 AI 모델 학습 속도 향상
대용량 데이터 공유가 필요한 HPC(고성능 컴퓨팅) 워크로드에 적합
AI 훈련 시 AllReduce 연산 최적화하여 GPU 간 데이터 동기화 속도 증가
(2) 다수의 DGX H100 서버 연결 가능
128 NVLink 포트와 32 OSFP 슬롯을 활용하여 여러 개의 DGX 서버를 연결 가능
단일 서버의 NVLink 연결을 넘어, 대규모 AI 클러스터 구축 가능
데이터센터 및 슈퍼컴퓨터에서 사용 가능
(3) NVLink 및 InfiniBand를 동시에 활용 가능
OSFP 포트를 통해 InfiniBand 네트워크와 연동 가능
NVLink 네트워크를 통해 GPU 간 데이터 전송 최적화, InfiniBand로 서버 간 데이터 교환
데이터센터 네트워크 구성에 유연성 제공
(4) 효율적인 데이터센터 운영 지원
Out-of-Band 관리를 통해 원격으로 NVLink 네트워크 상태 모니터링 및 장애 복구 가능
패시브 및 액티브 구리 케이블, 광 케이블 지원으로 다양한 데이터센터 환경에 맞게 구성 가능
초거대 AI 모델 학습을 위한 고성능 GPU 클러스터 구축 가능
4. 결론
DGX H100 SUPERPOD의 NVLink Switch는 초고속 AI 및 HPC 네트워크를 위한 핵심 인프라
128개의 NVLink4 포트와 32 OSFP 슬롯을 제공하여 DGX 서버 간 고속 네트워크 구성 가능
최대 6.4TB/s 대역폭을 지원하여 GPU 간 데이터 공유 속도를 극대화
NVSwitch 및 OSFP를 활용하여 대규모 AI 클러스터를 손쉽게 구축
Out-of-Band 관리 및 다양한 케이블 지원으로 데이터센터 운영 최적화
즉, 이 NVLink Switch는 DGX H100 SuperPOD의 GPU 클러스터에서 초고속 데이터 교환을 지원하는 핵심 인프라입니다.
NVIDIA Hopper 아키텍처에서 사용되는 NVLink4 기반의 NVSwitch의 블록 다이어그램을 보여줍니다. NVSwitch는 여러 개의 GPU를 초고속으로 연결하여 분산 학습을 최적화하는 중요한 네트워크 인터커넥트이며, 이전 세대보다 개선된 SHARP(SCalable Hierarchical Aggregation and Reduction Protocol) 및 보안 기능이 포함되었습니다.
1. NVSwitch 개요
✅ NVSwitch의 역할
NVLink를 통해 다수의 GPU를 연결하여 초고속 데이터 교환을 지원하는 네트워크 스위치
H100 GPU 및 AI/HPC 환경에서 여러 GPU 간 통신을 최적화
SHARP 연산을 통해 데이터 교환 시 추가 연산을 수행하여 성능 최적화
보안 기능을 강화하여 GPU 간 데이터 보호 가능
2. NVSwitch 블록 구성
🔹 (1) Management 블록
Control Processor 및 State/Telemetry Proxy
OSFP(Octal Small Form-factor Pluggable) 케이블을 포함한 상태 정보 및 원격 모니터링 처리
NVSwitch의 동작을 관리하는 중앙 제어 프로세서 포함
AI 및 HPC 환경에서 InfiniBand와 유사한 모니터링 기능 지원
Security Processor
데이터 및 칩 구성 보호
외부 공격으로부터 NVSwitch와 연결된 GPU 보호
데이터 무결성을 유지하고 보안을 강화하기 위한 암호화 기능 포함
🔹 (2) Port Logic 블록 (0 ~ 63)
NVSwitch는 총 64개의 NVLink 포트를 가짐
각 포트에는 다양한 패킷 처리 및 보안 기능이 포함됨
📌 주요 기능
모듈설명
Routing
패킷의 목적지 결정 및 경로 설정
Classification & Packet Transforms
패킷을 분류하고 적절한 변환 수행
Error Check & Statistics Collection
NVLink 네트워크 오류 감지 및 통계 수집
Transaction Tracking & Packet Transforms
데이터 트랜잭션을 추적하고 패킷을 변환하여 성능 최적화
SHARP Controller
AllReduce 및 기타 연산을 최적화하는 SHARP 연산 관리
SHARP ALU (Hopper)
Hopper 아키텍처에 최적화된 연산 장치 포함 (논리 연산, 합 연산 등 지원)
SHARP Scratch SRAM
SHARP 연산을 위한 임시 메모리 저장 공간
📌 주요 특징
SHARP 연산을 통해 데이터 전송 중 일부 계산을 NVSwitch 내부에서 수행
XBAR(교차 연결) 대역폭을 증가시켜 SHARP 연산 관련 트래픽을 처리할 수 있도록 개선됨
🔹 (3) NVLink 블록 (0 ~ 63)
각 NVLink 포트에는 PHY, Data Link(DL), Transport Layer(TL) 블록 포함
총 64개의 NVLink 포트가 존재하며, 각 포트가 NVSwitch를 통해 GPU와 연결됨
이전 세대보다 향상된 데이터 처리 능력과 낮은 레이턴시 제공
3. 새로운 SHARP 블록 (New SHARP Blocks)
SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)은 AllReduce 같은 집계 연산을 GPU 대신 NVSwitch에서 직접 수행하여, GPU 간 통신 병목을 줄이는 기술입니다.
✅ (1) SHARP ALU (Hopper)
Hopper GPU와 매칭된 연산 유닛 포함
논리 연산, min/max 연산, 덧셈 연산 등을 지원
다양한 데이터 형식 지원: 정수(S/U Integers), FP16, FP32, FP64, BF16 등
SHARP 컨트롤러가 최대 128개의 SHARP 그룹을 병렬로 관리 가능
XBAR 대역폭이 증가하여 SHARP 연산을 처리할 수 있도록 개선됨
✅ (2) SHARP의 성능 향상
기존 NVSwitch보다 더 많은 SHARP 연산을 처리할 수 있도록 병렬 처리 기능 증가
AllReduce 성능 최적화로 GPU 간 데이터 이동 감소
딥러닝 학습 시 GPU 간 그래디언트 동기화(AllReduce) 속도 개선
4. 새로운 NVLink Network 블록 (New NVLink Network Blocks)
(1) 보안 기능 강화
Security Processor가 데이터 및 칩 구성을 보호
외부 공격으로부터 NVSwitch와 연결된 GPU를 보호
TLS, 암호화, 메모리 보호 기능 제공
(2) 포트 격리 (Partitioning)
각 포트를 독립적인 NVLink 네트워크 서브셋으로 분리 가능
서로 다른 GPU 그룹 간 데이터를 분리하여, 멀티 테넌트 환경에서 보안성 증가
예: 한 NVSwitch에서 서로 다른 연구팀이 GPU를 공유할 때 보안 유지 가능
(3) OSFP 케이블 지원
NVSwitch는 OSFP(Octal Small Form-factor Pluggable) 케이블을 지원하여 확장성을 증가
H100 GPU와의 연결을 최적화하고, NVSwitch 간 상호 연결을 위한 고속 데이터 경로 제공
(4) InfiniBand 스타일 모니터링 지원
NVSwitch는 InfiniBand에서 사용되는 원격 관리 및 모니터링 기능을 지원
데이터 센터에서 NVSwitch 및 NVLink 트래픽을 원격으로 모니터링 가능
GPU 간 통신 병목을 실시간으로 감지하여 최적화 가능
5. 결론
NVIDIA의 NVLink4 NVSwitch는 기존 NVSwitch 대비 SHARP 연산을 강화하고, 보안과 관리 기능을 대폭 향상한 차세대 GPU 네트워크 인터커넥트입니다.
64개의 NVLink 포트를 제공하여 여러 GPU 간 초고속 데이터 전송 지원
SHARP ALU를 포함하여 GPU 간 AllReduce 및 데이터 연산을 직접 처리
Security Processor를 포함하여 데이터 보호 및 보안 기능 강화
각 포트를 독립적으로 격리하여, 멀티 테넌트 환경에서도 GPU 공유 가능
OSFP 케이블 및 InfiniBand 스타일 원격 모니터링 기능 추가
즉, NVSwitch는 단순한 GPU 연결 장치가 아니라, AI 및 HPC 환경에서 GPU 간 데이터 이동을 최적화하고 보안과 확장성을 고려한 차세대 네트워크 스위치입니다.
InfiniBand: 고성능 데이터 센터 및 HPC 네트워크 기술
InfiniBand(IB는 고성능 컴퓨팅(HPC), 데이터 센터, AI/딥러닝, 금융 컴퓨팅 환경에서 사용되는 초고속 네트워크 인터커넥트 기술입니다. 기존의 이더넷보다 더 낮은 지연 시간(Latency)과 높은 대역폭(Bandwidth)을 제공하며, RDMA(Remote Direct Memory Access)를 지원하여 CPU 개입 없이 직접 데이터 전송 가능합니다.
1. InfiniBand의 주요 특징
(1) 초고속 대역폭 (High Bandwidth)
현재 InfiniBand HDR(High Data Rate) 및 NDR(Next Data Rate) 기술은 최대 400Gbps 이상 지원
기존의 이더넷(100G/200G)보다 더 높은 속도를 제공하여 HPC 및 AI 학습에 최적
(2) 초저지연 (Ultra-low Latency)
1μs(마이크로초) 미만의 초저지연을 제공
일반적인 이더넷이 10~100μs 정도의 레이턴시를 가지는 것과 비교하면 월등히 빠름
데이터 전송 속도가 중요한 AI 훈련, 금융 거래, 슈퍼컴퓨팅 등에 필수적
(3) RDMA(Remote Direct Memory Access) 지원
RDMA를 통해 CPU 개입 없이 GPU 또는 메모리 간 직접 데이터 전송 가능
CPU가 개입하는 기존 TCP/IP 네트워크보다 훨씬 낮은 레이턴시를 제공
GPU 간 데이터 공유 속도가 빨라져 AI/딥러닝 학습 시간 단축
(4) 확장성 (Scalability)
InfiniBand는 HPC 및 데이터센터 환경에서 수천~수만 개의 GPU, CPU 노드를 연결 가능
Fat-Tree, Dragonfly 같은 네트워크 토폴로지를 통해 확장성 증가
NVLink와 달리 서버 간 장거리 연결도 가능
2. InfiniBand와 기존 네트워크(Ethernet) 비교
항목 InfiniBand Ethernet
대역폭
최대 400Gbps (NDR)
100~200Gbps
지연 시간 (Latency)
1μs 미만 (Ultra-low Latency)
10~100μs
데이터 전송 방식
RDMA 기반 직접 메모리 접근
TCP/IP 기반 패킷 전송
CPU 개입 여부
없음 (Direct Memory Access)
있음 (CPU가 데이터 복사 및 전송 처리)
확장성
수천~수만 개의 노드 연결 가능
주로 서버 간 연결
적용 분야
HPC, AI/딥러닝, 금융 거래, 클라우드 데이터센터
일반적인 IT 네트워크, 웹 서비스
즉, InfiniBand는 데이터 전송 속도와 지연 시간이 중요한 HPC, AI, 금융 거래 환경에서 사용되며, 기존 이더넷보다 훨씬 빠른 성능을 제공합니다.
3. InfiniBand의 네트워크 구조
InfiniBand는 기존의 이더넷이나 NVLink와는 다른 방식으로 네트워크를 구성합니다.
(1) 기본 구성 요소
구성 요소설명
Host Channel Adapter (HCA)
InfiniBand를 지원하는 서버 또는 GPU에 장착되는 네트워크 인터페이스 카드(NIC)
InfiniBand Switch
InfiniBand 패브릭(Fabric) 네트워크를 구성하는 고속 스위치
Subnet Manager (SM)
네트워크 트래픽을 관리하고 노드를 구성하는 소프트웨어
Link Layer
데이터를 송수신하는 물리적 인터페이스 (QSFP, OSFP 등 사용)
(2) InfiniBand 네트워크 토폴로지
Fat-Tree 토폴로지
데이터 센터에서 가장 일반적인 구조
여러 개의 스위치를 계층적으로 연결하여 병목을 최소화
Dragonfly 토폴로지
대규모 AI 및 슈퍼컴퓨팅 시스템에서 사용
여러 개의 노드를 고속으로 연결하여 지연 시간 감소
이러한 네트워크 구조 덕분에 InfiniBand는 AI 및 HPC 환경에서 효율적인 데이터 전송을 지원합니다.
4. InfiniBand와 NVLink의 차이점
항목InfiniBandNVLink
적용 범위
서버 간(GPU-서버, GPU-GPU, 서버-스토리지 간 통신)
주로 GPU 간 직접 연결
대역폭
최대 400Gbps (NDR)
최대 900GB/s (NVLink4)
지연 시간
1μs 미만
10ns 미만 (NVLink가 더 빠름)
전송 방식
RDMA 기반 네트워크
메모리 주소 기반 직접 연결
연결 방식
네트워크 스위치를 통한 연결
NVSwitch를 통한 직접 연결
확장성
수천 개 이상의 노드 연결 가능
다수의 GPU 연결 가능하지만 서버 간 연결은 불가능
InfiniBand는 서버 간 데이터 교환을 위한 네트워크이며, NVLink는 같은 서버 내 GPU 간 초고속 연결을 위한 인터커넥트입니다. 최상의 성능을 위해 AI 및 HPC 환경에서는 InfiniBand와 NVLink를 함께 사용합니다.
5. InfiniBand의 활용 사례
(1) AI/딥러닝 (Deep Learning)
NVIDIA DGX 시스템과 같은 AI 클러스터에서 GPU 간 데이터 공유
AI 모델 학습 시 RDMA를 통해 CPU 개입 없이 GPU 간 직접 데이터 이동 가능
NVLink와 함께 사용하여 GPU-서버 간 및 GPU-GPU 간 통신을 최적화
(2) 슈퍼컴퓨팅 (Supercomputing)
세계적인 슈퍼컴퓨터에서 InfiniBand 사용 (예: Summit, Fugaku 등)
대규모 병렬 연산을 수행하는 HPC 환경에서 필수적인 네트워크
(3) 금융 거래 (High-Frequency Trading)
초저지연(1μs 미만)의 특성 때문에 고빈도 금융 거래(HFT, High-Frequency Trading)에 사용
주식 시장의 실시간 거래 분석 및 알고리즘 트레이딩 최적화
(4) 클라우드 데이터센터
Microsoft Azure, AWS, Google Cloud 같은 대규모 데이터센터에서 InfiniBand 사용
높은 대역폭과 낮은 지연 시간을 필요로 하는 워크로드에 최적화
6. 결론
InfiniBand는 AI 및 HPC 환경에서 필수적인 초고속 네트워크
이더넷보다 훨씬 높은 대역폭과 낮은 레이턴시 제공 (최대 400Gbps, 1μs 미만)
RDMA 지원으로 CPU 개입 없이 메모리 간 직접 데이터 전송 가능
HPC, AI, 금융 거래, 클라우드 데이터센터에서 폭넓게 사용됨
NVLink와 함께 사용하여 AI 및 슈퍼컴퓨팅 시스템에서 최적의 성능 제공
즉, InfiniBand는 데이터 전송 속도와 확장성이 중요한 AI 및 HPC 환경에서 필수적인 네트워크 기술로, NVLink와 함께 사용하면 더욱 강력한 성능을 발휘할 수 있습니다. 🚀