DGX H100은 NVLink4와 NVSwitch를 사용하여 GPU 간 초고속 데이터 교환을 최적화하며, InfiniBand 및 Ethernet을 통한 외부 서버 연결도 지원합니다.
1. DGX H100 네트워크 아키텍처 개요
DGX H100은 다중 H100 GPU를 하나의 강력한 클러스터로 연결하는 네트워크 인터커넥트를 포함합니다.
이를 통해 딥러닝(AI), 고성능 컴퓨팅(HPC), 데이터 분석 등에서 대규모 병렬 연산이 가능합니다.
- NVLink4 및 NVSwitch를 사용하여 8개의 H100 GPU 간 초고속 데이터 전송 지원
- Full-BW 및 Half-BW NVLink 네트워크를 통해 서버 내·외부 GPU 통신 최적화
- 400Gb/s InfiniBand/Ethernet 연결을 통해 외부 시스템과 빠른 데이터 교환
- SHARP 프로토콜을 활용하여 AllReduce 최적화
2. DGX H100 네트워크 구조 설명
(1) Full-BW Intra-Server NVLink (서버 내 GPU 간 최대 대역폭 NVLink)
- 모든 8개의 H100 GPU가 동시에 18개의 NVLink를 통해 서로 통신 가능
→ NVLink4는 GPU 간 900GB/s(양방향) 속도로 데이터 교환을 수행 - 단일 서버 내에서만 NVLink를 사용하기 때문에 외부 네트워크 부하가 없음
- 서버 내부의 NVLink 네트워크는 오버서브스크립션(over-subscription)만이 병목이 될 수 있음
→ 즉, 모든 GPU가 동시에 NVLink를 사용할 때, 일부 대역폭이 제한될 수 있음
Full-BW NVLink는 단일 DGX H100 서버 내에서 GPU 간 최적의 데이터 전송을 보장
(2) Half-BW NVLink Network (서버 간 GPU 간 절반 대역폭 NVLink)
- DGX H100 서버 외부의 다른 서버 GPU와 NVLink 연결 가능
- 8개의 GPU 모두 외부 GPU와 연결되지만, 한 번에 18개의 NVLink를 모두 사용할 수 없음
→ 즉, 내부 NVLink 네트워크보다 사용 가능한 대역폭이 절반으로 감소 - 4개의 GPU는 완전한 18 NVLink를 외부 서버 GPU와 연결할 수 있음
- AllReduce 및 SHARP를 통해 데이터 동기화 속도 최적화 가능
- All2All(모든 GPU 간 데이터 공유) 통신 대역폭을 줄여 서버 비용 절감
Half-BW NVLink는 여러 개의 DGX H100 서버를 연결하여 대규모 클러스터를 구성하는데 사용됨
다만, Full-BW보다 낮은 대역폭을 가지므로, NVLink보다는 InfiniBand를 활용하여 클러스터를 구성하는 것이 일반적
(3) Multi-Rail InfiniBand/Ethernet (400Gb/s InfiniBand 또는 Ethernet 연결)
- 각 GPU마다 400Gb/s의 HCA/NIC(Host Channel Adapter/Network Interface Card) 연결을 지원
→ GPU마다 개별적인 RDMA(Remote Direct Memory Access) 지원 가능 - 전체적으로 8개의 400Gb/s 네트워크 인터페이스를 사용하여, 총 800Gbps의 양방향(Full-Duplex) 데이터 전송 가능
- InfiniBand는 GPU와 스토리지 간 빠른 데이터 전송을 위한 RDMA 지원
- Ethernet 모드에서는 표준 네트워크 연결을 통해 서버 간 통신 가능
Multi-Rail InfiniBand/Ethernet은 서버 간 빠른 데이터 전송을 위해 NVLink와 함께 활용됨
InfiniBand를 사용하면 RDMA를 통해 CPU 개입 없이 GPU 간 직접 데이터 이동 가능
3. 네트워크 구성 요소 및 용어 설명
(1) NVLink 4.0
- NVIDIA의 GPU 간 초고속 데이터 인터커넥트 기술
- NVLink 4.0을 사용하여 GPU 간 최대 900GB/s의 대역폭 제공
- NVSwitch를 통해 여러 개의 GPU를 연결하여 멀티 GPU 연산 최적화
- 딥러닝 모델 학습 시 그래디언트 교환(AllReduce) 속도 향상
(2) NVSwitch
- 여러 개의 NVLink를 연결하는 스위치 역할
- DGX H100에서는 4개의 NVSwitch가 사용됨
- NVSwitch는 GPU 간 직접 데이터 교환을 가능하게 하여 CPU 개입 없이 빠른 통신 가능
- SHARP 프로토콜을 지원하여 AllReduce 연산 최적화
(3) InfiniBand (Mellanox ConnectX-7)
- NVIDIA Mellanox의 고속 네트워크 인터커넥트 기술
- RDMA를 지원하여 CPU 개입 없이 GPU 메모리 간 직접 데이터 전송 가능
- 400Gb/s 속도를 제공하여 NVLink가 없는 서버와도 빠른 데이터 교환 가능
(4) OSFP (Octal Small Form-factor Pluggable)
- DGX H100에서 NVLink 네트워크 확장을 위해 사용되는 광 네트워크 인터페이스
- OSFP를 사용하여 여러 개의 DGX 서버를 연결 가능
(5) SHARP (Scalable Hierarchical Aggregation and Reduction Protocol)
- NVIDIA가 개발한 AllReduce 최적화 프로토콜
- SHARP를 사용하면 GPU 간 그래디언트 합산(AllReduce)이 더욱 빠르게 실행됨
- AI 모델 학습 시 GPU 간 데이터 동기화 속도를 향상시켜 학습 시간을 단축
(6) RDMA (Remote Direct Memory Access)
- InfiniBand에서 지원하는 기술로, CPU 개입 없이 메모리 간 직접 데이터 이동 가능
- GPU 간 데이터 전송 시 NVLink 대신 InfiniBand RDMA를 활용하면 CPU 오버헤드를 줄이고, 서버 간 빠른 통신 가능
4. DGX H100 네트워크 구성의 장점
(1) 서버 내 초고속 데이터 전송 (Full-BW NVLink)
- 8개의 GPU가 NVLink4를 통해 초고속 데이터 교환 가능
- 서버 내부에서만 작동하므로 추가적인 네트워크 부하가 없음
(2) 대규모 클러스터 확장 가능 (Half-BW NVLink)
- NVLink 네트워크를 활용하여 여러 개의 DGX H100 서버를 연결 가능
- AllReduce 및 SHARP 기술을 활용하여 데이터 동기화 속도 최적화
(3) InfiniBand와 Ethernet을 통한 빠른 외부 연결
- 각 GPU마다 400Gb/s의 독립적인 네트워크 연결 제공
- RDMA를 활용하여 서버 간 GPU 메모리 간 직접 데이터 이동 가능
(4) 비용 대비 성능 최적화
- All2All(모든 GPU 간 직접 연결)보다 비용을 절감하면서도 성능 유지
- NVLink와 InfiniBand를 적절히 조합하여 최상의 성능 제공
5. 결론
DGX H100 서버의 데이터 네트워크는 NVLink, NVSwitch, InfiniBand 및 Ethernet을 활용하여 AI 및 HPC 환경에서 최적의 성능을 제공합니다.
- 서버 내 Full-BW NVLink를 통해 GPU 간 초고속 데이터 전송 가능
- Half-BW NVLink를 활용하여 서버 간 GPU 연결을 확장 가능
- Multi-Rail InfiniBand/Ethernet을 통해 외부 네트워크와 빠른 데이터 교환
- SHARP 및 RDMA 기술을 사용하여 AI 모델 학습 및 HPC 연산 최적화
즉, DGX H100은 NVLink와 InfiniBand를 결합하여 단일 서버 및 멀티서버 환경에서 최상의 성능을 제공하는 AI 및 HPC 전용 네트워크 솔루션을 갖추고 있습니다.
DGX H100의 네트워크 구성은 서버 내에서는 Full-BW NVLink를, 서버 간에는 Half-BW NVLink를 사용합니다.
서버 내 (Intra-Server) Full-BW NVLink
- 8개의 H100 GPU가 NVLink4를 통해 서로 연결되어 최대 900GB/s(양방향) 대역폭 제공
- 모든 GPU가 동시에 18개의 NVLink를 활용 가능
- 서버 내부에서는 NVSwitch를 통해 GPU 간 데이터 전송을 최적화하여 최대 대역폭 활용 가능
서버 내부에서는 GPU 간 데이터 전송이 매우 빠르며, NVLink를 통해 GPU 간 직접 통신이 가능하므로, CPU 개입 없이 AI 학습 및 HPC 연산이 최적화됨
서버 간 (Inter-Server) Half-BW NVLink
- 서버 간 GPU 연결에서는 Full-BW NVLink를 사용할 수 없고, Half-BW NVLink만 지원
- 서버 내의 8개 GPU 모두 외부 GPU와 연결될 수 있지만, 한 번에 18 NVLinks를 모두 사용할 수 없음
- 특정 4개의 GPU만 18 NVLink를 사용하여 외부 서버의 GPU와 연결 가능
- 서버 간 GPU 통신 시 대역폭이 줄어들지만, SHARP 및 AllReduce 최적화를 통해 성능을 유지
서버 간 NVLink 네트워크는 비용과 복잡성을 고려하여 Half-BW로 구성되었으며, 서버 간 통신은 NVLink보다는 InfiniBand를 활용하는 것이 일반적
왜 서버 내에서는 Full-BW이고, 서버 간에는 Half-BW일까?
- 하드웨어 비용 절감
- NVLink 연결을 모든 서버에 Full-BW로 확장하면 NVSwitch 및 NVLink 포트 수가 기하급수적으로 증가하여 비용이 매우 커짐.
- 서버 간 GPU 연결은 InfiniBand를 활용하는 것이 비용 대비 효율적.
- 클러스터 확장성 고려
- Full-BW NVLink를 서버 간에도 적용하면, 모든 GPU 간 연결을 NVLink만으로 처리해야 하므로 네트워크 복잡성이 증가.
- InfiniBand를 병행 사용하면 더 많은 서버를 연결할 수 있고 확장성이 뛰어남.
- 서버 내 통신 vs 서버 간 통신의 차이
- 서버 내: 모든 GPU가 자주 데이터를 교환해야 하므로 Full-BW NVLink로 최대 대역폭 제공.
- 서버 간: GPU 간 데이터 교환이 빈번하지만, 상대적으로 덜 중요하므로 Half-BW NVLink와 InfiniBand를 병행 사용.
즉, NVIDIA는 AI 및 HPC 워크로드를 고려하여 서버 내부에서는 Full-BW NVLink를 제공하고, 서버 간에는 Half-BW NVLink와 InfiniBand를 조합하여 최적의 성능과 비용 효율성을 맞춘 것입니다.
✅ DGX H100은 InfiniBand와 Ethernet을 모두 지원하는가?
네, DGX H100은 InfiniBand와 Ethernet을 모두 지원합니다.
- 8개의 400Gb/s ConnectX-7 네트워크 포트를 통해 InfiniBand 및 Ethernet을 사용할 수 있습니다.
- NVIDIA의 최신 BlueField-3 DPU(Data Processing Unit) 를 사용하면 InfiniBand 및 Ethernet 네트워크 가속과 보안 기능을 강화할 수 있습니다.
- OSFP(Octal Small Form-factor Pluggable) 포트는 광 네트워크 모듈을 통해 NVLink 네트워크 및 InfiniBand/Ethernet 연결을 확장하는 역할을 합니다.
✅ OSFP(Octal Small Form-factor Pluggable)는 InfiniBand와 Ethernet을 지원하는가?
OSFP 포트는 기본적으로 InfiniBand와 Ethernet을 모두 지원할 수 있습니다.
하지만 어떤 트랜시버(광 모듈) 또는 네트워크 카드(HCA/NIC)를 사용하느냐에 따라 InfiniBand와 Ethernet을 구별합니다.
- OSFP는 물리적 포트 폼팩터이며, 내부적으로 어떤 네트워크 프로토콜(InfiniBand 또는 Ethernet)을 사용할지는 트랜시버에 따라 달라집니다.
- DGX H100의 OSFP 포트는 기본적으로 InfiniBand용으로 설계되었지만, Ethernet을 위한 트랜시버를 장착하면 Ethernet으로도 사용 가능합니다.
✅ InfiniBand와 Ethernet의 차이점
항목InfiniBand (IB)Ethernet
목적 | AI/HPC 및 데이터센터에서 초고속 RDMA(Remote Direct Memory Access) 통신을 지원 | 일반적인 데이터센터 및 기업 네트워크, 클라우드 컴퓨팅 |
속도 | 400Gb/s (NVIDIA ConnectX-7) | 400Gb/s (이더넷 모드) |
지연 시간(Latency) | 1μs 미만 (초저지연) | 10~100μs (상대적으로 높음) |
통신 방식 | RDMA를 사용하여 CPU 개입 없이 GPU 간 직접 데이터 전송 | TCP/IP 기반 전송 (CPU 개입 필요) |
사용처 | AI, 딥러닝, 고성능 컴퓨팅(HPC), 금융 거래 | 일반적인 서버 및 클라우드 인프라 |
👉 DGX H100에서는 InfiniBand를 기본적으로 사용하지만, Ethernet 트랜시버를 장착하면 Ethernet 네트워크도 지원 가능합니다.
✅ DGX H100에서 InfiniBand와 Ethernet을 어떻게 사용하는가?
- 서버 내 GPU 간 통신 (Intra-Server)
- NVLink 4.0과 NVSwitch를 통해 GPU 간 초고속 데이터 교환 (900GB/s)
- InfiniBand/Ethernet을 사용하지 않음
- 서버 간 GPU 통신 (Inter-Server)
- InfiniBand를 기본적으로 사용하여 AI 클러스터링 및 HPC 확장
- InfiniBand가 없는 환경에서는 Ethernet을 사용할 수도 있음
- OSFP 트랜시버를 변경하여 InfiniBand ↔ Ethernet 변환 가능
- 클라우드 및 일반 네트워크 연결
- InfiniBand와 Ethernet 중에서 네트워크 환경에 맞게 선택하여 사용 가능
- NVIDIA BlueField-3 DPU를 활용하여 보안 및 네트워크 성능 최적화
✅ 결론: DGX H100은 InfiniBand와 Ethernet을 모두 지원 가능
- 기본적으로 InfiniBand(400Gb/s)를 사용하여 RDMA 기반의 초고속 데이터 전송 지원
- OSFP 포트를 통해 InfiniBand 또는 Ethernet 중에서 선택하여 사용 가능
- NVIDIA BlueField-3 DPU를 활용하여 네트워크 트래픽을 최적화하고 보안 강화 가능
- AI 및 HPC 클러스터에서는 InfiniBand가 기본 선택이지만, 필요하면 Ethernet도 사용 가능
즉, DGX H100은 InfiniBand를 기본으로 사용하지만, 필요에 따라 Ethernet도 지원할 수 있는 유연한 네트워크 구성을 가지고 있습니다.
'AI > NVIDIA' 카테고리의 다른 글
NVLink Evolution and GPU Ecosystem: From Version 1.0 to 6.0 (1) | 2025.02.24 |
---|---|
DGX H100 SUPERPOD: NVLINK SWITCH 상세 설명 (0) | 2025.02.24 |
DGX H100 SERVER 상세 분석 (0) | 2025.02.24 |
NVLink4 NVSwitch 블록 다이어그램 상세 분석 (2) | 2025.02.24 |
NVLink Network의 전통적인 네트워킹과의 매핑 (0) | 2025.02.23 |