반응형
1. Fat-Tree Topology
- 특징: 계층형 구조를 가지며, 상위 레벨로 갈수록 대역폭이 증가하도록 설계됨.
- 장점:
- 상위 레벨 스위치들이 여러 경로를 제공하여 로드 밸런싱이 가능.
- 높은 대역폭과 충돌 최소화.
- 단점:
- 상위 레벨 스위치 비용 증가.
- 트래픽 패턴이 불균형할 경우 일부 링크가 병목될 가능성 있음.
- GPU 활용 사례:
- NVIDIA의 NVSwitch 및 InfiniBand 기반 클러스터에서 활용.
2. Dragonfly Topology
- 특징: 글로벌 네트워크와 로컬 네트워크를 결합한 설계.
- 장점:
- 노드 간 직접 연결을 통해 저지연 통신이 가능.
- 네트워크 대역폭 활용이 효율적이며, 높은 확장성 제공.
- 단점:
- 라우팅 및 패킷 경로 설계가 복잡함.
- GPU 활용 사례:
- AMD, Cray 등의 HPC(High-Performance Computing) 시스템에서 사용.
3. Torus (3D Torus) Topology
- 특징: 2D 또는 3D 형태로 정사각형(혹은 정육면체) 형태의 네트워크를 형성.
- 장점:
- 노드 간 통신 거리가 짧아 낮은 지연 시간을 제공.
- 대칭적인 트래픽 분배 가능.
- 단점:
- 네트워크가 커질수록 라우팅 알고리즘이 복잡.
- 일부 경로에서 병목 현상이 발생할 가능성 있음.
- GPU 활용 사례:
- IBM의 BlueGene/Q 슈퍼컴퓨터.
- 일부 NVIDIA HPC 네트워크에서 사용.
4. Hypercube Topology
- 특징: 각 노드가 다차원 큐브 형태로 연결됨.
- 장점:
- 적은 링크 수로도 모든 노드 간의 직접 또는 간접 연결이 가능.
- 높은 확장성을 제공.
- 단점:
- 대규모 네트워크에서는 라우팅이 복잡해질 수 있음.
- GPU 활용 사례:
- FPGA 기반 시스템 및 분산 GPU 네트워크.
5. Butterfly (Clos Network)
- 특징: 여러 개의 단계(Stage)로 구성된 다단계 네트워크.
- 장점:
- 트래픽 패턴이 예측 가능하며, 고속 전송 가능.
- 일부 노드 장애 발생 시에도 우회 경로 확보 가능.
- 단점:
- 네트워크 복잡성이 증가할 수 있음.
- GPU 활용 사례:
- NVIDIA의 NVLink/NVSwitch 구조와 유사한 개념.
6. Mesh & Flattened Butterfly
- Mesh Topology
- 노드들이 2D 또는 3D 형태의 격자로 배열됨.
- AI 트레이닝 클러스터에서 효율적.
- Flattened Butterfly
- Butterfly 구조를 확장하여 더 많은 대역폭을 제공.
- Cray 슈퍼컴퓨터에서 사용됨.
7. Hybrid Topology (Fat-Tree + Dragonfly)
- 특징: 여러 개의 네트워크 구조를 결합하여 장점을 극대화.
- GPU 활용 사례:
- NVIDIA DGX SuperPOD, AMD Instinct MI250X 클러스터.
최적의 GPU-to-GPU Topology 선택 기준
- 성능 요구사항
- AI 훈련 또는 HPC 워크로드에 따라 최적의 토폴로지가 다름.
- 대역폭 & 지연 시간
- NVSwitch 또는 InfiniBand를 활용한 Fat-Tree가 일반적.
- 확장성
- HPC에서는 Dragonfly와 3D Torus가 선호됨.
- 비용 효율성
- 저비용을 원하면 Mesh 또는 Hypercube 고려.
결론
- Fat-Tree: 가장 널리 사용되며, NVSwitch 기반 시스템에서 주로 사용.
- Dragonfly: AI/ML, HPC에 적합.
- 3D Torus: 확장성이 뛰어나며 슈퍼컴퓨터에 사용.
- Hybrid (Fat-Tree + Dragonfly): 최신 AI 서버에서 최적화된 형태.
반응형
'System-on-Chip Design' 카테고리의 다른 글
SERDES(Serializer/Deserializer)의 개념, 아키텍처, 그리고 응용 분야 (2) | 2025.02.20 |
---|---|
Serdes (Serializer/Deserializer) (0) | 2025.02.20 |
Power System for Server (1) | 2025.02.19 |
Digital Interface for Server system (1) | 2025.02.19 |
클라우드 서버 AI 시스템 (0) | 2025.02.19 |