GPU-to-GPU Interconnect Topology :: Zeah Engineering Factory

GPU-to-GPU Interconnect Topology

zeah 2025. 2. 19. 09:10

2025. 2. 19. 09:10

1. Fat-Tree Topology

특징: 계층형 구조를 가지며, 상위 레벨로 갈수록 대역폭이 증가하도록 설계됨.
장점:
- 상위 레벨 스위치들이 여러 경로를 제공하여 로드 밸런싱이 가능.
- 높은 대역폭과 충돌 최소화.
단점:
- 상위 레벨 스위치 비용 증가.
- 트래픽 패턴이 불균형할 경우 일부 링크가 병목될 가능성 있음.
GPU 활용 사례:
- NVIDIA의 NVSwitch 및 InfiniBand 기반 클러스터에서 활용.

Fat-tree - Fat tree - Wikipedia

2. Dragonfly Topology

특징: 글로벌 네트워크와 로컬 네트워크를 결합한 설계.
장점:
- 노드 간 직접 연결을 통해 저지연 통신이 가능.
- 네트워크 대역폭 활용이 효율적이며, 높은 확장성 제공.
단점:
- 라우팅 및 패킷 경로 설계가 복잡함.
GPU 활용 사례:
- AMD, Cray 등의 HPC(High-Performance Computing) 시스템에서 사용.

3. Torus (3D Torus) Topology

특징: 2D 또는 3D 형태로 정사각형(혹은 정육면체) 형태의 네트워크를 형성.
장점:
- 노드 간 통신 거리가 짧아 낮은 지연 시간을 제공.
- 대칭적인 트래픽 분배 가능.
단점:
- 네트워크가 커질수록 라우팅 알고리즘이 복잡.
- 일부 경로에서 병목 현상이 발생할 가능성 있음.
GPU 활용 사례:
- IBM의 BlueGene/Q 슈퍼컴퓨터.
- 일부 NVIDIA HPC 네트워크에서 사용.

Torus interconnect - Wikipedia

4. Hypercube Topology

특징: 각 노드가 다차원 큐브 형태로 연결됨.
장점:
- 적은 링크 수로도 모든 노드 간의 직접 또는 간접 연결이 가능.
- 높은 확장성을 제공.
단점:
- 대규모 네트워크에서는 라우팅이 복잡해질 수 있음.
GPU 활용 사례:
- FPGA 기반 시스템 및 분산 GPU 네트워크.

5. Butterfly (Clos Network)

특징: 여러 개의 단계(Stage)로 구성된 다단계 네트워크.
장점:
- 트래픽 패턴이 예측 가능하며, 고속 전송 가능.
- 일부 노드 장애 발생 시에도 우회 경로 확보 가능.
단점:
- 네트워크 복잡성이 증가할 수 있음.
GPU 활용 사례:
- NVIDIA의 NVLink/NVSwitch 구조와 유사한 개념.

Clos network - Wikipedia

6. Mesh & Flattened Butterfly

Mesh Topology
- 노드들이 2D 또는 3D 형태의 격자로 배열됨.
- AI 트레이닝 클러스터에서 효율적.
Flattened Butterfly
- Butterfly 구조를 확장하여 더 많은 대역폭을 제공.
- Cray 슈퍼컴퓨터에서 사용됨.

cva.stanford.edu/publications/2007/MICRO_FBFLY.pdf

7. Hybrid Topology (Fat-Tree + Dragonfly)

특징: 여러 개의 네트워크 구조를 결합하여 장점을 극대화.
GPU 활용 사례:
- NVIDIA DGX SuperPOD, AMD Instinct MI250X 클러스터.

최적의 GPU-to-GPU Topology 선택 기준

성능 요구사항
- AI 훈련 또는 HPC 워크로드에 따라 최적의 토폴로지가 다름.
대역폭 & 지연 시간
- NVSwitch 또는 InfiniBand를 활용한 Fat-Tree가 일반적.
확장성
- HPC에서는 Dragonfly와 3D Torus가 선호됨.
비용 효율성
- 저비용을 원하면 Mesh 또는 Hypercube 고려.

결론

Fat-Tree: 가장 널리 사용되며, NVSwitch 기반 시스템에서 주로 사용.
Dragonfly: AI/ML, HPC에 적합.
3D Torus: 확장성이 뛰어나며 슈퍼컴퓨터에 사용.
Hybrid (Fat-Tree + Dragonfly): 최신 AI 서버에서 최적화된 형태.

'System-on-Chip Design' 카테고리의 다른 글

SERDES(Serializer/Deserializer)의 개념, 아키텍처, 그리고 응용 분야 (2)	2025.02.20
Serdes (Serializer/Deserializer) (0)	2025.02.20
Power System for Server (1)	2025.02.19
Digital Interface for Server system (1)	2025.02.19
클라우드 서버 AI 시스템 (0)	2025.02.19

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바