반응형

1. Fat-Tree Topology

  • 특징: 계층형 구조를 가지며, 상위 레벨로 갈수록 대역폭이 증가하도록 설계됨.
  • 장점:
    • 상위 레벨 스위치들이 여러 경로를 제공하여 로드 밸런싱이 가능.
    • 높은 대역폭충돌 최소화.
  • 단점:
    • 상위 레벨 스위치 비용 증가.
    • 트래픽 패턴이 불균형할 경우 일부 링크가 병목될 가능성 있음.
  • GPU 활용 사례:
    • NVIDIA의 NVSwitchInfiniBand 기반 클러스터에서 활용.

Fat-tree - Fat tree - Wikipedia


2. Dragonfly Topology

  • 특징: 글로벌 네트워크와 로컬 네트워크를 결합한 설계.
  • 장점:
    • 노드 간 직접 연결을 통해 저지연 통신이 가능.
    • 네트워크 대역폭 활용이 효율적이며, 높은 확장성 제공.
  • 단점:
    • 라우팅 및 패킷 경로 설계가 복잡함.
  • GPU 활용 사례:
    • AMD, Cray 등의 HPC(High-Performance Computing) 시스템에서 사용.


3. Torus (3D Torus) Topology

  • 특징: 2D 또는 3D 형태로 정사각형(혹은 정육면체) 형태의 네트워크를 형성.
  • 장점:
    • 노드 간 통신 거리가 짧아 낮은 지연 시간을 제공.
    • 대칭적인 트래픽 분배 가능.
  • 단점:
    • 네트워크가 커질수록 라우팅 알고리즘이 복잡.
    • 일부 경로에서 병목 현상이 발생할 가능성 있음.
  • GPU 활용 사례:
    • IBM의 BlueGene/Q 슈퍼컴퓨터.
    • 일부 NVIDIA HPC 네트워크에서 사용.

Torus interconnect - Wikipedia


4. Hypercube Topology

  • 특징: 각 노드가 다차원 큐브 형태로 연결됨.
  • 장점:
    • 적은 링크 수로도 모든 노드 간의 직접 또는 간접 연결이 가능.
    • 높은 확장성을 제공.
  • 단점:
    • 대규모 네트워크에서는 라우팅이 복잡해질 수 있음.
  • GPU 활용 사례:
    • FPGA 기반 시스템 및 분산 GPU 네트워크.

5. Butterfly (Clos Network)

  • 특징: 여러 개의 단계(Stage)로 구성된 다단계 네트워크.
  • 장점:
    • 트래픽 패턴이 예측 가능하며, 고속 전송 가능.
    • 일부 노드 장애 발생 시에도 우회 경로 확보 가능.
  • 단점:
    • 네트워크 복잡성이 증가할 수 있음.
  • GPU 활용 사례:
    • NVIDIA의 NVLink/NVSwitch 구조와 유사한 개념.

Clos network - Wikipedia


6. Mesh & Flattened Butterfly

  • Mesh Topology
    • 노드들이 2D 또는 3D 형태의 격자로 배열됨.
    • AI 트레이닝 클러스터에서 효율적.
  • Flattened Butterfly
    • Butterfly 구조를 확장하여 더 많은 대역폭을 제공.
    • Cray 슈퍼컴퓨터에서 사용됨.

cva.stanford.edu/publications/2007/MICRO_FBFLY.pdf


7. Hybrid Topology (Fat-Tree + Dragonfly)

  • 특징: 여러 개의 네트워크 구조를 결합하여 장점을 극대화.
  • GPU 활용 사례:
    • NVIDIA DGX SuperPOD, AMD Instinct MI250X 클러스터.

최적의 GPU-to-GPU Topology 선택 기준

  1. 성능 요구사항
    • AI 훈련 또는 HPC 워크로드에 따라 최적의 토폴로지가 다름.
  2. 대역폭 & 지연 시간
    • NVSwitch 또는 InfiniBand를 활용한 Fat-Tree가 일반적.
  3. 확장성
    • HPC에서는 Dragonfly3D Torus가 선호됨.
  4. 비용 효율성
    • 저비용을 원하면 Mesh 또는 Hypercube 고려.

결론

  • Fat-Tree: 가장 널리 사용되며, NVSwitch 기반 시스템에서 주로 사용.
  • Dragonfly: AI/ML, HPC에 적합.
  • 3D Torus: 확장성이 뛰어나며 슈퍼컴퓨터에 사용.
  • Hybrid (Fat-Tree + Dragonfly): 최신 AI 서버에서 최적화된 형태.
반응형

+ Recent posts