반응형

DGX H100 SuperPOD는 대규모 AI 및 고성능 컴퓨팅(HPC) 클러스터를 위한 초고속 NVLink 네트워크 스위치를 포함하고 있습니다.
이 NVLink Switch는 128개의 NVLink4 포트를 지원하며, 최대 6.4TB/s의 양방향 대역폭을 제공하여
여러 개의 DGX H100 시스템을 초고속 네트워크로 연결하는 핵심 역할을 합니다.


1. DGX H100 NVLink Switch 주요 사양

항목설명

Form Factor 1U(1 Rack Unit) 19-inch 크기의 스위치
NVSwitch 칩 개수 2개의 NVLink4 NVSwitch 칩 사용
NVLink 포트 개수 128개의 NVLink4 포트 지원
OSFP 슬롯 (Cages) 32개의 OSFP(Octal Small Form-factor Pluggable) 슬롯 제공
최대 대역폭 6.4TB/s (Full-Duplex)
관리 기능 Out-of-band 관리 지원
케이블 지원 Passive Copper, Active Copper, Optical OSFP 지원 (Custom Firmware 사용 가능)

2. 주요 용어 및 기술 설명

(1) 1U 19-inch Form Factor

  • 1U(1 Rack Unit)는 데이터센터에서 표준으로 사용되는 서버 및 네트워크 장비의 크기
  • 1U = 약 1.75인치(4.45cm) 높이
  • 19-inch는 표준 서버 랙 크기
  • 즉, 이 NVLink 스위치는 일반적인 데이터센터 랙에 쉽게 설치할 수 있도록 설계됨
  • InfiniBand 스위치 아키텍처를 기반으로 설계되어 네트워크 최적화됨

(2) Dual NVLink4 NVSwitch Chips

  • 2개의 NVSwitch 4.0 칩을 사용하여 GPU 간 NVLink 네트워크 최적화
  • 각 NVSwitch 칩은 NVLink 포트 간 초고속 데이터 교환을 지원
  • NVSwitch 칩이 많을수록 더 많은 GPU를 연결할 수 있음
  • NVSwitch는 AI 및 HPC 워크로드에서 GPU 간 데이터 공유 속도를 크게 향상

(3) 128 NVLink4 Ports

  • 총 128개의 NVLink4 포트를 제공
  • 각 포트는 최대 50GB/s (양방향 100GB/s) 속도를 지원
  • 다수의 DGX H100 서버를 연결하여 초고속 AI 클러스터를 구축 가능
  • NVSwitch를 활용하여 GPU 간 연결을 중앙 집중식으로 처리

(4) 32 OSFP Cages

  • OSFP(Octal Small Form-factor Pluggable) 슬롯은 광(Optical) 또는 구리(Copper) 케이블을 연결하는 포트
  • NVLink 네트워크 확장을 위해 OSFP 포트를 사용하여 DGX 서버를 연결 가능
  • 일반적인 SFP(10G, 25G) 또는 QSFP(40G, 100G)보다 더 높은 속도를 지원하는 차세대 폼팩터
  • NVLink4 및 InfiniBand 네트워크 연결을 위한 광 네트워크 트랜시버 장착 가능

(5) 6.4 TB/s Full-Duplex Bandwidth

  • 총 6.4TB/s(양방향) NVLink 네트워크 대역폭 제공
  • Full-Duplex란 양방향 데이터 전송을 동시에 수행할 수 있음을 의미
  • 단일 서버에서 NVLink를 사용할 때보다 여러 개의 서버를 연결할 때 훨씬 높은 데이터 처리량 제공
  • AI 모델 학습 시 GPU 간 데이터 공유 속도를 크게 향상하여 모델 학습 시간을 단축

(6) Managed Switch with Out-of-Band Management

  • NVLink Switch는 관리형 스위치(Managed Switch)로 작동
  • Out-of-Band(OOB) 관리는 별도의 네트워크 포트를 통해 원격으로 장비를 관리하는 기능
  • 관리자는 NVLink 네트워크 상태를 모니터링하고, 트래픽을 최적화하며, 장애 발생 시 복구 가능
  • HPC 및 AI 클러스터 운영 시 필수적인 기능

(7) Passive Copper, Active Copper, Optical OSFP Cables 지원

  • Passive Copper: 짧은 거리(약 1~3m)에서 전력 소모 없이 NVLink 네트워크 연결
  • Active Copper: 중간 거리(3~10m)에서 신호 증폭을 통해 NVLink 연결 안정화
  • Optical OSFP: 장거리(10m 이상)에서 광케이블을 사용하여 NVLink 네트워크 확장

NVLink 네트워크의 유연성을 높이고, 데이터센터 환경에 맞게 최적의 케이블을 선택하여 사용 가능


3. NVLink Switch의 역할과 장점

(1) AI 및 HPC 워크로드 가속

  • NVSwitch를 통해 GPU 간 데이터 전송을 최적화하여 AI 모델 학습 속도 향상
  • 대용량 데이터 공유가 필요한 HPC(고성능 컴퓨팅) 워크로드에 적합
  • AI 훈련 시 AllReduce 연산 최적화하여 GPU 간 데이터 동기화 속도 증가

(2) 다수의 DGX H100 서버 연결 가능

  • 128 NVLink 포트와 32 OSFP 슬롯을 활용하여 여러 개의 DGX 서버를 연결 가능
  • 단일 서버의 NVLink 연결을 넘어, 대규모 AI 클러스터 구축 가능
  • 데이터센터 및 슈퍼컴퓨터에서 사용 가능

(3) NVLink 및 InfiniBand를 동시에 활용 가능

  • OSFP 포트를 통해 InfiniBand 네트워크와 연동 가능
  • NVLink 네트워크를 통해 GPU 간 데이터 전송 최적화, InfiniBand로 서버 간 데이터 교환
  • 데이터센터 네트워크 구성에 유연성 제공

(4) 효율적인 데이터센터 운영 지원

  • Out-of-Band 관리를 통해 원격으로 NVLink 네트워크 상태 모니터링 및 장애 복구 가능
  • 패시브 및 액티브 구리 케이블, 광 케이블 지원으로 다양한 데이터센터 환경에 맞게 구성 가능
  • 초거대 AI 모델 학습을 위한 고성능 GPU 클러스터 구축 가능

4. 결론

DGX H100 SUPERPOD의 NVLink Switch는 초고속 AI 및 HPC 네트워크를 위한 핵심 인프라

  • 128개의 NVLink4 포트와 32 OSFP 슬롯을 제공하여 DGX 서버 간 고속 네트워크 구성 가능
  • 최대 6.4TB/s 대역폭을 지원하여 GPU 간 데이터 공유 속도를 극대화
  • NVSwitch 및 OSFP를 활용하여 대규모 AI 클러스터를 손쉽게 구축
  • Out-of-Band 관리 및 다양한 케이블 지원으로 데이터센터 운영 최적화

즉, 이 NVLink Switch는 DGX H100 SuperPOD의 GPU 클러스터에서 초고속 데이터 교환을 지원하는 핵심 인프라입니다.

반응형

+ Recent posts