반응형

DGX H100 (2022년) 서버에서 활용되는 NVSwitch의 주요 개선점과 성능 향상 요소를 정리하고 있습니다.

1. NVLink 4 NVSwitch의 주요 특징

NVSwitch는 NVIDIA의 최신 NVLink 4 기술과 결합하여 GPU 간 초고속 통신을 지원하는 고성능 네트워크 패브릭 역할을 합니다. 주요 특징을 살펴보겠습니다.


(1) NVLink 네트워크 지원 (NVLink Network Support)

  • PHY(물리) 계층 인터페이스가 400G 이더넷(Ethernet)/InfiniBand와 호환됨
    • 기존 NVLink는 GPU 간 직접 연결을 주로 사용했으나, 400G급 네트워크 장비와 직접 연결 가능하여 확장성이 증가함
  • OSFP(Octal Small Form-factor Pluggable) 지원 (4 NVLinks per cage)
    • 액티브 모듈을 위한 커스텀 펌웨어(FW) 적용 가능
    • 서버 및 데이터센터 환경에서 광케이블 기반 NVLink 확장 가능
  • FEC (Forward Error Correction) 추가
    • 광케이블을 통한 데이터 전송 시 성능/신뢰성을 보장하는 오류 정정 기능 제공
    • 대규모 클러스터 환경에서도 데이터 무결성을 유지하면서 빠른 통신 가능

(2) 대역폭 2배 증가 (Doubling of Bandwidth)

  • 100Gbps-per-differential-pair (50Gbaud PAM4)
    • 기존 NRZ 변조 방식에서 PAM4 변조 방식으로 전환하여 동일한 대역폭에서 2배 데이터 전송
  • x2 NVLinks 및 64 NVLinks-per-NVSwitch 지원
    • 1.6TB/s 내부 양분 대역폭(Bisection BW) 제공
    • 적은 수의 칩(스위치)으로 더 높은 대역폭 제공 가능
  • 더 적은 칩으로 더 높은 성능 달성
    • NVSwitch 칩 개수를 줄이면서도 NVLink 4의 향상된 데이터 전송 성능을 활용할 수 있음

(3) SHARP Collectives/멀티캐스트 지원 (SHARP Collectives/Multicast Support)

  • NVSwitch 내부에서 데이터 복제를 수행하여 다중 GPU 접근 불필요
    • 기존에는 GPU가 필요한 데이터를 여러 번 NVSwitch에서 가져와야 했으나, 이제 NVSwitch가 직접 데이터를 복제하여 GPU 간 전송 효율을 극대화
    • 통신 병목(Bottleneck) 현상 감소
  • 내장 ALU(Arithmetic Logic Unit) 추가
    • NVSwitch 자체적으로 AllReduce 연산 수행 가능
    • GPU가 직접 수행해야 했던 연산 부담을 NVSwitch가 처리하여 GPU 연산 성능을 최적화
  • AI 및 딥러닝 모델 학습 시 데이터 전송 처리량이 2배 증가
    • GPU-기반 딥러닝 훈련에서 NVSwitch를 활용하여 더 빠른 데이터 동기화(AllReduce) 가능
    • GPT-4, Llama 같은 대형 모델 학습 속도 대폭 향상

2. DGX H100 NVSwitch의 성능 요약

  • 3.6TB/s Bisection BW (양분 대역폭)
  • 450GB/s AllReduce BW (집계 대역폭)

이전 세대(DGX A100)와 비교했을 때 대역폭이 2배 이상 증가했으며, 특히 NVSwitch 자체적인 데이터 복제 및 AllReduce 연산 지원으로 AI 학습 및 HPC 환경에서 병목을 줄이고 성능을 극대화함.


3. NVLink 4 NVSwitch의 핵심 개선점 요약

개선 항목설명

400G 이더넷/InfiniBand 지원 기존 GPU 간 NVLink 연결을 넘어 네트워크 스위치와 직접 연결 가능
FEC (Forward Error Correction) 추가 광케이블 기반 NVLink 통신에서 신뢰성 증가
PAM4 변조 방식 사용 NRZ 대비 동일 대역폭에서 2배의 데이터 전송
64 NVLinks per NVSwitch 지원 1.6TB/s 내부 대역폭으로 확장 가능
NVSwitch 자체 AllReduce 연산 지원 GPU의 연산 부담을 NVSwitch가 일부 담당하여 성능 최적화
데이터 복제 기능 추가 동일 데이터를 여러 GPU에 공유할 때 중복 접근 감소

4. 결론

  • NVLink 4 기반 NVSwitch는 GPU 간 통신 대역폭을 획기적으로 향상시키며, 데이터센터 및 AI 학습에 최적화됨
  • 400G 이더넷/InfiniBand와 직접 연결 가능하여 확장성이 증가
  • PAM4 변조 및 내부 데이터 복제 기능을 통해 GPU의 연산 병목을 줄이고 학습 속도를 대폭 향상
  • DGX H100과 함께 사용될 경우 AI 모델 훈련, 슈퍼컴퓨팅(HPC) 환경에서 획기적인 성능 개선 가능

즉, NVLink 4 NVSwitch는 기존 NVLink 대비 대역폭을 두 배로 늘리고, AI 및 HPC 환경에서 GPU 간 통신을 최적화하는 핵심 기술입니다. 🚀

반응형

+ Recent posts