반응형

 

NVIDIA NVLink SHARP(Scalable Hierarchical Aggregation and Reduction Protocol) 가속화 기능을 설명하는 개념도입니다.
NVLink SHARP는 기존 A100 대비 H100에서 더욱 최적화된 데이터 집계 및 브로드캐스트(AllReduce) 기능을 제공하여 AI 학습 및 HPC 성능을 향상시킵니다.


1. NVLink SHARP란?

NVLink SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)의 핵심 역할

  • 기존의 AllReduce 연산을 GPU가 아닌 NVSwitch 내부에서 직접 수행하여 GPU의 부담을 줄이는 기술
  • GPU 간 데이터 교환을 최적화하여 AllReduce 속도를 향상
  • GPU-간 직접 데이터 전송량을 줄여 NVLink 대역폭을 효과적으로 2배 증가시키는 효과

2. 기존 A100 방식 vs. H100 + NVLink SHARP 방식 비교

(1) 기존 A100 방식 (왼쪽)

Step 1: Read and Reduce

  • 각 GPU가 로컬 그래디언트(Partials)를 계산한 후, NVSwitch로 전송
  • NVSwitch는 데이터를 단순히 전달할 뿐, 연산은 수행하지 않음
  • 모든 GPU는 각자의 그래디언트를 주고받으며, 최종 합산된 값을 공유받음
  • 이 과정에서 N번의 데이터 송수신 발생 (N개의 GPU가 서로 통신)

Step 2: Broadcast Result

  • 각 GPU는 합산된 그래디언트를 다시 NVSwitch로 보내고, 이를 다시 모든 GPU가 수신
  • N번의 송수신이 발생하며, GPU 간 직접 통신 비용이 높음
  • 전체 데이터 교환량이 많아 NVLink 대역폭을 많이 차지함

(2) H100 + NVLink SHARP 방식 (오른쪽)

Step 1: Read and Reduce (In-Switch Sum)

  • GPU가 로컬 그래디언트(Partials)를 NVSwitch로 전송
  • NVSwitch가 직접 모든 GPU의 그래디언트를 합산 (In-Switch Sum)
  • 각 GPU는 합산된 최종 그래디언트를 1번만 받아오면 됨
  • 즉, 기존 방식 대비 데이터 전송 횟수를 크게 줄임 (N번 → 1번)

Step 2: Broadcast Result (In-Switch MultiCast)

  • NVSwitch가 합산된 그래디언트를 모든 GPU에 자동으로 복제 (In-Switch MultiCast)
  • 각 GPU는 복제된 데이터만 받으면 되므로, 전체 데이터 교환량 감소
  • 기존 대비 브로드캐스트 연산이 최적화되어 GPU의 메모리 사용량 절감

3. 트래픽 요약 및 성능 향상 효과

항목                                                             기존 A100 방식                            H100 + NVLink SHARP 방식

Step 1: Read & Reduce N번 읽기, N번 쓰기 N번 읽기, 1번 쓰기
Step 2: Broadcast Result N번 쓰기, N번 읽기 1번 쓰기, N번 읽기
NVSwitch 역할 단순 데이터 전달 In-Switch Sum + MultiCast 최적화
GPU 간 데이터 교환량 많음 (2N) 적음 (N+1)
NVLink 대역폭 활용도 제한적 2배 효율 향상

👉 H100 + NVLink SHARP는 기존 A100 방식 대비 NVLink 대역폭을 효과적으로 2배 증가시키는 효과를 제공
👉 NVSwitch에서 직접 그래디언트 합산 및 복제를 수행하므로, GPU의 부담이 줄어듦


4. 결론

  • NVLink SHARP는 기존 A100 대비 H100에서 AllReduce 연산 속도를 크게 향상
  • 기존 A100 방식에서는 GPU가 직접 데이터 교환을 수행하여 높은 트래픽 발생
  • H100 + NVLink SHARP에서는 NVSwitch가 직접 연산을 수행하여 트래픽을 최적화
  • 결과적으로, NVLink 대역폭을 효과적으로 2배 증가시키는 효과를 제공하여 AI 및 HPC 연산 성능 향상

👉 즉, NVLink SHARP는 최신 NVIDIA H100 시스템에서 AllReduce 성능을 최적화하여, 대규모 AI 모델 훈련 및 분산 컴퓨팅에서 필수적인 역할을 수행합니다. 🚀

반응형

+ Recent posts