반응형

 

NVIDIA의 NVLink 기반 서버(DGX) 세대별 발전 과정을 보여줍니다. DGX 시스템은 멀티-GPU 연결을 최적화하여 고성능 컴퓨팅(HPC), AI 훈련, 데이터 분석 등의 작업을 수행하는 데 최적화된 플랫폼입니다.

NVLink와 NVSwitch를 활용하여 점점 더 많은 GPU를 더 높은 대역폭으로 연결할 수 있도록 진화해 왔습니다.


1. NVLink 기반 DGX 서버 세대별 비교

세대연도사용 GPUBisection BW (양분 대역폭)AllReduce BW (집계 대역폭)

DGX-1 2016 P100 140GB/s 40GB/s
DGX-2 2018 V100 2.4TB/s 75GB/s
DGX A100 2020 A100 2.4TB/s 150GB/s
DGX H100 2022 H100 3.6TB/s 450GB/s

2. 세대별 주요 특징 및 발전 과정

(1) 2016 – DGX-1 (P100)

  • NVLink 1.0 기반으로, GPU 간 직접 연결
  • 총 8개의 GPU를 NVLink로 연결, GPU 간 40GB/s의 AllReduce 대역폭 제공
  • Bisection Bandwidth(BW): 140GB/s
    • Bisection BW는 네트워크를 반으로 나누었을 때, 양쪽 간 최대 전송 가능한 데이터 대역폭을 의미
  • 문제점: GPU 개수가 많아질수록 연결 복잡성 증가 및 병목 발생

(2) 2018 – DGX-2 (V100)

  • NVLink 2.0과 NVSwitch 도입
    • NVSwitch는 GPU 간 다대다(Any-to-Any) 연결을 지원하는 고속 인터커넥트
    • 이를 통해 모든 GPU가 다른 GPU와 직접 연결 가능
  • 16개의 V100 GPU 연결 가능
  • Bisection BW: 2.4TB/s (DGX-1 대비 17배 증가)
  • AllReduce BW: 75GB/s (DGX-1 대비 1.9배 증가)

(3) 2020 – DGX A100 (A100)

  • NVLink 3.0 기반으로 발전
  • NVSwitch 개선을 통해 동일한 Bisection BW 2.4TB/s 유지
  • 하지만 AllReduce BW가 150GB/s로 2배 증가
    • 이는 AI 훈련 시 GPU 간의 데이터 동기화 속도를 획기적으로 개선
    • 즉, GPU 간 통신 병목이 줄어듦

(4) 2022 – DGX H100 (H100)

  • NVLink 4.0 및 NVSwitch 업그레이드
  • Bisection BW 3.6TB/s로 증가 (DGX A100 대비 1.5배 증가)
  • AllReduce BW 450GB/s로 증가 (DGX A100 대비 3배 증가)
  • 더 많은 GPU를 NVLink 네트워크 포트를 통해 확장 가능
    • 20개의 NVLink 네트워크 포트 제공
    • 이를 통해 여러 DGX H100 시스템 간 연결이 가능해짐

3. NVSwitch의 역할

NVSwitch는 NVLink 연결을 확장하는 중요한 역할을 합니다.

  • DGX-1(P100): NVSwitch 없음 → GPU 간 직접 연결만 가능
  • DGX-2(V100): NVSwitch 도입 → 모든 GPU가 다른 GPU와 직접 통신 가능
  • DGX A100, DGX H100: NVSwitch 개선 → 더 높은 대역폭과 확장성 제공

NVSwitch가 추가되면서 GPU 간 트래픽을 효율적으로 분배할 수 있어 딥러닝 학습 시 데이터 동기화 속도가 향상됩니다.


4. 결론

  1. NVLink와 NVSwitch를 활용하여 DGX 서버 성능이 지속적으로 향상됨
  2. GPU 간 대역폭 증가 → AI 훈련 및 HPC 성능 대폭 향상
  3. NVSwitch 도입 이후 Any-to-Any 연결이 가능해지면서 확장성이 크게 증가
  4. 2022년 DGX H100은 3.6TB/s Bisection BW, 450GB/s AllReduce BW 제공
  5. 20개의 NVLink 네트워크 포트 추가로 여러 DGX 시스템 간 연결 가능

즉, NVLink & NVSwitch의 발전으로 NVIDIA는 GPU 간 병목을 줄이고, AI 훈련 및 HPC 환경에서 최고의 성능을 제공하는 방향으로 발전하고 있습니다. 🚀

 


1. Bisection Bandwidth (양분 대역폭)

Bisection Bandwidth(양분 대역폭)은 네트워크를 두 개의 동등한 크기의 그룹으로 나누었을 때, 양쪽 그룹 간 최대 전송할 수 있는 데이터 대역폭을 의미합니다.

정의

네트워크를 절반으로 나누었을 때, 두 그룹 간 통신할 수 있는 최대 대역폭

의미와 중요성

  • GPU 간 데이터 이동의 병목을 평가하는 중요한 지표
  • 네트워크 확장성(Scalability)을 결정하는 요소
  • 딥러닝 및 AI 모델 훈련 시 여러 GPU가 데이터를 공유할 때 중요한 성능 지표

예제

  • DGX-1 (P100, 2016년)
    • Bisection BW = 140GB/s
    • 8개의 GPU를 서로 반으로 나누었을 때, 두 그룹 간 최대 140GB/s의 데이터 전송 가능
  • DGX-2 (V100, 2018년)
    • Bisection BW = 2.4TB/s
    • NVSwitch를 사용하여 GPU 간 직접 연결이 가능해지면서, 네트워크 병목이 크게 감소

2. AllReduce Bandwidth (집계 대역폭)

AllReduce Bandwidth(집계 대역폭)딥러닝 및 AI 훈련에서 GPU 간 데이터를 공유하고 집계하는 속도를 측정하는 대역폭입니다.

정의

다중 GPU 환경에서 각 GPU가 데이터를 서로 교환(AllReduce 연산)할 때 사용 가능한 최대 대역폭

AllReduce의 역할

  • 딥러닝 훈련 시 중요한 연산 중 하나
  • GPU들이 각자의 연산 결과(예: 손실 함수의 기울기)를 공유하고 이를 평균 내거나 합산하는 과정
  • GPU가 많아질수록 AllReduce BW가 높아야 성능이 유지됨
  • NVLink & NVSwitch를 통해 AllReduce 성능을 극대화할 수 있음

예제

  • DGX-1 (P100, 2016년)
    • AllReduce BW = 40GB/s
    • 8개의 GPU가 협력하여 AI 훈련을 수행할 때, 전체적인 데이터 동기화 속도가 40GB/s
  • DGX H100 (2022년)
    • AllReduce BW = 450GB/s
    • 최신 NVSwitch를 사용하여 GPU 간 데이터 동기화 속도가 11배 향상됨
    • 더 빠른 AI 훈련, 더 높은 효율성 제공

3. Bisection BW vs. AllReduce BW 비교

구분Bisection BW (양분 대역폭)AllReduce BW (집계 대역폭)

정의 네트워크를 반으로 나눌 때 두 그룹 간 최대 대역폭 다중 GPU가 협력하여 데이터를 공유하는 속도
중요성 GPU 간 연결 구조 및 확장성을 평가하는 지표 AI 훈련 시 데이터 동기화 속도를 결정하는 요소
GPU 연결 방식 NVLink & NVSwitch NVLink & NVSwitch
주요 활용 분야 데이터센터, HPC, 대규모 GPU 클러스터 AI 훈련, 딥러닝 모델 동기화

4. 결론

  • Bisection BW는 네트워크 확장성과 연결 병목을 평가하는 지표, AllReduce BW는 AI 학습 성능을 결정하는 주요 요소
  • NVLink & NVSwitch 발전으로 두 값이 지속적으로 증가하면서 AI 및 HPC 성능 향상
  • 최신 DGX H100(2022년) 기준 Bisection BW = 3.6TB/s, AllReduce BW = 450GB/sAI 훈련 속도가 획기적으로 향상됨 🚀

즉, Bisection BW는 "네트워크 구조"의 효율성을 나타내고, AllReduce BW는 "AI 훈련 성능"의 척도라고 볼 수 있습니다.

 

NVSwitch: NVIDIA의 고속 GPU 상호 연결 스위치


1. NVSwitch란?

NVSwitch는 NVIDIA가 개발한 고속 GPU 간 상호 연결 스위치로, 다수의 GPU를 초고속으로 연결하여 높은 대역폭과 낮은 지연 시간을 제공하는 데이터 패브릭(Data Fabric) 기술입니다.

기존에는 GPU 간 통신을 위해 PCIe 기반의 GPU 다이렉트(GPU Direct) 또는 NVLink 포인트 투 포인트(Point-to-Point) 연결 방식을 사용했지만, 다수의 GPU가 연결될수록 데이터 병목 현상이 발생했습니다. NVSwitch는 이러한 병목을 해결하고 확장성을 극대화하는 솔루션입니다.


2. NVSwitch의 핵심 역할

(1) 다대다(Any-to-Any) 연결 지원

  • 기존 NVLink는 Point-to-Point(1:1) 연결만 가능했지만, NVSwitch를 사용하면 모든 GPU가 다른 GPU와 직접 연결 가능
  • 이를 통해 병렬 AI 학습 및 HPC(고성능 컴퓨팅) 환경에서 데이터 동기화 속도가 비약적으로 향상됨

(2) 초고속 데이터 전송

  • 최신 **NVSwitch(4세대, H100 기준)**는 7.2TB/s 이상의 내부 스위칭 대역폭 제공
  • 개별 GPU 간 최대 900GB/s의 NVLink 연결 지원
  • NVSwitch를 여러 개 연결하면, 수백 개의 GPU를 하나의 거대한 슈퍼컴퓨터처럼 운영 가능

(3) PCIe 대비 초고속 성능

  • PCIe 기반 클러스터와 비교했을 때, NVSwitch를 통한 GPU 간 데이터 이동 속도가 14~20배 빠름
  • NVSwitch는 PCIe의 CPU 중심 구조를 벗어나 GPU 간 직접 통신이 가능하도록 설계됨

3. NVSwitch 아키텍처 변화

세대연도사용된 GPU스위칭 대역폭NVLink 연결 방식

1세대 NVSwitch 2018 V100 2.4TB/s 12 NVLinks/GPU
2세대 NVSwitch 2020 A100 4.8TB/s 12 NVLinks/GPU
3세대 NVSwitch 2022 H100 7.2TB/s 18 NVLinks/GPU

4. NVSwitch의 주요 이점

(1) GPU 간 고속 연결

  • 기존 PCIe 기반 GPU 연결 방식보다 훨씬 낮은 지연 시간
  • NVLink와 결합하면 한 대의 서버 내 최대 18개의 GPU를 초고속으로 연결 가능
  • NVSwitch가 여러 개 연결되면 수백 개의 GPU를 하나의 거대한 연산 노드처럼 활용 가능

(2) AI 학습 및 HPC 최적화

  • 최신 GPT-4, Llama, Stable Diffusion 같은 대규모 AI 모델 학습에 필수적인 네트워크 구조
  • AI 학습 시 필수적인 AllReduce 연산 속도를 극대화하여 병렬 학습 효율을 높임
  • 대규모 데이터셋을 병렬 GPU에서 학습할 때 성능이 급격히 향상됨

(3) 확장 가능한 아키텍처

  • NVSwitch는 여러 개를 병렬 연결하여 GPU 수를 확장 가능
  • 예를 들어, DGX SuperPOD 같은 데이터센터급 AI 슈퍼컴퓨터에서도 사용됨
  • DGX H100의 경우 NVSwitch를 활용해 256개 이상의 GPU를 하나의 클러스터로 구성 가능

5. NVSwitch와 기존 PCIe 기반 GPU 연결 비교

항목NVSwitch (H100 기준)PCIe 5.0 (x16 기준)

GPU 간 대역폭 900GB/s (NVLink 4) 64GB/s (x16 PCIe 5.0)
GPU 간 연결 구조 다대다(Any-to-Any) 연결 가능 CPU 중심의 트리 구조
확장성 256개 이상의 GPU까지 확장 가능 최대 8~16개 GPU 제한
AI 학습 속도 10배 이상 빠름 병목 발생 가능성 높음

6. NVSwitch 사용 예시

🚀 DGX SuperPOD (H100)

  • 256개의 GPU를 NVSwitch로 연결하여 단일 슈퍼컴퓨터처럼 동작
  • NVIDIA의 AI 모델 훈련 및 슈퍼컴퓨팅에 사용
  • 초고속 AllReduce 연산을 지원하여 AI 학습 속도를 극대화

🚀 DGX H100

  • 최신 DGX H100 서버는 8개의 H100 GPU를 NVSwitch로 연결
  • 기존 PCIe 연결 방식보다 AI 학습 성능이 10배 이상 향상

🚀 클라우드 AI 슈퍼컴퓨터

  • Microsoft Azure, AWS, Google Cloud 등의 대규모 GPU 클러스터에서 NVSwitch를 활용
  • AI 모델 학습을 위해 수천 개의 GPU를 효율적으로 연결하는 핵심 기술

7. 결론

  • NVSwitch는 기존 NVLink를 확장하여 GPU 간 Any-to-Any 초고속 연결을 지원하는 스위칭 기술
  • 초대형 AI 훈련, 슈퍼컴퓨팅, 데이터센터용 AI 서버에서 필수적인 요소
  • 최신 H100 기반 NVSwitch는 최대 7.2TB/s 대역폭을 지원하여 AI 모델 학습 속도를 극대화
  • DGX SuperPOD, DGX H100 같은 NVIDIA의 AI 서버에서 핵심 역할 수행

✅ 한 마디로:

NVSwitch는 대규모 GPU 클러스터를 구성하여 AI 훈련 속도를 극대화하는 핵심 기술이며, 기존 PCIe 대비 압도적인 성능을 제공하는 GPU 네트워크 스위치입니다. 🚀

반응형

+ Recent posts