NVLink

NVLink4 NVSwitch 블록 다이어그램 상세 분석 2025.02.24 2
NVLink Network for Raw Bandwidth (BW) 2025.02.23
전통적인 AllReduce 계산 (Traditional AllReduce Calculation) 2025.02.23
NVLink 기반 서버(DGX) 세대별 발전 과정 2025.02.23

NVLink4 NVSwitch 블록 다이어그램 상세 분석

zeah 2025. 2. 24. 00:00

2025. 2. 24. 00:00

NVIDIA Hopper 아키텍처에서 사용되는 NVLink4 기반의 NVSwitch의 블록 다이어그램을 보여줍니다.
NVSwitch는 여러 개의 GPU를 초고속으로 연결하여 분산 학습을 최적화하는 중요한 네트워크 인터커넥트이며,
이전 세대보다 개선된 SHARP(SCalable Hierarchical Aggregation and Reduction Protocol) 및 보안 기능이 포함되었습니다.

1. NVSwitch 개요

✅ NVSwitch의 역할

NVLink를 통해 다수의 GPU를 연결하여 초고속 데이터 교환을 지원하는 네트워크 스위치
H100 GPU 및 AI/HPC 환경에서 여러 GPU 간 통신을 최적화
SHARP 연산을 통해 데이터 교환 시 추가 연산을 수행하여 성능 최적화
보안 기능을 강화하여 GPU 간 데이터 보호 가능

2. NVSwitch 블록 구성

🔹 (1) Management 블록

Control Processor 및 State/Telemetry Proxy
- OSFP(Octal Small Form-factor Pluggable) 케이블을 포함한 상태 정보 및 원격 모니터링 처리
- NVSwitch의 동작을 관리하는 중앙 제어 프로세서 포함
- AI 및 HPC 환경에서 InfiniBand와 유사한 모니터링 기능 지원
Security Processor
- 데이터 및 칩 구성 보호
- 외부 공격으로부터 NVSwitch와 연결된 GPU 보호
- 데이터 무결성을 유지하고 보안을 강화하기 위한 암호화 기능 포함

🔹 (2) Port Logic 블록 (0 ~ 63)

NVSwitch는 총 64개의 NVLink 포트를 가짐
각 포트에는 다양한 패킷 처리 및 보안 기능이 포함됨

📌 주요 기능

모듈설명

Routing	패킷의 목적지 결정 및 경로 설정
Classification & Packet Transforms	패킷을 분류하고 적절한 변환 수행
Error Check & Statistics Collection	NVLink 네트워크 오류 감지 및 통계 수집
Transaction Tracking & Packet Transforms	데이터 트랜잭션을 추적하고 패킷을 변환하여 성능 최적화
SHARP Controller	AllReduce 및 기타 연산을 최적화하는 SHARP 연산 관리
SHARP ALU (Hopper)	Hopper 아키텍처에 최적화된 연산 장치 포함 (논리 연산, 합 연산 등 지원)
SHARP Scratch SRAM	SHARP 연산을 위한 임시 메모리 저장 공간

📌 주요 특징

SHARP 연산을 통해 데이터 전송 중 일부 계산을 NVSwitch 내부에서 수행
XBAR(교차 연결) 대역폭을 증가시켜 SHARP 연산 관련 트래픽을 처리할 수 있도록 개선됨

🔹 (3) NVLink 블록 (0 ~ 63)

각 NVLink 포트에는 PHY, Data Link(DL), Transport Layer(TL) 블록 포함
총 64개의 NVLink 포트가 존재하며, 각 포트가 NVSwitch를 통해 GPU와 연결됨
이전 세대보다 향상된 데이터 처리 능력과 낮은 레이턴시 제공

3. 새로운 SHARP 블록 (New SHARP Blocks)

SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)은 AllReduce 같은 집계 연산을 GPU 대신 NVSwitch에서 직접 수행하여, GPU 간 통신 병목을 줄이는 기술입니다.

✅ (1) SHARP ALU (Hopper)

Hopper GPU와 매칭된 연산 유닛 포함
논리 연산, min/max 연산, 덧셈 연산 등을 지원
다양한 데이터 형식 지원: 정수(S/U Integers), FP16, FP32, FP64, BF16 등
SHARP 컨트롤러가 최대 128개의 SHARP 그룹을 병렬로 관리 가능
XBAR 대역폭이 증가하여 SHARP 연산을 처리할 수 있도록 개선됨

✅ (2) SHARP의 성능 향상

기존 NVSwitch보다 더 많은 SHARP 연산을 처리할 수 있도록 병렬 처리 기능 증가
AllReduce 성능 최적화로 GPU 간 데이터 이동 감소
딥러닝 학습 시 GPU 간 그래디언트 동기화(AllReduce) 속도 개선

4. 새로운 NVLink Network 블록 (New NVLink Network Blocks)

(1) 보안 기능 강화

Security Processor가 데이터 및 칩 구성을 보호
외부 공격으로부터 NVSwitch와 연결된 GPU를 보호
TLS, 암호화, 메모리 보호 기능 제공

(2) 포트 격리 (Partitioning)

각 포트를 독립적인 NVLink 네트워크 서브셋으로 분리 가능
서로 다른 GPU 그룹 간 데이터를 분리하여, 멀티 테넌트 환경에서 보안성 증가
예: 한 NVSwitch에서 서로 다른 연구팀이 GPU를 공유할 때 보안 유지 가능

(3) OSFP 케이블 지원

NVSwitch는 OSFP(Octal Small Form-factor Pluggable) 케이블을 지원하여 확장성을 증가
H100 GPU와의 연결을 최적화하고, NVSwitch 간 상호 연결을 위한 고속 데이터 경로 제공

(4) InfiniBand 스타일 모니터링 지원

NVSwitch는 InfiniBand에서 사용되는 원격 관리 및 모니터링 기능을 지원
데이터 센터에서 NVSwitch 및 NVLink 트래픽을 원격으로 모니터링 가능
GPU 간 통신 병목을 실시간으로 감지하여 최적화 가능

5. 결론

NVIDIA의 NVLink4 NVSwitch는 기존 NVSwitch 대비 SHARP 연산을 강화하고, 보안과 관리 기능을 대폭 향상한 차세대 GPU 네트워크 인터커넥트입니다.

64개의 NVLink 포트를 제공하여 여러 GPU 간 초고속 데이터 전송 지원
SHARP ALU를 포함하여 GPU 간 AllReduce 및 데이터 연산을 직접 처리
Security Processor를 포함하여 데이터 보호 및 보안 기능 강화
각 포트를 독립적으로 격리하여, 멀티 테넌트 환경에서도 GPU 공유 가능
OSFP 케이블 및 InfiniBand 스타일 원격 모니터링 기능 추가

즉, NVSwitch는 단순한 GPU 연결 장치가 아니라, AI 및 HPC 환경에서 GPU 간 데이터 이동을 최적화하고 보안과 확장성을 고려한 차세대 네트워크 스위치입니다.

InfiniBand: 고성능 데이터 센터 및 HPC 네트워크 기술

InfiniBand(IB는 고성능 컴퓨팅(HPC), 데이터 센터, AI/딥러닝, 금융 컴퓨팅 환경에서 사용되는 초고속 네트워크 인터커넥트 기술입니다.
기존의 이더넷보다 더 낮은 지연 시간(Latency)과 높은 대역폭(Bandwidth)을 제공하며,
RDMA(Remote Direct Memory Access)를 지원하여 CPU 개입 없이 직접 데이터 전송 가능합니다.

1. InfiniBand의 주요 특징

(1) 초고속 대역폭 (High Bandwidth)

현재 InfiniBand HDR(High Data Rate) 및 NDR(Next Data Rate) 기술은 최대 400Gbps 이상 지원
기존의 이더넷(100G/200G)보다 더 높은 속도를 제공하여 HPC 및 AI 학습에 최적

(2) 초저지연 (Ultra-low Latency)

1μs(마이크로초) 미만의 초저지연을 제공
일반적인 이더넷이 10~100μs 정도의 레이턴시를 가지는 것과 비교하면 월등히 빠름
데이터 전송 속도가 중요한 AI 훈련, 금융 거래, 슈퍼컴퓨팅 등에 필수적

(3) RDMA(Remote Direct Memory Access) 지원

RDMA를 통해 CPU 개입 없이 GPU 또는 메모리 간 직접 데이터 전송 가능
CPU가 개입하는 기존 TCP/IP 네트워크보다 훨씬 낮은 레이턴시를 제공
GPU 간 데이터 공유 속도가 빨라져 AI/딥러닝 학습 시간 단축

(4) 확장성 (Scalability)

InfiniBand는 HPC 및 데이터센터 환경에서 수천~수만 개의 GPU, CPU 노드를 연결 가능
Fat-Tree, Dragonfly 같은 네트워크 토폴로지를 통해 확장성 증가
NVLink와 달리 서버 간 장거리 연결도 가능

2. InfiniBand와 기존 네트워크(Ethernet) 비교

항목 InfiniBand Ethernet

대역폭	최대 400Gbps (NDR)	100~200Gbps
지연 시간 (Latency)	1μs 미만 (Ultra-low Latency)	10~100μs
데이터 전송 방식	RDMA 기반 직접 메모리 접근	TCP/IP 기반 패킷 전송
CPU 개입 여부	없음 (Direct Memory Access)	있음 (CPU가 데이터 복사 및 전송 처리)
확장성	수천~수만 개의 노드 연결 가능	주로 서버 간 연결
적용 분야	HPC, AI/딥러닝, 금융 거래, 클라우드 데이터센터	일반적인 IT 네트워크, 웹 서비스

즉, InfiniBand는 데이터 전송 속도와 지연 시간이 중요한 HPC, AI, 금융 거래 환경에서 사용되며, 기존 이더넷보다 훨씬 빠른 성능을 제공합니다.

3. InfiniBand의 네트워크 구조

InfiniBand는 기존의 이더넷이나 NVLink와는 다른 방식으로 네트워크를 구성합니다.

(1) 기본 구성 요소

구성 요소설명

Host Channel Adapter (HCA)	InfiniBand를 지원하는 서버 또는 GPU에 장착되는 네트워크 인터페이스 카드(NIC)
InfiniBand Switch	InfiniBand 패브릭(Fabric) 네트워크를 구성하는 고속 스위치
Subnet Manager (SM)	네트워크 트래픽을 관리하고 노드를 구성하는 소프트웨어
Link Layer	데이터를 송수신하는 물리적 인터페이스 (QSFP, OSFP 등 사용)

(2) InfiniBand 네트워크 토폴로지

Fat-Tree 토폴로지
- 데이터 센터에서 가장 일반적인 구조
- 여러 개의 스위치를 계층적으로 연결하여 병목을 최소화
Dragonfly 토폴로지
- 대규모 AI 및 슈퍼컴퓨팅 시스템에서 사용
- 여러 개의 노드를 고속으로 연결하여 지연 시간 감소

이러한 네트워크 구조 덕분에 InfiniBand는 AI 및 HPC 환경에서 효율적인 데이터 전송을 지원합니다.

4. InfiniBand와 NVLink의 차이점

항목InfiniBandNVLink

적용 범위	서버 간(GPU-서버, GPU-GPU, 서버-스토리지 간 통신)	주로 GPU 간 직접 연결
대역폭	최대 400Gbps (NDR)	최대 900GB/s (NVLink4)
지연 시간	1μs 미만	10ns 미만 (NVLink가 더 빠름)
전송 방식	RDMA 기반 네트워크	메모리 주소 기반 직접 연결
연결 방식	네트워크 스위치를 통한 연결	NVSwitch를 통한 직접 연결
확장성	수천 개 이상의 노드 연결 가능	다수의 GPU 연결 가능하지만 서버 간 연결은 불가능

InfiniBand는 서버 간 데이터 교환을 위한 네트워크이며, NVLink는 같은 서버 내 GPU 간 초고속 연결을 위한 인터커넥트입니다.
최상의 성능을 위해 AI 및 HPC 환경에서는 InfiniBand와 NVLink를 함께 사용합니다.

5. InfiniBand의 활용 사례

(1) AI/딥러닝 (Deep Learning)

NVIDIA DGX 시스템과 같은 AI 클러스터에서 GPU 간 데이터 공유
AI 모델 학습 시 RDMA를 통해 CPU 개입 없이 GPU 간 직접 데이터 이동 가능
NVLink와 함께 사용하여 GPU-서버 간 및 GPU-GPU 간 통신을 최적화

(2) 슈퍼컴퓨팅 (Supercomputing)

세계적인 슈퍼컴퓨터에서 InfiniBand 사용 (예: Summit, Fugaku 등)
대규모 병렬 연산을 수행하는 HPC 환경에서 필수적인 네트워크

(3) 금융 거래 (High-Frequency Trading)

초저지연(1μs 미만)의 특성 때문에 고빈도 금융 거래(HFT, High-Frequency Trading)에 사용
주식 시장의 실시간 거래 분석 및 알고리즘 트레이딩 최적화

(4) 클라우드 데이터센터

Microsoft Azure, AWS, Google Cloud 같은 대규모 데이터센터에서 InfiniBand 사용
높은 대역폭과 낮은 지연 시간을 필요로 하는 워크로드에 최적화

6. 결론

InfiniBand는 AI 및 HPC 환경에서 필수적인 초고속 네트워크

이더넷보다 훨씬 높은 대역폭과 낮은 레이턴시 제공 (최대 400Gbps, 1μs 미만)
RDMA 지원으로 CPU 개입 없이 메모리 간 직접 데이터 전송 가능
HPC, AI, 금융 거래, 클라우드 데이터센터에서 폭넓게 사용됨
NVLink와 함께 사용하여 AI 및 슈퍼컴퓨팅 시스템에서 최적의 성능 제공

즉, InfiniBand는 데이터 전송 속도와 확장성이 중요한 AI 및 HPC 환경에서 필수적인 네트워크 기술로, NVLink와 함께 사용하면 더욱 강력한 성능을 발휘할 수 있습니다. 🚀

'AI > NVIDIA' 카테고리의 다른 글

DGX H100: Data-Network Configuration 상세 분석 (0)	2025.02.24
DGX H100 SERVER 상세 분석 (0)	2025.02.24
NVLink Network의 전통적인 네트워킹과의 매핑 (0)	2025.02.23
NVLink Network: 새로운 NVLink 네트워크 아키텍처 (0)	2025.02.23
NVLink Network for Raw Bandwidth (BW) (0)	2025.02.23

NVLink Network for Raw Bandwidth (BW)

zeah 2025. 2. 23. 15:37

2025. 2. 23. 15:37

NVIDIA NVLink 네트워크가 AI 추천 시스템(Neural Recommender Engine) 및 임베딩 테이블(Embedding Tables) 학습에서 어떻게 높은 대역폭을 제공하는지를 설명하는 개념도입니다.
특히, 기존 InfiniBand(IB) 대비 4.5배 더 높은 대역폭을 제공하는 NVLink의 성능 차이를 강조하고 있습니다.

1. 좌측: NVLink 기반 Neural Recommender Engine 구조

✅ (1) Neural Recommender Engine의 병렬 학습 방식

딥러닝 기반 추천 시스템은 모델 병렬(Model Parallel)과 데이터 병렬(Data Parallel) 방식을 혼합하여 학습
상단의 Linear Layers(선형 레이어)는 데이터 병렬 방식으로 여러 GPU에 복제(Replicated across GPUs)
하단의 Embedding Tables(임베딩 테이블)는 모델 병렬 방식으로 GPU마다 서로 다른 데이터를 저장(Distributed across GPUs)

✅ (2) Model-Parallel → Data-Parallel 변환 (All2All)

모델의 일부(임베딩 테이블)는 여러 GPU에 분산 저장되지만, 이후 모델을 학습하기 위해서는 GPU 간 데이터 공유가 필요
All2All 연산을 통해 모델 병렬 방식에서 데이터 병렬 방식으로 변환
이 과정에서 GPU 간 대량의 데이터 전송 발생 → NVLink의 높은 대역폭이 필수적

✅ (3) GPU 간 데이터 이동량 (Bandwidth 요구량)

각 GPU는 임베딩 테이블 데이터를 다르게 저장하며, 다른 GPU의 데이터를 가져와야 함
예제에서 GPU 0~n의 메모리 구성을 보면,
- GPU 0: 10GB + 20GB
- GPU 1: 40GB + 10GB
- GPU 2: 60GB
- GPU n: 60GB
  → 모델 병렬 학습 시, 서로 다른 GPU 간 대규모 데이터 교환이 필요하므로 NVLink가 필수

2. 우측: NVLink vs. InfiniBand (IB) 대역폭 비교

14TB 임베딩 테이블을 사용하는 예제 추천 시스템에서 H100 NVLink 네트워크의 대역폭 성능 비교

A100 + InfiniBand (IB)
- 기준선(1x)
- 기존 InfiniBand 네트워크를 사용할 경우 대역폭이 상대적으로 낮음
H100 + InfiniBand (IB)
- A100 대비 대역폭이 2배 증가
- InfiniBand만으로도 H100의 성능을 일부 활용 가능
H100 + NVLink Network
- H100 + InfiniBand 대비 2배 더 높은 대역폭 제공
- A100 + InfiniBand 대비 4.5배 더 높은 대역폭 제공
- NVLink 기반 네트워크를 활용하면 GPU 간 데이터 교환 속도가 획기적으로 향상됨

3. NVLink의 효과 및 중요성

기존 InfiniBand(IB) 대비 4.5배 더 높은 대역폭 제공
임베딩 테이블이 매우 큰 추천 시스템(Neural Recommender Engine)에서 필수적인 네트워크 솔루션
GPU 간 All2All 통신을 최적화하여 모델 병렬과 데이터 병렬 변환 과정에서 성능 극대화
H100에서 NVLink를 활용하면, AI 모델 학습 및 추천 시스템 성능이 획기적으로 향상

4. 결론

H100 NVLink 네트워크는 AI 추천 시스템에서 InfiniBand보다 4.5배 높은 대역폭 제공
대규모 임베딩 테이블(Embedding Tables)을 활용하는 추천 시스템에서 NVLink의 높은 전송 속도가 필수적
NVLink를 활용하면 모델 병렬과 데이터 병렬 변환(All2All)이 훨씬 더 빠르게 수행됨
기존 A100 기반 InfiniBand 네트워크보다 H100 NVLink가 압도적인 성능 제공

👉 즉, NVLink는 AI 추천 시스템 및 대규모 데이터 학습에서 필수적인 GPU 간 네트워크 기술로, InfiniBand 대비 훨씬 높은 대역폭을 제공하여 딥러닝 학습 속도를 극대화할 수 있습니다. 🚀

딥러닝 기반 추천 시스템: 모델 병렬과 데이터 병렬의 필요성

딥러닝 기반 추천 시스템은 대규모 사용자 데이터와 아이템 데이터를 분석하여 최적의 추천을 제공하는 AI 모델입니다.
대표적인 추천 시스템 모델로는 Deep Learning Recommendation Model (DLRM), Wide & Deep, Transformer 기반 추천 모델 등이 있습니다.

이러한 추천 시스템은 대규모 임베딩 테이블(Embedding Tables)과 신경망 모델(MLP, Transformer 등)을 함께 사용하기 때문에, 모델 병렬(Model Parallel)과 데이터 병렬(Data Parallel)을 혼합하여 학습해야 성능을 극대화할 수 있습니다.

1. 추천 시스템에서 학습해야 할 주요 요소

딥러닝 기반 추천 모델은 주로 두 가지 요소를 학습합니다.

✅ (1) 임베딩 테이블 (Embedding Tables)

사용자 및 아이템의 특성(Feature)을 벡터로 변환하여 저장
사용자 ID, 나이, 성별, 지역, 선호 카테고리, 아이템 ID 등을 고차원 벡터로 표현
추천 모델에서는 이러한 임베딩 벡터를 사용하여 유사한 사용자 및 아이템을 찾음
문제점: 임베딩 테이블이 매우 커질 수 있음 (수십~수백 TB)

✅ (2) 신경망 모델 (Neural Network, MLP or Transformer)

사용자의 현재 행동(클릭, 좋아요, 검색, 구매 등)과 임베딩 벡터를 결합하여 추천 결과 생성
일반적으로 다층 퍼셉트론(MLP) 또는 Transformer를 활용하여 예측을 수행
문제점: 연산량이 많고, 병렬 처리가 필요

2. 모델 병렬(Model Parallel)과 데이터 병렬(Data Parallel)을 함께 사용해야 하는 이유

추천 시스템에서는 단순히 데이터 병렬(Data Parallel)만으로는 해결할 수 없는 문제들이 존재합니다.
특히, 임베딩 테이블은 모델 병렬(Model Parallel), 신경망 모델은 데이터 병렬(Data Parallel)로 처리하는 것이 최적의 방법입니다.

방식사용 대상이유

모델 병렬 (Model Parallel)	임베딩 테이블 (Embedding Tables)	너무 크기 때문에 여러 GPU에 분산 저장해야 함
데이터 병렬 (Data Parallel)	신경망 모델 (MLP, Transformer 등)	모든 GPU에서 동일한 모델을 실행하면서 병렬 연산 최적화

3. 모델 병렬과 데이터 병렬을 함께 사용해야 하는 이유 (예제 포함)

예제: Netflix 추천 시스템

Netflix는 수억 명의 사용자와 수백만 개의 영화를 추천해야 하는 대규모 추천 시스템을 운영합니다.
각 사용자에게 맞춤형 콘텐츠를 제공하기 위해 사용자 데이터와 영화 데이터를 임베딩 테이블로 변환한 후, 신경망 모델을 통해 추천을 수행합니다.

✅ (1) 모델 병렬이 필요한 이유 (임베딩 테이블 분산)

Netflix에는 수억 명의 사용자와 수백만 개의 영화가 존재
각 사용자와 영화에 대한 임베딩 벡터를 저장하려면 엄청난 메모리가 필요 (수십 TB~수백 TB)
하나의 GPU에 저장하기에는 불가능
→ 해결책: **모델 병렬(Model Parallel)**을 사용하여 여러 GPU에 임베딩 테이블을 분산 저장

✅ (2) 데이터 병렬이 필요한 이유 (신경망 모델 병렬 처리)

추천을 수행하는 MLP(다층 퍼셉트론) 또는 Transformer 모델은 모든 GPU에서 동일한 연산을 수행
배치 데이터를 여러 GPU에 나누어 처리하면 학습 속도가 향상됨
→ 해결책: **데이터 병렬(Data Parallel)**을 사용하여 동일한 신경망 모델을 여러 GPU에서 동시에 학습

4. 모델 병렬(Model Parallel)과 데이터 병렬(Data Parallel)의 동작 방식

✅ (1) 모델 병렬 (Model Parallel)

임베딩 테이블을 여러 GPU에 분산 저장
GPU마다 서로 다른 부분의 임베딩 데이터를 저장하고, 필요할 때 다른 GPU의 임베딩 데이터를 가져와야 함
All2All 통신(All-to-All Communication)이 발생 (GPU 간 데이터 이동 필요)

🔹 예제 (4개의 GPU가 임베딩 테이블을 나눠 저장하는 경우)

GPU 0: 사용자 ID 임베딩 저장
GPU 1: 영화 ID 임베딩 저장
GPU 2: 카테고리 임베딩 저장
GPU 3: 지역 및 장르 임베딩 저장

→ 사용자 ID와 영화 ID가 동일한 GPU에 없으므로, 데이터를 공유해야 함 → All2All 통신이 필수적

✅ (2) 데이터 병렬 (Data Parallel)

같은 신경망 모델(MLP 또는 Transformer)을 모든 GPU에서 복사하여 실행
각 GPU는 서로 다른 배치를 학습하면서 그래디언트를 계산
학습이 끝나면 AllReduce 연산을 수행하여 모든 GPU가 동일한 그래디언트 업데이트 적용

🔹 예제 (4개의 GPU가 데이터 병렬로 학습하는 경우)

GPU 0: 첫 번째 배치(256개 샘플) 학습
GPU 1: 두 번째 배치(256개 샘플) 학습
GPU 2: 세 번째 배치(256개 샘플) 학습
GPU 3: 네 번째 배치(256개 샘플) 학습

→ 모든 GPU가 동일한 신경망 모델을 학습하지만, 서로 다른 배치를 학습함
→ AllReduce 연산을 사용하여 그래디언트를 동기화해야 함

5. 결론

딥러닝 기반 추천 시스템에서는 임베딩 테이블과 신경망 모델을 동시에 처리해야 하므로, 모델 병렬과 데이터 병렬을 함께 사용해야 함
임베딩 테이블은 너무 크기 때문에 모델 병렬(Model Parallel) 방식으로 여러 GPU에 분산 저장
신경망 모델(MLP, Transformer 등)은 데이터 병렬(Data Parallel) 방식으로 모든 GPU에서 동일한 연산을 수행
All2All 통신(All-to-All Communication)과 AllReduce 연산을 활용하여 GPU 간 데이터 이동 및 그래디언트 동기화 수행
Netflix, YouTube, TikTok 같은 대규모 추천 시스템에서 필수적인 학습 방식

👉 즉, 모델 병렬과 데이터 병렬을 동시에 사용해야 대규모 추천 시스템을 효율적으로 학습할 수 있으며, 이를 위해 GPU 간 빠른 데이터 교환이 가능한 NVLink 및 NVSwitch 기술이 필수적입니다. 🚀

1. 추천 시스템에서 NVLink 대역폭이 중요한 이유

✅ (1) 임베딩 테이블의 크기 문제

추천 시스템에서는 사용자 ID, 아이템 ID, 선호 카테고리 등의 임베딩 벡터를 저장하는 임베딩 테이블(Embedding Tables)이 매우 큼
수십~수백 TB 크기의 데이터를 GPU 여러 개에 분산 저장해야 함
데이터가 한 GPU에 들어가지 않기 때문에 GPU 간 빠른 데이터 이동이 필수적

✅ (2) All2All 통신(모델 병렬 → 데이터 병렬 변환)

임베딩 테이블이 여러 GPU에 분산 저장되므로, 학습 시 서로 다른 GPU의 데이터를 가져와야 함
이를 위해 All2All 통신(All-to-All Communication)이 필수적
이 과정에서 GPU 간 대량의 데이터 교환이 발생 → NVLink의 높은 대역폭이 필요

✅ (3) NVLink vs. InfiniBand(IB) 비교 시 추천 시스템이 가장 두드러진 차이를 보임

H100 + NVLink가 InfiniBand보다 4.5배 높은 대역폭을 제공
All2All 통신을 최적화하면 임베딩 테이블을 처리하는 속도가 크게 향상됨
결과적으로, NVLink를 사용할 때 추천 시스템의 학습 속도가 극적으로 향상됨

2. NVLink의 효과가 두드러지는 AI 워크로드

추천 시스템 외에도 NVLink의 높은 대역폭이 중요한 AI 워크로드는 많습니다. 하지만 그중에서도 추천 시스템이 가장 직접적인 성능 차이를 보여주는 대표적인 사례입니다.

AI 워크로드NVLink 효과이유

추천 시스템 (Neural Recommender Engine)	🚀🚀🚀🚀🚀 (최고 효과)	임베딩 테이블이 크고 All2All 통신이 많아 GPU 간 대역폭이 중요
대형 언어 모델 (LLM, GPT-4 등)	🚀🚀🚀🚀 (매우 효과적)	모델 병렬 학습 시 GPU 간 빠른 데이터 공유 필요
비전 트랜스포머 (Vision Transformer, ViT)	🚀🚀🚀 (효과적)	대규모 이미지 배치 처리 시 GPU 간 빠른 데이터 전송 필요
자율주행 AI (Self-Driving AI)	🚀🚀 (일부 효과)	실시간 데이터 처리 시 활용 가능하지만, 대역폭보다는 지연 시간 최적화가 더 중요

3. 결론

추천 시스템은 NVLink의 높은 대역폭이 가장 두드러지게 효과를 발휘하는 대표적인 AI 워크로드
임베딩 테이블이 매우 크고, GPU 간 All2All 통신이 많아 NVLink가 필수적
NVLink가 없으면 GPU 간 데이터 전송이 InfiniBand보다 4.5배 느려져 학습 속도가 급격히 저하
대규모 AI 모델(LLM, ViT 등)에서도 NVLink의 효과가 크지만, 추천 시스템이 가장 차이가 명확함

👉 즉, NVIDIA가 추천 시스템 예제를 사용한 이유는 NVLink의 대역폭 증가 효과가 가장 극적으로 나타나는 AI 워크로드이기 때문입니다. 🚀

'AI > NVIDIA' 카테고리의 다른 글

NVLink Network의 전통적인 네트워킹과의 매핑 (0)	2025.02.23
NVLink Network: 새로운 NVLink 네트워크 아키텍처 (0)	2025.02.23
NVLink SHARP Acceleration: NVLink 기반의 SHARP 가속화 (0)	2025.02.23
전통적인 AllReduce 계산 (Traditional AllReduce Calculation) (0)	2025.02.23
AllReduce in AI Training: AI 학습에서의 AllReduce 역할 (0)	2025.02.23

전통적인 AllReduce 계산 (Traditional AllReduce Calculation)

zeah 2025. 2. 23. 15:18

2025. 2. 23. 15:18

멀티-GPU 환경에서 AllReduce 연산이 어떻게 수행되는지를 설명하는 NVIDIA의 개념도입니다.
특히, NCCL(NVIDIA Collective Communications Library) AllReduce를 활용한 그래디언트 동기화 과정을 시각적으로 나타내고 있습니다.

1. AI 학습에서 AllReduce의 필요성

✅ (1) 데이터 병렬 학습 (Data Parallelism)

데이터를 여러 GPU에 분산하여 처리하는 방식
같은 신경망(모델)을 복사하여 여러 GPU에서 학습 진행
각 GPU는 입력 배치(batch)를 나누어 계산 후 그래디언트를 계산
- 예: 256개의 이미지를 4개의 GPU가 학습하면, 각 GPU는 64개의 이미지를 처리

✅ (2) 그래디언트 동기화 필요성

각 GPU는 서로 다른 배치를 학습하므로 개별적인 그래디언트(Local Gradients)를 계산
그러나 모델이 동일한 방향으로 학습되도록 모든 GPU가 같은 그래디언트 업데이트를 적용해야 함
이를 위해 모든 GPU의 그래디언트를 합산(Sum)하여 동기화하는 과정이 필요 → AllReduce 수행

2. AllReduce 연산 단계

AllReduce는 세 가지 주요 단계로 이루어집니다.

✅ (1) 로컬 그래디언트 계산 (Local Gradients Calculation)

각 GPU는 자신이 처리한 배치에 대한 그래디언트 계산
개별 GPU는 아직 다른 GPU의 그래디언트 정보를 모름
따라서 각 GPU가 계산한 그래디언트를 다른 GPU와 공유해야 함

✅ (2) NCCL AllReduce 실행

NVIDIA의 NCCL(NVIDIA Collective Communications Library)은 GPU 간 고속 통신을 수행하는 라이브러리로, 다음 단계를 통해 AllReduce를 실행합니다.

📌 Step 1: 그래디언트 교환 (Exchange Partial Local Gradients)

각 GPU는 자신이 계산한 로컬 그래디언트를 부분적으로 다른 GPU와 공유
이 과정에서 통신이 발생하며, 데이터가 서로 전달됨
데이터 전송이 비효율적이면 통신 병목(Bottleneck)이 발생할 수 있음

📌 Step 2: 그래디언트 합산 (Reduce - Sum Partials)

모든 GPU의 그래디언트를 합산하여 전체 모델의 최종 그래디언트를 계산
NCCL AllReduce는 이 과정을 고속으로 수행하도록 최적화됨
그래디언트 합산 과정은 GPU 내부의 NVLink 및 NVSwitch를 활용하여 병렬 연산 가능

📌 Step 3: 합산된 그래디언트 브로드캐스트 (Broadcast Reduced Partials)

계산된 최종 그래디언트 값을 모든 GPU에 다시 전달
모든 GPU는 동일한 그래디언트 값을 가지게 됨
→ 이렇게 하면 모든 GPU가 동일한 모델 업데이트를 적용 가능

✅ (3) 동기화된 그래디언트를 적용하여 모델 업데이트

AllReduce 연산이 끝나면 모든 GPU가 동일한 그래디언트를 적용하여 파라미터 업데이트
이후 다음 배치를 학습할 때, 모든 GPU가 동일한 모델을 사용

3. 전통적인 AllReduce 방식의 문제점

기존 AllReduce 방식에는 몇 가지 문제점이 있습니다.

문제점설명

통신 병목	모든 GPU가 동시에 그래디언트를 교환하면 대역폭 부족 및 지연 발생
스케일 확장 한계	GPU 개수가 많아질수록 AllReduce 수행 시간이 증가
메모리 사용량 증가	모든 GPU가 동일한 데이터를 공유해야 하므로 메모리 사용량이 증가

4. NVIDIA의 AllReduce 최적화 방법

NVIDIA는 NVLink, NVSwitch, NCCL을 활용하여 기존 AllReduce 방식의 문제점을 해결합니다.

최적화 기법설명

NVLink	PCIe 대비 10배 빠른 GPU 간 직접 데이터 전송
NVSwitch	다중 NVLink를 연결하여 수십 개의 GPU가 병목 없이 통신 가능
SHARP (Scalable Hierarchical Aggregation and Reduction Protocol)	NVSwitch가 AllReduce 연산 일부를 수행하여 GPU 부담 감소
NCCL (NVIDIA Collective Communications Library)	AllReduce 통신을 최적화하여 효율적 데이터 동기화 지원

5. 결론

AllReduce는 멀티-GPU AI 학습에서 필수적인 연산으로, 모든 GPU가 동일한 모델을 업데이트하도록 함
전통적인 AllReduce 방식은 GPU 간 통신 병목이 발생할 수 있지만, NVIDIA의 NVLink, NVSwitch, SHARP 등을 활용하면 이를 최적화 가능
최신 DGX H100 및 NVLink 4 기반 시스템에서는 기존 AllReduce 대비 최대 2~3배 빠른 데이터 동기화 가능

👉 즉, AllReduce는 AI 학습에서 매우 중요한 요소이며, NVIDIA의 최신 기술을 활용하면 기존 방식의 한계를 극복하고 더욱 빠르게 수행할 수 있습니다. 🚀

단순히 그래디언트를 합산(Sum)하는 것만으로는 정확한 모델 업데이트가 이루어지지 않습니다.
올바른 모델 업데이트를 위해서는 평균(Averaging) 또는 정규화(Normalization) 과정이 필요합니다.
그래디언트 동기화 방식과 수학적 의미를 자세히 설명하겠습니다.

1. AllReduce에서 그래디언트 합산의 수학적 의미

멀티-GPU 환경에서 데이터 병렬(Data Parallelism)을 사용하면, 각 GPU는 서로 다른 데이터 배치를 학습하며 개별적인 그래디언트(Local Gradients)를 계산합니다.
그러나 모델이 동일한 방향으로 학습되도록 모든 GPU가 같은 그래디언트 업데이트를 적용해야 하므로, AllReduce 연산을 사용하여 그래디언트를 공유합니다.

✅ (1) 단순한 그래디언트 합산 (Summation)

각 GPU에서 계산된 그래디언트를 단순 합산하면 다음과 같습니다.

gtotal=g1+g2+⋯+gng_{\text{total}} = g_1 + g_2 + \dots + g_n

여기서,

gig_i는 ii번째 GPU에서 계산된 그래디언트
nn은 GPU 개수
gtotalg_{\text{total}}은 합산된 그래디언트

그러나 단순 합산을 적용하면, GPU 개수가 증가할수록 그래디언트 크기가 커지고, 학습이 불안정해질 수 있음
즉, 학습률(Learning Rate)을 자동으로 증가시키는 효과가 발생 → 잘못된 모델 업데이트 가능성 존재

✅ (2) 평균 그래디언트 적용 (Averaging)

올바른 모델 업데이트를 위해서는 GPU 개수로 나눈 평균 그래디언트(Averaging)를 사용해야 합니다.

gavg=1n∑i=1ngig_{\text{avg}} = \frac{1}{n} \sum_{i=1}^{n} g_i

즉, 각 GPU가 계산한 그래디언트를 전체 GPU 개수로 나눈 평균값을 사용하면 모델 업데이트가 정확하게 이루어집니다.

이 방식을 적용하면 멀티-GPU 학습에서도 단일 GPU와 동일한 학습 효과를 얻을 수 있습니다.

NVIDIA의 NCCL AllReduce는 기본적으로 평균(Averaging) 적용을 지원하며, PyTorch 및 TensorFlow에서도 올바른 AllReduce 구현을 위해 Averaging을 수행합니다.

2. 그래디언트 합산 후 업데이트 공식

멀티-GPU 학습에서 올바른 모델 업데이트를 위한 수학적 공식은 다음과 같습니다.

θt+1=θt−ηgavg\theta_{t+1} = \theta_t - \eta g_{\text{avg}}

여기서,

θt\theta_t = 현재 모델의 가중치
η\eta = 학습률(Learning Rate)
gavgg_{\text{avg}} = 평균 그래디언트 (AllReduce로 동기화된 값)
θt+1\theta_{t+1} = 업데이트된 가중치

즉, 단순 합산이 아니라, 평균을 사용하여 가중치를 업데이트해야 모델이 올바르게 학습됩니다.

3. 단순 합산과 평균 적용의 차이

방식그래디언트 동기화 수식결과

단순 합산 (Summation)	gtotal=g1+g2+...+gng_{\text{total}} = g_1 + g_2 + ... + g_n	그래디언트 크기가 커져 학습률이 증가하는 부작용 발생
평균 적용 (Averaging)	gavg=1n∑i=1ngig_{\text{avg}} = \frac{1}{n} \sum_{i=1}^{n} g_i	멀티-GPU에서도 단일 GPU와 동일한 학습 효과 유지

4. 결론

AllReduce에서 그래디언트를 단순히 합산하면 학습이 불안정해질 수 있음
그래디언트를 평균(Averaging) 내서 업데이트해야 GPU 개수와 상관없이 일관된 학습 가능
NVIDIA NCCL, PyTorch, TensorFlow 등에서는 자동으로 평균을 적용하여 AllReduce 연산 수행

👉 즉, 단순히 그래디언트를 합산하는 것이 아니라, GPU 개수로 나누어 평균을 내야 올바른 모델 업데이트가 이루어집니다. 🚀

'AI > NVIDIA' 카테고리의 다른 글

NVLink Network for Raw Bandwidth (BW) (0)	2025.02.23
NVLink SHARP Acceleration: NVLink 기반의 SHARP 가속화 (0)	2025.02.23
AllReduce in AI Training: AI 학습에서의 AllReduce 역할 (0)	2025.02.23
NVLink 4 NVSwitch 칩 아키텍처 상세 설명 (0)	2025.02.23
NVLink 4 기반의 NVSwitch의 새로운 기능 (0)	2025.02.23

NVLink 기반 서버(DGX) 세대별 발전 과정

zeah 2025. 2. 23. 14:17

2025. 2. 23. 14:17

NVIDIA의 NVLink 기반 서버(DGX) 세대별 발전 과정을 보여줍니다. DGX 시스템은 멀티-GPU 연결을 최적화하여 고성능 컴퓨팅(HPC), AI 훈련, 데이터 분석 등의 작업을 수행하는 데 최적화된 플랫폼입니다.

NVLink와 NVSwitch를 활용하여 점점 더 많은 GPU를 더 높은 대역폭으로 연결할 수 있도록 진화해 왔습니다.

1. NVLink 기반 DGX 서버 세대별 비교

세대연도사용 GPUBisection BW (양분 대역폭)AllReduce BW (집계 대역폭)

DGX-1	2016	P100	140GB/s	40GB/s
DGX-2	2018	V100	2.4TB/s	75GB/s
DGX A100	2020	A100	2.4TB/s	150GB/s
DGX H100	2022	H100	3.6TB/s	450GB/s

2. 세대별 주요 특징 및 발전 과정

(1) 2016 – DGX-1 (P100)

NVLink 1.0 기반으로, GPU 간 직접 연결
총 8개의 GPU를 NVLink로 연결, GPU 간 40GB/s의 AllReduce 대역폭 제공
Bisection Bandwidth(BW): 140GB/s
- Bisection BW는 네트워크를 반으로 나누었을 때, 양쪽 간 최대 전송 가능한 데이터 대역폭을 의미
문제점: GPU 개수가 많아질수록 연결 복잡성 증가 및 병목 발생

(2) 2018 – DGX-2 (V100)

NVLink 2.0과 NVSwitch 도입
- NVSwitch는 GPU 간 다대다(Any-to-Any) 연결을 지원하는 고속 인터커넥트
- 이를 통해 모든 GPU가 다른 GPU와 직접 연결 가능
16개의 V100 GPU 연결 가능
Bisection BW: 2.4TB/s (DGX-1 대비 17배 증가)
AllReduce BW: 75GB/s (DGX-1 대비 1.9배 증가)

(3) 2020 – DGX A100 (A100)

NVLink 3.0 기반으로 발전
NVSwitch 개선을 통해 동일한 Bisection BW 2.4TB/s 유지
하지만 AllReduce BW가 150GB/s로 2배 증가
- 이는 AI 훈련 시 GPU 간의 데이터 동기화 속도를 획기적으로 개선
- 즉, GPU 간 통신 병목이 줄어듦

(4) 2022 – DGX H100 (H100)

NVLink 4.0 및 NVSwitch 업그레이드
Bisection BW 3.6TB/s로 증가 (DGX A100 대비 1.5배 증가)
AllReduce BW 450GB/s로 증가 (DGX A100 대비 3배 증가)
더 많은 GPU를 NVLink 네트워크 포트를 통해 확장 가능
- 20개의 NVLink 네트워크 포트 제공
- 이를 통해 여러 DGX H100 시스템 간 연결이 가능해짐

3. NVSwitch의 역할

NVSwitch는 NVLink 연결을 확장하는 중요한 역할을 합니다.

DGX-1(P100): NVSwitch 없음 → GPU 간 직접 연결만 가능
DGX-2(V100): NVSwitch 도입 → 모든 GPU가 다른 GPU와 직접 통신 가능
DGX A100, DGX H100: NVSwitch 개선 → 더 높은 대역폭과 확장성 제공

NVSwitch가 추가되면서 GPU 간 트래픽을 효율적으로 분배할 수 있어 딥러닝 학습 시 데이터 동기화 속도가 향상됩니다.

4. 결론

NVLink와 NVSwitch를 활용하여 DGX 서버 성능이 지속적으로 향상됨
GPU 간 대역폭 증가 → AI 훈련 및 HPC 성능 대폭 향상
NVSwitch 도입 이후 Any-to-Any 연결이 가능해지면서 확장성이 크게 증가
2022년 DGX H100은 3.6TB/s Bisection BW, 450GB/s AllReduce BW 제공
20개의 NVLink 네트워크 포트 추가로 여러 DGX 시스템 간 연결 가능

즉, NVLink & NVSwitch의 발전으로 NVIDIA는 GPU 간 병목을 줄이고, AI 훈련 및 HPC 환경에서 최고의 성능을 제공하는 방향으로 발전하고 있습니다. 🚀

1. Bisection Bandwidth (양분 대역폭)

Bisection Bandwidth(양분 대역폭)은 네트워크를 두 개의 동등한 크기의 그룹으로 나누었을 때, 양쪽 그룹 간 최대 전송할 수 있는 데이터 대역폭을 의미합니다.

✅ 정의

네트워크를 절반으로 나누었을 때, 두 그룹 간 통신할 수 있는 최대 대역폭

✅ 의미와 중요성

GPU 간 데이터 이동의 병목을 평가하는 중요한 지표
네트워크 확장성(Scalability)을 결정하는 요소
딥러닝 및 AI 모델 훈련 시 여러 GPU가 데이터를 공유할 때 중요한 성능 지표

✅ 예제

DGX-1 (P100, 2016년)
- Bisection BW = 140GB/s
- 8개의 GPU를 서로 반으로 나누었을 때, 두 그룹 간 최대 140GB/s의 데이터 전송 가능
DGX-2 (V100, 2018년)
- Bisection BW = 2.4TB/s
- NVSwitch를 사용하여 GPU 간 직접 연결이 가능해지면서, 네트워크 병목이 크게 감소

2. AllReduce Bandwidth (집계 대역폭)

AllReduce Bandwidth(집계 대역폭)은 딥러닝 및 AI 훈련에서 GPU 간 데이터를 공유하고 집계하는 속도를 측정하는 대역폭입니다.

✅ 정의

다중 GPU 환경에서 각 GPU가 데이터를 서로 교환(AllReduce 연산)할 때 사용 가능한 최대 대역폭

✅ AllReduce의 역할

딥러닝 훈련 시 중요한 연산 중 하나
GPU들이 각자의 연산 결과(예: 손실 함수의 기울기)를 공유하고 이를 평균 내거나 합산하는 과정
GPU가 많아질수록 AllReduce BW가 높아야 성능이 유지됨
NVLink & NVSwitch를 통해 AllReduce 성능을 극대화할 수 있음

✅ 예제

DGX-1 (P100, 2016년)
- AllReduce BW = 40GB/s
- 8개의 GPU가 협력하여 AI 훈련을 수행할 때, 전체적인 데이터 동기화 속도가 40GB/s
DGX H100 (2022년)
- AllReduce BW = 450GB/s
- 최신 NVSwitch를 사용하여 GPU 간 데이터 동기화 속도가 11배 향상됨
- 더 빠른 AI 훈련, 더 높은 효율성 제공

3. Bisection BW vs. AllReduce BW 비교

구분Bisection BW (양분 대역폭)AllReduce BW (집계 대역폭)

정의	네트워크를 반으로 나눌 때 두 그룹 간 최대 대역폭	다중 GPU가 협력하여 데이터를 공유하는 속도
중요성	GPU 간 연결 구조 및 확장성을 평가하는 지표	AI 훈련 시 데이터 동기화 속도를 결정하는 요소
GPU 연결 방식	NVLink & NVSwitch	NVLink & NVSwitch
주요 활용 분야	데이터센터, HPC, 대규모 GPU 클러스터	AI 훈련, 딥러닝 모델 동기화

4. 결론

Bisection BW는 네트워크 확장성과 연결 병목을 평가하는 지표, AllReduce BW는 AI 학습 성능을 결정하는 주요 요소
NVLink & NVSwitch 발전으로 두 값이 지속적으로 증가하면서 AI 및 HPC 성능 향상
최신 DGX H100(2022년) 기준 Bisection BW = 3.6TB/s, AllReduce BW = 450GB/s로 AI 훈련 속도가 획기적으로 향상됨 🚀

즉, Bisection BW는 "네트워크 구조"의 효율성을 나타내고, AllReduce BW는 "AI 훈련 성능"의 척도라고 볼 수 있습니다.

NVSwitch: NVIDIA의 고속 GPU 상호 연결 스위치

1. NVSwitch란?

NVSwitch는 NVIDIA가 개발한 고속 GPU 간 상호 연결 스위치로, 다수의 GPU를 초고속으로 연결하여 높은 대역폭과 낮은 지연 시간을 제공하는 데이터 패브릭(Data Fabric) 기술입니다.

기존에는 GPU 간 통신을 위해 PCIe 기반의 GPU 다이렉트(GPU Direct) 또는 NVLink 포인트 투 포인트(Point-to-Point) 연결 방식을 사용했지만, 다수의 GPU가 연결될수록 데이터 병목 현상이 발생했습니다. NVSwitch는 이러한 병목을 해결하고 확장성을 극대화하는 솔루션입니다.

2. NVSwitch의 핵심 역할

✅ (1) 다대다(Any-to-Any) 연결 지원

기존 NVLink는 Point-to-Point(1:1) 연결만 가능했지만, NVSwitch를 사용하면 모든 GPU가 다른 GPU와 직접 연결 가능
이를 통해 병렬 AI 학습 및 HPC(고성능 컴퓨팅) 환경에서 데이터 동기화 속도가 비약적으로 향상됨

✅ (2) 초고속 데이터 전송

최신 **NVSwitch(4세대, H100 기준)**는 7.2TB/s 이상의 내부 스위칭 대역폭 제공
개별 GPU 간 최대 900GB/s의 NVLink 연결 지원
NVSwitch를 여러 개 연결하면, 수백 개의 GPU를 하나의 거대한 슈퍼컴퓨터처럼 운영 가능

✅ (3) PCIe 대비 초고속 성능

PCIe 기반 클러스터와 비교했을 때, NVSwitch를 통한 GPU 간 데이터 이동 속도가 14~20배 빠름
NVSwitch는 PCIe의 CPU 중심 구조를 벗어나 GPU 간 직접 통신이 가능하도록 설계됨

3. NVSwitch 아키텍처 변화

세대연도사용된 GPU스위칭 대역폭NVLink 연결 방식

1세대 NVSwitch	2018	V100	2.4TB/s	12 NVLinks/GPU
2세대 NVSwitch	2020	A100	4.8TB/s	12 NVLinks/GPU
3세대 NVSwitch	2022	H100	7.2TB/s	18 NVLinks/GPU

4. NVSwitch의 주요 이점

✅ (1) GPU 간 고속 연결

기존 PCIe 기반 GPU 연결 방식보다 훨씬 낮은 지연 시간
NVLink와 결합하면 한 대의 서버 내 최대 18개의 GPU를 초고속으로 연결 가능
NVSwitch가 여러 개 연결되면 수백 개의 GPU를 하나의 거대한 연산 노드처럼 활용 가능

✅ (2) AI 학습 및 HPC 최적화

최신 GPT-4, Llama, Stable Diffusion 같은 대규모 AI 모델 학습에 필수적인 네트워크 구조
AI 학습 시 필수적인 AllReduce 연산 속도를 극대화하여 병렬 학습 효율을 높임
대규모 데이터셋을 병렬 GPU에서 학습할 때 성능이 급격히 향상됨

✅ (3) 확장 가능한 아키텍처

NVSwitch는 여러 개를 병렬 연결하여 GPU 수를 확장 가능
예를 들어, DGX SuperPOD 같은 데이터센터급 AI 슈퍼컴퓨터에서도 사용됨
DGX H100의 경우 NVSwitch를 활용해 256개 이상의 GPU를 하나의 클러스터로 구성 가능

5. NVSwitch와 기존 PCIe 기반 GPU 연결 비교

항목NVSwitch (H100 기준)PCIe 5.0 (x16 기준)

GPU 간 대역폭	900GB/s (NVLink 4)	64GB/s (x16 PCIe 5.0)
GPU 간 연결 구조	다대다(Any-to-Any) 연결 가능	CPU 중심의 트리 구조
확장성	256개 이상의 GPU까지 확장 가능	최대 8~16개 GPU 제한
AI 학습 속도	10배 이상 빠름	병목 발생 가능성 높음

6. NVSwitch 사용 예시

🚀 DGX SuperPOD (H100)

256개의 GPU를 NVSwitch로 연결하여 단일 슈퍼컴퓨터처럼 동작
NVIDIA의 AI 모델 훈련 및 슈퍼컴퓨팅에 사용
초고속 AllReduce 연산을 지원하여 AI 학습 속도를 극대화

🚀 DGX H100

최신 DGX H100 서버는 8개의 H100 GPU를 NVSwitch로 연결
기존 PCIe 연결 방식보다 AI 학습 성능이 10배 이상 향상

🚀 클라우드 AI 슈퍼컴퓨터

Microsoft Azure, AWS, Google Cloud 등의 대규모 GPU 클러스터에서 NVSwitch를 활용
AI 모델 학습을 위해 수천 개의 GPU를 효율적으로 연결하는 핵심 기술

7. 결론

NVSwitch는 기존 NVLink를 확장하여 GPU 간 Any-to-Any 초고속 연결을 지원하는 스위칭 기술
초대형 AI 훈련, 슈퍼컴퓨팅, 데이터센터용 AI 서버에서 필수적인 요소
최신 H100 기반 NVSwitch는 최대 7.2TB/s 대역폭을 지원하여 AI 모델 학습 속도를 극대화
DGX SuperPOD, DGX H100 같은 NVIDIA의 AI 서버에서 핵심 역할 수행

✅ 한 마디로:

NVSwitch는 대규모 GPU 클러스터를 구성하여 AI 훈련 속도를 극대화하는 핵심 기술이며, 기존 PCIe 대비 압도적인 성능을 제공하는 GPU 네트워크 스위치입니다. 🚀

'AI > NVIDIA' 카테고리의 다른 글

AllReduce in AI Training: AI 학습에서의 AllReduce 역할 (0)	2025.02.23
NVLink 4 NVSwitch 칩 아키텍처 상세 설명 (0)	2025.02.23
NVLink 4 기반의 NVSwitch의 새로운 기능 (0)	2025.02.23
NVIDIA NVLink의 세대별 발전 과정 (0)	2025.02.23
NVLink Motivations (0)	2025.02.23

PREV 이전 1 2 NEXT 다음

Zeah Engineering Factory

NVLink

NVLink4 NVSwitch 블록 다이어그램 상세 분석

1. NVSwitch 개요

✅ NVSwitch의 역할

2. NVSwitch 블록 구성

🔹 (1) Management 블록

🔹 (2) Port Logic 블록 (0 ~ 63)

📌 주요 기능

📌 주요 특징

🔹 (3) NVLink 블록 (0 ~ 63)

3. 새로운 SHARP 블록 (New SHARP Blocks)

✅ (1) SHARP ALU (Hopper)

✅ (2) SHARP의 성능 향상

4. 새로운 NVLink Network 블록 (New NVLink Network Blocks)

(1) 보안 기능 강화

(2) 포트 격리 (Partitioning)

(3) OSFP 케이블 지원

(4) InfiniBand 스타일 모니터링 지원

5. 결론

InfiniBand: 고성능 데이터 센터 및 HPC 네트워크 기술

1. InfiniBand의 주요 특징

(1) 초고속 대역폭 (High Bandwidth)

(2) 초저지연 (Ultra-low Latency)

(3) RDMA(Remote Direct Memory Access) 지원

(4) 확장성 (Scalability)

2. InfiniBand와 기존 네트워크(Ethernet) 비교

3. InfiniBand의 네트워크 구조

(1) 기본 구성 요소

(2) InfiniBand 네트워크 토폴로지

4. InfiniBand와 NVLink의 차이점

5. InfiniBand의 활용 사례

(1) AI/딥러닝 (Deep Learning)

(2) 슈퍼컴퓨팅 (Supercomputing)

(3) 금융 거래 (High-Frequency Trading)

(4) 클라우드 데이터센터

6. 결론

InfiniBand는 AI 및 HPC 환경에서 필수적인 초고속 네트워크

'AI > NVIDIA' 카테고리의 다른 글

NVLink Network for Raw Bandwidth (BW)

1. 좌측: NVLink 기반 Neural Recommender Engine 구조

✅ (1) Neural Recommender Engine의 병렬 학습 방식

✅ (2) Model-Parallel → Data-Parallel 변환 (All2All)

✅ (3) GPU 간 데이터 이동량 (Bandwidth 요구량)

2. 우측: NVLink vs. InfiniBand (IB) 대역폭 비교

3. NVLink의 효과 및 중요성

4. 결론

딥러닝 기반 추천 시스템: 모델 병렬과 데이터 병렬의 필요성

1. 추천 시스템에서 학습해야 할 주요 요소

✅ (1) 임베딩 테이블 (Embedding Tables)

✅ (2) 신경망 모델 (Neural Network, MLP or Transformer)

2. 모델 병렬(Model Parallel)과 데이터 병렬(Data Parallel)을 함께 사용해야 하는 이유

3. 모델 병렬과 데이터 병렬을 함께 사용해야 하는 이유 (예제 포함)

예제: Netflix 추천 시스템

✅ (1) 모델 병렬이 필요한 이유 (임베딩 테이블 분산)

✅ (2) 데이터 병렬이 필요한 이유 (신경망 모델 병렬 처리)

4. 모델 병렬(Model Parallel)과 데이터 병렬(Data Parallel)의 동작 방식

✅ (1) 모델 병렬 (Model Parallel)

✅ (2) 데이터 병렬 (Data Parallel)

5. 결론

1. 추천 시스템에서 NVLink 대역폭이 중요한 이유

✅ (1) 임베딩 테이블의 크기 문제

✅ (2) All2All 통신(모델 병렬 → 데이터 병렬 변환)

✅ (3) NVLink vs. InfiniBand(IB) 비교 시 추천 시스템이 가장 두드러진 차이를 보임

2. NVLink의 효과가 두드러지는 AI 워크로드

3. 결론

'AI > NVIDIA' 카테고리의 다른 글

전통적인 AllReduce 계산 (Traditional AllReduce Calculation)

1. AI 학습에서 AllReduce의 필요성

✅ (1) 데이터 병렬 학습 (Data Parallelism)

✅ (2) 그래디언트 동기화 필요성

2. AllReduce 연산 단계

✅ (1) 로컬 그래디언트 계산 (Local Gradients Calculation)

✅ (2) NCCL AllReduce 실행

📌 Step 1: 그래디언트 교환 (Exchange Partial Local Gradients)

📌 Step 2: 그래디언트 합산 (Reduce - Sum Partials)

📌 Step 3: 합산된 그래디언트 브로드캐스트 (Broadcast Reduced Partials)

✅ (3) 동기화된 그래디언트를 적용하여 모델 업데이트

3. 전통적인 AllReduce 방식의 문제점

4. NVIDIA의 AllReduce 최적화 방법