nvswitch

DGX H100 SUPERPOD: NVLINK SWITCH 상세 설명 2025.02.24
NVLink Network의 전통적인 네트워킹과의 매핑 2025.02.23
NVLink Network for Raw Bandwidth (BW) 2025.02.23
NVLink SHARP Acceleration: NVLink 기반의 SHARP 가속화 2025.02.23

DGX H100 SUPERPOD: NVLINK SWITCH 상세 설명

zeah 2025. 2. 24. 00:36

2025. 2. 24. 00:36

DGX H100 SuperPOD는 대규모 AI 및 고성능 컴퓨팅(HPC) 클러스터를 위한 초고속 NVLink 네트워크 스위치를 포함하고 있습니다.
이 NVLink Switch는 128개의 NVLink4 포트를 지원하며, 최대 6.4TB/s의 양방향 대역폭을 제공하여
여러 개의 DGX H100 시스템을 초고속 네트워크로 연결하는 핵심 역할을 합니다.

1. DGX H100 NVLink Switch 주요 사양

항목설명

Form Factor	1U(1 Rack Unit) 19-inch 크기의 스위치
NVSwitch 칩 개수	2개의 NVLink4 NVSwitch 칩 사용
NVLink 포트 개수	128개의 NVLink4 포트 지원
OSFP 슬롯 (Cages)	32개의 OSFP(Octal Small Form-factor Pluggable) 슬롯 제공
최대 대역폭	6.4TB/s (Full-Duplex)
관리 기능	Out-of-band 관리 지원
케이블 지원	Passive Copper, Active Copper, Optical OSFP 지원 (Custom Firmware 사용 가능)

2. 주요 용어 및 기술 설명

(1) 1U 19-inch Form Factor

1U(1 Rack Unit)는 데이터센터에서 표준으로 사용되는 서버 및 네트워크 장비의 크기
1U = 약 1.75인치(4.45cm) 높이
19-inch는 표준 서버 랙 크기
즉, 이 NVLink 스위치는 일반적인 데이터센터 랙에 쉽게 설치할 수 있도록 설계됨
InfiniBand 스위치 아키텍처를 기반으로 설계되어 네트워크 최적화됨

(2) Dual NVLink4 NVSwitch Chips

2개의 NVSwitch 4.0 칩을 사용하여 GPU 간 NVLink 네트워크 최적화
각 NVSwitch 칩은 NVLink 포트 간 초고속 데이터 교환을 지원
NVSwitch 칩이 많을수록 더 많은 GPU를 연결할 수 있음
NVSwitch는 AI 및 HPC 워크로드에서 GPU 간 데이터 공유 속도를 크게 향상

(3) 128 NVLink4 Ports

총 128개의 NVLink4 포트를 제공
각 포트는 최대 50GB/s (양방향 100GB/s) 속도를 지원
다수의 DGX H100 서버를 연결하여 초고속 AI 클러스터를 구축 가능
NVSwitch를 활용하여 GPU 간 연결을 중앙 집중식으로 처리

(4) 32 OSFP Cages

OSFP(Octal Small Form-factor Pluggable) 슬롯은 광(Optical) 또는 구리(Copper) 케이블을 연결하는 포트
NVLink 네트워크 확장을 위해 OSFP 포트를 사용하여 DGX 서버를 연결 가능
일반적인 SFP(10G, 25G) 또는 QSFP(40G, 100G)보다 더 높은 속도를 지원하는 차세대 폼팩터
NVLink4 및 InfiniBand 네트워크 연결을 위한 광 네트워크 트랜시버 장착 가능

(5) 6.4 TB/s Full-Duplex Bandwidth

총 6.4TB/s(양방향) NVLink 네트워크 대역폭 제공
Full-Duplex란 양방향 데이터 전송을 동시에 수행할 수 있음을 의미
단일 서버에서 NVLink를 사용할 때보다 여러 개의 서버를 연결할 때 훨씬 높은 데이터 처리량 제공
AI 모델 학습 시 GPU 간 데이터 공유 속도를 크게 향상하여 모델 학습 시간을 단축

(6) Managed Switch with Out-of-Band Management

NVLink Switch는 관리형 스위치(Managed Switch)로 작동
Out-of-Band(OOB) 관리는 별도의 네트워크 포트를 통해 원격으로 장비를 관리하는 기능
관리자는 NVLink 네트워크 상태를 모니터링하고, 트래픽을 최적화하며, 장애 발생 시 복구 가능
HPC 및 AI 클러스터 운영 시 필수적인 기능

(7) Passive Copper, Active Copper, Optical OSFP Cables 지원

Passive Copper: 짧은 거리(약 1~3m)에서 전력 소모 없이 NVLink 네트워크 연결
Active Copper: 중간 거리(3~10m)에서 신호 증폭을 통해 NVLink 연결 안정화
Optical OSFP: 장거리(10m 이상)에서 광케이블을 사용하여 NVLink 네트워크 확장

NVLink 네트워크의 유연성을 높이고, 데이터센터 환경에 맞게 최적의 케이블을 선택하여 사용 가능

3. NVLink Switch의 역할과 장점

(1) AI 및 HPC 워크로드 가속

NVSwitch를 통해 GPU 간 데이터 전송을 최적화하여 AI 모델 학습 속도 향상
대용량 데이터 공유가 필요한 HPC(고성능 컴퓨팅) 워크로드에 적합
AI 훈련 시 AllReduce 연산 최적화하여 GPU 간 데이터 동기화 속도 증가

(2) 다수의 DGX H100 서버 연결 가능

128 NVLink 포트와 32 OSFP 슬롯을 활용하여 여러 개의 DGX 서버를 연결 가능
단일 서버의 NVLink 연결을 넘어, 대규모 AI 클러스터 구축 가능
데이터센터 및 슈퍼컴퓨터에서 사용 가능

(3) NVLink 및 InfiniBand를 동시에 활용 가능

OSFP 포트를 통해 InfiniBand 네트워크와 연동 가능
NVLink 네트워크를 통해 GPU 간 데이터 전송 최적화, InfiniBand로 서버 간 데이터 교환
데이터센터 네트워크 구성에 유연성 제공

(4) 효율적인 데이터센터 운영 지원

Out-of-Band 관리를 통해 원격으로 NVLink 네트워크 상태 모니터링 및 장애 복구 가능
패시브 및 액티브 구리 케이블, 광 케이블 지원으로 다양한 데이터센터 환경에 맞게 구성 가능
초거대 AI 모델 학습을 위한 고성능 GPU 클러스터 구축 가능

4. 결론

DGX H100 SUPERPOD의 NVLink Switch는 초고속 AI 및 HPC 네트워크를 위한 핵심 인프라

128개의 NVLink4 포트와 32 OSFP 슬롯을 제공하여 DGX 서버 간 고속 네트워크 구성 가능
최대 6.4TB/s 대역폭을 지원하여 GPU 간 데이터 공유 속도를 극대화
NVSwitch 및 OSFP를 활용하여 대규모 AI 클러스터를 손쉽게 구축
Out-of-Band 관리 및 다양한 케이블 지원으로 데이터센터 운영 최적화

즉, 이 NVLink Switch는 DGX H100 SuperPOD의 GPU 클러스터에서 초고속 데이터 교환을 지원하는 핵심 인프라입니다.

'AI > NVIDIA' 카테고리의 다른 글

ARM 및 RISC-V 기반 슈퍼컴퓨터 설계 및 DGX H100 비교 보고서 (0)	2025.02.24
NVLink Evolution and GPU Ecosystem: From Version 1.0 to 6.0 (1)	2025.02.24
DGX H100: Data-Network Configuration 상세 분석 (0)	2025.02.24
DGX H100 SERVER 상세 분석 (0)	2025.02.24
NVLink4 NVSwitch 블록 다이어그램 상세 분석 (2)	2025.02.24

NVLink Network의 전통적인 네트워킹과의 매핑

zeah 2025. 2. 23. 23:48

2025. 2. 23. 23:48

NVLink Network가 기존의 전통적인 네트워킹(Stack)과 어떻게 매핑되는지를 보여줍니다.
즉, 기존의 TCP/IP 기반 네트워크 모델(OSI 7 Layer)과 비교하여 NVLink Network가 GPU에 최적화된 네트워크 계층을 어떻게 구현하는지를 설명하는 것입니다.

1. 표의 핵심 의미

기존 네트워크(이더넷, TCP/IP 기반)와 비교하여 NVLink Network가 어떻게 대응되는지 설명
NVLink Network는 GPU 내부 및 GPU 간의 데이터 전송을 최적화하기 위해 독자적인 네트워크 계층을 사용
기존 네트워크 모델처럼 물리 계층, 데이터 링크 계층, 전송 계층 등이 존재하지만, GPU 환경에 맞게 최적화됨
RDMA, Collectives Off-Load 같은 기능이 NIC에서 수행되던 것처럼, NVSwitch에서 GPU 내부적으로 처리됨

2. NVLink Network와 기존 네트워크 스택 비교 분석

개념 (Concept)전통적인 네트워크 (Traditional Example)NVLink Network설명

Physical Layer	400G 전기/광 미디어	Custom-FW OSFP	물리적인 데이터 전송을 담당하는 계층. NVLink는 OSFP(Octal Small Form-factor Pluggable) 커넥터를 사용하여 직접 연결
Data Link Layer	Ethernet	NVLink 커스텀 온칩 HW & FW	NVLink는 이더넷 대신 전용 하드웨어와 펌웨어를 사용하여 GPU 간 데이터 전송을 최적화
Network Layer	IP (Internet Protocol)	NVLink Network Addressing & Management	기존 IP 기반이 아닌 NVLink Network에서 자체적인 주소 체계를 사용하여 GPU 간 통신
Transport Layer	TCP	NVLink 커스텀 온칩 HW & FW	TCP 대신 NVLink 전용 하드웨어/펌웨어를 사용하여 신뢰성 있는 데이터 전송을 처리
Session Layer	Sockets	SHARP groups, CUDA export of Network addresses	기존 소켓(Socket) 대신 SHARP(Scalable Hierarchical Aggregation and Reduction Protocol) 그룹을 활용하여 데이터 공유
Presentation Layer	TSL/SSL (데이터 암호화)	NCCL, NVSHMEM	전통적인 보안 계층 대신 GPU 최적화된 라이브러리(NCCL, NVSHMEM)를 통해 데이터 공유
Application Layer	HTTP/FTP	AI 프레임워크 또는 사용자 애플리케이션	GPU 기반 AI 프레임워크(TensorFlow, PyTorch 등)와 직접 통합 가능
NIC	PCIe NIC (카드 or 칩)	GPU 및 NVSwitch에 내장된 기능	NVLink Network는 별도의 NIC 없이 GPU 및 NVSwitch에 네트워크 기능을 내장
RDMA Off-Load	NIC Off-Load Engine	GPU 내부 Copy Engine	NVLink에서는 RDMA(Remote Direct Memory Access) 기능을 GPU 내부에서 직접 수행
Collectives Off-Load	NIC/Switch Off-Load Engine	NVSwitch 내장 SHARP 엔진	AllReduce 같은 집계 연산을 NVSwitch에서 직접 수행
Security Off-Load	NIC 보안 기능	GPU 내부 암호화 & "TLB" 방화벽	보안을 위해 GPU 내부에서 암호화 및 TLB(Translation Lookaside Buffer) 기반 방화벽 적용
Media Control	NIC 케이블 어댑터	NVSwitch 내부 OSFP 케이블 컨트롤러	기존 네트워크처럼 케이블을 통한 물리적 연결을 NVSwitch에서 직접 관리

3. NVLink Network가 기존 네트워크와 다른 점

✅ (1) 독자적인 네트워크 스택 사용

기존 네트워크(TCP/IP) 기반이 아닌, GPU 간 초고속 데이터 전송을 위한 NVLink 전용 스택을 사용
NVSwitch를 중심으로 데이터 전송을 최적화

✅ (2) NIC가 필요 없음

기존 네트워크에서는 PCIe NIC(네트워크 카드)를 사용해야 했지만,
NVLink Network는 GPU 및 NVSwitch에 네트워크 기능을 내장하여 별도 NIC가 필요 없음

✅ (3) RDMA, Collectives Off-Load 같은 기능을 NVSwitch에서 직접 수행

기존 네트워크에서는 NIC가 RDMA 및 데이터 집계 연산(Collectives Off-Load)을 처리해야 했음
NVLink Network는 이러한 연산을 NVSwitch에서 직접 수행하여 GPU 성능 최적화

✅ (4) 보안 기능 내장

기존 TCP/IP 네트워크에서는 SSL/TLS 같은 보안 계층이 필요했지만,
NVLink Network는 GPU 내부에서 암호화 및 TLB 기반 방화벽을 제공하여 보안성 강화

4. NVLink Network의 의미

이 표에서 강조하는 핵심 메시지는 NVLink Network가 단순한 GPU 간 연결이 아니라, 완전한 네트워크 아키텍처를 제공한다는 것입니다.

즉, NVLink Network는 기존 네트워크(NIC, TCP/IP)와 비교할 수 있는 GPU 최적화 네트워크이며, 기존 이더넷 및 PCIe 네트워크보다 훨씬 높은 성능과 낮은 지연시간을 제공할 수 있도록 설계되었습니다.

✅ 요약하면:

NVLink Network는 기존 TCP/IP 네트워크와 유사한 계층을 가지지만, 모든 기능이 GPU에 최적화됨
NVSwitch를 활용하여 GPU 간 데이터를 빠르게 교환하며, 기존 네트워크의 병목 문제를 해결
NIC 없이 GPU와 NVSwitch에 직접 네트워크 기능을 내장하여, 별도의 네트워크 카드 없이 고속 데이터 교환 가능
RDMA, Collectives Off-Load 같은 연산을 NVSwitch에서 직접 처리하여, CPU 개입 없이 고속 데이터 처리 가능

👉 즉, NVLink Network는 기존의 TCP/IP 기반 네트워크를 GPU 환경에 최적화한 형태로, AI 및 고성능 컴퓨팅(HPC)에서 최대한의 성능을 제공하기 위해 설계되었습니다. 🚀

'AI > NVIDIA' 카테고리의 다른 글

DGX H100 SERVER 상세 분석 (0)	2025.02.24
NVLink4 NVSwitch 블록 다이어그램 상세 분석 (2)	2025.02.24
NVLink Network: 새로운 NVLink 네트워크 아키텍처 (0)	2025.02.23
NVLink Network for Raw Bandwidth (BW) (0)	2025.02.23
NVLink SHARP Acceleration: NVLink 기반의 SHARP 가속화 (0)	2025.02.23

NVLink Network for Raw Bandwidth (BW)

zeah 2025. 2. 23. 15:37

2025. 2. 23. 15:37

NVIDIA NVLink 네트워크가 AI 추천 시스템(Neural Recommender Engine) 및 임베딩 테이블(Embedding Tables) 학습에서 어떻게 높은 대역폭을 제공하는지를 설명하는 개념도입니다.
특히, 기존 InfiniBand(IB) 대비 4.5배 더 높은 대역폭을 제공하는 NVLink의 성능 차이를 강조하고 있습니다.

1. 좌측: NVLink 기반 Neural Recommender Engine 구조

✅ (1) Neural Recommender Engine의 병렬 학습 방식

딥러닝 기반 추천 시스템은 모델 병렬(Model Parallel)과 데이터 병렬(Data Parallel) 방식을 혼합하여 학습
상단의 Linear Layers(선형 레이어)는 데이터 병렬 방식으로 여러 GPU에 복제(Replicated across GPUs)
하단의 Embedding Tables(임베딩 테이블)는 모델 병렬 방식으로 GPU마다 서로 다른 데이터를 저장(Distributed across GPUs)

✅ (2) Model-Parallel → Data-Parallel 변환 (All2All)

모델의 일부(임베딩 테이블)는 여러 GPU에 분산 저장되지만, 이후 모델을 학습하기 위해서는 GPU 간 데이터 공유가 필요
All2All 연산을 통해 모델 병렬 방식에서 데이터 병렬 방식으로 변환
이 과정에서 GPU 간 대량의 데이터 전송 발생 → NVLink의 높은 대역폭이 필수적

✅ (3) GPU 간 데이터 이동량 (Bandwidth 요구량)

각 GPU는 임베딩 테이블 데이터를 다르게 저장하며, 다른 GPU의 데이터를 가져와야 함
예제에서 GPU 0~n의 메모리 구성을 보면,
- GPU 0: 10GB + 20GB
- GPU 1: 40GB + 10GB
- GPU 2: 60GB
- GPU n: 60GB
  → 모델 병렬 학습 시, 서로 다른 GPU 간 대규모 데이터 교환이 필요하므로 NVLink가 필수

2. 우측: NVLink vs. InfiniBand (IB) 대역폭 비교

14TB 임베딩 테이블을 사용하는 예제 추천 시스템에서 H100 NVLink 네트워크의 대역폭 성능 비교

A100 + InfiniBand (IB)
- 기준선(1x)
- 기존 InfiniBand 네트워크를 사용할 경우 대역폭이 상대적으로 낮음
H100 + InfiniBand (IB)
- A100 대비 대역폭이 2배 증가
- InfiniBand만으로도 H100의 성능을 일부 활용 가능
H100 + NVLink Network
- H100 + InfiniBand 대비 2배 더 높은 대역폭 제공
- A100 + InfiniBand 대비 4.5배 더 높은 대역폭 제공
- NVLink 기반 네트워크를 활용하면 GPU 간 데이터 교환 속도가 획기적으로 향상됨

3. NVLink의 효과 및 중요성

기존 InfiniBand(IB) 대비 4.5배 더 높은 대역폭 제공
임베딩 테이블이 매우 큰 추천 시스템(Neural Recommender Engine)에서 필수적인 네트워크 솔루션
GPU 간 All2All 통신을 최적화하여 모델 병렬과 데이터 병렬 변환 과정에서 성능 극대화
H100에서 NVLink를 활용하면, AI 모델 학습 및 추천 시스템 성능이 획기적으로 향상

4. 결론

H100 NVLink 네트워크는 AI 추천 시스템에서 InfiniBand보다 4.5배 높은 대역폭 제공
대규모 임베딩 테이블(Embedding Tables)을 활용하는 추천 시스템에서 NVLink의 높은 전송 속도가 필수적
NVLink를 활용하면 모델 병렬과 데이터 병렬 변환(All2All)이 훨씬 더 빠르게 수행됨
기존 A100 기반 InfiniBand 네트워크보다 H100 NVLink가 압도적인 성능 제공

👉 즉, NVLink는 AI 추천 시스템 및 대규모 데이터 학습에서 필수적인 GPU 간 네트워크 기술로, InfiniBand 대비 훨씬 높은 대역폭을 제공하여 딥러닝 학습 속도를 극대화할 수 있습니다. 🚀

딥러닝 기반 추천 시스템: 모델 병렬과 데이터 병렬의 필요성

딥러닝 기반 추천 시스템은 대규모 사용자 데이터와 아이템 데이터를 분석하여 최적의 추천을 제공하는 AI 모델입니다.
대표적인 추천 시스템 모델로는 Deep Learning Recommendation Model (DLRM), Wide & Deep, Transformer 기반 추천 모델 등이 있습니다.

이러한 추천 시스템은 대규모 임베딩 테이블(Embedding Tables)과 신경망 모델(MLP, Transformer 등)을 함께 사용하기 때문에, 모델 병렬(Model Parallel)과 데이터 병렬(Data Parallel)을 혼합하여 학습해야 성능을 극대화할 수 있습니다.

1. 추천 시스템에서 학습해야 할 주요 요소

딥러닝 기반 추천 모델은 주로 두 가지 요소를 학습합니다.

✅ (1) 임베딩 테이블 (Embedding Tables)

사용자 및 아이템의 특성(Feature)을 벡터로 변환하여 저장
사용자 ID, 나이, 성별, 지역, 선호 카테고리, 아이템 ID 등을 고차원 벡터로 표현
추천 모델에서는 이러한 임베딩 벡터를 사용하여 유사한 사용자 및 아이템을 찾음
문제점: 임베딩 테이블이 매우 커질 수 있음 (수십~수백 TB)

✅ (2) 신경망 모델 (Neural Network, MLP or Transformer)

사용자의 현재 행동(클릭, 좋아요, 검색, 구매 등)과 임베딩 벡터를 결합하여 추천 결과 생성
일반적으로 다층 퍼셉트론(MLP) 또는 Transformer를 활용하여 예측을 수행
문제점: 연산량이 많고, 병렬 처리가 필요

2. 모델 병렬(Model Parallel)과 데이터 병렬(Data Parallel)을 함께 사용해야 하는 이유

추천 시스템에서는 단순히 데이터 병렬(Data Parallel)만으로는 해결할 수 없는 문제들이 존재합니다.
특히, 임베딩 테이블은 모델 병렬(Model Parallel), 신경망 모델은 데이터 병렬(Data Parallel)로 처리하는 것이 최적의 방법입니다.

방식사용 대상이유

모델 병렬 (Model Parallel)	임베딩 테이블 (Embedding Tables)	너무 크기 때문에 여러 GPU에 분산 저장해야 함
데이터 병렬 (Data Parallel)	신경망 모델 (MLP, Transformer 등)	모든 GPU에서 동일한 모델을 실행하면서 병렬 연산 최적화

3. 모델 병렬과 데이터 병렬을 함께 사용해야 하는 이유 (예제 포함)

예제: Netflix 추천 시스템

Netflix는 수억 명의 사용자와 수백만 개의 영화를 추천해야 하는 대규모 추천 시스템을 운영합니다.
각 사용자에게 맞춤형 콘텐츠를 제공하기 위해 사용자 데이터와 영화 데이터를 임베딩 테이블로 변환한 후, 신경망 모델을 통해 추천을 수행합니다.

✅ (1) 모델 병렬이 필요한 이유 (임베딩 테이블 분산)

Netflix에는 수억 명의 사용자와 수백만 개의 영화가 존재
각 사용자와 영화에 대한 임베딩 벡터를 저장하려면 엄청난 메모리가 필요 (수십 TB~수백 TB)
하나의 GPU에 저장하기에는 불가능
→ 해결책: **모델 병렬(Model Parallel)**을 사용하여 여러 GPU에 임베딩 테이블을 분산 저장

✅ (2) 데이터 병렬이 필요한 이유 (신경망 모델 병렬 처리)

추천을 수행하는 MLP(다층 퍼셉트론) 또는 Transformer 모델은 모든 GPU에서 동일한 연산을 수행
배치 데이터를 여러 GPU에 나누어 처리하면 학습 속도가 향상됨
→ 해결책: **데이터 병렬(Data Parallel)**을 사용하여 동일한 신경망 모델을 여러 GPU에서 동시에 학습

4. 모델 병렬(Model Parallel)과 데이터 병렬(Data Parallel)의 동작 방식

✅ (1) 모델 병렬 (Model Parallel)

임베딩 테이블을 여러 GPU에 분산 저장
GPU마다 서로 다른 부분의 임베딩 데이터를 저장하고, 필요할 때 다른 GPU의 임베딩 데이터를 가져와야 함
All2All 통신(All-to-All Communication)이 발생 (GPU 간 데이터 이동 필요)

🔹 예제 (4개의 GPU가 임베딩 테이블을 나눠 저장하는 경우)

GPU 0: 사용자 ID 임베딩 저장
GPU 1: 영화 ID 임베딩 저장
GPU 2: 카테고리 임베딩 저장
GPU 3: 지역 및 장르 임베딩 저장

→ 사용자 ID와 영화 ID가 동일한 GPU에 없으므로, 데이터를 공유해야 함 → All2All 통신이 필수적

✅ (2) 데이터 병렬 (Data Parallel)

같은 신경망 모델(MLP 또는 Transformer)을 모든 GPU에서 복사하여 실행
각 GPU는 서로 다른 배치를 학습하면서 그래디언트를 계산
학습이 끝나면 AllReduce 연산을 수행하여 모든 GPU가 동일한 그래디언트 업데이트 적용

🔹 예제 (4개의 GPU가 데이터 병렬로 학습하는 경우)

GPU 0: 첫 번째 배치(256개 샘플) 학습
GPU 1: 두 번째 배치(256개 샘플) 학습
GPU 2: 세 번째 배치(256개 샘플) 학습
GPU 3: 네 번째 배치(256개 샘플) 학습

→ 모든 GPU가 동일한 신경망 모델을 학습하지만, 서로 다른 배치를 학습함
→ AllReduce 연산을 사용하여 그래디언트를 동기화해야 함

5. 결론

딥러닝 기반 추천 시스템에서는 임베딩 테이블과 신경망 모델을 동시에 처리해야 하므로, 모델 병렬과 데이터 병렬을 함께 사용해야 함
임베딩 테이블은 너무 크기 때문에 모델 병렬(Model Parallel) 방식으로 여러 GPU에 분산 저장
신경망 모델(MLP, Transformer 등)은 데이터 병렬(Data Parallel) 방식으로 모든 GPU에서 동일한 연산을 수행
All2All 통신(All-to-All Communication)과 AllReduce 연산을 활용하여 GPU 간 데이터 이동 및 그래디언트 동기화 수행
Netflix, YouTube, TikTok 같은 대규모 추천 시스템에서 필수적인 학습 방식

👉 즉, 모델 병렬과 데이터 병렬을 동시에 사용해야 대규모 추천 시스템을 효율적으로 학습할 수 있으며, 이를 위해 GPU 간 빠른 데이터 교환이 가능한 NVLink 및 NVSwitch 기술이 필수적입니다. 🚀

1. 추천 시스템에서 NVLink 대역폭이 중요한 이유

✅ (1) 임베딩 테이블의 크기 문제

추천 시스템에서는 사용자 ID, 아이템 ID, 선호 카테고리 등의 임베딩 벡터를 저장하는 임베딩 테이블(Embedding Tables)이 매우 큼
수십~수백 TB 크기의 데이터를 GPU 여러 개에 분산 저장해야 함
데이터가 한 GPU에 들어가지 않기 때문에 GPU 간 빠른 데이터 이동이 필수적

✅ (2) All2All 통신(모델 병렬 → 데이터 병렬 변환)

임베딩 테이블이 여러 GPU에 분산 저장되므로, 학습 시 서로 다른 GPU의 데이터를 가져와야 함
이를 위해 All2All 통신(All-to-All Communication)이 필수적
이 과정에서 GPU 간 대량의 데이터 교환이 발생 → NVLink의 높은 대역폭이 필요

✅ (3) NVLink vs. InfiniBand(IB) 비교 시 추천 시스템이 가장 두드러진 차이를 보임

H100 + NVLink가 InfiniBand보다 4.5배 높은 대역폭을 제공
All2All 통신을 최적화하면 임베딩 테이블을 처리하는 속도가 크게 향상됨
결과적으로, NVLink를 사용할 때 추천 시스템의 학습 속도가 극적으로 향상됨

2. NVLink의 효과가 두드러지는 AI 워크로드

추천 시스템 외에도 NVLink의 높은 대역폭이 중요한 AI 워크로드는 많습니다. 하지만 그중에서도 추천 시스템이 가장 직접적인 성능 차이를 보여주는 대표적인 사례입니다.

AI 워크로드NVLink 효과이유

추천 시스템 (Neural Recommender Engine)	🚀🚀🚀🚀🚀 (최고 효과)	임베딩 테이블이 크고 All2All 통신이 많아 GPU 간 대역폭이 중요
대형 언어 모델 (LLM, GPT-4 등)	🚀🚀🚀🚀 (매우 효과적)	모델 병렬 학습 시 GPU 간 빠른 데이터 공유 필요
비전 트랜스포머 (Vision Transformer, ViT)	🚀🚀🚀 (효과적)	대규모 이미지 배치 처리 시 GPU 간 빠른 데이터 전송 필요
자율주행 AI (Self-Driving AI)	🚀🚀 (일부 효과)	실시간 데이터 처리 시 활용 가능하지만, 대역폭보다는 지연 시간 최적화가 더 중요

3. 결론

추천 시스템은 NVLink의 높은 대역폭이 가장 두드러지게 효과를 발휘하는 대표적인 AI 워크로드
임베딩 테이블이 매우 크고, GPU 간 All2All 통신이 많아 NVLink가 필수적
NVLink가 없으면 GPU 간 데이터 전송이 InfiniBand보다 4.5배 느려져 학습 속도가 급격히 저하
대규모 AI 모델(LLM, ViT 등)에서도 NVLink의 효과가 크지만, 추천 시스템이 가장 차이가 명확함

👉 즉, NVIDIA가 추천 시스템 예제를 사용한 이유는 NVLink의 대역폭 증가 효과가 가장 극적으로 나타나는 AI 워크로드이기 때문입니다. 🚀

'AI > NVIDIA' 카테고리의 다른 글

NVLink Network의 전통적인 네트워킹과의 매핑 (0)	2025.02.23
NVLink Network: 새로운 NVLink 네트워크 아키텍처 (0)	2025.02.23
NVLink SHARP Acceleration: NVLink 기반의 SHARP 가속화 (0)	2025.02.23
전통적인 AllReduce 계산 (Traditional AllReduce Calculation) (0)	2025.02.23
AllReduce in AI Training: AI 학습에서의 AllReduce 역할 (0)	2025.02.23

NVLink SHARP Acceleration: NVLink 기반의 SHARP 가속화

zeah 2025. 2. 23. 15:23

2025. 2. 23. 15:23

NVIDIA NVLink SHARP(Scalable Hierarchical Aggregation and Reduction Protocol) 가속화 기능을 설명하는 개념도입니다.
NVLink SHARP는 기존 A100 대비 H100에서 더욱 최적화된 데이터 집계 및 브로드캐스트(AllReduce) 기능을 제공하여 AI 학습 및 HPC 성능을 향상시킵니다.

1. NVLink SHARP란?

✅ NVLink SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)의 핵심 역할

기존의 AllReduce 연산을 GPU가 아닌 NVSwitch 내부에서 직접 수행하여 GPU의 부담을 줄이는 기술
GPU 간 데이터 교환을 최적화하여 AllReduce 속도를 향상
GPU-간 직접 데이터 전송량을 줄여 NVLink 대역폭을 효과적으로 2배 증가시키는 효과

2. 기존 A100 방식 vs. H100 + NVLink SHARP 방식 비교

✅ (1) 기존 A100 방식 (왼쪽)

Step 1: Read and Reduce

각 GPU가 로컬 그래디언트(Partials)를 계산한 후, NVSwitch로 전송
NVSwitch는 데이터를 단순히 전달할 뿐, 연산은 수행하지 않음
모든 GPU는 각자의 그래디언트를 주고받으며, 최종 합산된 값을 공유받음
이 과정에서 N번의 데이터 송수신 발생 (N개의 GPU가 서로 통신)

Step 2: Broadcast Result

각 GPU는 합산된 그래디언트를 다시 NVSwitch로 보내고, 이를 다시 모든 GPU가 수신
N번의 송수신이 발생하며, GPU 간 직접 통신 비용이 높음
전체 데이터 교환량이 많아 NVLink 대역폭을 많이 차지함

✅ (2) H100 + NVLink SHARP 방식 (오른쪽)

Step 1: Read and Reduce (In-Switch Sum)

GPU가 로컬 그래디언트(Partials)를 NVSwitch로 전송
NVSwitch가 직접 모든 GPU의 그래디언트를 합산 (In-Switch Sum)
각 GPU는 합산된 최종 그래디언트를 1번만 받아오면 됨
즉, 기존 방식 대비 데이터 전송 횟수를 크게 줄임 (N번 → 1번)

Step 2: Broadcast Result (In-Switch MultiCast)

NVSwitch가 합산된 그래디언트를 모든 GPU에 자동으로 복제 (In-Switch MultiCast)
각 GPU는 복제된 데이터만 받으면 되므로, 전체 데이터 교환량 감소
기존 대비 브로드캐스트 연산이 최적화되어 GPU의 메모리 사용량 절감

3. 트래픽 요약 및 성능 향상 효과

항목 기존 A100 방식 H100 + NVLink SHARP 방식

Step 1: Read & Reduce	N번 읽기, N번 쓰기	N번 읽기, 1번 쓰기
Step 2: Broadcast Result	N번 쓰기, N번 읽기	1번 쓰기, N번 읽기
NVSwitch 역할	단순 데이터 전달	In-Switch Sum + MultiCast 최적화
GPU 간 데이터 교환량	많음 (2N)	적음 (N+1)
NVLink 대역폭 활용도	제한적	2배 효율 향상

👉 H100 + NVLink SHARP는 기존 A100 방식 대비 NVLink 대역폭을 효과적으로 2배 증가시키는 효과를 제공
👉 NVSwitch에서 직접 그래디언트 합산 및 복제를 수행하므로, GPU의 부담이 줄어듦

4. 결론

NVLink SHARP는 기존 A100 대비 H100에서 AllReduce 연산 속도를 크게 향상
기존 A100 방식에서는 GPU가 직접 데이터 교환을 수행하여 높은 트래픽 발생
H100 + NVLink SHARP에서는 NVSwitch가 직접 연산을 수행하여 트래픽을 최적화
결과적으로, NVLink 대역폭을 효과적으로 2배 증가시키는 효과를 제공하여 AI 및 HPC 연산 성능 향상

👉 즉, NVLink SHARP는 최신 NVIDIA H100 시스템에서 AllReduce 성능을 최적화하여, 대규모 AI 모델 훈련 및 분산 컴퓨팅에서 필수적인 역할을 수행합니다. 🚀

'AI > NVIDIA' 카테고리의 다른 글

NVLink Network: 새로운 NVLink 네트워크 아키텍처 (0)	2025.02.23
NVLink Network for Raw Bandwidth (BW) (0)	2025.02.23
전통적인 AllReduce 계산 (Traditional AllReduce Calculation) (0)	2025.02.23
AllReduce in AI Training: AI 학습에서의 AllReduce 역할 (0)	2025.02.23
NVLink 4 NVSwitch 칩 아키텍처 상세 설명 (0)	2025.02.23

PREV 이전 1 2 NEXT 다음

Zeah Engineering Factory

nvswitch

DGX H100 SUPERPOD: NVLINK SWITCH 상세 설명

1. DGX H100 NVLink Switch 주요 사양

2. 주요 용어 및 기술 설명

(1) 1U 19-inch Form Factor

(2) Dual NVLink4 NVSwitch Chips

(3) 128 NVLink4 Ports

(4) 32 OSFP Cages

(5) 6.4 TB/s Full-Duplex Bandwidth

(6) Managed Switch with Out-of-Band Management

(7) Passive Copper, Active Copper, Optical OSFP Cables 지원

3. NVLink Switch의 역할과 장점

(1) AI 및 HPC 워크로드 가속

(2) 다수의 DGX H100 서버 연결 가능

(3) NVLink 및 InfiniBand를 동시에 활용 가능

(4) 효율적인 데이터센터 운영 지원

4. 결론

DGX H100 SUPERPOD의 NVLink Switch는 초고속 AI 및 HPC 네트워크를 위한 핵심 인프라

'AI > NVIDIA' 카테고리의 다른 글

NVLink Network의 전통적인 네트워킹과의 매핑

1. 표의 핵심 의미

2. NVLink Network와 기존 네트워크 스택 비교 분석

3. NVLink Network가 기존 네트워크와 다른 점

✅ (1) 독자적인 네트워크 스택 사용

✅ (2) NIC가 필요 없음

✅ (3) RDMA, Collectives Off-Load 같은 기능을 NVSwitch에서 직접 수행

✅ (4) 보안 기능 내장

4. NVLink Network의 의미

'AI > NVIDIA' 카테고리의 다른 글

NVLink Network for Raw Bandwidth (BW)

1. 좌측: NVLink 기반 Neural Recommender Engine 구조

✅ (1) Neural Recommender Engine의 병렬 학습 방식

✅ (2) Model-Parallel → Data-Parallel 변환 (All2All)

✅ (3) GPU 간 데이터 이동량 (Bandwidth 요구량)

2. 우측: NVLink vs. InfiniBand (IB) 대역폭 비교

3. NVLink의 효과 및 중요성

4. 결론

딥러닝 기반 추천 시스템: 모델 병렬과 데이터 병렬의 필요성

1. 추천 시스템에서 학습해야 할 주요 요소

✅ (1) 임베딩 테이블 (Embedding Tables)

✅ (2) 신경망 모델 (Neural Network, MLP or Transformer)

2. 모델 병렬(Model Parallel)과 데이터 병렬(Data Parallel)을 함께 사용해야 하는 이유

3. 모델 병렬과 데이터 병렬을 함께 사용해야 하는 이유 (예제 포함)

예제: Netflix 추천 시스템

✅ (1) 모델 병렬이 필요한 이유 (임베딩 테이블 분산)

✅ (2) 데이터 병렬이 필요한 이유 (신경망 모델 병렬 처리)

4. 모델 병렬(Model Parallel)과 데이터 병렬(Data Parallel)의 동작 방식

✅ (1) 모델 병렬 (Model Parallel)

✅ (2) 데이터 병렬 (Data Parallel)

5. 결론

1. 추천 시스템에서 NVLink 대역폭이 중요한 이유

✅ (1) 임베딩 테이블의 크기 문제

✅ (2) All2All 통신(모델 병렬 → 데이터 병렬 변환)

✅ (3) NVLink vs. InfiniBand(IB) 비교 시 추천 시스템이 가장 두드러진 차이를 보임

2. NVLink의 효과가 두드러지는 AI 워크로드

3. 결론

'AI > NVIDIA' 카테고리의 다른 글

NVLink SHARP Acceleration: NVLink 기반의 SHARP 가속화

1. NVLink SHARP란?

✅ NVLink SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)의 핵심 역할

2. 기존 A100 방식 vs. H100 + NVLink SHARP 방식 비교

✅ (1) 기존 A100 방식 (왼쪽)

✅ (2) H100 + NVLink SHARP 방식 (오른쪽)

3. 트래픽 요약 및 성능 향상 효과

4. 결론

'AI > NVIDIA' 카테고리의 다른 글

+ Recent posts

티스토리툴바