반응형

NVLink Network가 기존의 전통적인 네트워킹(Stack)과 어떻게 매핑되는지를 보여줍니다.
즉, 기존의 TCP/IP 기반 네트워크 모델(OSI 7 Layer)과 비교하여 NVLink Network가 GPU에 최적화된 네트워크 계층을 어떻게 구현하는지를 설명하는 것입니다.
1. 표의 핵심 의미
- 기존 네트워크(이더넷, TCP/IP 기반)와 비교하여 NVLink Network가 어떻게 대응되는지 설명
- NVLink Network는 GPU 내부 및 GPU 간의 데이터 전송을 최적화하기 위해 독자적인 네트워크 계층을 사용
- 기존 네트워크 모델처럼 물리 계층, 데이터 링크 계층, 전송 계층 등이 존재하지만, GPU 환경에 맞게 최적화됨
- RDMA, Collectives Off-Load 같은 기능이 NIC에서 수행되던 것처럼, NVSwitch에서 GPU 내부적으로 처리됨
2. NVLink Network와 기존 네트워크 스택 비교 분석
개념 (Concept)전통적인 네트워크 (Traditional Example)NVLink Network설명
| Physical Layer | 400G 전기/광 미디어 | Custom-FW OSFP | 물리적인 데이터 전송을 담당하는 계층. NVLink는 OSFP(Octal Small Form-factor Pluggable) 커넥터를 사용하여 직접 연결 |
| Data Link Layer | Ethernet | NVLink 커스텀 온칩 HW & FW | NVLink는 이더넷 대신 전용 하드웨어와 펌웨어를 사용하여 GPU 간 데이터 전송을 최적화 |
| Network Layer | IP (Internet Protocol) | NVLink Network Addressing & Management | 기존 IP 기반이 아닌 NVLink Network에서 자체적인 주소 체계를 사용하여 GPU 간 통신 |
| Transport Layer | TCP | NVLink 커스텀 온칩 HW & FW | TCP 대신 NVLink 전용 하드웨어/펌웨어를 사용하여 신뢰성 있는 데이터 전송을 처리 |
| Session Layer | Sockets | SHARP groups, CUDA export of Network addresses | 기존 소켓(Socket) 대신 SHARP(Scalable Hierarchical Aggregation and Reduction Protocol) 그룹을 활용하여 데이터 공유 |
| Presentation Layer | TSL/SSL (데이터 암호화) | NCCL, NVSHMEM | 전통적인 보안 계층 대신 GPU 최적화된 라이브러리(NCCL, NVSHMEM)를 통해 데이터 공유 |
| Application Layer | HTTP/FTP | AI 프레임워크 또는 사용자 애플리케이션 | GPU 기반 AI 프레임워크(TensorFlow, PyTorch 등)와 직접 통합 가능 |
| NIC | PCIe NIC (카드 or 칩) | GPU 및 NVSwitch에 내장된 기능 | NVLink Network는 별도의 NIC 없이 GPU 및 NVSwitch에 네트워크 기능을 내장 |
| RDMA Off-Load | NIC Off-Load Engine | GPU 내부 Copy Engine | NVLink에서는 RDMA(Remote Direct Memory Access) 기능을 GPU 내부에서 직접 수행 |
| Collectives Off-Load | NIC/Switch Off-Load Engine | NVSwitch 내장 SHARP 엔진 | AllReduce 같은 집계 연산을 NVSwitch에서 직접 수행 |
| Security Off-Load | NIC 보안 기능 | GPU 내부 암호화 & "TLB" 방화벽 | 보안을 위해 GPU 내부에서 암호화 및 TLB(Translation Lookaside Buffer) 기반 방화벽 적용 |
| Media Control | NIC 케이블 어댑터 | NVSwitch 내부 OSFP 케이블 컨트롤러 | 기존 네트워크처럼 케이블을 통한 물리적 연결을 NVSwitch에서 직접 관리 |
3. NVLink Network가 기존 네트워크와 다른 점
✅ (1) 독자적인 네트워크 스택 사용
- 기존 네트워크(TCP/IP) 기반이 아닌, GPU 간 초고속 데이터 전송을 위한 NVLink 전용 스택을 사용
- NVSwitch를 중심으로 데이터 전송을 최적화
✅ (2) NIC가 필요 없음
- 기존 네트워크에서는 PCIe NIC(네트워크 카드)를 사용해야 했지만,
- NVLink Network는 GPU 및 NVSwitch에 네트워크 기능을 내장하여 별도 NIC가 필요 없음
✅ (3) RDMA, Collectives Off-Load 같은 기능을 NVSwitch에서 직접 수행
- 기존 네트워크에서는 NIC가 RDMA 및 데이터 집계 연산(Collectives Off-Load)을 처리해야 했음
- NVLink Network는 이러한 연산을 NVSwitch에서 직접 수행하여 GPU 성능 최적화
✅ (4) 보안 기능 내장
- 기존 TCP/IP 네트워크에서는 SSL/TLS 같은 보안 계층이 필요했지만,
- NVLink Network는 GPU 내부에서 암호화 및 TLB 기반 방화벽을 제공하여 보안성 강화
4. NVLink Network의 의미
이 표에서 강조하는 핵심 메시지는 NVLink Network가 단순한 GPU 간 연결이 아니라, 완전한 네트워크 아키텍처를 제공한다는 것입니다.
즉, NVLink Network는 기존 네트워크(NIC, TCP/IP)와 비교할 수 있는 GPU 최적화 네트워크이며, 기존 이더넷 및 PCIe 네트워크보다 훨씬 높은 성능과 낮은 지연시간을 제공할 수 있도록 설계되었습니다.
✅ 요약하면:
- NVLink Network는 기존 TCP/IP 네트워크와 유사한 계층을 가지지만, 모든 기능이 GPU에 최적화됨
- NVSwitch를 활용하여 GPU 간 데이터를 빠르게 교환하며, 기존 네트워크의 병목 문제를 해결
- NIC 없이 GPU와 NVSwitch에 직접 네트워크 기능을 내장하여, 별도의 네트워크 카드 없이 고속 데이터 교환 가능
- RDMA, Collectives Off-Load 같은 연산을 NVSwitch에서 직접 처리하여, CPU 개입 없이 고속 데이터 처리 가능
👉 즉, NVLink Network는 기존의 TCP/IP 기반 네트워크를 GPU 환경에 최적화한 형태로, AI 및 고성능 컴퓨팅(HPC)에서 최대한의 성능을 제공하기 위해 설계되었습니다. 🚀
반응형
'AI > NVIDIA' 카테고리의 다른 글
| DGX H100 SERVER 상세 분석 (0) | 2025.02.24 |
|---|---|
| NVLink4 NVSwitch 블록 다이어그램 상세 분석 (2) | 2025.02.24 |
| NVLink Network: 새로운 NVLink 네트워크 아키텍처 (0) | 2025.02.23 |
| NVLink Network for Raw Bandwidth (BW) (0) | 2025.02.23 |
| NVLink SHARP Acceleration: NVLink 기반의 SHARP 가속화 (0) | 2025.02.23 |