반응형

 

NVLink Network가 기존의 전통적인 네트워킹(Stack)과 어떻게 매핑되는지를 보여줍니다.
즉, 기존의 TCP/IP 기반 네트워크 모델(OSI 7 Layer)과 비교하여 NVLink Network가 GPU에 최적화된 네트워크 계층을 어떻게 구현하는지를 설명하는 것입니다.


1. 표의 핵심 의미

  • 기존 네트워크(이더넷, TCP/IP 기반)와 비교하여 NVLink Network가 어떻게 대응되는지 설명
  • NVLink Network는 GPU 내부 및 GPU 간의 데이터 전송을 최적화하기 위해 독자적인 네트워크 계층을 사용
  • 기존 네트워크 모델처럼 물리 계층, 데이터 링크 계층, 전송 계층 등이 존재하지만, GPU 환경에 맞게 최적화됨
  • RDMA, Collectives Off-Load 같은 기능이 NIC에서 수행되던 것처럼, NVSwitch에서 GPU 내부적으로 처리됨

2. NVLink Network와 기존 네트워크 스택 비교 분석

개념 (Concept)전통적인 네트워크 (Traditional Example)NVLink Network설명

Physical Layer 400G 전기/광 미디어 Custom-FW OSFP 물리적인 데이터 전송을 담당하는 계층. NVLink는 OSFP(Octal Small Form-factor Pluggable) 커넥터를 사용하여 직접 연결
Data Link Layer Ethernet NVLink 커스텀 온칩 HW & FW NVLink는 이더넷 대신 전용 하드웨어와 펌웨어를 사용하여 GPU 간 데이터 전송을 최적화
Network Layer IP (Internet Protocol) NVLink Network Addressing & Management 기존 IP 기반이 아닌 NVLink Network에서 자체적인 주소 체계를 사용하여 GPU 간 통신
Transport Layer TCP NVLink 커스텀 온칩 HW & FW TCP 대신 NVLink 전용 하드웨어/펌웨어를 사용하여 신뢰성 있는 데이터 전송을 처리
Session Layer Sockets SHARP groups, CUDA export of Network addresses 기존 소켓(Socket) 대신 SHARP(Scalable Hierarchical Aggregation and Reduction Protocol) 그룹을 활용하여 데이터 공유
Presentation Layer TSL/SSL (데이터 암호화) NCCL, NVSHMEM 전통적인 보안 계층 대신 GPU 최적화된 라이브러리(NCCL, NVSHMEM)를 통해 데이터 공유
Application Layer HTTP/FTP AI 프레임워크 또는 사용자 애플리케이션 GPU 기반 AI 프레임워크(TensorFlow, PyTorch 등)와 직접 통합 가능
NIC PCIe NIC (카드 or 칩) GPU 및 NVSwitch에 내장된 기능 NVLink Network는 별도의 NIC 없이 GPU 및 NVSwitch에 네트워크 기능을 내장
RDMA Off-Load NIC Off-Load Engine GPU 내부 Copy Engine NVLink에서는 RDMA(Remote Direct Memory Access) 기능을 GPU 내부에서 직접 수행
Collectives Off-Load NIC/Switch Off-Load Engine NVSwitch 내장 SHARP 엔진 AllReduce 같은 집계 연산을 NVSwitch에서 직접 수행
Security Off-Load NIC 보안 기능 GPU 내부 암호화 & "TLB" 방화벽 보안을 위해 GPU 내부에서 암호화 및 TLB(Translation Lookaside Buffer) 기반 방화벽 적용
Media Control NIC 케이블 어댑터 NVSwitch 내부 OSFP 케이블 컨트롤러 기존 네트워크처럼 케이블을 통한 물리적 연결을 NVSwitch에서 직접 관리

3. NVLink Network가 기존 네트워크와 다른 점

(1) 독자적인 네트워크 스택 사용

  • 기존 네트워크(TCP/IP) 기반이 아닌, GPU 간 초고속 데이터 전송을 위한 NVLink 전용 스택을 사용
  • NVSwitch를 중심으로 데이터 전송을 최적화

(2) NIC가 필요 없음

  • 기존 네트워크에서는 PCIe NIC(네트워크 카드)를 사용해야 했지만,
  • NVLink Network는 GPU 및 NVSwitch에 네트워크 기능을 내장하여 별도 NIC가 필요 없음

(3) RDMA, Collectives Off-Load 같은 기능을 NVSwitch에서 직접 수행

  • 기존 네트워크에서는 NIC가 RDMA 및 데이터 집계 연산(Collectives Off-Load)을 처리해야 했음
  • NVLink Network는 이러한 연산을 NVSwitch에서 직접 수행하여 GPU 성능 최적화

(4) 보안 기능 내장

  • 기존 TCP/IP 네트워크에서는 SSL/TLS 같은 보안 계층이 필요했지만,
  • NVLink Network는 GPU 내부에서 암호화 및 TLB 기반 방화벽을 제공하여 보안성 강화

4. NVLink Network의 의미

이 표에서 강조하는 핵심 메시지는 NVLink Network가 단순한 GPU 간 연결이 아니라, 완전한 네트워크 아키텍처를 제공한다는 것입니다.

즉, NVLink Network는 기존 네트워크(NIC, TCP/IP)와 비교할 수 있는 GPU 최적화 네트워크이며, 기존 이더넷 및 PCIe 네트워크보다 훨씬 높은 성능과 낮은 지연시간을 제공할 수 있도록 설계되었습니다.

✅ 요약하면:

  • NVLink Network는 기존 TCP/IP 네트워크와 유사한 계층을 가지지만, 모든 기능이 GPU에 최적화됨
  • NVSwitch를 활용하여 GPU 간 데이터를 빠르게 교환하며, 기존 네트워크의 병목 문제를 해결
  • NIC 없이 GPU와 NVSwitch에 직접 네트워크 기능을 내장하여, 별도의 네트워크 카드 없이 고속 데이터 교환 가능
  • RDMA, Collectives Off-Load 같은 연산을 NVSwitch에서 직접 처리하여, CPU 개입 없이 고속 데이터 처리 가능

👉 즉, NVLink Network는 기존의 TCP/IP 기반 네트워크를 GPU 환경에 최적화한 형태로, AI 및 고성능 컴퓨팅(HPC)에서 최대한의 성능을 제공하기 위해 설계되었습니다. 🚀

반응형

+ Recent posts