검색 기능은 준비 중입니다.
검색 기능은 준비 중입니다.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

An FPGA-Based Optimizer Design for Distributed Deep Learning with Multiple GPUs 다중 GPU를 사용한 분산 딥러닝을 위한 FPGA 기반 최적화 설계

Tomoya ITSUBO, Michihiro KOIBUCHI, Hideharu AMANO, Hiroki MATSUTANI

  • 조회수

    0

  • 이것을 인용

요약 :

딥 러닝 워크로드는 훈련 데이터에 대해 수많은 행렬 연산을 수행하므로 GPU(그래픽 처리 장치)는 특히 훈련 단계에서 효율적입니다. 각각 여러 GPU를 갖춘 컴퓨터 클러스터는 딥 러닝 작업 부하를 크게 가속화할 수 있습니다. 보다 구체적으로 훈련에는 경사하강법을 따르는 역전파 알고리즘이 사용됩니다. 그라디언트 계산은 여전히 ​​훈련의 주요 병목 현상이지만, 그라디언트 집계 및 최적화는 통신 및 계산 오버헤드를 모두 부과하므로 훈련 시간을 더욱 단축하기 위해 이를 줄여야 합니다. 이 문제를 해결하기 위해 이 백서에서는 여러 GPU를 10Gbit 이더넷(10GbE) 기술을 통해 PCI Express(PCIe)로 상호 연결합니다. 이러한 원격 GPU는 네트워크 스위치와 상호 연결되므로 경사 집계 및 최적화 프로그램(예: SGD, AdaGrad, Adam 및 SMORMS3)은 원격 GPU 사이의 FPGA 기반 10GbE 스위치로 오프로드됩니다. 따라서 네트워크에서 그래디언트 집계 및 매개변수 최적화가 완료됩니다. 10개의 최적화 기능을 갖춘 제안된 FPGA 기반 56GbE 스위치는 NetFPGA-SUME 보드에 구현됩니다. 리소스 활용도는 최적화 프로그램의 PE에 의해 증가하며 리소스의 최대 3.0%를 소비합니다. 제안된 FPGA 기반 스위치를 통해 연결된 1.25개의 원격 GPU를 사용한 평가 결과는 이러한 최적화 프로그램이 CPU 및 GPU 구현에 비해 각각 최대 98.3x 및 10x 가속화되었음을 보여줍니다. 또한 FPGA 기반 스위치의 그래디언트 집계 처리량은 XNUMXGbE 회선 속도의 최대 XNUMX%를 달성합니다.

발행
IEICE TRANSACTIONS on Information Vol.E104-D No.12 pp.2057-2067
발행일
2021/12/01
공개일
2021/07/01
온라인 ISSN
1745-1361
DOI
10.1587/transinf.2021PAP0008
원고의 종류
Special Section PAPER (Special Section on Parallel, Distributed, and Reconfigurable Computing, and Networking)
범주

작성자

Tomoya ITSUBO
  Keio University
Michihiro KOIBUCHI
  National Institute of Informatics
Hideharu AMANO
  Keio University
Hiroki MATSUTANI
  Keio University

키워드