(46-1) 18 * << * >> * Русский * English * Содержание * Все выпуски
  
Повышение энергоэффективности нейросетевых вычислений с использованием NVDLA на ПЛИС
Е.С. Носкова 1, И.Е. Захаров 1, Ю.Н. Шкандыбин 1, С.Г. Рыкованов 1
   1 Сколковский институт наук и технологий,
121205, Россия, г. Москва, ул. Большой бульвар, д. 30, стр.1
  PDF, 903 kB
DOI: 10.18287/2412-6179-CO-914
Страницы: 160-166.
Аннотация:
На сегодняшний день  актуальна проблема создания высокопроизводительных и энергоэффективных  аппаратных платформ для решения задач искусственного интеллекта. Популярным  решением этой проблемы является использование ускорителей глубокого обучения  для запуска нейросетей, таких как графические процессорные устройства и тензорные  процессорные устройства. Компания NVIDIA предлагает программный комплекс NVDLA,  позволяющий конструировать нейросетевые ускорители на базе открытого исходного  кода. Данная статья описывает полный цикл создания прототипа ускорителя NVDLA  на ПЛИС, а также тестирование полученного решения путем запуска на нем нейронной  сети Resnet-50. В завершение предоставляется оценка производительности и энергопотребления  прототипа NVDLA ускорителя относительно GPU и CPU, результаты которой  показывают превосходство NVDLA по многим характеристикам.
Ключевые слова:
NVDLA, ПЛИС, inference, нейросетевые ускорители.
Цитирование:
Носкова, Е.С. Повышение энергоэффективности нейросетевых вычислений с использованием NVDLA на ПЛИС/ Е.С. Носкова, И.Е. Захаров, Ю.Н. Шкандыбин, С.Г. Рыкованов // Компьютерная оптика. – 2022. – Т. 46, № 1. – С. 160-166. – DOI: 10.18287/2412-6179-CO-914.
Citation:
Noskova ES, Zakharov IE, Shkandybin YN, Rykovanov SG. Towards energy-efficient neural network calculations. Computer Optics 2022; 46(1): 160-166. DOI: 10.18287/2412-6179-CO-914.
References:
  - Goodfellow I, Bengio Y,  Courville A. Deep learning. Cambridge:  The MIT Press; 2016.
 
  - Zacharov I, Arslanov R,  Gunin M, Stefonishin D, Pavlov S, Panarin O, Maliutin A, Rykovanov SG, Fedorov  M. “Zhores” – Petaflops supercomputer for data-driven modeling, machine  learning and artificial intelligence installed in Skolkovo Institute of Science  and Technology. Open Eng 2019; 9(1): 512-520. 
     - Shaw  DE, Deneroff MM, Dror RO, et al. Anton, a special-purpose machine for molecular  dynamics simulation. Commun ACM 2008; 51(7): 91-97.
       - Singer  G. Deep Learning is coming of age. 2018. Source: <https://www.nextplatform.com/2018/10/18/deep-learning-is-coming-of-age/>.
       - Merenda M, Porcaro C, Iero D. Machine  learning for AI-enabled IoT devices: a review. Sensors 2020; 20(9): 2533.
       - Park  J, Naumov M, Basu P, et al. Deep learning inference in facebook data centers:  Characterization, performance optimizations and hardware implications. arXiv  preprint arXiv:1811.09886. 2018. Source: <https://arxiv.org/abs/1811.09886>.
       - Mishra  A, Nurvitadhi E, Cook J. Marr D. WRPN: Wide reduced-precision networks. ICLR  (Poster) 2018.
       - Chen Y, Xie Y, Song L, Chen F, Tang  T. A survey of accelerator architectures for deep neural networks. Engineering  2020; 6(3):  264-274.
       - Jouppi  NP, Young C, Patil N, et al. In-datacenter performance analysis of a tensor  processing unit. Proc 44th Annual int  Symposium on Computer Architecture 2017: 1-12.
       - Guo  K, Zeng S, Yu J, Wang Y, Yang H. A survey of FPGA-based neural network accelerator.  arXiv preprint arXiv:1712.08934. 2017. Source: <https://arxiv.org/abs/1712.08934>. 
       - NVDLA.  <Source: http://nvdla.org/>.
       - Jia  Y, Shelhamer E, Donahue J, Karayev S, Long J, Girshick RB, Guadarrama S,  Darrell T. Caffe: Convolutional architecture for fast feature embedding. Proc  22nd ACM Int Conf on Multimedia 2014: 675-678.
       - Tan  Z, Waterman A, Cook H, Bird S, Asanovic K, Patterson D. A case for FAME: FPGA  architecture model execution. ACM SIGARCH Computer Architecture News 2010;  38(3): 290-301.
       - BeagleV  Forum. Source: <https://beagleboard.org/beaglev>.
       - The  economics of ASICs: At what point does a custom SoC become viable? Source: <https://www.electronicdesign.com/technologies/embedded-revolution/article/21808278/the-economics-of-asics-at-what-point-does-a-custom-soc-become-viable>.
       - Xilinx  Zynq UltraScale+ MPSoCZCU104 evaluation kit. Source: <https://www.electronicdesign.com/technologies/embedded-revolution/article/21808278/the-economics-of-asics-at-what-point-does-a-custom-soc-become-viable>.
       - Delbergue  G, Burton M, Konrad F, Le Gal B, Jego C. QBox: An industrial solution for  virtual platform simulation using QEMU and SystemC TLM-2.0. 8th  European Congress on Embedded Real Time Software and Systems (ERTS 2016) 2016:  hal-01292317.
       - The Xilinx Vivado. Source: <https://www.xilinx.com/products/design-tools/vivado.html>.
       - Farshchi F, Huang Q, Yun H.  Integrating NVIDIA deep learning accelerator (NVDLA) with RISC-V SoC on FireSim.  2019 2nd Workshop on Energy Efficient Machine Learning and Cognitive  Computing for Embedded Applications (EMC2) 2019: 21-25.
       - He K, Zhang X, Ren S, Sun J. Deep  residual learning for image recognition. 2016 IEEE Conf on Computer Vision and  Pattern Recognition (CVPR) 2016: 770-778.
       - UltraScale+  FPGA product tables and product selection guide. Source: <https://www.xilinx.com/support/documentation/selection-guides/ultrascale-plus-fpga-product-selection-guide.pdf>.
       - GeForce GTX 1080 Ti. Source: <https://www.nvidia.com/en-sg/geforce/products/10series/geforce-gtx-1080-ti/>.
       - GeForce RTX 2080 Ti. Source: <https://www.nvidia.com/ru-ru/geforce/graphics-cards/rtx-2080-ti/>.
       - Second  Generation Intel Xeon scalable processors datasheet. Source: <https://www.intel.ru/content/www/ru/ru/products/docs/processors/xeon/2nd-gen-xeon-scalable-datasheet-vol-1.html>.
       - Likwid  perfctr. Source: <https://github.com/RRZE-HPC/likwid/wiki/likwid-perfctr>.
       - TechPowerUp.  NVIDIA GeForce RTX 2080 Ti. Source: <https://www.techpowerup.com/gpu-specs/geforce-rtx-2080-ti.c3305>.
       - TechPowerUp.  NVIDIA GeForce GTX 1080 Ti. Source: <https://www.techpowerup.com/gpu-specs/geforce-gtx-1080-ti.c2877>.
       - Zakharov IE, Panarin OA, Rykovanov  SG, Zagidullin RR, Malyutin AK, Shkandybin YuN, Ermekova AE. Monitoring  applications on the ZHORES cluster at Skoltech. Program systems: Theory and Applications 2021; 12(2:49): 73-103.       
      
 - Panarin OА, Zacharov IE. Monitoring mobile information processing systems. Russian  Digital Libraries Journal 2020; 23(4): 835-847. 
        
        
       
  
  © 2009, IPSI RAS
    Россия, 443001, Самара, ул. Молодогвардейская, 151; электронная почта: journal@computeroptics.ru; тел: +7  (846)  242-41-24 (ответственный секретарь), +7 (846) 332-56-22 (технический  редактор), факс: +7 (846) 332-56-20