视频长度为 30:48

嵌入式GPU和CPU的深度学习网络部署

由于嵌入式设备与生俱来的资源限制,设计并部署深度学习或计算机视觉应用到嵌入式CPU或者GPU平台中,是一个颇具挑战的工作。基于MATLAB®的工作流程便于设计这类应用程序,自动生成的C或CUDA®代码可以部署在Jetson TX2和DRIVE™PX等开发板上,并实现高速推断。

本次演讲将介绍在MATLAB如何开发深度学习应用的所有阶段。首先,从针对计算机视觉的深度学习网络的设计开始,并在MATLAB进行算法测试和验证。接下来,将演示在桌面、集群或者云上使用GPU和MATLAB并行计算进行训练。随后,GPU Coder™ 从MATLAB算法中自动生成可移植、优化的C/C++ 和/或 CUDA®代码。最后,将其交叉编译并部署到CPU和/或Tegra® 开发板。基准测试表明,自动生成的CUDA代码的性能比MXNet快大约2.5倍,比Caffe2快5倍,比TensorFlow®快7倍,并且与TensorRT™实现相当。

录制日期: 2018 年 5 月 22 日