英伟达宣布了一系列新技术和合作伙伴关系,将其潜在的推理市场扩大到全球3000万台超大服务器,同时大幅降低提供深度学习服务的成本。
在GTC 2018的开幕主题演讲上,英伟达创始人兼首席执行官Jensen Huang描述了深度学习推理的GPU加速如何获得关注,以及在数据中心和汽车应用中对语音识别、自然语言处理、推荐系统和图像识别等功能的新支持。以及机器人和无人机等嵌入式设备。
NVIDIA宣布了其Tensorrt推理软件的新版本,并将RensorR集成到Google流行的Tensorflow框架中。NVIDIA还宣布了Kaldi,最受欢迎的语音识别框架,现在针对GPU进行了优化。NVIDIA与亚马逊,Facebook和Microsoft等合作伙伴的密切合作使开发人员更容易使用OnNX和WinML来利用GPU加速。
英伟达加速计算副总裁兼总经理Ian Buck表示:“用于深度学习推理的GPU加速可以让最大的神经网络以最低的成本实时运行。“随着对更多智能应用程序和框架的支持迅速扩大,我们现在可以提高深度学习的质量,帮助降低3000万台超大服务器的成本。”
TensorRT TensorFlow集成
英伟达(Nvidia)推出了TensorRT 4软件,可以在广泛的应用程序中加速深度学习推理。TensorRT提供高精度的INT8和FP16网络执行,可将数据中心成本削减高达70%。
Tensorrt 4可用于在超高度的数据中心,嵌入式和汽车GPU平台中快速优化,验证和部署训练的神经网络。与计算机视觉,神经机翻译,自动语音识别,语音合成和推荐系统等常见应用相比,新软件可提供高达190x2的深度学习推断。
为了进一步简化开发,Nvidia和谷歌的工程师将TensorRT集成到TensorFlow 1.7中,使其更容易在gpu上运行深度学习推理应用程序。
谷歌工程总监Rajat Monga表示,“Tensorflow团队与NVIDIA密切合作,为NVIDIA GPU带来了最佳表现,深入学习界。Tensorflow与NVIDIA Tensorr的集成现在在具有Volta TensoR核心技术的NVIDIA深度学习平台上提供高达8x的推理吞吐量(与低延迟目标中的常规GPU执行相比),为Tensorflow中的GPU推理提供了最高性能。“
英伟达优化了世界领先的语音框架Kaldi,在gpu上实现更快的性能。GPU语音加速将为消费者带来更精确和有用的虚拟助手,并降低数据中心运营商的部署成本。
广泛的行业支持
世界各地许多公司的开发人员都在使用TensorRT从数据中发现新的见解,并为企业和消费者部署智能服务。
NVIDIA工程师与亚马逊,Facebook和Microsoft密切合作,以确保开发人员使用Caffe 2,Chainer,CNTK,MXNet和Pytorch的ONNX框架可以轻松地部署到NVIDIA深度学习平台。
Markus Noga,SAP机器学习头部表示,“在我们对Rensorrt的评估中,我们在NVIDIA Tesla V100 GPU上运行了我们的深度学习的推荐应用程序,我们的推断速度和吞吐量增加了45倍,而基于CPU的平台相比。我们相信统治对企业客户来说可能会大大提高生产力。“
Twitter Koumchatzky Twitter Koumchatzky表示,“使用GPU使得可以在我们的平台上实现媒体理解,而不仅仅是通过大幅减少媒体深度学习模型培训时间,而且还通过允许我们获得对现场视频的实时了解在推理时间。“
Microsoft还宣布了AI对Windows 10应用程序的支持。NVIDIA与Microsoft合作,构建GPU加速的工具,以帮助开发人员在Windows应用程序中纳入更多智能功能。
Nvidia还宣布了针对Kubernetes的GPU加速,以促进企业在多云GPU集群上的推理部署。英伟达正在为开源社区贡献GPU增强功能,以支持Kubernetes生态系统。此外,MATLAB软件制造商MathWorks今天宣布了TensorRT与MATLAB的集成。工程师和科学家现在可以从MATLAB为Jetson、Nvidia Drive和Tesla平台自动生成高性能推理引擎。
数据中心的推论
数据中心管理人员经常在性能和效率之间进行平衡,以保持服务器群的最大生产力。Nvidia Tesla gpu加速服务器可以替代多个机架的CPU服务器,用于深度学习推理应用程序和服务,释放宝贵的机架空间,减少能源和冷却需求。
对于自动驾驶汽车,嵌入式TensorRT也可以部署在Nvidia DRIVE自动驾驶汽车和Nvidia Jetson嵌入式平台上。每个框架上的深度神经网络都可以在数据中心的Nvidia DGX系统上进行训练,然后部署到所有类型的设备上——从机器人到自动驾驶汽车——以便在边缘进行实时推断。使用TensorRT,开发人员可以专注于开发新的深度学习驱动的应用程序,而不是为推理部署进行性能调优。开发人员可以使用TensorRT提供使用INT8或FP16精度的闪电般的快速推断,这可以显著降低延迟,这对于嵌入式和汽车平台上的对象检测和路径规划等功能至关重要。
NVIDIA开发计划的成员可以了解Tensorrt 4发布候选人的更多信息:https://developer.nvidia.com/tensorrt.
了下:所有行业新闻•概况•评论,汽车



