NVIDIA扩展了其对超越数据中心的深度学习推理功能

nvidia. 英伟达宣布了一系列新技术和合作伙伴关系，将其潜在的推理市场扩大到全球3000万台超大服务器，同时大幅降低提供深度学习服务的成本。

在GTC 2018的开幕主题演讲上，英伟达创始人兼首席执行官Jensen Huang描述了深度学习推理的GPU加速如何获得关注，以及在数据中心和汽车应用中对语音识别、自然语言处理、推荐系统和图像识别等功能的新支持。以及机器人和无人机等嵌入式设备。

NVIDIA宣布了其Tensorrt推理软件的新版本，并将RensorR集成到Google流行的Tensorflow框架中。NVIDIA还宣布了Kaldi，最受欢迎的语音识别框架，现在针对GPU进行了优化。NVIDIA与亚马逊，Facebook和Microsoft等合作伙伴的密切合作使开发人员更容易使用OnNX和WinML来利用GPU加速。

英伟达加速计算副总裁兼总经理Ian Buck表示:“用于深度学习推理的GPU加速可以让最大的神经网络以最低的成本实时运行。“随着对更多智能应用程序和框架的支持迅速扩大，我们现在可以提高深度学习的质量，帮助降低3000万台超大服务器的成本。”

TensorRT TensorFlow集成
英伟达(Nvidia)推出了TensorRT 4软件，可以在广泛的应用程序中加速深度学习推理。TensorRT提供高精度的INT8和FP16网络执行，可将数据中心成本削减高达70%。

Tensorrt 4可用于在超高度的数据中心，嵌入式和汽车GPU平台中快速优化，验证和部署训练的神经网络。与计算机视觉，神经机翻译，自动语音识别，语音合成和推荐系统等常见应用相比，新软件可提供高达190x2的深度学习推断。

为了进一步简化开发，Nvidia和谷歌的工程师将TensorRT集成到TensorFlow 1.7中，使其更容易在gpu上运行深度学习推理应用程序。

谷歌工程总监Rajat Monga表示，“Tensorflow团队与NVIDIA密切合作，为NVIDIA GPU带来了最佳表现，深入学习界。Tensorflow与NVIDIA Tensorr的集成现在在具有Volta TensoR核心技术的NVIDIA深度学习平台上提供高达8x的推理吞吐量（与低延迟目标中的常规GPU执行相比），为Tensorflow中的GPU推理提供了最高性能。“

英伟达优化了世界领先的语音框架Kaldi，在gpu上实现更快的性能。GPU语音加速将为消费者带来更精确和有用的虚拟助手，并降低数据中心运营商的部署成本。

广泛的行业支持
世界各地许多公司的开发人员都在使用TensorRT从数据中发现新的见解，并为企业和消费者部署智能服务。

NVIDIA工程师与亚马逊，Facebook和Microsoft密切合作，以确保开发人员使用Caffe 2，Chainer，CNTK，MXNet和Pytorch的ONNX框架可以轻松地部署到NVIDIA深度学习平台。

Markus Noga，SAP机器学习头部表示，“在我们对Rensorrt的评估中，我们在NVIDIA Tesla V100 GPU上运行了我们的深度学习的推荐应用程序，我们的推断速度和吞吐量增加了45倍，而基于CPU的平台相比。我们相信统治对企业客户来说可能会大大提高生产力。“

Twitter Koumchatzky Twitter Koumchatzky表示，“使用GPU使得可以在我们的平台上实现媒体理解，而不仅仅是通过大幅减少媒体深度学习模型培训时间，而且还通过允许我们获得对现场视频的实时了解在推理时间。“

Microsoft还宣布了AI对Windows 10应用程序的支持。NVIDIA与Microsoft合作，构建GPU加速的工具，以帮助开发人员在Windows应用程序中纳入更多智能功能。

Nvidia还宣布了针对Kubernetes的GPU加速，以促进企业在多云GPU集群上的推理部署。英伟达正在为开源社区贡献GPU增强功能，以支持Kubernetes生态系统。此外，MATLAB软件制造商MathWorks今天宣布了TensorRT与MATLAB的集成。工程师和科学家现在可以从MATLAB为Jetson、Nvidia Drive和Tesla平台自动生成高性能推理引擎。

数据中心的推论
数据中心管理人员经常在性能和效率之间进行平衡，以保持服务器群的最大生产力。Nvidia Tesla gpu加速服务器可以替代多个机架的CPU服务器，用于深度学习推理应用程序和服务，释放宝贵的机架空间，减少能源和冷却需求。

对于自动驾驶汽车，嵌入式TensorRT也可以部署在Nvidia DRIVE自动驾驶汽车和Nvidia Jetson嵌入式平台上。每个框架上的深度神经网络都可以在数据中心的Nvidia DGX系统上进行训练，然后部署到所有类型的设备上——从机器人到自动驾驶汽车——以便在边缘进行实时推断。使用TensorRT，开发人员可以专注于开发新的深度学习驱动的应用程序，而不是为推理部署进行性能调优。开发人员可以使用TensorRT提供使用INT8或FP16精度的闪电般的快速推断，这可以显著降低延迟，这对于嵌入式和汽车平台上的对象检测和路径规划等功能至关重要。

NVIDIA开发计划的成员可以了解Tensorrt 4发布候选人的更多信息：https://developer.nvidia.com/tensorrt．