来自科技 2019-12-19 15:03 的文章

黄仁勋推新自动驾驶芯片！性能飙7倍，牵手BAT滴

看点：黄教主抛12项硬核更新！聚焦AI、自动驾驶、游戏、HPC四大方向。

智东西12月18日苏州报道，又到了一年一度的NVIDIA GTC China大会，这次，NVIDIA创始人兼CEO黄仁勋将焦点放在四大主题：人工智能（AI）、汽车、游戏和HPC。

黄仁勋说，这是迄今为止最大规模的GTC China，与会人数达到6100，较三年前的2400人增加250%。

黄仁勋宣布一系列NVIDIA新品及合作进展，核心内容如下：

1、百度、阿里使用NVIDIA AI平台做推荐系统；

2、推出第七代推理优化软件TensorRT 7，进一步优化实时会话式AI，T4 GPU上推理延迟是CPU的1/10；

3、NVIDIA AI推理平台在全世界范围内得到了广泛的应用；

4、推出软件定义的AV平台、新一代自动驾驶和机器人SoC Orin，算力达200TOPS，计划于2022年开始投产；

5、向交通运输行业开源NVIDIA DRIVE自动驾驶汽车深度神经网络，在NGC上推出NVIDIA DRIVE预训练模型；

6、滴滴将在数据中心使用NVIDIA GPU训练机器学习算法，并采用NVIDIA DRIVE为其L4级自动驾驶汽车提供推理能力；

7、推出全新版本NVIDIA ISAAC软件开发套件SDK，为机器人提供更新AI感知和仿真功能；

8、宣布六款支持RTX技术的游戏；

9、腾讯与NVIDIA合作推出START云游戏服务，在中国将电脑游戏体验引入云端；

10、宣布全亚洲最大云渲染平台瑞云云渲染平台将配备NVIDIA RTX GPU，首批5000片RTX GPU将在2020年上线；

11、发布面向建筑行业（AEC）的Omniverse开放式3D设计协作平台；

12、面向基因组测序，黄仁勋发布CUDA加速的基因组分析工具包NVIDIA Parabricks。

AI：入驻百度阿里推荐系统，推出新一代TensorRT软件

自2012年Alex Krivzhevsky使用NVIDIA Kepler GPU赢得ImageNet竞赛以来，NVIDIA在5年内将训练性能提升300倍。

借助Volta、新Tensor Core GPU、Chip-on-wafer封装、HBM 3D堆栈存储器、NVLink和DGX系统组合，NVIDIA正助力更多AI研究。

AI将从云扩展到边缘，NVIDIA正为以下每种用例分别打造一个平台：用于训练的DGX，用于超大规模云的HGX，用于边缘的EGX和用于自治系统的AGX。

1、百度、阿里推荐系统采用NVIDIA GPU

黄仁勋说，互联网一个最重要的机器学习模型是推荐系统模型。

没有推荐系统，人们就无法从上亿次网页检索、几十亿淘宝商品、几十亿抖音短视频、各种网络新闻、推文和照片中找到自己需要的内容。

深度学习可实现自动特征学习，支持非结构化内容数据，通过加速缩短延迟并提高吞吐率。

总体来看，做推荐系统面临两大挑战：海量数据带来的复杂模型处理任务，以及让用户立即看到推荐结果的实时性要求。

针对这一问题，百度提出AI-Box解决方案来训练高级的大规模推荐系统。

百度AI-Box是Wide and Deep结构，采用NVIDIA AI平台，基于NVIDIA GPU训练TB级数据，速度比CPU更快的同时，训练成本仅有CPU的1/10，且支持更大规模的模型训练。

同样，阿里做的推荐系统也选用了NVIDIA AI平台。

今年“双十一”当日，阿里的销售额超过了380亿美元的商品，电商网站上共列出约20亿类商品，有5亿用户在购物，一天销售额达2684亿，每秒几十亿次推荐请求。

如果一位用户花1秒看1个产品，那么看完所有商品要花32年的时间。

对此，阿里使用NVIDIA T4 GPU来训练推荐系统，这使得每当用户点击一个商品，就会看到其他相关推荐商品。

原先使用CPU速度较慢，仅3QPS，而NVIDIA GPU将速度提升至780QPS。

2、推出第七代推理优化软件TensorRT

现场，黄仁勋宣布正式推出第七代推理优化编译器TensorRT 7，支持RNN、Transformer和CNN。

TensorRT是NVIDIA针对神经网络推理阶段提供的加速软件，它能通过提供优化的AI模型来大幅提升性能。

去年在GTC China大会上发布的TensorRT 5仅支持CNN，只支持30种变换，而TensorRT 7面向Transformer和RNN做了大量优化，能以更少内存实现高效运算，并支持1000多种计算变换和优化。

TensorRT 7能融合水平和垂直方向的运算，可为开发者设计的大量RNN配置自动生成代码，逐点融合LSTM单元，甚至可跨多个时间步长进行融合，并尽可能做自动低精度推理。

此外，NVIDIA在TensorRT 7中引入一个内核生成功能，用任何RNN可生成一个优化的内核。

会话式AI是TensorRT 7强大功能的典型代表。

其功能非常复杂，比如一个用户用英文说了一句话，要把它翻译成中文，这个过程需要先将英文口语转化成文字，理解这段文字，然后转化成想要的语言，再通过语音合成将这段文字转化成语音。

一套端到端会话式AI的流程可能由二三十种模型组成，用到CNN、RNN、Transformer、自编码器、NLP等多种模型结构。

推理会话式AI，CPU的推理延迟是3秒，现在使用TensorRT 7在T4 GPU上推理仅0.3s就完成，比CPU快10倍。

3、NVIDIA AI平台得到广泛的应用

另外，快手、美团等互联网公司也在用NVIDIA AI平台做深度推荐系统，以提高点击率，并降低延迟和提高吞吐量，更好理解和满足用户需求。

例如，美团用户想找一个餐厅或者是找酒店，都是通过用户的搜索来实现的。

会话式AI需要可编程性、丰富的软件推展及低GPU延迟。包含这些模型在内的NVIDIA AI平台将为智能云提供支持。

NVIDIA EGX是面向边缘AI应用打造的一体化AI云，专为流式AI应用程序、Kubernetes容器编排、保护动态数据和静态数据安全而打造，已连接到所有物联网云。

比如，沃尔玛使用它进行智能结账，美国邮政服务在EGX上通过计算机视觉分类邮件，爱立信将在EGX服务器上运行5G vRAN和AI物联网。

推出新一代汽车SoC，算力200TOPS

NVIDIA DRIVE是一个端到端AV自动驾驶平台，该平台由软件定义，而非固定功能的芯片，使得大量开发人员可按照持续集成、持续交付的开发方式进行协作。

黄仁勋表示，将在NGC容器注册上，向交通运输行业开源NVIDIA DRIVE自动驾驶汽车深度神经网络。

1、下一代自动驾驶处理器ORIN，算力是Xavier的7倍

NVIDIA发布NVIDIA DRIVE AGX Orin，它是新一代自动驾驶和机器人处理器SoC，达到了ISO 26262 ASIL-D等系统安全标准，将包含一系列基于单一架构的配置，计划于2022年开始投产。

Orin凝聚着NVIDIA团队为期四年的努力，被用于处理多个高速传感器、感知环境、创建一个周围环境的模型并定义自己、根据特定目标制定合适的行动策略。

它使用了包含8个核心的64位Arm Hercules CPU，有170亿个晶体管，再加上全新深度学习和计算机视觉加速器，其性能达到200TOPS，几乎比上一代的技术（Xavier）提升7倍。

它拥有易编程性，有丰富工具和软件库支持，还拥有全新功能安全特性，可使CPU和GPU锁步运行和提升容错性。

Orin系列可从L2扩展到L5，与Xavier相兼容，可充分利用原有软件，因此开发者能够在一次性投资后使用跨多代的产品。

其新特性是提高针对OEM的低成本版本，即想用一个单路摄像机做L2级别的AV，同时能利用整个AV产品线中的软件栈。

除了芯片外，NVIDIA的平台、软件等很多技术可应用在汽车中，帮助客户定制化应用以进一步提升产品的性能。

2、推出NVIDIA DRIVE预训练模型

黄仁勋还宣布在NGC上推出NVIDIA DRIVE预训练模型。

一个正常运行的安全自动驾驶技术需要许多AI模型组成，其算法具有多样性和冗余性。

NVIDIA开发了先进的感知模型，用于检测、分类、跟踪和轨迹预测，还可用于感知、本地化、规划和制图。

这些预训练模型均可从NGC上注册下载。

3、滴滴选用NVIDIA自动驾驶和云基础设施

滴滴出行将使用NVIDIA GPU和其他技术开发自动驾驶和云计算解决方案。

滴滴将在数据中心使用NVIDIA GPU训练机器学习算法，并采用NVIDIA DRIVE为其L5级自动驾驶汽车提供推理能力。

今年8月，滴滴将其自动驾驶部门升级为独立公司，并与产业链合作伙伴开展广泛合作。

作为滴滴自动驾驶AI处理的一部分，NVIDIA DRIVE借助多个深度神经网络融合来自各类传感器（摄像头、激光雷达、雷达等）的数据，从而实现对汽车周围环境360度全方位的理解，并规划出安全的行驶路径。

为了训练更安全高效的深度神经网络，滴滴将采用NVIDIA GPU数据中心服务器。

滴滴云将采用新的vGPU许可证模式，旨在为用户提供体验更佳、应用场景更丰富、效率更高、更具创新性和灵活的GPU计算云服务。

4、发布NVIDIA ISAAC机器人SDK

面向机器人领域，黄仁勋宣布推出全新NVIDIA Isaac机器人SDK，大大加快开发和测试机器人的速度，使机器人能通过仿真获得由AI驱动的感知和训练功能，从而可以在各种环境和情况下对机器人进行测试和验证，并节省成本。

Isaac SDK包括Isaac Robotics Engine（提供应用程序框架），Isaac GEM（预先构建的深度神经网络模型、算法、库、驱动程序和API），用于室内物流的参考应用程序，并引入Isaac Sim训练机器人，可将所生成的软件部署到在现实世界中运行的真实机器人中。

其中，基于摄像头的感知深度神经网络有对象检测、自由空间分割、3D姿态估计、2D人体姿态估计等模型。

全新SDK的对象检测也已通过ResNet深度神经网络进行了更新，可以使用NVIDIA的迁移学习工具包对其进行训练，使添加新对象进行检测和训练新模型更加容易。

另外，该SDK提供了多机器人仿真，开发人员可将多个机器人放入仿真环境中进行测试，各个机器人可在共享的虚拟环境中移动时，运行独立版本的Isaac导航软件堆栈。

全新SDK还集成了对NVIDIA DeepStream软件的支持，开发人员可在支持机器人应用程序的边缘AI，部署DeepStream和NVIDIA GPU，以实现对视频流的处理。

已开发了自己代码的机器人开发人员，可将自己的软件堆栈连接到Isaac SDK，通过C API访问路由的Isaac功能，这样极大程度地减少编程语言转换。C-API访问权限同时支持开发人员在其他编程语言中使用Isaac SDK。

据黄仁勋介绍，国内大学都采用Isaac来教授和研究机器人技术。

5、NVIDIA的汽车生态圈

NVIDIA在汽车领域已深耕了超过10年，和合作伙伴做了很多的事情，让AI的大脑能更好的了解、甚至能够去“驾驶”车辆。

经过不断模拟、测试、验证，确认系统奏效后，NVIDIA与合作伙伴才会将其真正应用于实际道路上。

无论是卡车公司、普通汽车公司还是出租车公司，均可使用这一平台针对具体车型来定制化自己的软件。

NVIDIA提供迁移学习工具，允许用户对模型进行在训练，并利用TensorRT进行再优化。

另外，NVIDIA还开发了联邦学习系统，它对看中数据隐私的行业都尤为受用。

无论是医院、实验室还是汽车公司，在开发训练神经网络后，可以只将训练处理后的结果上传到一些全球服务器中，同时将数据保留在本地，保证数据隐私。

游戏：与腾讯合作推出START云游戏服务

《我的世界》是全球最卖座的电子游戏，最近在中国已达到3亿注册用户，NVIDIA和微软共同宣布《我的世界》将支持实时光线追踪（RTX）技术。当前NVIDIA RTX技术已被多个业界最流行的渲染平台所支持。

现场，黄仁勋宣布了6款支持RTX的游戏：

（1）《暗影火炬》，由上海钛核网络开发；

（2）《Project X》（项目代号），由米哈游开发；

（3）《无限法则》，由腾讯北极光工作室群开发；

（4）《轩辕剑柒》，由大宇资讯开发；

（5）《铃兰计划》，由龙之力科技开发；

（6）《边境》，由柳叶刀科技开发。

人们想要更轻便、轻薄的游戏笔记本，对此NVIDIA创造Max-Q设计，将超高GPU能和总体系统优化集于一身，使得功能强大的GPU可用于轻薄笔记本。

今年，中国游戏笔记本发货量超过500万台，五年内增加4倍，其中GeForce RTX Max-Q笔记本电脑是增速最快的游戏平台。

此外，黄仁勋宣布腾讯与NVIDIA合作推出START云游戏服务，在中国将电脑游戏体验引入云端。

NVIDIA GPU将为腾讯START云游戏平台提供支持，腾讯计划扩展该平台供数百万玩家使用，为他们提供和本地游戏主机一致的游戏体验，即便使用性能不足的终端也无损体验。

NVIDIA RTX平台包含40多个面向内容工作者打造的产品，涵盖从配备GeForce RTX 2060的Max-Q轻薄笔记本，到配备4路SLI Quadro RTX 8000的工作站和配备8路RTX 8000的服务器。

黄仁勋宣布，瑞云云渲染平台将配备NVIDIA RTX GPU，首批5000片RTX GPU将在2020年上线。

这是全亚洲最大的云渲染平台，渲染了2019年中国三大热门电影《战狼2》、《哪吒和《流浪地球》，超过85%的中国电影工作室都是瑞云的客户。

黄仁勋还发布了面向建筑行业（AEC）的Omniverse开放式3D设计协作平台，本地和云端均支持在AEC工作流中增加实时协作功能，将支持Autodest REVIT、Trimble SketchUP和McNeel Rhino等主流AEC应用。

现场展示了使用OMNIVERSE AEC的Demo，中国华润大厦由KPF建筑师事务所设计，在配备了8路RTX 8000的服务器上进行实时渲染。

HPC：面向基因组测序推出CUDA加速的基因组分析工具包

NVIDIA在HPC方面的应用也很丰富。比如计划2030年将人类送上火星的NASA，在NVIDIA GPU上通过FUN3D流体力学软件运行了数十万次火星着陆场景模拟，生成150TB 的数据。

面向基因组测序，黄仁勋发布CUDA加速的基因组分析工具包NVIDIA Parabricks。

Parabricks可与用于发现变异，并能产生与行业标准GATK最佳实践流程一致的结果，可实现30-50倍的加速，并提供DeepVariant工具，利用深度学习技术进行基因变异检测。

黄仁勋说，很高兴宣布华大基因已采用Parabricks，通过借助若干GPU服务器，可按其测序仪生成数据的速率来处理基因组。

据他介绍，NVIDIA 今年为CUDA增加5G vRAN和基因组两个新主流应用，已得到爱立信和华大基因等行业领导者的支持。

另外，黄仁勋也再次提到此前已公布NVIDIA GPU和Arm的合作，现已支持用CUDA加速Arm服务器，并已公布基于Arm的首个参考架构NVIDIA HPC for ARM，可使用各种基于Arm的HPC服务器进行配置。

TensorFlow现已支持在Arm上加速，借助NVIDIA CUDA on ARM，TensorFlow可实现世界一流的性能和扩展能力。

结语

2019年已经接近尾声，NVIDIA也在本次大会上，不仅大秀AI、汽车、游戏和HPC能力，也晒出了多个领域的朋友圈。

黄仁勋说，随着摩尔定律的终结，GPU加速计算将成为未来的发展方向，这一点现已得到公认。

NVIDIA可实现单线程处理和并行多线程处理的加速，并通过整个软件堆栈进行优化，使得多GPU和多节点系统实现难以置信的性能。NVIDIA已售出15亿块GPU，每块GPU都兼容同一个架构CUDA。

作为迄今AI深度学习红利的最大受益者，NVIDIA以高性能的软硬件和系统为基础，持续丰富其AI和自动驾驶生态，而找到核心场景加速落地仍是当下的重头戏。

感谢阅读。点击关注上船，带你浪在科技前沿~