来自 科技 2020-07-21 18:02 的文章

算力即权力?黄仁勋与他的 2000 TOPS自动驾驶运算

雷锋网新智驾按:本文作者系知名电动汽车博主王宇波,新智驾在不变原意的基础上略经编辑。

核弹教父黄仁勋的核弹又来了,只不过这次除了GPU,还有秒杀全场算力达到2000 TOPS的自动驾驶运算平台。

因为疫情的关系,NVDIA GTC2020大会推迟2个月举行,形式也从线下变成了线上。5月14日,教主一身皮衣在自家厨房侃侃而谈,甚至还从自家的烤炉里拿出了新的核弹。

先来划重点:

基于台积电7nm工艺的全新一代GPU架构 Ampere

新架构产品将覆盖从民用显卡GeForce、专业图形Quadro到科学运算Tesla的所有产品支线

基于Ampere的第一款GPU产品NVDIA A100和使用A100 GPU的Tesla A100加速卡

面向自动驾驶领域的Orin 系统级芯片(SoC)

在Orin SoC和Ampere GPU的加入下,DRIVE AGE平台得到扩展。

信息繁杂密集,但一系列的集中展示中,都在传达——自动驾驶时代,算力即权力的核心信息。

2000 TOPS的自动计算平台基于新架构

黄仁勋此次线上主题演讲的核心是英伟达的下一代图形处理器(GPU)架构 Ampere。

真要谈这次新架构的升级,作为显卡用途的性能提升可能并不明显,得益于7nm工艺和按部就班的升级节奏,相比上一代产品,这部分的提升大约在20-30%。

基于Ampere架构的第一款GPU A100的技术参数让人眼花缭乱:7nm工艺,540亿个晶体管,3D堆叠技术面积高达826mm^2,同时支持TF32和BF16,拥有108个SMs的GA100,438个第三代Tensor Core,支持划分成为多达7个GPU来执行不同任务。

现在的英伟达 Drive AGX Orin 系列正是基于新的2000 TOPS的自动驾驶运算平台。

。Ampere 是当前 Turing 架构的继承者,而包括 Xavier 在内的英伟达 Drive 平台都基于 Turing 的前身——Volta。

值得一提的是,虽然已发布多年,但 Xavier 首次出现在量产车上还是最近的小鹏 P7(Xpilot 3.0 系统)。不过,其他自动驾驶开发者用上 Drive Pegasus 系统(整合了两颗 Xavier 与两颗 Volta GPU)已经快 2 年时间。

性能与功耗方面只有 30TOPS+30W 的 Xavier 设计之初面向的就是 Level 2+ ADAS 系统(类似通用 Super Cruise 和特斯拉 Autopilot)。到了 Orin 时代,英伟达则转换了战略,它们准备借助基于 Orin 的 Drive AGX 系统通吃高中低端市场。

英伟达汽车高级总监 Danny Shapiro 就表示:“除了 Level 2,我们的客户还要求英伟达提供 Robotaxi 等更加高级的解决方案。对客户来说,专门为不同等级的自动驾驶开发独立架构成本太高了,而我们可以帮它们实现,从 ADAS 直接打通到 Robotaxi。”

2000TOPS的自动驾驶运算怪兽

去年12月,Nvida推出了面向ADAS和自动驾驶领域的新一代SOC Orin,当时发布的时候是这么说的:

「Orin SOC拥有170亿个晶体管,搭载NVDIA下一代GPU(即基于Ampere架构的GPU)和Arm Hercules CPU核心,可以提供200TOPS是运算能力,是上一代Xavier SOC的7倍,功耗45W,2022年交付,面向L2+级自动驾驶场景。」

算力即权力?黄仁勋与他的 2000 TOPS自动驾驶运算

雷锋网新智驾:图片来自网络

为了进一步推动自动驾驶平台算力前进,NVDIA这次选择将2颗Orin Soc和2块Ampere架构的GPU集成到一个平台上,算力堆砌到恐怖的2000TOPS,功耗800W,一举拿下自动驾驶计算平台算力的桂冠。

实际上相同的玩法在上一代Drive AGX Pegasus平台已经用过,两颗 Xavier SoC和两颗基于图灵架构的GPU,算力320TOPS,功耗500W。

只不过这次在功耗提升1.6倍的情况下,英伟达交出了6.25倍的算力答卷。老黄的口气也很大,“Drive AGX Robotaxi是应用到全自动驾驶研发和测试场景的最佳方案。”

200TOPS暴打特斯拉HW3.0?

谈到自动驾驶芯片,就难免要提到红到发紫的特斯拉HW3.0硬件。HW3.0整个计算模块可以提供144TOPS的算力,功耗需求200W,基于单个Orin SOC的运算平台提供200TOPS的算力,功耗只要45W。

算力即权力?黄仁勋与他的 2000 TOPS自动驾驶运算

雷锋网新智驾:图片来自网络

如果仅仅从数据上来看,2年后交付的Orin SoC确实秒杀已经量产装车半年有余的HW3.0。

但是只看算力合适么?

答案是不合适,AI算法不是通用计算,算力不等于全部,算法效率更重要。

让我们先回到第一章节提到的Tensor Core,在NVDIA给它起的硬核名字背后其实就一种通用矩阵硬件。Orin SoC的核心部分实际上就是昨天发布的Ampere GPU内嵌,那AI能力同样是Tensor Core赋予的。

HW3.0呢?核心是NPU。

Tensor Core所代表的通用矩阵计算和HW3.0中NPU的直接卷积计算分别是整个行业两种截然不同的方向 —— 二者的差别优劣,在这里难以展开,需要专门的文章进行阐释 。

事实上,NVDIA通过大量运算单元的堆砌所提供的高算力支持是一个硬件厂商的本分,然而软硬研发分离的结果往往可能导致算法效率得不到最好的落实,这也是为什么特斯拉用NPU搭配自家AI算法的做法虽然缺乏通用性,但效率更高。

如何去理解这个事情?

笔者咨询了一位负责NPU算法的资深工程师,得到如下回答:

“单纯看TOPS没有意义,要看实际计算结果。打个比方:你的算法好,网络加速快,你只需要1/5的算力,就能得出结果。要是你的芯片算得快,但是无法得出结果,那就是在浪费能量。现在神经网络芯片,没有统一标准,没有统一架构,所以不能用统一Tops值去衡量算力。”

当然,作为一个NPU算法工程师,他是认为直接进行硬件计算的NPU搭配极致优化的AI算法是最有效率的做法。

所以在领略了NVDIA新硬件的血脉喷张之后,笔者发现自动驾驶发展核心要素其实还是算法,或者说是软硬结合的效率。

这也是为什么NVDIA在提供Ampere架构产品的时候,重点提到了与前一代产品的通用性,比如Pony Ai 基于Drive AGX Pegasus平台研发的自动驾驶算法在NVIDA新硬件交付之后可以直接无缝迁移到新平台上,继续累计此前所获得的算法效率经验。

在车载芯片领域,英伟达的主要对手是英特尔旗下的 Mobileye,这家以色列公司几乎统治了整个 ADAS 市场。至于自动驾驶的研发,也少不了 Mobileye 的身影,许多厂商甚至选择大杂烩战略,在开发 L4 系统时用英特尔的 CPU 搭配英伟达的 GPU 或 SoC。显然,这种架构上的混乱状态严重阻碍了代码的重复利用,也加重了整个行业的工作量。

英伟达的卖点之一就是开发人员可以使用的通用架构,从最初的基准开发到仿真再到路测。 更重要的是,虽然新款芯片接连问世,它们依然保留着兼容性,因此在 Xavier 或更老平台上运行的代码可以直接移至 Orin 或后续产品。

展望未来的产品线,英伟达将推出 Orin ADAS SoC,可与摄像头和雷达一起安装在挡风玻璃外壳中。这款入门级芯片功耗只有 5W,但却能提供 10 TOPS 的性能,驱动现有的 ADAS 功能绰绰有余。

此外,马斯克此前在推特上提到的下一代自动驾驶硬件则需要2-3年的时间,自动驾驶领域的头部厂商们的血战,即将拉开序幕……你,期待吗?