锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

算力越大越牛逼?地平线与Mobileye等的共识是......

时间:2022-08-26 08:00:00 传感器dp2用于试件内部预埋传感器的试模

30 TOPS、100 TOPS、200 TOPS、500 TOPS、1000 TOPS、2000 TOPS...如果只盯着新闻报道看的话,我们会认为,“算力越大越牛逼”已成为主机厂们的“共识”,他们对大算力的追求也是“永无止境”的。

10421c2a45ba20cd11cfa608d7d56c29.png

图片来源:https://pic1.zhimg.com/v2-ee64b08dadc6c70b8dcda366bd7369db_r.jpg?source=1940ef5c

下游的内卷也将传递到上游。在过去的几年里,一些芯片制造商也被主机制造商的计算能力焦虑绑架,因此他们不得不争相推出大计算能力芯片。甚至,一些制造商在所谓的大计算能力芯片流动之前就先发布,以获得先发布(发布)优势。

然而,在私下里,无论是自动驾驶初创公司的算法工程师、产品经理,还是主机厂的算法工程师,认同“算力越大越牛逼”的人寥寥无几;相反,更多的人认为,一味追求大算力,不仅是一种“智力上的懒惰”,甚至更是“内功修炼不足”的表现。

事实上,芯片制造商对当前计算能力军备竞赛的态度非常微妙——一方面,他们是积极参与者(或主动或被动),另一方面,他们不愿意被总体趋势绑架。如地平线,Mobileye在过去的一年一直在拼命地反内卷。

他们认为,要衡量芯片的质量,不仅要看物理计算能力,还要看芯片上先进算法的运行效率,即每秒准确识别图像帧率 FPS。当然,这需要强大的软硬件协同能力来支持。

作者还发现,在过去的几年里,一些人多次强调我的计算能力最强,并公开diss芯片制造商认为通过优化算法来提高硬件的实际性能,现在也开始经常强调我也有软件能力。可以看出,即使他们对自己的计算能力充满信心,芯片制造商最终也会发现芯片性能的实现仍然取决于软件。

对于主机厂来说,不管他们是否愿意承认,他们必须接受的一个事实是:AI计算不仅取决于芯片,还取决于芯片 算法,如果算法能力不够强,超高配置芯片的算法能力也可能被大大浪费;相反,如果算法能力足够强,它可以节省很多购买TOPS”上的钱。

一、堆砌算力是内功修炼不足的表现

在元旦前的一个小沙龙上,《九章智能驾驶》与一些自动驾驶行业的一线人员交流了计算力军备竞赛的话题。答案如下——

无人驾驶公司产品经理:

计算能力不足的一个关键原因是传感器堆积过多。但我们真的需要那么多传感器吗?事实上,我们还没有触及每个传感器的性能边界,也许这个传感器的能力还没有完全发挥出来,就用新的传感器来弥补。在我看来,首先要探索每个传感器的性能边界,充分发挥其功能,然后再谈是否要增加传感器,这样也可以节省大量的计算能力。

自动驾驶公司算法工程师:

作为一个软件工程师,我是不太care 500 TOPS还是1000 TOPS这些数字,因为它们真的没用——你可能已经升级了计算能力,但如果软件架构仍然停留在三四年前的旧版本中,那么计算能力的性能就不能充分发挥,无论计算能力有多大都不够。事实上,这个问题可以通过调整软件架构来避免。

头部自动驾驶公司CTO:

堆叠传感器、堆叠算力,确实是让我感到比较头疼的一个问题。投资者经常问我如何看待这个问题。我的回答通常是:认为‘计算能力越大,就越强大’是一种思维懒惰。但有一个现实问题是,VC过去的估值方法在自动驾驶行业已经完全被打破。他们没有很好的方法来判断谁更强大。然后,企业也认为投资者特别重视这一指标,因此存在硬件堆叠现象。

其实我们用了8个摄像头(2M) 5毫米波雷达 激光雷达可支持高速自主变道,但30 TOPS计算能力也足够了。因为,只要算法做得好,我们就可以充分利用现有的计算能力很多情况下,我们不需要太多的计算能力。

围绕算法优化,我们做了很多工作。接下来,我们还将考虑如何将计算能力的调度与特定的驾驶任务结合起来——每个计算都与特定的驾驶任务和基于驾驶任务的模型挂钩。例如,如果我们现在想做左换道,计算能力资源将首先关注这个特定的任务。如果我们想保持车道,计算能力资源将关注这个特定的任务,即驾驶任务驱动计算能力的优化使用。

目前,计算资源与特定功能没有联系。因此,我们习惯于谈论峰值计算能力,但当所有任务都可以精细处理时,您需要多少计算能力?当计算资源集中在某一基本功能上时,我们可能不需要进行如此高频的测试或使用如此复杂的模型。只要我们确保安全,对计算能力的需求就会下降。

某工程机械公司高级工程师:

当我们最近与一家自动驾驶公司沟通时,他们提到了提高计算能力利用率和节省计算能力的想法。例如,激光雷达旋转360度,但当与左摄像头集成时,激光雷达只需提供转向左扫描的点云。

主机厂自动驾驶产品经理:

这种硬件军备竞赛,堆叠传感器,堆叠计算能力,PR价值大于实际价值。许多外行只看这些外部指标,因为他们看不见,看不懂更多的东西,他会觉得你的计算能力越大,就越强大。在我看来,一些汽车公司说了1000 TOPS计算能力一定是浪费。在科技巨头与部分汽车企业合作的量产项目中,自动驾驶计算平台的计算能力超过300TOPS,但也足够了;特斯拉只用了144 TOPS啊。

某L4无人驾驶公司产品经理:

在我看来,过度堆积计算能力应该是我内功培养不足的表现——我不知道我的算法能优化多少,所以我不知道200 TOPS够不够,500 TOPS够不够,心里没底。表面上是硬件预埋,实际上是担心算法优化不好会导致计算能力赤字。

《虎嗅》作者于多田在1月9日的文章《说汽车芯片巨头落后了,开什么玩笑》中也提到了这样一个信息:据一位经验丰富的汽车芯片工程师介绍,大多数汽车厂商都在使用性能强大的英伟达Orin在测试过程中遇到了各种各样的问题,主要表现在汽车厂没有足够的人才和能力释放芯片性能,原因是有软硬件协同调优能力的工程师太少了。”

针对这种现象,Mobileye创始人兼CEO Annon Shashua解释是:只有深入了解软硬件之间的相互作用,才能找出什么样的核支持和算法。

可以看出,使用大型计算能力芯片并不是通过简单和粗糙的不关心成本来实现的。如果软件能力跟不上,无论硬件的性能有多强大,它都可能是不幸的。相反,如果算法足够强大,算法可以有效地使用,那么它就很低TOPS芯片可能不如高TOPS芯片。

一位行业研究员在节前的沙龙上说:

我看到“1000 TOPS第一反应往往是你的软件能力能跟上吗?你真正能使用多少物理算法取决于与软件算法的合作。

计算力芯片通常与硬件预埋的概念相结合,但所谓的硬件预埋似乎是一个伪问题——硬件不是一成不变的,而是快速迭代的,你现在预埋了1万 TOPS,因此,您的数据量和算法不需要使用1000 TOPS计算能力时,2万 TOPS计算芯片已经出来,那你的1000 TOPS算力不是还没开始就落后吗?

二.TOPS值并不实计算效率

目前,该行业普遍采用TOPS对单位进行评估AI芯片的物理计算能力/理论峰值计算能力。然而,人们逐渐意识到,在实际情况下,理论峰值计算能力(物理乘法器数量乘以最高主频)不太可能完全释放,计算能力的有效利用率很低。

例如,具有理论峰值的计算能力 16 TOPS 在计算不同模型时,芯片甚至会接近 80% 的差异。

2020年5月下旬,当英伟达正式推出200计算能力时 TOPS的Orin以及在此基础上构建的20000计算能力 TOPS佐思产在计算平台上开发了一篇文章《自动驾驶的计算能力》(TOPS)本文的核心观点如下:

“高TOPS都是运算单元(PE)理论值,而不是整个硬件系统的真实值。真实值和理论值差别很大。在最糟糕的情况下,真实值是理论值的1/10,甚至更低。比如谷歌第一代TPU,理论值为90TOPS算力最差真实值只有10TOPS;英伟达Tesla T理论算力为130TOPS,而实际只有27.4TOPS。”

某车企自动驾驶工程师殷玮在《真真假假的TOPS-不要太认真。

“宣传的TOPS它通常是计算单元的理论值,而不是整个硬件系统的真实值。真实值更多地取决于内部SRAM、外部DRAM、指令集和模型优化程度。最糟糕的情况下,真实值是理论值的1/10,甚至更低,一般利用率为50%。比如英伟达Tesla T理论算力为130TOPS,但实际只有27.4TOPS。”

(Tesla T4真实算力2.4 TOPS是怎么算出来的?ResNet-50需要MAC每秒约70亿次,TeslaT4运行ResNet-每秒处理3920张224*224图像,3920张/秒 x 70亿次/张= 27.4万亿次/秒= 27.4 TOPS。)

可以说,峰值算力只反映了AI芯片理论上的最大计算能力不是实际的AI应用场景中的处理能力有很大的局限性。

尹玮在文章中解释道:

如果只是静态的,决定算力真实值的主要因素是内存( SRAM和DRAM)谷歌第一代带宽TPU,理论值为90TOPS但最差真实值只有10TOPS计算能力是理论值的1/9,主要是因为第一代内存带宽只有34GB/s,计算能力和内存匹配不好。

但动态地说,如果不考虑使用算法(一代TPU更多的是面向主流算法),内存和算力无法很好地匹配。

算法通常用于内存带宽的需求「运算强度 (operational intensity,或称 arithmetic intensity)」这个量表示单位是 OPs/byte。这个量的意思是,在算法中平均每读入单位数据,能支持多少次运算操作。计算强度越大,单位数据可以支持更多的计算,即对内存带宽的要求越低,计算单元的利用率越高。”殷玮总结道,计算单元利用率的提升可分为三个阶段:

1. 当算法的运算强度较小时,计算性能实际被内存带宽所限制,有很多计算处理单元是闲置的。

2. 随着算法运算强度的上升,即在相同数量的数据下算法可以完成更多运算,闲置的运算单元越来越少,这时候计算性能就会上升。

3. 随着运算强度越来越高,闲置的计算单元越来越少,最后所有计算单元都被用上了,此时运算强度再变大也没有更多的计算单元可用了,于是计算性能不再上升,或者说计算性能遇到了由物理算力(而非内存带宽)决定的“天花板”。

殷玮认为,要软硬件一起考虑(算法如何兼容、是否减少内存访问次数来提高利用率等),才能充分利用好系统性能。

在所有车企中,特斯拉算是对这一理念理解最透彻的一家了。据Fortune报道, Jim Keller 在特斯拉期间的芯片设计思路是:1. 深刻理解特斯拉 Autopilot 的算法运行机理;2. 缩减或砍去通用芯片(例如英伟达芯片)中与特斯拉软件无关的模块。 

正因为对算法吃得很透,Jim Keller才能把FSD芯片做得很高效。可以说,对算法的理解,才是AI芯片设计工作真正的壁垒。

三.地平线:不拼硬件肌肉,拼实实在在的AI性能

实际上,过去五年多,地平线创始人兼CEO余凯曾多次强调“做芯片真正的壁垒在于算法能力”。余凯说:“芯片绝不能仅看硬件性能,架构设计和对算法的洞察正不断推动 AI 芯片真实性能进化,重塑摩尔定律。”

在2021年6月中旬的一场演讲中,针对这一轮“算力军备竞赛”,余凯说:“顶级芯片公司一定不能够以多少TOPS 来简单地去讲这个故事,1000T 意味着什么?它不是你的效用、性能、不是用户价值,它是给车企的成本。”

在此之前,余凯在跟笔者交流时曾提到:“其实,算力并没有太高的技术门槛,增加芯片面积或采用更先进的制程就行了。但铺算力不真正产生用户价值,真正的价值在最先进的神经网络在这个芯片上面能够跑多快,也即真实 AI 性能。”

2021年5月份,在汽车商业评论举办的一场论坛上,余凯在演讲中举了一个具体的例子:理想ONE在改款版搭了载两颗地平线征程3芯片,有人说它“单颗芯片只有5个TOPS,两颗加起来才10个TOPS”,但理想汽车的产品负责人则说“尽管它单颗芯片算力只有5个TOPS,可是它真正实现了8兆摄像头实时计算。”

余凯强调道:“我们不拼硬件肌肉,我们更看重的是实实在在的AI性能。”

地平线联合创始人兼CTO黄畅博士则在对卷积神经网络的研究中发现,从 2014 年到 2019 年,最好的神经网络计算效率相差了 100 倍,相当于计算效率每 9 个月翻一倍(完成同样计算所需的算力减少了一半)。这一速度,远快于芯片算力的“每18 个月翻倍”。

黄畅认为,算法演进速度远超硬件改进速度,致使评估芯片AI性能的方法与算法发展之间存在脱节的现象,但如果没掌握合理的评估方法,就很难设计出好的AI芯片。因此,产业界迫切需要一种更合理的性能评估方法帮助用户选择适合的 AI 芯片。

1.FPS——AI芯片的真实性能

何谓“AI芯片的真实性能”?余凯的说法是:世界上最先进的网络算法在芯片上通过你的架构、通过你的边缘器、通过你的动态运行库,它能不能跑到足够的效率——每秒钟能准确识别多少帧?

2020年8月,黄畅博士在全球人工智能和机器人峰会AI芯片专场发表演讲时首次提出MAPS的概念全方位解答上述问题。MAPS的全称是Mean Accuracy-guaranteed Processing Speed,即针对应用场景的特点,在精度有保障的前提下,评估芯片对数据的平均处理速度。

通常,要追求精度,就得牺牲速度,因此,在精度有保障的前提下实现很高计算速度,是有相当壁垒的。

MAPS的度量单位是FPS——全称为Frame Per Second,即“每秒钟可准确识别多少帧”。更高的 FPS,代表着更快速的感知、更低的延时,这意味着更高的安全性能和行驶效率。显然,与TOPS相比,FPS是一个更有价值的性能指标。

MAPS 其实是在物理算力的基础上,通过对大量模型的测试,综合各个模型的速度(正比与物理算力*实际利用率)和准确率得到的最佳方案的量化结果。它更聚焦于使用户能够通过可视化的图表直观地感知 AI 芯片的真实算力。

黄畅博士认为,“评估芯片AI性能,本质上应该关注做AI任务的速度和精度,即‘多快’和‘多准’。而MAPS评测方法关注真实的用户价值,将每颗芯片在‘快’和‘准’这两个关键维度上的取舍变化直观地展现出来,并在合理的精度范围内,评估芯片的平均处理速度。” 

在体现芯片的真实AI性能的同时,MAPS评测方法还留有最大的优化空间。这里的“优化空间”,意思是指即便是一颗芯片出厂以后,它的实际性能FPS仍有可能提升,因为算法在往前演进,而随着算法不断演进,算法的精度或者速度也能够有所提升。这样的话,就使得这个芯片的FPS得到持续提升。

2.如何计算芯片的“真实AI效能”?

如何计算芯片的“真实AI效能”?地平线总结出这样一个公式:真实AI效能=物理算力(即以TOPS表示的峰值算力)*计算资源的有效利用率*AI算法的效率。 

上表中的几个参数,分别怎么理解?我们在此一一解释一下——

(1)“理论峰值计算效能”,就是通常说的“物理算力”、“峰值算力”。

(2)有效利用率,指芯片中计算资源(乘法器)的利用率。

特斯拉 FSD 与 Nvidia Drive PX2 真实性能比较

特斯拉在 Hardware 3.0 中,采用其自研 AI 芯片 FSD Chip 替代了 Hardware 2.5 中的 Nvidia Drive PX2,算力从 24 TOPS 提升到了 72 TOPS,但运行同样模型的效率却惊人地提升了 21 倍。具体而言,Hardware 2.0 时每秒只能处理 110 帧图像,而现在则高达 2300 帧。

除了绝对算力的提升了3倍,额外提升则来自于算力利用率提升了将近2倍。

对算力利用率影响最大的因素是架构。为实现更⾼的算力利用率,更加⾼效地使⽤内存带宽并消除不必要的精度需求、⼤规模的⾼并⾏计算便成为架构设计的必要考虑因素。

为实现这一目标,地平线征程5采用了贝叶斯架构。贝叶斯架构基于⼤规模异构近存计算、高灵活大并发数据桥及脉动张量计算核三大核心技术,能以更少内存、更高 MAC 利用率来执⾏更多任务,进而能够将并行计算发挥到极致。

再往深一步,芯片架构做得如何,主要取决于算法能力。因此,芯片团队对算法的理解越深刻,越有可能把芯片架构做好,进而提高算力的利用率。

由上图可以看出,同一款芯片,在跟不同的算法模型相匹配时,算力的利用率可能会出现很大的差异。

在1月20日晚上的直播课中,地平线BPU算法负责人罗恒博士强调道:“我们不但看算法本身,而且更多地看算法对芯片架构的影响,这就使得MobileNet(depthwise conv)算法刚一推出的时候,我们就能够迅速地关注到它。”

作为一家算法基因很浓的芯片公司,地平线从征程1开始就针对自动驾驶场景设定了独特的算法模型,并基于对关键算法发展趋势的预判,前瞻性地将其计算特点融入到伯努利、贝叶斯等芯片架构的设计中,从而实现很高的计算资源利用效率。

通常,GPU在跑深度神经网络算法的时候,算力利用率不超过50%,而地平线的征程3和征程5则将算力利用率做到了90%以上。

据地平线方面提供的信息,作为面向高等级自动驾驶的专用处理器架构,“贝叶斯架构能够保证经过较长的研发周期后,征程5芯片在正式推出时仍然能够快速适应最新的主流算法,并随着算法的迭代,始终保持相当高的有效利⽤率,从而使终端用户真正意义上受益于算法创新带来的优势”。

(3)AI算法的效率,就相当于殷玮文章中所说的“算法运算强度越高,计算资源的闲置率越低”。

关于算法效率对芯片运算效率的影响,罗恒博士在直播中举了这样一个例子:

谷歌在2016年开发出一种语音识别算法WaveNet,能区分出一个推销电话是人打的还是机器人打的,但刚开始,这个算法很弱,并导致GPU的计算效率也很低,比如,人说了10秒钟,它需要花几分钟才能识别出来,完全没法交流;后来,谷歌对这个算法做了一些优化,计算效率一下子就提升了几千倍,这个时候,GPU(TPU)的计算效率也大幅度提升,人说20秒的话,GPU只需用1秒钟就能算出来。

而深度学习计算中应用最广泛的卷积神经网络,也在 2016—2017年迎来了其自诞生以来最重要的一次变化——在depth的depthwise conv上,可以通过更少的计算量达到很高的精度。

从下图可见,同一款芯片(TPU)在跟不同的算法模型(最左侧)搭配时,精度跟帧率都有很大差异。 

此外,2021年上半年,来自美国莱斯大学的计算机科学家们证实,一种专门根据 CPU设计的深度神经网络训练算法(sub-linear deep learning engine, SLIDE)的训练速度远超过 GPU 算法,最高速度可比后者快 15 倍!该算法的出现,甚至有力证明了,在不依赖于 GPUs 等专业级加速硬件的情况下,依旧可以实现对深度学习技术的加速。

以地平线为例,从芯片设计之初,其就考虑如何能保证芯⽚更好满⾜未来⾃动驾驶相关算法在BPU上的适⽤性,并提供以FPS为单位的最佳性能。

通过对算法、编译器、计算架构三个方面的软硬协同优化,将并⾏计算发挥到极致,并辅之以软硬件协同的组织文化,地平线最终实现了AI 计算效率的大幅度提升。

(罗恒近日直播公开课材料,其中Orin的FPS值是根据英伟达对Orin算力的公开描述及Orin相比于Xavier能力提升的描述,再参照同样基于安倍架构的英伟达RTX 3090推算出来的。)

MS CoCO物体检测任务下Xavier、Orin、征程5实际性能

写到这里,笔者想起一则往事:

此前,某车企工程师曾向笔者吐槽:“地平线芯片的算力不够。”当时,笔者反问:“算法是你们自己写的,还是地平线提供的?” 他说:“是我们的,因为前一代算法迁移有一些挑战。”

这个故事的续集是:该车企后来决定跟地平线联合开发感知算法。

这家车企肯定已经意识到了这一点:算法能力越强,解决相同问题所需的算力就越少。

这很好理解,好的算法就相当于一个好的数学公式,只要有一个好公式,哪怕智商(算力)没那么高的人,也能用这个好公式很快得出答案;而差的算法则相当于公式不好,那么,哪怕是很聪明的人,解这道题也需要付出更多的时间才能得出答案。

四.“算法能力更重要”,已成为各芯片厂商们的共识

地平线并不是唯一持类似观点的公司。事实上,跟地平线在市场上有激烈的正面竞争关系的Mobileye,也在“计算效率比算力更重要”这一观点上,跟地平线有着“高度共识”。

2020年9月份北京车展前夕,Mobileye 产品及策略执行副总裁 Erez Dagan 在回答媒体关于“你的算力不如别人”的问题时说道: “仅用一个数字来衡量芯片的做法不可取,SoC 芯片的负载能力也很重要。与其说 TOPS 是一个真正意义上的技术指标,不如说它是一个用于制造营销噱头的单位。”

也是在同一时期,刚刚跟Mobileye成为“亲密战友”的吉利汽车研究总院时任院长胡峥楠在接受新智驾采访时也力挺Mobileye的观点:

“芯片本身不仅仅是算力的体现,更重要的是它更底层的算法和库文件。因此,我们更愿意相信在这方面有长期积累的平台。随着半导体技术的提升,算力在未来并不是一个瓶颈,TOPS 这个参数要如何为用户带来真正的价值才是关键。”

2021年初的CES期间,Erez Dagan再次被问到“怎么看蔚来ET7拟采用的算力达到1016 TOPS”及“算力和需求之间应该怎么匹配”的问题,这次,Erez Dagan的回答是:

“我想再次说明一下,TOPS数字不过是过去的数值竞赛。如果你需要一个非常强大的电脑,那就意味着你其实并不知道自己想要什么,一切还仅仅停留在探索的阶段。一旦你需要满足经济性的要求,就要在处理速度、客户需求、解决方案成本等各个方面找寻平衡。这才是真正的汽车产品业务的区别所在,而不是所谓的广告、作秀或仅仅是处在研究的阶段。”

到了2022年CES上,在发布EyeQ Ultra时,Mobileye总裁兼首席执行官Amnon Shashua则来不及等到别人“挑衅”就先行“自黑”:“176 TOPS听上去是一个很小的数字,大概只有竞争对手(英伟达)号称算力的五分之一。但关键的不仅是算力,而是效率。”

Amnon Shashua称,TOPS是一个非常不充分的计算能力指标。“我们集成到EyeQ芯片中的计算模型非常复杂,远不是某一单一指标能量化的。”

Mobileye认为,他们能够在两颗EyeQ5芯片上运行整个SuperVision系统,在数量级上远低于其他竞争对手谈论的算力或TOPS指标。这得益于其在芯片软硬件协同设计上的先天优势。

另一芯片厂商安霸也在频频强调软硬件协同的优势。

安霸在2020 年 CES 展推出全新的 CV2FS 和 CV22FS,一直没有明说算力究竟是多少TOPS,只说是“能以每秒 30 帧对 800 万像素或更高分辨率的视频进行计算机视觉处理”,这便相当于地平线一直在提的FPS了。

这次CES上发布的CV3,AI算力的计量单位是eTOPS,这个词的含义是“等效多少TOPS”——安霸中国区总经理冯羽涛的解释是:如果能把同样的神经网络算法跑到等效这么快,就可以说这个是多少eTOPS。

冯羽涛最近在接受媒体采访时也反复强调“视觉算法将是CV3的核心竞争力”;“用其视觉算法、自研IP核心等多种技术实现更高的算力和效能”,以及“算法优先”等观点。

还有一个其极重要但还没有引起太多关注的现象是:作为引领了“软硬件解耦”趋势的芯片巨头,英伟达对软件的重视程度也越来越高,实际上,该厂商正在转型为“软件公司”。

2021年11月,英伟达CEO黄仁勋在接受The Next Platform采访时提到,“公司里有3/4的员工负责开发软件”。

黄仁勋说:

“我们提供的价值显然主要体现在软件身上。 买到的硬件只是对应初始性能外加一定的性能上限,但在整个使用周期内用户会逐步获得 3 倍、4 倍甚至是 10 倍的后续性能提升,而且这一切只通过软件更新就能实现。

“你可以造出世界上最强的芯片,然后把它插进计算机里……但之后呢?要用它加速什么?如果根本就没有东西,怎么谈加速?加速计算的困难之处,就在于它对软硬件协同提出了极高的要求。总而言之,软件体现出我们看待这个世界的方式、反映出我们的运营战略。”

这次CES结束后,笔者在微信朋友圈发了这么一段话:

三四年前,当地平线提出“通过软件能力/优化架构来提高乘法器的利用率,进而可提升芯片的真实性能”的时候,一些起步晚的芯片公司在许多场合都diss这种观点,甚至就只差没有赤裸裸地说是“骗子”了......

然而,近一两年,英伟达这样的大厂也开始频频在公开场合强调这个观点了(ME应该是一直就在讲)..... 这个时候,那些原先diss地平线“用软件能力提升硬件表现”的芯片厂商,也开始说“我也有软件能力”了。

无论自愿还是被迫,持续提升软件能力,通过软件能力为硬件“加成”,都会成为每一个AI芯片厂商们的必修课。

五.未尽之语:人生中的“算法”与“算力”及“软硬一体”

过去几年,笔者已经习惯于以“算法与算力”的思维方式来解释自己在生活中观察到的很多现象,也写了不少鸡汤文风格的随笔,现在回头看,这些鸡汤文仍是经得起时间检验的。

这些鸡汤文,有助于一些新入行者理解算法与算力的关系,故笔者决定在此分享出来——

1. 有一段时间,在琢磨算力与算法的关系时,我无意间拿自己跟一些同学的成长曲线做了个对比,有一个很有意思的发现:

我自己:高中时学习不算十分刻苦,高考时稀里糊涂地考进了“北清复交”,但由于自信心严重不足,大学一毕业即“逃离北上广”,在毕业后的前九年可以说“毫无竞争力”;毕业后第九年返回一线城市,第十年进入“人才密度高”“信息密度高”的自动驾驶产业,竞争力才快速提升。

第一类同学:他们在高中时学习比我刻苦很多,考试分数却比我低得多,最终考的大学也比我逊色不少,并且还是三线城市的大学;但在大学毕业后,他们很有魄力地来到一线城市工作,很快,他们的整体认知水平比我高出许多,整体竞争力也比我强了许多——至少在大学毕业后的前八年是如此。多年来,他们一直是我仰视的对象。

第二类同学,他们的努力程度不如我,却考上了跟我同样的大学、甚至是比我更好的大学;上大学期间,他们的努力程度也不如我,考试分数却比我高;毕业之后,我只能去“卖保险”,而他们却轻松获得了有光环的工作机会。

当然,在毕业5-8年后,我一直遭遇各种“极端工况”,被迫完成了很多超出自己预期的转型,他们则一直在舒适区里享受着。但我最近一两年再跟他们交流时发现,他们的整体竞争力已经不如我了。

如果以高中时期的勤奋程度及最终考上的大学来简单粗暴地评判,第一类同学的“算力”(智商)显然是不如我的,第二类同学的“算力”则是远超过我的,那为什么前者在大学毕业后(前九年)的整体竞争力远都在我之上,而后者却“没那么牛”呢? 

最根本的原因是,与我相比,第一类同学在大学毕业就后来到了“场景”更复杂、“数据”规模更庞大的一线城市,因而“算法”迭代得比我快许多;而我,却懦弱地逃亡至了“场景”更简单、“数据”规模更小的小城市,因而算法迭代很慢。 

(在这里,加引号的“场景”指某个城市所能提供的工作环境、工作内容,“数据”指当事人在这个城市生活及工作中接触到的各种信息、知识及人际关系等,“算法”则指思维方式、认知水平。下同。)

结果便是,尽管我的“算力”比这类同学强,但由于这类同学的“算法”更强,进而“算力的利用率”也更高,因此,他们的“FPS值”比我高。

当然,在毕业后的第九年,由于我也返回了“场景”更复杂、“数据”规模更庞大的一线城市,尤其是,我后来加入了“数据”更丰富的自动驾驶产业,因而“算法”上跟第一类同学的差距开始缩小。

第二类同学,在过去几年接触到的“场景”单一、高质量的“数据”较少,“算法”没得到很好的训练,这导致他们的“算力利用率”严重不足;而我则有幸融入到产业链复杂、人才密度极高的自动驾驶产业,这样的“应用场景”,不仅给我提供了丰富的“高质量数据”(便于我高强度地训练自己的“算法”),甚至还源源不断地给我提供了“开源算法”(CEO及工程师们的思维方式),这使得我的“算法”迭代得更快。

好的“算法”,可以提高我的“算力利用率很”。结果便是,我虽然算力更弱,但“FPS值”却更高。

2. 我一度怀疑,自己对“软硬一体”的理解,是“被余凯洗脑”的结果。一旦定性为“被洗脑”,就总忍不住质疑“有诈”,质疑对方是“立场决定观点”,因而心存警惕。

但有一天早上,我突然想起来,我最初对"软硬一体"的理解,实际上来源于自己在2006-2008年对心脏病、心理疾病、抑郁症的观察——心理上受到的刺激或病变,往往会导致生理上的病变。而心理和生理的关系,就类似于软件和硬件的关系。

还有就是,近几年,我又开始思考一个问题:人精神状态的好坏,会影响到身体机能的发挥。

我从小体育很差,这极大地影响到了我的自信心,我一直认为自己身体素质很差,啥都干不成,后来发现,我的精神状态比绝大多数人都好,这也导致我平时精力一直很充沛,一天到晚处于工作状态也不觉得累。相反,多数比我年轻、身体素质比我好许多,但精神状态不如我的人,肯定做不到这一点。

对应到软件与硬件的关系,这就类似于"我的算力是不大,但由于算法好,因而算法的利用率高,所以可实现更大的FPS",而那些身体素质很好但精神状态不好的人则相当于"物理算力很强大,但FPS很小"。

参考资料: 

1. 吉利科技转型:牵手 Mobileye 打算力之战,发力完全自动驾驶

https://baijiahao.baidu.com/sid=1678950984241074863&wfr=spider&for=pc

2. 关于自动驾驶, Mobileye 的 14 个最新观点

https://www.sohu.com/a/444699320_99919085

3. 说这家汽车芯片巨头掉队的,开什么玩笑

https://mp.weixin.qq.com/s/-d3-SrFiVdDMWZE2yI6NaQ

4. 关于自动驾驶, Mobileye 的 14 个最新观点

https://mp.weixin.qq.com/s/hxLL5SrN7PpFckYHsHZpVA

5. 不看算力看效率,更高级别的自动驾驶需要多少 “FPS”?

https://mp.weixin.qq.com/s/lrVQQXUfHzdDVsCXQYeXzw

6. 真真假假的TOPS-不要太较真了

https://mp.weixin.qq.com/s/u1CtUyP17eHEQ8YQzWOOHw

7. 采访安霸冯羽涛、郄建军:CV3 隐藏的技能是「算法」,这颗芯片「5nm、500 eTOPS、单芯片运行 L4」

https://mp.weixin.qq.com/s/VE-94Pqhtf2qdbT_JM2L8g

8. 比GPU快15倍,CPU算法训练深度神经网络“超车”成功

https://mp.weixin.qq.com/s/D58Dp2bAz_HCahBeArK6aQ

调查问卷

九章智驾目前正在做一份汽车行业的匿名调查问卷:关于“好工作”、“好老板”、“好公司”的评判标准;调查对象主要面向从事于自动驾驶相关行业的人士。希望能够耽误您两分钟左右的时间,扫描下方二维码,帮忙给做个简单的问卷调查。感谢您的参与和对九章的支持!

写在最后

与作者交流

如果希望与文章作者直接交流,可以直接扫描右方二维码,添加作者本人微信。

注:加微信时务必备注您的真实姓名、公司、现岗位

以及意向岗位等信息,谢谢!

关于投稿

如果您有兴趣给《九章智驾》投稿(“知识积累整理”类型文章),请扫描右方二维码,添加工作人员微信。

注:加微信时务必备注您的真实姓名、公司、现岗位

以及意向岗位等信息,谢谢!

“知识积累”类稿件质量要求:

A:信息密度高于绝大多数券商的绝大多数报告,不低于《九章智驾》的平均水平;

B:信息要高度稀缺,需要80%以上的信息是在其他媒体上看不到的,如果基于公开信息,需要有特别牛逼的独家观点才行。多谢理解与支持。

推荐阅读:

◆九章 - 2021年度文章大合集

◆我们的个人命运,三分靠打拼,七分靠产业红利——《九章智驾》创刊词

◆“好工作”的最关键指标:场景足够复杂、数据量足够大、杠杆率足够高

◆转型经验分享|我为什么放弃做VC投资,去做自媒体?

◆自动驾驶公司如何打造产品市场体系

◆大热的“滑板底盘”会以什么节奏落地?

◆这家自动驾驶公司,或将引领半封闭物流搬运领域的变革

◆EE架构|国内主流OEM的中央计算+区域控制架构信息梳理

◆自动驾驶人才眼中的“差老板”与“好老板”,分别有哪些特质?

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章